Rnas para Composição Musical

UNIVERSIDADE FEDERAL DE SO CARLOS
CENTRO DE CINCIAS EXATAS E DE TECNOLOGIA

PROGRAMA DE PS-GRADUAO EM CINCIA DA COMPUTAO
DEPARTAMENTO DE COMPUTAO

SISTEMA BASEADO EM REDES NEURAIS PARA
COMPOSIO MUSICAL ASSISTIDA POR
COMPUTADOR

DBORA CRISTINA CORRA

SO CARLOS
MAIO/2008

Ficha catalogrfica elaborada pelo DePT da
Biblioteca Comunitria da UFSCar

C824sb

Corra, Dbora Cristina.
Sistema baseado em redes neurais para composio
musical assistida por computador / Dbora Cristina Corra. -
- So Carlos : UFSCar, 2008.
163 f.

Dissertao (Mestrado) -- Universidade Federal de So
Carlos, 2008.

1. Inteligncia artificial. 2. Redes neurais. 3. Composio
(Msica). I. Ttulo.

CDD: 006.3 (20
a
)

UDiversidade Federal de So Carlos
Centro de Cincias Exatas e de Tecnologia
Programa de Ps-Graduao em Cincia da Computao
aSistema Baseado em Redes Neurais para Composio
Musical Assistida por Computador"
DBORA CRISTINA CORRA
Dissertao de Mestrado apresentada. ao
Programa de Ps-Graduao em Cincia da
Computao da Universidade Federal de So
Carlos, como parte dos requisitos para a
obteno do ttulo de Mestre em Cincia da
Computao.
Membros da Banca:
So Carlos
Maio/2008

AGRADECIMENTOS

A Deus por estar comigo em todos os momentos.
A toda minha famlia, em especial aos meus pais e irmos, pelo amor e apoio
incondicionais, incentivos para que eu pudesse alcanar mais este objetivo e,
principalmente, pela companhia ao longo de todos esses anos de vida. Minha famlia
minha razo de viver.
Ao Prof. Dr. Jos Hiroki Saito, meu orientador, pela confiana e amizade, pelos
ensinamentos, opinies, pacincia, correes, pelos conhecimentos compartilhados,
pela dedicao, e por tornar possvel a concretizao dessa etapa da minha vida.
A todo pessoal do GAPIS, pela amizade, considerao e discusses sobre os mais
variados temas e assuntos. Em especial, aos meus amigos Alexandre Levada,
Michelle Horta e Denis Salvadeo, pelo apoio incondicional nesses anos.
Ao meu amigo Csar Sangaletti pelos ensinamentos.
Ao meu amigo e companheiro Cristiano Sangaletti pelas horas de estudo, pelo
apoio, incentivo, compreenso e companhia.
A todos meus amigos, pela pacincia, pelo apoio e motivao nesses anos.
A todos do DC e PPG-CC, pelo apoio e aprendizado atravs das aulas e dos
professores durante o mestrado.
A CAPES pelo apoio financeiro na realizao do projeto.
Em suma, a todas aquelas pessoas que direta ou indiretamente contriburam de
alguma maneira para que tudo isso se tornasse realidade.

Music is a moral law. It gives soul to the universe, wings to the mind, flight to the
imagination, and charm and gaiety to life and to everything. (Plato)

RESUMO

Vrias pesquisas tm sido realizadas tendo em vista um sistema
computacional de composio musical que buscasse, da melhor maneira possvel,
capturar as habilidades e criatividade da mente humana. Mais recentemente, as redes
neurais artificiais (RNAs), ou modelos conexionistas, tambm passaram a ser
utilizadas como modelos auxiliares para a composio musical. No caso da
computao musical, os modelos conexionistas so capazes de aprender padres e
caractersticas presentes nas melodias do conjunto de treinamentos e obter
generalizaes dessas caractersticas para a composio de novas melodias.
Portanto, as redes neurais artificiais passaram a ser utilizadas como modelos para a
aprendizagem e composio musicais. O objetivo central desta dissertao de
mestrado propor um sistema de composio musical assistida por computador
baseado em redes neurais. Esse sistema pode ser dividido em quatro principais
etapas: treinamento, composio, avaliao e otimizao. O trabalho de dissertao
tambm prope complementar as fases de treinamento e composio com um tipo de
inspirao, proveniente da Natureza, com a utilizao de contornos de relevos
geogrficos como informao adicional para a rede. As redes neurais usadas para o
sistema so: BPTT (Back-Propagation Through Time) e LSTM (Long-Short Term
Memory). Ambas as redes so comparadas quanto ao resultado obtido, sendo que a
rede LSTM apresenta melhor desempenho. tambm proposto para a rede LSTM um
procedimento de otimizao dos pesos iniciais e do nmero de neurnios da camada
escondida, o que contribui para o desempenho obtido.

ABSTRACT

Several research studies have been realized in order to achieve a
musical composition computational system that could, as much as possible, catch the
human mind, skills, and creativity. More recently, artificial neural networks (ANNs), also
have been deployed as auxiliary models for musical compositions. For musical
computation, connectionist systems, as well as other systems that involve machine
learning, are able to learn patterns and features available in the melodies of the training
set and to generalize them to compose new melodies. Therefore, the use of neural
networks in music learning and composition has attracted researchers and many
approaches have been developed. The aim of this study is the proposal of a neural
network based system for computer-aided musical composition. This system can be
divided into four main processes: training, composition, evaluation and optimization. It
is also proposed to complement the training and composition processes with a kind of
inspiration, from Nature, using landscapes contours as additional information to the
network. The neural networks used in the system are: BPTT (Back-Propagation
Through Time) and LSTM (Long-Short Term Memory) networks. The results obtained
are compared from both networks and it is observed that the LSTM network performs
better. It is also proposed an approach that consists of optimizing the weight
initialization process of the LSTM network in addition to an estimative of the ideal
configuration of the hidden layer, that contributes to the obtained results.

NDICE
INTRODUO..................................................................................................... 12
Motivao................................................................................................................... 13
Organizao do trabalho............................................................................................. 15
CAPTULO 1 DEFINIES SOBRE MSICA ................................................. 16
1.1 Consideraes Iniciais ....................................................................................... 16
1.2 Notaes musicais ............................................................................................. 16
1.3 Propriedades do Som......................................................................................... 22
1.3.1 A intensidade.............................................................................................. 26
1.3.2 A freqncia ............................................................................................... 28
1.3.3 O Timbre .................................................................................................... 29
1.3.4 A durao.................................................................................................... 30
1.4 Srie de Fourier ................................................................................................. 33
1.4.1 - Propriedades da srie de Fourier ................................................................. 38
1.5 O Sistema Auditivo Humano............................................................................. 39
1.6 Consideraces finais.......................................................................................... 43
CAPTULO 2 - REDES NEURAIS ARTIFICIAIS ................................................. 44
2.2 Base Biolgica................................................................................................... 45
2.3 Arquitetura de Redes Neurais............................................................................ 48
2.3.1 Redes Acclicas com uma Camada nica .................................................. 49
2.3.2 Redes Acclicas com Mltiplas Camadas................................................... 50
2.3.3 Redes Recorrentes ou Cclicas ................................................................... 54
2.4 Aprendizado ...................................................................................................... 56
2.4.1 Aprendizado Supervisionado...................................................................... 56
2.4.2 Aprendizado No-Supervisionado.............................................................. 58
2.4.3 Aprendizado por Esforo............................................................................ 59
2.5 Rede Neural LSTM........................................................................................... 60
2.5.1 Passo de propagao................................................................................... 61
2.5.2 Passo de retropropagao ........................................................................... 63
2.6 Consideraces finais.......................................................................................... 65
CAPTULO 3 ABORDAGENS SOBRE COMPOSIO MUSICAL USANDO
COMPUTADORES .............................................................................................. 66
3.2 Exemplos de abordagens para composies musicais usando tcnicas
tradicionais ................................................................................................................. 67
3.2.1 Probabilidades ............................................................................................ 67
3.2.2 Cadeias de Markov..................................................................................... 70
3.2.3 Gramticas.................................................................................................. 72
3.2.4 Autmatos de estado finito......................................................................... 75
3.2.5 Algoritmos Iterativos.................................................................................. 76
3.3 Exemplos de abordagens para composies musicais usando redes neurais .... 78
3.3.1 Abordagem por Todd [1989]..................................................................... 78
3.3.2 Abordagem por Laden e Keef [1989]......................................................... 82
3.3.3 Abordagem por Lewis [1991] ................................................................... 84

3.3.4 Abordagem por Mozer [1994]................................................................... 85
3.3.5 Abordagem por Carpinteiro [1995] ............................................................ 87
3.3.6 Abordagem por Chen e Miikkulainen [2001] ............................................ 88
3.3.7 Abordagem por Rowe [2001] ..................................................................... 91
3.3.8 Abordagem por Eck e Schmidhuber [2002] ............................................... 94
3.3.9 Abordagem por Verbeurgt, Fayer e Dinolfo [2004]................................... 95
3.3.10 Abordagem por Frankin [2005]................................................................ 97
3.3.11 Abordagem por Adiloglu e Alpaslan [2007] ............................................ 98
3.4 Consideraes finais.......................................................................................... 99
4 PROPOSTA DE TRABALHO.......................................................................100
4.1 Consideraes iniciais ...................................................................................... 100
4.2 Descrio geral do sistema ............................................................................... 100
4.3 Representao dos elementos musicais ............................................................ 102
4.3.1 Representao da altura............................................................................ 102
4.3.2 Representao da durao e acordes ........................................................ 104
4.4 Arquiteturas ...................................................................................................... 106
4.4.1 BPTT ........................................................................................................ 106
4.4.2 LSTM....................................................................................................... 108
4.4.2.1 Otimizao da iniciao dos pesos e estimao do nmero de neurnios
escondidos para a rede LSTM.......................................................................... 109
4.4.2.2 O comportamento dos neurnios escondidos da rede LSTM na
aproximao de funes no-lineares 1-D........................................................ 110
4.4.2.3 Redes LSTM com mltiplas entradas................................................ 112
4.4.2.4 Estimao do nmero de neurnios escondidos................................ 114
4.5 Composio das melodias ................................................................................ 117
4.6 Avaliao e Otimizao das melodias.............................................................. 120
4.7 Consideraes Finais ........................................................................................ 123
5.1 Consideraes Iniciais ...................................................................................... 124
5.2 Experimentos com o mtodo proposto de inicializao dos pesos.................. 124
5.3 Obtenao e Influncia da inspiracao................................................................ 132
5.3.1 Musicas brasileiras folclricas e tradicionais ........................................... 132
5.3.2 Obteno da Inspirao ............................................................................ 133
5.3.3 Influncia da inspirao............................................................................ 138
5.4 Resultados de Composio das Melodias........................................................ 146
5.4.1 Aspectos de composio com BPTT........................................................ 146
5.4.2 Aspectos de composio com LSTM....................................................... 149
5.4.3 Comparao dos treinamentos das redes BPTT e LSTM......................... 152
5.5Avaliao e Otimizao das melodias............................................................... 153
5.6 Consideraes Finais ........................................................................................ 155
CAPTULO 6 CONCLUSES..........................................................................156
6.1 Trabalhos Futuros............................................................................................ 157
REFERNCIAS BIBLIOGRFICAS...................................................................159

LISTA DE FIGURAS

Figura 1: Sistema proposto para composio musical baseado em redes neurais.............................. 14
Figura 1.1: (a) Pentagrama. (b) Linhas do Pentagrama. (c) Espaos do Pentagrama.......................... 16
Figura 1.2: Claves musicais ................................................................................................................................. 17
Figura 1.3: Relao das claves e suas respectivas notas............................................................................ 17
Figura 1.4: As notas musicais ............................................................................................................................. 17
Figura 1.5: Representao das notas musicais em duas claves................................................................ 17
Figura 1.6: Representao das notas por valores numricos inteiros...................................................... 18
Figura 1.7: Exemplos de intervalos musicais.................................................................................................. 18
Figura 1.8: A escala cromtica ............................................................................................................................ 19
Figura 1.9: A notas musicais e suas freqncias........................................................................................... 20
Figura 1.10: A relao das freqncias das notas musicais........................................................................ 21
Figura 1.11: Dissonncia dos intervalos musicais......................................................................................... 22
Figura 1.12: Onda sonora (a) no espao (b) no tempo.................................................................................. 23
Figura 1.13: Volante ou Manivela [BASILIO JOAQUIM,SARTORI,2003,p.4] ............................................. 24
Figura 1.14: Crculo Trigonomtrico (a) senide (b) fase inicial [BASILIO
JOAQUIM,SARTORI,2003,p.4] .............................................................................................................................. 24
Figura 1.15: Sinais com mesma freqncia mas com amplitudes diferentes ......................................... 26
Figura 1.16: Exemplos de dinmicas musicais ............................................................................................... 27
Figura 1.17: Sinais com diferentes freqncias.............................................................................................. 28
Figura 1.18: A freqncia fundamental do C3 (125 Hz) e sete dos seus harmnicos: C4 (250 Hz), G4
(375 Hz), C5 (500 Hz), E5 (625 Hz), G5 (750 Hz), Bb5 (875 Hz), C6 (1000 Hz). [SANO E JENKINS, 1989]
..................................................................................................................................................................................... 28
Figura 1.19: O timbre (a) Sons do piano (b) Sons do violo [BASLIO JOAQUIM, SARTORI, 2003] .. 30
Figura 1.20: O timbre (a) Senide (b) Onda complexa [BASILIO JOAQUIM,SARTORI,2003]............... 30
Figura 1.21: As figuras musicais (a) Relaes entre as figuras musicais (b) nmeros, nomes,
figuras musicais e pausas, e duraes correspondentes............................................................................ 31
Figura 1.22: Possvel indicao do tempo em uma melodia........................................................................ 32
Figura 1.23: Exemplos da relao entre as figuras musicais ...................................................................... 33
Figura 1.24: Requisitos para a Srie de Fourier [BASLIO JOAQUIM,SARTORI,2003,p.13]................. 34
Figura 1.25: Exemplos de fases [BASILIO JOAQUIM,SARTORI,2003,p.3]................................................ 36
Figura 1.26: Composio de dois sinais senoidais [BASILIO JOAQUIM,SARTORI,2003,p.4]............. 37
Figura 1.27: Sinal resultante no senoidal [JOAQUIM;SARTORI,2003,p.5] ............................................. 37
Figura 1.28: Soma de dois sinais senoidais com variao na fase de uma das componentes
[JOAQUIM,SARTORI,2003,p.6]............................................................................................................................. 38
Figura 1.29: O ouvido [LENT,2002,pp.190] ....................................................................................................... 40
Figura 1.30: Parte do sistema auditivo humano. (A) A cclea e (B) Mostra de um corte transversal
da cclea. [LENT, 2002] ......................................................................................................................................... 40
Figura 1.31: A tonotopia representa uma especializao da membrana basilar: os sons mais graves
fazem vibrar o pice (A), e os mais agudos movimentam a base (B). [LENT, 2002].............................. 41
Figura 1.32: Espao harmnico sugerido por Longuet-Higgins [1979] .................................................... 42
Figura 2.1: Partes simplificadas de um neurnio biolgico......................................................................... 46
Figura 2.2: Neurnio de McCulloch e Pitts [BRAGA, LUDEMIR, CARVALHO, 2000, p.9] ..................... 47
Figura 2.3: Exemplos de funes de ativao. (a) funo logstica (b) funo tangente hiperblica
(c) funo linear....................................................................................................................................................... 47
Figura 2.4: Rede acclica com uma camada de neurnios [HAYKIN, 2001] ............................................. 49
Figura 2.5: O perceptron [HAYKIN, 2001].......................................................................................................... 49
Figura 2.6: Deslocamento produzido pela presena de um bias [HAYKIN,2001] ................................... 50
Figura 2.7: Rede Neural MLP com duas camadas escondidas [HAYKIN,2001,p.186] ........................... 51
Figura 2.8: Ilustrao das direes dos sinais do algoritmo de retropropagao: a propagao de
sinais funcionais e a retropropagao de sinais de erro [HAYKIN, 2001, p.186].................................... 52
Figura 2.9: Sinal de retropropagao do erro [HAYKIN,2001,p.193].......................................................... 53
Figura 2.10: Diagrama de uma rede Hopfield [BRAGA, LUDEMIR E CARVALHO, 2000, p. 89] ........... 54
Figura 2.11: Exemplo de rede BPTT com extenso de trs tempos .......................................................... 54
Figura 2.12: Exemplo de rede BPTT para a funo do senide amortecido [FAUSETT, 1994]........... 55
Figura 2.13: Funo senide amortecida [FAUSETT, 1994]......................................................................... 55
Figura 2.14: Algoritmo do Senide Amortecido [FAUSETT, 1994] ............................................................. 56
Figura 2.15: Diagrama em blocos do aprendizado supervisionado [HAYKIN, 2001, p. 88].................. 57
Figura 2.16: Aprendizagem por correo de erros [HAYKIN, 2001, p. 77]................................................ 57
Figura 2.17: Diagrama em blocos do aprendizado no-supervisionado [HAYKIN, 2001, p. 91] ......... 59
Figura 2.18: Diagrama em blocos do aprendizado por esforo [HAYKIN, 2001] .................................... 60
Figura 2.19: (a) Rede neural recorrente com uma camada escondida (b) Rede LSTM com blocos de
memria na camada escondida [GERS, 2001, pp.11] .................................................................................... 61

Figura 2.20: Um bloco de memria com uma nica clula de memria [GERS, 2001, pp.12] ............. 61
Figura 3.1: (a) distribuio constante (b) distribuio constante por intervalo (c) distribuio linear
decrescente (d) distribuio exponencial......................................................................................................... 68
Figura 3.2: (a) Funo de distribuio cncava (b) Funo de distribuio convexa........................... 68
Figura 3.3: Exemplo de tabela de probabilidade [Miranda, 2001]............................................................... 69
Figura 3.4: Transposio de notas. (a) Exemplo de rotina de transposio (b) Exemplo de
transposio. [Miranda, 2001].............................................................................................................................. 69
Figura 3.5: Retroao de notas. (a) Exemplo de rotina de retroao (b) Exemplo de retroao.
[Miranda, 2001] ........................................................................................................................................................ 70
Figura 3.6: Escala de D Maior na quarta oitava............................................................................................. 70
Figura 3.7: Matriz de transio de estados para a escala de D Maior [Miranda, 2001] ....................... 71
Figura 3.8: (a) Tabela de transio (b) Exemplo de seqncia musical resultante partindo da nota
C5 [MIRANDA, 2001, p. 72].................................................................................................................................... 72
Figura 3.9: Estrutura hierrquica de uma sonata [Miranda, 2001].............................................................. 73
Figura 3.10: Exemplo de uma gramtica musical. (a) Exemplo de regras. (b) Exemplo de notas
geradas pelas regras. [Miranda, 2001]............................................................................................................... 74
Figura 3.11: Exemplo de autmato finito com trs estados [Miranda, 2001]........................................... 75
Figura 3.12: (a) Exemplo de um autmato finito para composio musical. (b) Exemplo de
seqncia musical gerada pelo autmato com quatro compassos. [Miranda, 2001]............................ 76
Figura 3.13: Passos de um processo Iterativo [Miranda, 2001] .................................................................. 76
Figura 3.14: rbita catica. (a) rbita gerada para o valor inicial
0
x = 0,3. (b) rbita gerada para o
valor inicial
0
x = 0,301. [Miranda, 2001] ............................................................................................................ 77
Figura 3.15: A rede seqencial utilizada por Todd [1989]............................................................................. 80
Figura 3.16: RNA proposta para classificar acordes musicais por Laden e Keefe [1989] ................... 83
Figura 3.17: O esquema CBR [LEWIS, 1991].................................................................................................... 85
Figura 3.18: Arquitetura da Rede Neural (CONCERT) proposta por Mozer [1994] ................................. 87
Figura 3.19: Segmentaes do ritmo proposta por Carpinteiro [1995] ..................................................... 87
Figura 3.20: Representao do CTU (Contador de Unidade de Tempo) para a colcheia como
Unidade de Tempo. CARPINTEIRO [1995] ........................................................................................................ 88
Figura 3.21: Arquitetura proposta por Carpinteiro [1995]............................................................................. 88
Figura 3.22: Arquitetura proposta por Chen e Miikkulainen [2001]............................................................ 89
Figura 3.23: Exemplo de gerao da prxima nota tendo como nota anterior A4 [Chen e
Miikkulainen, 2001] ................................................................................................................................................. 90
Figura 3.24: Representao da durao segundo Chen e Miikkulainen [2001] ...................................... 90
Figura 3.25: Representao dos compassos Segundo Chen e Miikkulainen [2001] ............................. 91
Figura 3.26: Exemplo de treinamento para a tonalidade de C maior ......................................................... 91
Figura 3.27: Exemplo de treinamento que usa todas as notas da escala de C maior........................... 92
Figura 3.28: Rede neural seqencial proposta por Rowe [2001, p.102] .................................................... 92
Figura 3.29: Pares de treinamento para a progresso I-IV-V-I em C maior .............................................. 93
Figura 3.30: Notas utilizadas por Eck e Schmidhuber [2002] para o treinamento da rede neural ..... 95
Figura 3.31: Abordagem hbrida Neural-Markov proposta por Verbeurgt, Fayer e Dinolfo [2004] (a)
rvore de Sufixos (b) Modelo de Markov (c) Topologia da Rede Neural (qualidade)............................ 96
Figura 3.32: Representao por ciclos de (a) teras maiores e (b) teras menores [Franklin, 2005] 97
Figura 3.33: Neurnios de entrada (a) e sada (b) por Adiloglu e Alpaslan [2007] ................................. 99
Figura 4.1: Tela principal do sistema............................................................................................................... 101
Figura 4.2: Tela da configurao da rede BPTT............................................................................................ 102
Figura 4.3: Dois compassos musicais............................................................................................................. 103
Figura 4.4: Dois compassos musicais............................................................................................................. 104
Figura 4.5: Representao do acorde musical Em....................................................................................... 105
Figura 4.6: Exemplos da representao de acordes.................................................................................... 106
Figura 4.7: Arquitetura da rede BPTT .............................................................................................................. 107
Figura 4.8: Arquitetura da rede LSTM (apenas algumas conexes esto ilustradas) ......................... 109
Figura 4.9. Ilustrao de uma sada tpica de uma clula de memria em uma rede LSTM.............. 113
Figura 4.10. A Transformada de Fourier de uma sada tpica de uma clula de memria em uma
rede LSTM............................................................................................................................................................... 113
Figura 4.11: (a) Funo no-linear 1-D (b) Deteco dos pontos extremos (c) Aproximao linear
obtida atravs dos pontos extremos ............................................................................................................... 115
Figura 4.12: (a) Funo 2-D (b) Pontos extremos detectados ............................................................... 116
Figura 4.13: Diviso do domnio da funo por um ponto extremo local (a) Duas Regies (b) Quatro
Regies.................................................................................................................................................................... 117
Figura 4.14: Arquitetura da rede MLP utilizada para avaliao das melodias....................................... 122
Figura 5.1: Resposta esperada para o primeiro experimento.................................................................... 124
Figura 5.2: Sadas das clulas de memria com pesos iniciados aleatoriamente (a) antes do
treinamento (b) depois do treinamento (c) Sada da rede antes do treinamento (d) Sada da rede
depois do treinamento......................................................................................................................................... 125

Figura 5.3: Sada das clulas de memria com iniciao de pesos de acordo com o mtodo
proposto (a) antes do treinamento (b) depois do treinamento (c) Sada da rede antes do
treinamento (d) Sada da rede depois do treinamento ................................................................................ 126
Figura 5.4: Erro quadrtico mdio para os dois casos de treinamento (iniciao aleatria e
iniciao otimizada).............................................................................................................................................. 126
Figura 5.5: Funo desejada d(x) e sada da rede aps treinamento (a) com iniciao aleatria (b)
com iniciao otimizada...................................................................................................................................... 127
Figure 5.6: Erro quadrtico mdio para os dois casos de treinamento, com iniciao aleatria e
otimizada................................................................................................................................................................. 127
Figure 5.7: Erro quadrtico mdio com pesos iniciais aleatrios (a) primeiro treinamento (b)
segundo treinamento (c) terceiro treinamento.............................................................................................. 128
Figure 5.8: Erro quadrtico mdio com iniciao otimizada dos pesos................................................. 128
Figure 5.9: Funo desejada 2-D....................................................................................................................... 129
Figure 5.10: Curva de aprendizado para o treinamento da rede para aproximar d(x,y) descrita
anteriormente......................................................................................................................................................... 129
Figura 5.10 (a) Sadas da rede para o pior caso de aproximao de funo 1-D com iniciao
aleatria e otimizada (b) Erro quadrtico mdio do treinamento em (a)................................................ 131
Figura 5.11 (a) Sadas da rede para o melhor caso de aproximao de funo 1-D com iniciao
aleatria e otimizada (b) Erro quadrtico mdio do treinamento em (a)................................................ 131
Figura 5.12: Erro quadrtico mdio para a funo 2-D descrita na Figura 4.12.................................... 132
Figura 5.13: Exemplos de (a) dilatao e eroso (b) abertura e fechamento [PRATT, 1991]............. 136
Figura 5.14: Passos para extrao do contorno dos relevos naturais.................................................... 137
Figura 5.15: Imagem original (a) Extrao do contorno (b)........................................................................ 137
Figura 5.16: Imagem original (a) Extrao do contorno (b)........................................................................ 138
Figura 5.17: Converso do contorno da Figura 5.15 para seqncia de notas musicais................... 138
Figura 5.18: Partitura da melodia Escravos de J........................................................................................ 139
Figura 5.19: Inspirao usada no treinamento: (a) 1 nota (b) 2 notas e (c) 4 notas............................. 140
Figura 5.20: Inspirao usada na composio: (a) 1 nota (b) 2 notas e (c) 4 notas............................. 142
Figura 5.21: Melodias geradas pela rede com inspirao semelhante na fase de aplicao............ 146
Figura 5.22: Erro quadrtico mdio do treinamento da rede BPTT com representao por intervalo
(a) O Pobre e o Rico (b) O Boi da Cara Preta................................................................................................. 147
Figura 5.23: Erro quadrtico mdio do treinamento rede BPTT com representao de ciclos de
teras (a) Sapo Cururu (b) O Cravo e a Rosa................................................................................................. 148
Figura 5.24: Melodia final composta pela rede BPTT com representao por intervalo.................... 148
Figura 5.25: Melodia final composta pela rede BPTT com representao por ciclo de teras ......... 149
Figura 5.26: Erro quadrtico mdio do treinamento rede LSTM com representao por intervalo (a)
O Pobre e o Rico (b) O Boi da Cara Preta....................................................................................................... 150
Figura 5.27: Erro quadrtico mdio do treinamento rede LSTM com representao de ciclos de
teras (a) Sapo Cururu (b) O Cravo e a Rosa................................................................................................. 151
Figura 5.28: Melodia final composta pela rede LSTM com representao por intervalo.................... 151
Figura 5.29: Melodia final composta pela rede LSTM com representao por ciclo de teras......... 152
Figura 5.30: Melodia final composta pela rede BPTT com representao por intervalos depois da
correo................................................................................................................................................................... 154

LISTA DE TABELAS

Tabela 1.1: Atributos do som............................................................................................................................... 26
Tabela 4.1: Exemplo de probabilidades condicionais das notas.............................................................. 118
Tabela 4.2: Exemplos de atributos extrados de 10 melodias apropriadas............................................ 121
Tabela 4.3: Exemplos de atributos extrados de 10 melodias inapropriadas........................................ 121
Tabela 5.1: Erro quadrtico mdio para o treinamento de aproximao de funo 1-D utilizando
iniciao aleatria e otimizada .......................................................................................................................... 130
Tabela 5.2: pocas e durao de treinamento das redes LSTM e BPTT ................................................ 152
Tabela 5.3: Erro mdio e durao de treinamento das redes LSTM e BPTT para 8000 pocas de
treinamento............................................................................................................................................................. 153
Tabela 5.4: Exemplos de atributos extrados para as novas melodias compostas pelas redes BPTT
e LSTM. .................................................................................................................................................................... 153
Tabela 5.5: Avaliao obtida para as novas melodias................................................................................. 153
Tabela 5.6: Resultado das avaliaes.............................................................................................................. 155

12
INTRODUO

Os seres humanos so capazes de criar e apreciar a organizao dos
sons no espao e no tempo. Msica a arte de combinar sons no espao e no tempo,
formando sentido musical. Nesse contexto, o espao est relacionado com a
harmonia, ou seja, relao simultnea entre os sons. O tempo est associado com a
melodia, ou seja, relao seqencial entre os sons. A habilidade do ser humano em
criar e apreciar a organizao dos sons no espao e no tempo favorece o
entendimento de que uma composio musical formada por estruturas abstratas
[MIRANDA, 2002].
A capacidade humana de entender e processar msica formada por
dois domnios aparentemente distintos um do outro: o domnio da subjetividade
abstrata que abrange composio musical e imaginao artstica; e o domnio da
objetividade abstrata, que abrange operaes lgicas e raciocnio matemtico. No h
dvidas de que o computador uma excelente ferramenta para o ltimo domnio
descrito, porm, necessrio explorar o potencial do computador para o domnio com
caractersticas subjetivas.
Como a composio musical lida com estruturas abstratas, torna-se
necessrio definir trs nveis de abstrao:
1) Nvel microscpico: Nesse nvel o compositor trabalha com
caractersticas microscpicas do som, geralmente relacionados com atributos fsicos,
como por exemplo, freqncias, amplitudes, espectro. Nesse caso, mais provvel
que um pedao musical seja representado por listas de valores numricos ao invs de
notas para performance de instrumentos acsticos.
2) Nvel de nota: Nesse nvel, o compositor trabalha com a unidade
elementar da msica: a nota musical, que um simples evento sonoro caracterizado
pelos atributos fsicos (altura, intensidade, durao e timbre). Esse trabalho est mais
concentrado nesse nvel de abstrao.
3) Nvel de bloco: Nesse nvel o compositor trabalha com grandes
unidades musicais, como padres de ritmo, temas meldicos e amostras de
seqncias sonoras.
Segundo Miranda [2002], essa definio de nveis importante para
compositores que trabalham com computadores, uma vez que ela determina como
ser feita a construo dos componentes que formam a estrutura musical de uma
composio.

13
Muitos pesquisadores tm usado computadores para aperfeioar a
aplicao de composio musical. Recentemente, as redes neurais artificiais
passaram a ser utilizadas como modelos para a aprendizagem de processos musicais.
As redes neurais artificiais, os sistemas conexionistas, representam
formas de computao no algortmica, inspiradas no modelo biolgico de
processamento de informaes, e eliminam tanto a necessidade da separao
processador / memria quanto o conceito de conjunto de instrues simblicas
presente nos modelos convencionais. Elas prevem uma rede de neurnios na qual
diferentes padres de excitao so observados como uma funo de interconexes
entre os neurnios. Processamento e memria so distribudos uniformemente pela
rede de forma a fornecer processamento paralelo e rpido [DOLSON, 1989]. Existem
diversos modelos propostos de redes neurais artificiais, e normalmente, essas redes
so simuladas em computadores convencionais.
Os sistemas conexionistas geralmente oferecem mecanismos de
aprendizado em que a computao desejada pode ser obtida expondo a rede
repetidamente a exemplos que determinam o comportamento esperado. Nesses
mecanismos, as redes neurais adaptam suas interconexes at que os padres de
excitao desejados estejam perto (do que a rede capaz de obter) do
comportamento desejado. Assim, as redes neurais so capazes de simular
comportamentos complexos (e talvez biolgicos) dificilmente de serem gerados por
conjuntos de instrues ou regras.

MOTIVAO

conhecido que formas de computao convencionais so velozes no
processamento aritmtico, porm, apresentam baixo desempenho em aplicaes de
reconhecimento de padres, como identificao de indivduos numa imagem,
comparados com a capacidade de reconhecimento de padres por um ser humano.
Por essa razo tm sido pesquisados e propostos diversos modelos de redes neurais
artificiais inspiradas nas redes neurais biolgicas. No caso da composio musical, a
aplicao de redes neurais artificiais busca suprir dificuldades encontradas em
abordagens tradicionais implementadas nos computadores convencionais, visto que
os seres humanos conseguem realizar uma composio simples com relativa
facilidade.
Portanto, os modelos conexionistas esto sendo cada vez mais
utilizados dentro de domnios como psicologia e cincia cognitiva. Esses modelos so
capazes de armazenar e generalizar informaes, aspectos fundamentais do

14
aprendizado. Percepo e cognio musical requerem essas mesmas habilidades.
Assim, modelos conexionistas so apropriados para capturar aspectos do
comportamento musical humano [TODD e GROY, 1991]. A possibilidade de entender
e simular esse comportamento favorece a composio de melodias adequadas por
redes neurais artificiais.
Uma das principais qualidades desses modelos conexionistas a
capacidade de aprender padres e caractersticas presentes nas melodias do conjunto
de treinamentos e obter generalizaes dessas caractersticas para a composio de
novas melodias. Essa abordagem promissora em relao a outras abordagens que,
muitas vezes, exigem a especificao de regras explcitas e no incorporam aspectos
cognitivos do comportamento musical humano [TODD e GROY, 1991].
O objetivo central dessa dissertao de mestrado propor um sistema
de composio musical assistido por computador baseado em redes neurais. Esse
sistema pode ser dividido em quatro etapas principais (Figura 1).

Figura 1: Sistema proposto para composio musical baseado em redes neurais

A primeira etapa consiste em treinar a rede neural adequadamente, com
o conjunto de treinamento formado por melodias de um determinado estilo e com
diferentes representaes dos elementos musicais.
A prxima etapa a aplicao da rede, que ocorre depois que o
treinamento concludo. Nessa etapa a rede neural usada para a composio de
novas melodias com base na etapa anterior de treinamento.

15
A inovao proposta nessas duas primeiras etapas complementar as
fases de treinamento e composio com um tipo de inspirao, proveniente da
Natureza, com a utilizao de contornos de relevos geogrficos como informao
adicional para a rede.
A prxima etapa consiste na avaliao das novas melodias geradas
pela rede. Essa avaliao baseada em trs requisitos: notas repetidas, alternncias
abruptas de altura e notas fora da escala. Uma rede neural MLP (Multi-Layer
Perceptron) foi utilizada para classificar as melodias em duas classes: apropriadas e
inapropriadas.
Se a melodia classificada como inapropriada, algumas correes ou
otimizaes so realizadas. Essas correes so baseadas em informaes
estatsticas coletadas do conjunto de treinamento. Essas duas ltimas etapas
(avaliao e correo) ainda no so muito exploradas na literatura e tm por objetivo
verificar o desempenho da rede na tarefa de compor uma nova melodia.

ORGANIZAO DO TRABALHO

A descrio dessa dissertao de mestrado est estruturada nos
seguintes captulos, alm do presente captulo de introduo:
(1) Definies sobre msica. Esse captulo consiste na apresentao
dos conceitos fundamentais do som e dos atributos das notas musicais.
(2) Redes Neurais Artificiais. Nesse captulo so apresentadas as
principais arquiteturas e os principais mtodos de aprendizado das RNAs.
(3) Abordagens sobre composio musical usando computadores.
Esse captulo consiste na descrio de abordagens anteriores para composio
musical por computadores, utilizando mtodos convencionais e utilizando redes
neurais artificiais.
(4) Proposta de Trabalho. Descreve a metodologia de trabalho
utilizada, assim como a representao dos dados de treinamento.
(5) Resultados Obtidos. Apresenta os aspectos de implementao do
sistema desenvolvido para composio musical baseado em redes neurais e os
resultados obtidos.
(6) Concluses e propostas para trabalhos futuros. Apresenta
discusses sobre os resultados obtidos e apresenta propostas para trabalhos futuros.

16
CAPTULO 1 DEFINIES SOBRE MSICA

1.1 CONSIDERAES INICIAIS

Para um melhor entendimento do trabalho, o captulo apresenta as notas
musicais e seus atributos, tais como a dinmica, a altura, o timbre e a durao. O
captulo tambm descreve e ilustra os parmetros da onda sonora e demonstra como
esses parmetros se relacionam entre si. Por fim, h uma breve discusso sobre o
funcionamento do sistema auditivo do ser humano e de como a mente humana entende
e interpreta os elementos musicais. O entendimento da msica pela mente humana
uma das motivaes para a criao de composies musicais por redes neurais
artificiais que so inspiradas no funcionamento do crebro humano. A organizao
desse captulo a seguinte: a sesso 1.2 apresenta os conceitos bsicos sobre
notaes musicais; a sesso 1.3 descreve as propriedades do som e os atributos das
notas musicais; a sesso 1.4 apresenta a Srie de Fourier; a sesso, 1.5 discute o
sistema auditivo; e a sesso 1.6 apresenta as consideraes finais deste captulo.

1.2 NOTAES MUSICAIS

As notas musicais so escritas no pentagrama, ilustrado na Figura 1.1. O
pentagrama um conjunto de cinco linhas, paralelas e eqidistantes que formam entre
si quatro espaos.

(a) (b) (c)

Figura 1.1: (a) Pentagrama. (b) Linhas do
Pentagrama. (c) Espaos do Pentagrama.

As claves so smbolos colocados no incio do pentagrama e servem para
dar nome s notas musicais. Existem trs claves musicais: a clave de sol, de f e de d.
As claves esto ilustradas na Figura 1.2.

17

(a) (b) (c)
Clave de Sol Clave de F Clave de D

Figura 1.2: Claves musicais

nota sol nota f nota d

Figura 1.3: Relao das claves e suas respectivas notas

Como ilustrado na Figura 1.3, a clave de sol determina a localizao da
nota que receber o nome sol no pentagrama; utilizada para instrumentos musicais de
sons mdios e agudos. As demais notas so localizadas no pentagrama em funo da
diferena de freqncia em relao nota sol, sendo as notas de freqncia mais baixa
nas linhas ou espao abaixo e as notas de freqncia mais alta nas linhas ou espaos
acima. Da mesma forma, as claves de f (para instrumentos de som graves) e d (para
instrumentos de som mdios) determinam a localizao das notas que recebero os
nomes f e d, respectivamente, no pentagrama.
So sete as notas musicais naturais e esto ilustradas na Figura 1.4 para
a clave de sol:

Figura 1.4: As notas musicais

Para facilitar a leitura musical e para representar todas as notas de um
instrumento, como por exemplo, o piano, necessria a utilizao de duas claves, como
mostra a Figura 1.5.
Figura 1.5: Representao das notas musicais em duas claves
notas mais
agudas
notas mais
graves

18
As notas musicais tambm podem ser representadas atravs de nmeros
inteiros, como ilustrado na Figura 1.6:
Figura 1.6: Representao das notas por valores numricos inteiros

Caracteriza-se como intervalo a diferena de altura entre duas notas. O
semitom o menor intervalo entre duas notas. As notas musicais mostradas na Figura
1.5 no representam todas as notas com o intervalo de semitom. Para isso, foram
criadas as notaes que alteram as notas. Na Figura 1.6 esto representadas todas as
notas com intervalo de semitom do D na terceira oitava (D3) ao Do# na quinta oitava
(D#5). As alteraes de notas so indicadas por sinais que antecedem as notas
escritas no pentagrama, esses sinais so conhecidos como acidentes. Exemplos desses
acidentes so o sustenido (#) que aumenta a altura da nota em um semitom e o bemol
(b) que abaixa a altura da nota em um semitom.
O intervalo entre duas notas s e t pode ser determinado da seguinte
forma:
( , ) intervalo s t t s = (1.1)

s e t so os valores inteiros que representam as notas musicais. A Figura 1.7 ilustra
alguns exemplos de intervalos musicais, escritos na clave de F e na clave de Sol.

Figura 1.7: Exemplos de intervalos musicais

19
Os intervalos musicais podem ser classificados da seguinte forma:
0 = unssono
1 = 2. menor ascendente -1 = 2. menor descendente
2 = 2. maior ascendente -2 = 2. maior descendente
5 = 4. perfeita ascendente -5 = 4. perfeita descendente
6 = 4. aumentada ascendente -6 = 4. aumentada descendente
etc. etc.
Na msica ocidental estabelece-se uma oitava
1
como um intervalo que
possui uma taxa de freqncia 2:1.
A escala musical mais conhecida a cromtica ou dodecafnica com
doze semitons. A Figura 1.8 mostra a escala cromtica representando todas as doze
notas, de d a si, na clave de sol.

Figura 1.8: A escala cromtica

Em muitos casos nesse trabalho, as notas musicais estaro
representadas na forma de letras alfabticas associadas da seguinte forma:

Letras - A B C D E F G
Notas - L Si D R Mi F Sol

A indicao da oitava ser feita com um nmero na frente das letras, por
exemplo, C3 representa a nota C na terceira oitava.
Cada nota musical est associada a uma freqncia. A Figura 1.9 ilustra as
freqncias das notas e seus respectivos nmeros MIDI
2
, correspondentes a um teclado de
piano:

1
O nome oitava est relacionado com a seqncia de oito notas sucessivas da escala natural: D R Mi
F Sol L Si D, o segundo D dito estar uma oitava acima do primeiro.

20
Figura 1.9: A notas musicais e suas freqncias
3

As notas musicais atuam em ciclos proporcionais, as oitavas. Pode-se
observar que, por exemplo, se a freqncia da nota A em 220 Hz duplicada para 440
Hz, ainda possvel perceber a mesma nota A, entretanto, ela estar uma oitava acima.
De maneira similar se a freqncia for diminuda pela metade, ou seja, se de 220 Hz a

2
MIDI a abreviatura de Musical Instrument Digital Interface. um padro utilizado para a comunicao
entre instrumentos musicais e equipamentos eletrnicos, como por exemplo, teclado e computadores.
Uma partitura MIDI contm instrues que determinam os instrumentos, notas, timbres, etc...Para tanto,
cada nota atribuda a um valor MIDI.
3
Disponvel em: http://www.phys.unsw.edu.au/jw/notes.html. Acesso: 06/12/2006.

21
110 Hz
220 Hz
330 Hz
440 Hz
550 Hz
660 Hz
770 Hz
880 Hz
Freqncia
Altura
A2 A3 A4 A5
110 Hz
220 Hz
330 Hz
440 Hz
550 Hz
660 Hz
770 Hz
880 Hz
Freqncia
Altura
A2 A3 A4 A5
freqncia da nota A for para 110 Hz, ento essa nota A ser percebida uma oitava
abaixo.
Como complemento das relaes de freqncias entre as notas, afirma-
se que nosso sistema de audio trabalha de acordo com uma lei logartmica. Assim, o
fenmeno que as pessoas percebem como intervalo de altura caracterizado por um
processo logartmico. Voltando ao exemplo anterior, a distncia de 110 Hz para 440 Hz
de duas oitavas, entretanto, a razo de freqncia quadruplicada (Figura 1.10).

Figura 1.10: A relao das freqncias das notas musicais

Conforme anteriormente mencionado, as notas musicais so ondas
sonoras complexas formadas por uma freqncia fundamental e componentes
harmnicas proporcionais freqncia fundamental [BENSON,2007]. As freqncias
das componentes (fundamental e harmnicos) guardam relaes matemticas entre si,
e a freqncia fundamental que define a altura da nota. Para as notas A4 e A3, as
primeiras parciais harmnicas so:
440 Hz, 880 Hz, 1320 Hz, 1760 Hz,...
220 Hz, 440 Hz, 660 Hz, 880 Hz, 1100 Hz, 1320 Hz
As oitavas so exemplos de intervalos consoantes, o que pode ser
observado inclusive pelas componentes harmnicas. Por outro lado, as primeiras
componentes harmnicas das notas A3 (220 Hz) e A#3 (233 Hz) so:
233 Hz, 466 Hz, 699 Hz, 932 Hz, 1165 Hz, ...
220 Hz, 440 Hz, 660 Hz, 880 Hz, 1100 Hz ...
A presena das componentes 233 Hz e 220 Hz, 466 Hz e 440 Hz etc,
causa uma sensao de desconforto que interpretado pelo ouvido como dissonncia.
O intervalo musical de uma quinta justa corresponde a uma taxa de
freqncia de 3:2, em que o terceiro harmnico da nota mais grave ir coincidir com o
segundo harmnico da nota mais aguda, e as duas notas tero vrios harmnicos em
comum. Portanto, intervalos musicais em que as taxa de freqncias so nmeros
pequenos so ditos serem mais consoantes em relao aos outros intervalos
4
. O

4
Benson [2007] afirma que essa relao apenas funciona para notas as quais os harmnicos possuem
freqncias mltiplas da freqncia fundamental.

22
grfico da Figura 1.11 apresenta um estudo mostrado por Benson [2007], relacionando
as taxas de freqncia e os nveis de dissonncia, para uma nota com sua fundamental
e seis componentes harmnicas. Nota-se que o grfico apresenta grandes picos na
fundamental (1:2), no intervalo de oitava (1:2) e no intervalo de quinta justa; e apresenta
picos menores nos intervalos de tera menor (5:6), tera maior (4:5), quarta justa (3:4) e
sexta maior (3:5). Se mais harmnicos fossem considerados, o grfico ganharia mais
picos.

Figura 1.11: Dissonncia dos intervalos musicais

1.3 PROPRIEDADES DO SOM

Som consiste de vibraes das partculas de um meio material, que
geralmente o ar. O ar composto por um grande nmero de molculas, prximas
umas das outras e que continuamente se atingem para produzir o que percebido como
presso do ar [Benson, 2007]. Quando um objeto vibra, causa ondas de aumento e
diminuio de presso do ar. Essas ondas agitam as molculas de ar, e se propagam,
atingindo os ouvidos e produzindo a sensao sonora.
Portanto, a propagao do som se d por meio de ondas, denominadas
ondas sonoras, as quais se caracterizam por serem ondas esfricas. A onda sonora
produzida por algum objeto que produz vibraes, por exemplo, as cordas de um violo,
o badalar de um sino, etc. Quando as vibraes sonoras apresentam valores estveis
de presso o ouvido humano no consegue perceb-las, e o mesmo acontece com
vibraes que contm parmetros fsicos do som e que esto fora da faixa de percepo
humana. Esses limites so importantes para o processo de digitalizao do som.
O som pode ser representado atravs de uma onda senoidal, e um ponto
interessante que complexas vibraes sonoras podem ser entendidas e sintetizadas
atravs da combinao de ondas senoidais. Afirma-se com isso, que o sinal sonoro mais
simples a senide.
Tal como descreve Paula Filho [2000], Smith [1997], Joaquim e Sartori
[2003], a onda sonora possui os seguintes parmetros:

23
- perodo: corresponde ao tempo necessrio para se completar um ciclo,
ou seja, para o padro da onda se repetir [MIRANDA, 2001]. representado pela letra
T;
- ciclo: intervalo entre dois pontos de mximo ou dois pontos de mnimo
no movimento ondulatrio;
- freqncia: corresponde ao nmero de ciclos por unidade de tempo,
representada pela letra f. A freqncia pode ser medida em ciclos por segundo (cps),
porm, a unidade de freqncia mais usada o Hertz (Hz), que equivale a um ciclo por
segundo. [MIRANDA, 2001]; e
- comprimento de onda: corresponde distncia de um ponto qualquer de
um ciclo onda at o ponto correspondente do ciclo adjacente. representado pela letra
grega .
A velocidade de propagao da onda sonora corresponde velocidade
com que o som se propaga. Essa velocidade no depende das caractersticas da onda
sonora, porm, depende da presso e densidade do ar que so influenciados pela
temperatura e altitude. Em um ambiente com a altitude prxima ao nvel do mar e
temperatura ambiente (25), o som se propaga a 340 m/s, aproximadamente.
Freqncia e perodo guardam entre si a relao:
1/ f T = (1.2)
No Sistema Internacional (SI), f medida em Hertz e T em segundos, e o
comprimento de onda dado por
v T = (1.3)
em que
v
a velocidade de propagao.
A Figura 1.12 ilustra os parmetros descritos acima, sendo Figura 1.12 (a)
diagrama no espao; e Figura 1.12 (b) diagrama no tempo. As distores assimtricas
so tpicas de ondas acsticas reais.

Figura 1.12: Onda sonora (a) no espao (b) no tempo

(a)

(b)
assimetria real

24

Muitos objetos em movimento peridico oscilam, como por exemplo, a
corda do violo, o balano, o pndulo do relgio. Um objeto tambm pode oscilar em
um movimento circular, como por exemplo, um parafuso em um volante giratrio
interpretando um movimento uniforme e anti-horrio (Figura 1.13). A esse Movimento
Circular Uniforme (MCU) estar associada a seguinte velocidade angular (mega)
constante:

2
2
f
T
= =
(1.4)
sendo que T o perodo e f a freqncia.

Figura 1.13: Volante ou Manivela [BASILIO JOAQUIM,SARTORI,2003,p.4]

Denomina-se Movimento Harmnico Simples (MHS) o movimento
oscilatrio unidimensional, de perodo igual a T e freqncia igual a f, realizado pela
sombra do parafuso em relao a um plano base [JOAQUIM E SARTORI, 2007]
[ROEDERER,1998]. A funo horria que caracteriza esse movimento pode ser
observada na Figura 1.14.
(a) (b)
Figura 1.14: Crculo Trigonomtrico (a) senide (b) fase inicial [BASILIO
JOAQUIM,SARTORI,2003,p.4]

Uma vez que o ponto P da Figura 1.14 realiza um MCU, o ngulo
varia com o tempo segundo a funo:

25
0 t = +
(1.5)

O ngulo
0
representa o ngulo ou fase inicial, ou seja, o valor do
ngulo no tempo t=0, e a velocidade angular do movimento circular uniforme
em rad/s (radianos por segundo), dada pela equao 1.4.
O MHS tambm pode ser visualizado atravs do movimento que a
projeo do ponto P realiza em relao ao dimetro AB, enquanto P desempenha seu
movimento circular uniforme. Assim, se x representa a distncia entre o centro da
circunferncia e o ponto Q, o uso da trigonometria permite que:

cos( ) / x a = ou cos( ) x a = (1.6)

Uma vez conhecido que = t +
0
, a distncia x pode ser expressa da
seguinte forma:

0 0 cos( ) cos(2 ) x a t a ft = + = + (1.7)

O movimento em torno do eixo x, que determina o MHS, pode, ento,
ser representado por uma cossenide, tal que:
a= amplitude;
= velocidade angular (ou freqncia angular);
0
=

fase inicial.
Esse movimento seria representado por uma senide se o mesmo fosse
realizado em torno do eixo vertical y.
As ondas sonoras possuem quatro principais atributos que afetam a
maneira de como elas so percebidas [BENSON,2007]. Esses atributos esto listados
na Tabela 1.1 e esto descritos nas sesses 1.3.1, 1.3.2, 1.3.3 e 1.3.4. O primeiro
deles a amplitude, o qual determina a potncia da vibrao, e percebido como
intensidade. O segundo atributo a altura que corresponde freqncia da vibrao.
O terceiro atributo o timbre, o qual corresponde ao formato da onda sonora. O quarto
a durao, que significa o intervalo de tempo em que uma nota soada.
Segundo Benson [2007], essas noes dos atributos sonoros precisam
ser alteradas por vrias razes. Uma delas o fato de que a maioria das vibraes
sonoras no possui uma nica freqncia. Alm disso, Benson [2007] relata que esses
atributos deveriam ser definidos em termos de percepo sonora, e no em termos da
onda sonora propriamente dita. Por exemplo, a percepo de altura de um som pode
representar uma freqncia no necessariamente presente na onda sonora,

26
caracterizando um fenmeno conhecido como ausncia da fundamental
5
e parte de
um tema chamado, em ingls, de psychoacoustics.
Tabela 1.1: Atributos do som
Fsicos Perceptivos
Amplitude Intensidade
Freqncia Altura
Espectro Timbre
Durao Durao

1.3.1 A intensidade

Uma das principais caractersticas da intensidade corresponde distino
de sons fortes e de sons fracos. Em msica, a intensidade est relacionada com a
dinmica. A dinmica a forma de manipular a intensidade sonora na execuo
musical. Essa caracterstica est relacionada com a amplitude da vibrao sonora, ou
seja, a percepo de sons fortes ou fracos est diretamente relacionada com a potncia
acstica presente no sinal. Vale ressaltar que sons com diferentes amplitudes podem
possuir a mesma freqncia, como na Figura 1.15:

(a) (b)
Amplitude de grande intensidade Amplitude de pequena intensidade
Figura 1.15: Sinais com mesma freqncia mas com amplitudes diferentes

As Figuras 1.15 (a) e 1.15 (b) podem representar o teclar forte e fraco,
respectivamente, de uma nota do piano. Esses dois sons possuem a mesma freqncia
e comprimento de onda. Suas amplitudes so diferentes para representar a intensidade
6

do som. O sinal representado por uma forma de onda mais intensa ou mais cheia tem

5
Um som dito ter ausncia da fundamental (missing fundamental, em ingls) quando possvel
determinar a altura da nota, mesmo quando a componente fundamental no est presente.
6
A intensidade das notas que compem uma msica componente importante da execuo dessa
msica, pois contribui para despertar emoes e expectativas no ouvinte. A intensidade de uma nota
pode ser controlada, no violo, pela fora exercida sobre a corda ao toc-la, no violino, pela fora do arco
sobre a corda, no piano, pela fora com que a tecla tocada, etc.

27
amplitude maior que a do outro sinal. Esse trabalho tambm ir considerar como
dinmica as variaes de andamento
7
(andante, allegro, moderado), e as articulaes
8

(legato, staccato). Algumas manifestaes da dinmica esto expressas na partitura da
Figura 1.16:

Figura 1.16: Exemplos de dinmicas musicais

Em homenagem a Alexander Graham Bell a unidade fundamental de
medida da intensidade do som no SI o Bell, cujo smbolo B. Uma potncia de 10
-12

2
/ W m representa 0B (zero Bell), e est aproximadamente dentro da regio do som mais
fraco que o ouvido humano consegue captar. Adicionar 1B equivale a multiplicar a
potncia por um fator de dez. Portanto, multiplicar a potncia por um fator k equivale a
adicionar
10
log k Bell ao sinal. Na prtica, utilizado comumente o submltiplo dB
(decibel). Assim, a escala logartmica, e n decibis representa uma potncia de
( /10) 12
10
n 2
/ W m [BENSON,2007].
O limite de audio indica a intensidade do som mais fraco que o ser
humano consegue ouvir. O valor desse limite em decibis varia de acordo com a
freqncia do sinal. O ouvido humano sensvel a freqncias um pouco acima de 2000
Hz, quando o limite de audio de uma pessoa normal de aproximadamente 0 dB. Aos
100 Hz o limite de aproximadamente 50 dB, e aos 10000 Hz, de aproximadamente 30
dB. Uma conversao atinge em torno de 60 70 dB, e o limiar da sensao de dor
de 130 dB.

7
O andamento corresponde velocidade com que a msica tocada.
8
As articulaes so maneiras de como uma nota ou grupo de notas emitido, enfatizado.
Allegretto: uma das formas
de andamento.
p: Indicao de pouca
intensidade (piano)
: Indicao de
aumento de velocidade.
cresc.: Indicao de
aumento de intensidade
dim.: Indicao de
diminuio de intensidade
: Indicao de
diminuio de velocidade.

28
1.3.2 A freqncia

Tal como descreve Paula Filho [2000], Smith [1997], Joaquim e Sartori
[2003], a freqncia corresponde percepo de sons agudos ou graves. Quando as
senides se apresentam mais comprimidas horizontalmente (menor perodo), a
percepo para sons mais agudos e o contrrio para sons mais graves. Assim, os
sons graves possuem baixas freqncias, e os sons agudos possuem altas freqncias.

Figura 1.17: Sinais com diferentes freqncias

A Figura 1.17 mostra dois sinais com diferentes freqncias. Pode-se
observar que a freqncia do sinal representado pelo trao de cor preta maior que a
do outro sinal, representado pela cor azul. Assim, esse sinal com freqncia maior
representa um som mais agudo em comparao com o sinal de cor azul, o qual
representa um som mais grave.

Quando uma nota em um instrumento de cordas ou de sopro produzida
numa certa altura, com freqncia f , o som essencialmente peridico nessa
freqncia. A teoria da Srie de Fourier relata que tal som pode ser decomposto em
uma soma de senos e cossenos com amplitudes adequadas (ou de senos com
amplitudes e fases adequadas), cujas freqncias so mltiplos da freqncia f . A

Figura 1.18: A freqncia fundamental do C3 (125 Hz) e sete dos seus harmnicos: C4 (250 Hz),
G4 (375 Hz), C5 (500 Hz), E5 (625 Hz), G5 (750 Hz), Bb5 (875 Hz), C6 (1000 Hz). [SANO E
JENKINS, 1989]
Amplitude
Tempo

29
componente desse som com freqncia f denominada fundamental e determina a
altura da nota. A componente com freqncia nf representa o n -simo harmnico.
A Figura 1.18 representa a srie de harmnicos baseada na fundamental
C3 (d na terceira oitava), representada pelo nmero 1. O segundo harmnico o C4,
representado pelo nmero 2, e assim por diante. O stimo harmnico , na verdade,
algo bem prximo do Bb4 (Si bemol na quarta oitava). Na moderna escala de doze
temperamentos iguais
9
, at mesmo o terceiro e quinto harmnico so levemente
diferentes das novas G (sol) e E (mi) [BENSON,2007] [SANO E JENKINS,1989].
O ouvido humano consegue distinguir freqncias no intervalo
aproximadamente entre 20 Hz e 20000 Hz (ou 20 kHz). Para freqncias fora desse
intervalo, no h ressonncia na membrana basilar do ouvido. Esses intervalos variam
de pessoa para pessoa e tambm so influenciados pela idade. Contudo, raramente
composies musicais utilizam freqncias maiores que 4000 Hz [MIRANDA, 2001]
[BENSON, 2007].

1.3.3 O Timbre

O timbre est relacionado com a origem do som, ou seja, a fonte sonora.
o timbre que possibilita distinguir sons com a mesma altura e a mesma intensidade e
durao tocados por instrumentos diferentes. Miranda [2001] afirma que o timbre
representa o domnio da percepo imediata, e que talvez essa percepo imediata
esteja relacionada com o fato de que os sons podem indicar perigo, ateno, entre
outros. Assim, natural que o ser humano seja capaz de distingui-lo rapidamente e
reagir ao que est causando tal som.
Conforme anteriormente mencionado, a grande maioria dos sons no
possui uma freqncia pura, ou seja, o som composto por vrias freqncias. A
primeira freqncia, que a mais baixa de todas, a fundamental (1 harmnico) e
determina a altura do som. As demais freqncias so mltiplas dessa fundamental e
so denominadas freqncias harmnicas ou harmnicos. Ento, o som produzido no
tem a forma de uma onda senoidal, pois esse som um som composto, e sua forma de
onda, apesar de continuar sendo peridica, depender do instrumento origem. O timbre
ser determinado pelo nmero de harmnicos presentes no som e tambm pela

9
Temperamento a diviso de uma oitava atravs do ajuste de intervalos entre as notas. Na escala de
doze temperamentos iguais a oitava dividida em 12 semitons iguais, ou seja, cada semitom corresponde
a um intervalo de 2
1/12
.

30
amplitude de cada um desses harmnicos
10
(obtidos pela expanso em srie do Fourier
do sinal sonoro).

Figura 1.19: O timbre (a) Sons do piano (b) Sons do violo [BASLIO JOAQUIM, SARTORI,
2003]

A Figura 1.19 ilustra duas formas de onda que correspondem a dois sons
que possuem a mesma amplitude e freqncia, porm tocados por instrumentos
diferentes. Portanto, possuem formas de onda diferentes. Um som rico em harmnicos
quando sua forma de onda complexa, representando assim a composio de muitas
componentes harmnicas. Se a forma de onda similar a uma senide, ento o som
pobre em harmnicos, pois isso significa que este som quase no possui componentes
harmnicas.
A Figura 1.20 mostra essa comparao. Na Figura 1.20 (a) tem-se uma
senide simples, e em Figura 1.20 (b) tem-se uma onda complexa com o mesmo
perodo, formada por senides de deferentes freqncias.

Figura 1.20: O timbre (a) Senide (b) Onda complexa [BASILIO
JOAQUIM,SARTORI,2003]

1.3.4 A durao

Conforme Miranda [2001], em msica a durao o tempo em que uma
nota tocada ou o tempo entre duas notas (pausas). A durao o elemento que
determina o ritmo. A relao de durao entre as figuras musicais (representao
grfica das notas musicais com informao de durao) pode ser observada na Figura

10
A distino do timbre tambm influenciada pelo envelope sonoro, que caracteriza como o som se
inicia, se mantm e termina ao longo do tempo. O envelope composto basicamente de quatro elementos:
ataque, decaimento, sustentao e relaxamento [ROEDERER,1998] [BENSON, 2007].
a b

31
1.21 (a), onde o nmero indica a quantidade de notas necessrias para a durao
correspondente primeira figura (semibreve). Cada figura musical tem uma figura de
pausa correspondente como ilustrado na Figura 1.21 (b).

(a)

(b)
N Nome da Figura Figura Pausa Durao
1 Semibreve
1
1

2 Mnima
2
1

4 Semnima
4
1

8 Colcheia
8
1

16 Semicolcheia
16
1

32 Fusa
32
1

64 Semifusa

64
1

Figura 1.21: As figuras musicais (a) Relaes entre as figuras musicais
(b) nmeros, nomes, figuras musicais e pausas, e duraes
correspondentes

Miranda [2001] ainda menciona sobre o domnio do pulso, que est
relacionado com a durao das notas. Nesse domnio tem-se a idia de que altura e
ritmo so considerados como um fenmeno contnuo do domnio do tempo. Geralmente

32
tem-se o auxlio de um contador de tempo, que indica a velocidade do pulso. Carpinteiro
[1995] trabalha com esse domnio do pulso, como ser visto mais adiante. O ser
humano consegue identificar ritmos distintos em at aproximadamente 10 ciclos por
segundo. Apesar desse limite, os seres humanos se sentem mais confortveis com
freqncias que esto prximas das batidas do corao, que alcanam,
aproximadamente, de 30 batidas at 240 batidas por minuto [0,5 Hz (30 x 1/60), e 4 Hz
(240 x 1/60)]. Portanto, os ritmos musicais geralmente estaro nesse intervalo, ou seja,
de 4 pulsos por segundos (4 Hz) e um pulso a cada dois segundos (0,5 Hz).
Logo, a noo de tempo est relacionada com a quantidade de batidas.
Aps a inveno do metrnomo de Maezel em 1810, a indicao do tempo se tornou
mais precisa e pode estar indicada, numa partitura, em batidas por minuto pela
abreviao M.M. (metrnomo de Maezel), a figura de referncia para a batida e um
nmero. Por exemplo, M.M. =126 indica um tempo de 126 batidas por minuto.
[MIRANDA, 2001]. Um exemplo dessa indicao pode ser observado na Figura 1.22.
Nessa partitura a semnima ( ) a unidade de tempo e vale 1/126 minuto, um pouco
menos que meio segundo.
Figura 1.22: Possvel indicao do tempo em uma melodia

Essas batidas so divididas em grupos, formando assim, os compassos
11
.
No comeo da partitura da Figura 1.23, logo aps a clave, existem dois nmeros que
indicam o compasso dessa msica: o numerador indica a quantidade de tempos dentro
de um compasso (unidade de compasso) e o denominador indica a unidade de
referncia para a batida (unidade de tempo), ou seja, a figura de som que representa
uma unidade de tempo. Um exemplo das relaes entre as figuras musicais pode ser
observado na Figura 1.23:

11
Compasso a diviso da melodia em tempos iguais. Cada compasso possui a mesma quantidade de
tempos. E a durao de todas as notas dentro de um compasso deve somar essa quantidade. Exemplo:

33

Figura 1.23: Exemplos da relao entre as figuras musicais

1.4 SRIE DE FOURIER

Segundo Joaquim e Sartori [2003], em sua grande maioria, os sinais
eltricos so representados no domnio do tempo. Porm, em algumas reas
relacionadas com processamento de sinais, a anlise dos sinais se torna mais fcil
quando esses passam a ser representados no domnio da freqncia. A anlise do
domnio da freqncia mais simples e direta e traz informaes sobre as
componentes senoidais envolvidas em um sinal, e atravs dessa anlise, possvel
observar as propriedades e parmetros dos sinais, os quais dificilmente sero
possveis de observar no domnio do tempo. Para a anlise no domnio da freqncia,
a anlise e a transformada de Fourier so essenciais.
Jean Baptiste Joseph Fourier (1768-1830) contribuiu para uma das mais
valiosas descobertas quando se trata de sinais: qualquer funo peridica pode ser
decomposta em componentes de ondas senoidais que possuem amplitudes variadas e
freqncias que so mltiplas da freqncia da fundamental. Isso constitui a srie de
Fourier.
Para uma funo peridica, x(t), com perodo T, a srie de Fourier
consiste em:
0
0 2 0 1 0 2 0
1
( ) cos(2 ) cos(2 2 ) ... sen(2 ) sen(2 2 ) ...
2
a
x t a f t a f t b f t b f t = + + + + + + (1.7)
0
/ 2 a = valor mdio da funo;
1
,
1
b = amplitudes do primeiro harmnico ou a componente
fundamental;
2
,
2
b = amplitude do segundo harmnico;
3
,
3
b = amplitude do terceiro harmnico;
0
f = 1/T, freqncia fundamental do sinal;
A equao 1.8 tambm pode ser escrita da seguinte forma compacta:

|
0
0 0
1
( ) cos(2 ) sen(2 )
2
n n
n
a
x t a nf t b nf t
=
= + +
(1.8)

34

imprescindvel que o sinal seja peridico. Diz-se que uma funo ( ) x t
peridica se existe um nmero T tal que ( ) ( ) x t x t T = + , para todo t . Como a srie
de Fourier pode ser definida dentro de um intervalo possvel, no h necessidade da
verificao da periodicidade o tempo todo.
Outros pontos devem ser observados e esto ilustrados na Figura 1.24:
- se h descontinuidades, a funo deve ter um nmero finito delas
dentro de um perodo.
- a funo deve ter um nmero finito de mximos e mnimos dentro de
um perodo.
- possibilidade da integrao de uma funo em um perodo, tal que

( )
t T
t
x t dt
+
<
(1.9)

em que ( ) x t descreve a funo.

Figura 1.24: Requisitos para a Srie de Fourier [BASLIO

Uma simplificao da srie de Fourier pode ser descrita por:
0 0
1
( ) cos(2 ) n n
n
x t E E nf t
=
= + +
(1.10)

0
E =
2
/2;
n
E = amplitude do n -simo harmnico;
n
= fases do n -simo harmnico.

35
As informaes de amplitude e fase esto presentes em cada um dos
termos.

possvel utilizar a Srie de Fourier somente com os senos ou somente
com os cossenos. Para isso, necessrio utilizar a fase. A fase nada mais que um
deslocamento da onda sonora. Isso parte da seguinte relao trigonomtrica para a
soma de arcos:
sen( ) sen( ) cos( ) sen( ) cos( ) a b a b b a + = + (1.11)
Para obteno dos coeficientes da srie mostrada na equao 1.9, vale
ressaltar que os termos
) 2 cos( 0t nf
e
) 2 ( sen 0t nf
formam uma base ortogonal
completa, isto :

/ 2
0 0
/ 2
0,
cos(2 ) cos(2 )
/ 2,
T
T
nf t mf t dt
T

0
se m n
se m n
=
(1.12)

/ 2
0 0
/ 2
0,
sen(2 ) sen(2 )
/ 2
T
T
nf t mf t dt
T

0
se m n
se m n
=
(1.13)

/ 2
0 0
/ 2
sen(2 ) cos(2 ) 0
T
T
nf t mf t dt
(1.14)

Para n = 0,1,2,3,4,5..., os coeficientes
n
a
da Srie so obtidos da
seguinte forma:

/ 2
0
/ 2
2
( ) cos(2 )
T
n
T
a x t nf t dt
T

=

(1.15)

E para o
0
a , que equivale ao termo mdio da funo ( ) x t , a expresso
a mesma, e o parmetro n ter valor 0.
Para 1, 2, 3, 4... n = , os coeficientes
n
b da Srie so obtidos da seguinte
forma:

/ 2
0
/ 2
2
( ) sen(2 )
T
n
T
b x t nf t dt
T

=

(1.16)

E os coeficientes
n
E , e
n
da seguinte forma:

36
2 2
n n n
E a b = + e
n
n
n
b
arctg
a
= (1.17)

Tomando o instante zero como referncia, necessria uma
informao adicional da posio da senide, em relao a esse instante. Essa
informao obtida atravs da fase. A fase indica a posio inicial da harmnica no
instante inicial considerado. Por conveno a fase ser negativa quando o pico
positivo mais prximo acontecer depois do instante zero, ou seja, a senide est
atrasada. Ser positiva quando o pico positivo mais prximo acontecer antes do
instante zero, ou seja, a senide est avanada. Tanto a fase e a amplitude de uma
componente so representadas, no domnio da freqncia, por um impulso com
amplitude igual da senide, e a abscissa desse impulso ser a freqncia
correspondente da senide. A Figura 1.25 ilustra alguns exemplos de fases.

Figura 1.25: Exemplos de fases [BASILIO JOAQUIM,SARTORI,2003,p.3]

Um sinal no senoidal (exemplificado na Figura 1.26) composto por
uma srie de componentes senoidais com amplitudes, freqncias e fases
determinadas. Esse sinal passa a ter cristas e vales. Se um sinal eltrico dito
peridico, ento ele pode ser representado.

37

Figura 1.26: Composio de dois sinais senoidais [BASILIO

A figura 1.27 a seguir ilustra o sinal resultante da figura anterior no domnio do tempo.

Figura 1.27: Sinal resultante no senoidal [JOAQUIM;SARTORI,2003,p.5]

A esse processo possvel adicionar muitas senides, e os resultados sero
sempre diferentes, ou se simplesmente houver uma alterao na freqncia, amplitude
ou fase das componentes senoidais, essas alteraes tambm implicam em uma onda
resultante diferente (Figura 1.28).

38

Figura 1.28: Soma de dois sinais senoidais com variao na fase de uma das
componentes [JOAQUIM,SARTORI,2003,p.6]

1.4.1 - Propriedades da srie de Fourier

Ainda segundo Joaquim e Sartori [2003], algumas propriedades em
relao Srie de Fourier devem ser consideradas, entre elas:

1 - Para calcular os coeficientes da srie de Fourier de uma funo
peridica importante que a integrao possa ser efetuada dentro de um intervalo de
tempo que corresponde a um perodo do sinal. Assim, sinais peridicos determinam
que,

( ) ( ) ( ) ( )
0
0
0 0
0
cos 2 cos 2
t T T
t
x t nf t dt x t nf t dt
+
=

0
t (1.18)

( ) ( ) ( ) ( )
0
0
0 0
0
sen 2 sen 2
t T T
t
x t nf t dt x t nf t dt
+
=

0
t (1.19)

2 Se uma funo par, todos os coeficientes
n
b da Srie de Fourier
sero nulos. Sendo assim, haver somente os termos
n
a dos cossenos. Uma funo
par se: ( ) ( ), x t x t t = .

3 - Se uma funo mpar, todos os coeficientes
n
a da Srie de Fourier
sero nulos, sendo assim, haver somente os termos
n
b dos senos. Uma funo
mpar se, ( ) ( ), x t x t t = .

39

1.5 O SISTEMA AUDITIVO HUMANO

Uma faculdade comum, porm muito interessante que est presente no
ser humano a habilidade de reconhecer, reproduzir e analisar melodias ou pedaos de
msicas. Longuet-Higgins [1979] e Temperley [2001] mencionam que essa habilidade
abrange tanto a capacidade de identificar ritmos, relao entre as tonalidades, alturas,
harmonia, quanto julgar se uma nota ou frase foi tocada fora do tempo ou est fora de
tonalidade.
Goga e Goga [2004] dizem que a msica sentida pela poro do
crebro responsvel pelos sentimentos, e no simplesmente visualizada pela poro
cerebral responsvel pela razo e inteligncia. Para esses autores, os compositores
podem influenciar o ser humano, no sentido de trazer alegrias, paz, tristeza, melancolia,
entre outros. Os autores ainda afirmam que a circulao sangnea e respirao podem
sofrer influncias dependentes do tipo de msica escolhida pelo ouvinte. Por isso
tambm importante que as composies musicais sejam bem planejadas e estudadas.
O ouvido dividido basicamente em trs partes (Figura 1.29): ouvido
externo, ouvido mdio ou tmpano e ouvido interno, ou labirinto [LENT,2002]
[BENSON,2007]. O ouvido externo representa a parte visvel, composto pelo pavilho
auricular, pela concha e pelo meato auditivo externo, onde as ondas sonoras so
concentradas, amplificadas e transmitidas para os receptores. O meato auditivo externo
possui aproximadamente 2,7 cm e termina no tmpano ou membrana timpnica que
vibra ao ser incidida por um estmulo sonoro. O tmpano separa o ouvido externo do
ouvido mdio. O ouvido mdio representa uma cavidade cheia de ar na qual esto
localizados ossculos articulados entre si (martelo, bigorna e estribo), responsveis por
transmitir as vibraes do tmpano para outra membrana que veda um orifcio
denominado janela oval. Essa membrana da janela oval separa o ouvido mdio do
ouvido interno, representado pela cclea. A cclea uma cavidade ssea em forma de
caracol onde esto os receptores auditivos. Um de seus propsitos separar o som em
vrias componentes de freqncias antes de transform-lo em impulso nervoso.

40

Figura 1.29: O ouvido [LENT,2002,pp.190]

Portanto, a deteco de freqncia desempenhada por vibraes da
membrana basilar na cclea do ouvido. A membrana basilar mais estreita e rgida na
base do que no pice da cclea. Na Figura 1.30 (a) est ilustrada a cclea, que o
rgo receptor do sistema auditivo. Na Figura 1.30 (b) est ilustrado o corte de uma
volta da cclea, em que se pode observar a membrana basilar. As freqncias mais
baixas, os sons mais graves, fazem vibrar regies da membrana basilar prximas ao
pice da cclea e no conseguem mover com facilidade as regies prximas base,
conforme observado na Figura 1.31 (a). Ao contrrio, as freqncias mais altas, os sons
mais agudos, fazem vibrar regies da membrana basilar perto da base e menos a regio
perto do pice, conforme observado na Figura 1.31 (b) [LENT, 2002].

Figura 1.30: Parte do sistema auditivo humano. (A) A cclea e (B) Mostra de um corte
transversal da cclea. [LENT, 2002]

41

Figura 1.31: A tonotopia representa uma especializao da membrana basilar: os sons
mais graves fazem vibrar o pice (A), e os mais agudos movimentam a base (B). [LENT,
2002]

Ainda segundo Longuet-Higgins [1979], algumas teorias para o
entendimento da percepo musical podem ser consideradas. Sobre a percepo da
tonalidade, considera-se a Figura 1.32 como ilustrao. Nessa figura so mostradas as
notas musicais nas linhas numeradas de y=-2 a y=3 e nas colunas numeradas de x =- 3
a x=4, onde um intervalo numa linha corresponde a uma quinta (7 semitons) e um
intervalo numa coluna corresponde a uma tera maior (4 semitons). A principal
associao que o ouvinte interpreta ao ouvir cada nota est associada com a tonalidade
estendida das primeiras duas notas, porm se as notas se moverem drasticamente no
espao harmnico, o ouvinte ser forado a buscar uma nova tonalidade de acordo com
os intervalos menos remotos. Por exemplo, a tonalidade estendida de C
12
, abrange as
notas referentes escala de C maior e notas referentes escala de C menor mais duas
notas extras, como ilustrado do retngulo da Figura 1.32. Portanto, o ouvinte comea a
ouvir uma seqncia de notas e assume que a primeira nota seja a tnica
13
da
tonalidade e atribui essa tnica a tonalidade estendida. Se a segunda nota for
coerente com a hiptese levantada, por exemplo, se representar a nota mais a direita da
tnica ou a imediatamente acima dela, ento a hiptese mantida. Caso contrrio, a

12
Notas da escala de C maior: C-D-E-F-G-A-B. Notas da escala de C menor: C-D-Eb-F-G-Ab-Bb. As
duas notas extras (Db e F#) do exemplo da Figura 1.32 no pertencem a nenhuma dessas duas escalas .
13
A escala musical uma seqncia de 7 notas sucessivas. A tnica o primeiro grau da escala musical
e determina o tom ou a tonalidade da msica.

42
primeira nota estar mais propcia para ser a dominante, ento a tonalidade estendida
ser movida uma nota para a esquerda no espao harmnico.

Figura 1.32: Espao harmnico sugerido por Longuet-
Higgins [1979]

Assim, tanto a percepo de tonalidade quanto a percepo de ritmo
14

envolve a interao entre o que o ouvinte est ouvindo e ponto de referncia e
conhecimento criado por ele. Para a percepo de ritmo, esse ponto de referncia o
tempo e o metrnomo e na percepo de tonalidade o ponto de referncia a escala
formada pela tonalidade estendida LONGUET-HIGGINS [1979].
Griffith e Todd [2001] estudaram a percepo da altura ou tonalidade
relacionando-as com o reconhecimento do instrumento musical. Os autores tambm
mencionam sobre a capacidade dos seres humanos em reconhecer um centro tonal e a
funo de cada altura dentro desse centro, de memorizar melodias e reproduzi-las
corretamente e dos diferentes parmetros que os humanos utilizam para indicar se uma
melodia oferece boa ou m qualidade. Sobre todos esses aspectos e todas as
habilidades de compositores musicais humanos, Griffith e Todd [2001] discutem as
dificuldades e pesquisas realizadas para sistemas de composio artificial.
Sano e Jenkins [1989] propuseram um modelo de rede neural para
examinar os estmulos sensitivos na percepo da altura com nfase na sua
representao neural. A tarefa da rede neural proposta determinar qual a altura e
oitava dessa altura atravs de simulaes dos estmulos da membrana basilar.
Scarborough, Miller e Jones [1989] propuseram uma rede neural para
anlise de tonalidade em uma melodia. A melodia geralmente escrita em uma
tonalidade, e essa tonalidade define uma relao entre as notas e acordes presentes
nela. Os humanos conseguem identificar a tonalidade de uma melodia porque

14
A percepo de ritmo estudada por Longuet-Higgins [1979] semelhante a percepo da tonalidade.
Para identificar um ritmo de uma seqncia musical, o ouvinte precisa conhecer a batida dessa pea. Se
o ouvinte pode identificar duas notas que ocorrem em sucessivas batidas, ser possvel descobrir quando
a prxima batida ser realizada. Caso contrrio, se outra nota soada naquela batida, ser necessrio
identificar o tempo dessa nota no comeo da prxima batida e atualizar, se necessrio, sua estimativa de
tempo.

43
conseguem capturar essa relao. Portanto, a rede neural busca identificar a
tonalidade ao obter a relao entre notas e acordes de uma tonalidade, atravs da
ocorrncia, disposio e durao dessas notas na melodia.
Bharucha e Todd [1989] sugerem que pessoas que no possuem
conhecimento sobre a estrutura de uma melodia so capazes de criar expectativas e
ter intuies sobre melodias de sua cultura quando so expostas a vrios exemplos
dessas melodias. Os autores propuseram um modelo de rede neural que buscasse
imitar essas expectativas atravs das tonalidades de uma cultura e que realizasse
predies de acordes dessa tonalidade durante uma melodia, como acontece com
humanos.

1.6 CONSIDERACES FINAIS

Esse captulo apresentou as propriedades do som e o movimento
harmnico simples. Tambm foi apresentada uma breve discusso sobre a Srie de
Fourier para sons peridicos e sobre o sistema auditivo do ser humano.
Verificou-se que a nota musical possui quatro principais atributos:
freqncia, durao, dinmica e timbre (ou seja, a fonte sonora). Esses atributos esto
relacionados com os parmetros perceptivos da audio. Portanto, tem-se que uma
msica abrange uma estrutura de notas caracterizada por um cuidadoso controle de
seus atributos. Nesse sentido, composio musical desenhada em uma partitura por
smbolos que representam arranjos de notas e os msicos aprendem a interpretar essa
partitura relacionando esses arranjos. Miranda [2001] em seu ponto de vista diz que
essa representao simblica na partitura no constitui a msica em si, mas sim oferece
instrues para os msicos realizarem as aes necessrias para que esses smbolos
sejam transformados em msica.
O trabalho prope uma abordagem para composies musicais
realizadas por computadores, com o auxlio de redes neurais artificiais. Para tanto, no
prximo captulo sero apresentados conceitos iniciais de redes neurais artificiais e
algumas abordagens j existentes para a aplicao de computao musical.

44

CAPTULO 2 - REDES NEURAIS ARTIFICIAIS


As redes neurais artificiais (RNAs), tambm conhecidas como sistemas
conexionistas, constituem uma forma de computao no-algortmica inspirada na
estrutura e processamento do crebro humano. Por no serem baseadas em regras
ou programas, as redes neurais oferecem uma alternativa computao algortmica
convencional.
As RNAs so sistemas de processamento paralelo e distribudo
compostos por unidades de processamento simples (neurnios) que calculam
determinadas funes matemticas e so capazes de armazenar o conhecimento
adquirido e torn-lo disponvel para uso. Essas unidades de processamento so
dispostas em uma ou mais camadas e interligadas por conexes sinpticas
associadas a pesos que so utilizados para ponderar a entrada recebida de cada
neurnio da rede e armazenar o conhecimento adquirido. [HAYKIN, 2001] [BRAGA,
LUDEMIR, CARVALHO, 2000]
Para que um problema seja resolvido, as RNAs passam por um
processo de aprendizagem que geralmente consiste em apresentar rede um
conjunto de exemplos para que ela consiga extrair desses exemplos caractersticas
necessrias para representar a soluo desejada. Geralmente, cada exemplo consiste
em uma entrada para a rede e uma correspondente resposta desejada. No
aprendizado, os pesos so ajustados adequadamente para representar essa soluo.
Uma vez treinada, a rede passa para a fase de aplicao propriamente dita, na funo
para a qual ela foi destinada, como classificao de padres, imagens, etc.
As RNAs, portanto, so capazes de aprender atravs de exemplos e
generalizar o conhecimento adquirido. A generalizao ocorre quando a rede
consegue produzir sadas adequadas para entradas que no pertenam ao conjunto
de treinamento.
A organizao desse captulo a seguinte: a sesso 2.2 apresenta a
base biolgica para o entendimento das redes neurais; a sesso 2.3 apresenta as
principais arquiteturas de redes; a sesso 2.4 apresenta os principais mtodos de
aprendizado; a sesso 2.5 apresenta a rede neural LSTM; e a sesso 2.6 apresenta
as consideraes finais desse captulo.

45
2.2 BASE BIOLGICA

O crebro humano possui grande habilidade em manipular problemas
sem a necessidade que regras sejam explicitamente formuladas, mas sim atravs de
exemplos. O crebro consegue reconhecer padres e relacion-los, armazenar o
conhecimento adquirido e utiliz-lo quando necessrio, desenvolver a percepo,
entre outros [HAYKIN, 2001] [BRAGA, LUDEMIR, CARVALHO, 2000].
O processamento da informao realizado atravs de unidades de
processamento, os neurnios. Cada neurnio recebe sinais de vrios outros neurnios
atravs das conexes sinpticas, combina essas entradas e envia outros sinais a
vrios outros neurnios. Portanto, a capacidade das sinapses serem moduladas a
principal base para todos os processos cognitivos, como percepo, raciocnio e
memria.
A estrutura individual de cada neurnio, a topologia das conexes
sinpticas e o comportamento conjunto desses neurnios formam a base de estudos
em Redes Neurais Artificiais.
Uma representao bsica de um neurnio biolgico est ilustrada na
Figura 2.1. Um neurnio dividido praticamente em corpo da clula, dendritos e
axnio. Os dendritos possuem a funo de receber as informaes, os estmulos
nervosos, transmitidos por outros neurnios e conduzi-los at o corpo celular. O corpo
celular, tambm conhecido como soma, coleta a informao recebida dos dendritos e
gera novos impulsos. Estes impulsos so transmitidos para outros neurnios atravs
do axnio.
O ponto de contato entre a terminao axnica de um neurnio e o
dendrito de outro conhecido como sinapse. As sinapses unem os neurnios,
formando redes neurais. As sinapses so capazes de controlar a transmisso de
impulsos entre os neurnios da rede. Os impulsos que chegam ao neurnio atravs
dos dendritos so somados no corpo celular, e caso a soma seja maior do que um
determinado valor limiar, o neurnio ativado e dispara um impulso que caminha pelo
axnio at a sinapse, para transmitir o sinal a outro neurnio.
O neurnio que envia um impulso recebe o nome de neurnio pr-
sinptico e o neurnio receptor do impulso recebe o nome de neurnio ps-sinptico.

46

O modelo de neurnio MCP proposto por McCulloch e Pitts [1943]
uma simplificao do neurnio biolgico e est ilustrado na Figura 2.2. Os dendritos
so representados pelos n terminais de entrada
n
x x x ,..., ,
2 1
e o axnio representado
pela sada y . A dinmica das sinapses simulada pelos pesos
n
w w w ,..., ,
2 1

associados aos terminais de entrada. Os pesos podem ser positivos (excitatrios) ou
negativos (inibitrios). O efeito de uma sinapse particular i no neurnio ps-sinptico
dado por
i i
w x . O neurnio biolgico dispara quando a soma dos impulsos recebidos
pelo corpo celular ultrapassa o seu limiar de deciso (threshold). O corpo celular no
MCP simulado pela soma ponderada dos valores
i i
w x recebidos e decide se o
neurnio deve ou no disparar comparando a soma resultante com o limiar do
neurnio.
No neurnio MCP, a ativao obtida atravs de uma funo de
ativao degrau. Dependendo do valor resultante da soma ponderada das entradas do
neurnio, essa funo responsvel por ativar ou no a sada com valor 1, uma vez
que o modelo MCP manipula apenas valores binrios. No modelo original MCP a
condio de ativao dada pela seguinte funo linear:

1
n
i i
i
x w
=

(2.1)

em que n o nmero de entradas do neurnio,
i
w o peso associado entrada
i
x e
o limiar (threshold) do neurnio.

15
Disponvel em: http://www.icmc.usp.br/~andre/research/neural. Acesso: 12/02/2007.

Figura 2.1: Partes simplificadas de um neurnio biolgico
15

47

Figura 2.2: Neurnio de McCulloch e Pitts [BRAGA, LUDEMIR, CARVALHO, 2000, p.9]

A Figura 2.3 ilustra graficamente algumas das funes de ativao mais
utilizadas pelas redes neurais [TANG, TAN, YI, 2007].

(a) (b)

(c)
Figura 2.3: Exemplos de funes de ativao. (a) funo logstica (b) funo tangente
hiperblica (c) funo linear

Na Figura 2.3 (a) est ilustrada a funo de ativao logstica, que em
sua forma geral, definida por:
(2.2)

1
( )
1 exp( )
y x
ax
= =
+
0, a x >
1
1
ax
y
e
=
+
tanh( ) y x =
y ax b = +

48
O valor de sada fica no intervalo 0 1 y . Sua derivada computada
como se segue:

'
( ) (1 ) x ay y = (2.3)

Na Figura 2.3 (b) tem-se a funo de ativao tangente hiperblica,
definida como:
(2.4)

O valor de sada fica no intervalo 1 1 y . Sua derivada definida
como:

'
( ) (1 )(1 ) x y y = + (2.5)

Por fim, na Figura 2.3 (c) tem a funo de ativao linear, simplesmente
definida como:
( ) y x x = = e sua derivada
'
( ) 1 x = (2.6)

2.3 ARQUITETURA DE REDES NEURAIS

A definio da arquitetura de uma rede neural artificial importante,
uma vez que determina qual tipo de problema a rede capaz de resolver. Redes com
uma nica camada de neurnios MCP so somente capazes de resolver problemas
linearmente separveis. As redes neurais recorrentes so mais indicadas para a
resoluo de problemas que envolvem processamento temporal. A organizao dos
neurnios de uma rede neural tambm estabelece o algoritmo de aprendizado
adequado para trein-la [HAYKIN, 2001] [BRAGA, LUDEMIR, CARVALHO, 2000].
A arquitetura de uma rede neural pode ser definida atravs dos
seguintes parmetros: nmeros de camadas, tipo de conexo entre os neurnios e
topologia da rede.
Uma rede dita ser fortemente conectada quando todos os neurnios
de uma camada esto conectados com todos os neurnios da camada seguinte. Em
contraste, uma rede dita ser fracamente ou parcialmente conectada quando um
neurnio de uma camada est conectado apenas aos neurnios adjacentes da
camada seguinte.
Em geral, as redes neurais artificiais se classificam em trs arquiteturas:
(1) redes acclicas com uma nica camada; (2) redes acclicas com mltiplas
camadas; e (3) redes recorrentes ou cclicas.
1 exp( 2 )
( )
1 exp( 2 )
x
y x
x

= =
+

49
2.3.1 Redes Acclicas com uma Camada nica

Nessa arquitetura h uma camada de entrada de ns de alimentao e
apenas uma camada de sada de neurnios computacionais. Os ns da camada de
entrada correspondem aos neurnios sensoriais que possibilitam a entrada de sinais
na rede (no fazem processamento). O processamento realizado pelos neurnios
MCP da camada de sada. Essa rede est ilustrada na Figura 2.4.

Figura 2.4: Rede acclica com uma camada de neurnios [HAYKIN, 2001]

O perceptron, representado na Figura 2.5, pertence a essa categoria
de rede e foi primeiramente proposto por Frank Rosenblatt, em 1957. O perceptron
consiste em uma nica camada de neurnios com pesos sinpticos e bias ajustveis.
Se os padres de entrada forem linearmente separveis, o algoritmo de treinamento
possui convergncia garantida, isto , tem capacidade para encontrar um conjunto de
pesos que classifica corretamente os dados.

Figura 2.5: O perceptron [HAYKIN, 2001]
neurnio sensorial
neurnio de
processamento
w
k1
w
k2
w
km
f(u
k
)
x
1
x
2
x
m
u
k
w
k0
=b
k
y
k
sinais
de
entrada
pesos
sinpticos
juno
aditiva
(bias)
funo
de ativao
sada
w
k0
x
0
=+1
entrada fixa

50

O perceptron da Figura 2.5 inclui um bias (
k
b ) aplicado externamente.
Este bias tem o efeito de aumentar ou diminuir a entrada da funo de ativao,
quando positivo ou negativo, respectivamente. Considere as seguintes equaes,
representando um determinado neurnio k :
(2.7)

(2.8)

em que
1 2
, ,...,
m
x x x representam os sinais de entrada;
1 2
, ,...,
k k km
w w w so os pesos
sinpticos deste neurnio;
k
u representa a soma ponderada dos sinais de entrada e
dos pesos sinpticos;
k
b o bias; (.) a funo de ativao; e
k
y representa a sada
do neurnio. O bias
k
b permite um deslocamento sada
k
u , definida como:

k k k
v u b = + (2.9)

Dependendo se o bias
k
b positivo ou negativo, a relao entre o
potencial de ao
k
v do neurnio k e a sada da soma ponderada
k
u modificada
conforme ilustrado na Figura 2.6.

Figura 2.6: Deslocamento produzido pela presena de um bias [HAYKIN,2001]

2.3.2 Redes Acclicas com Mltiplas Camadas

Foi visto que os perceptrons de uma nica camada so capazes de
resolver apenas problemas linearmente separveis. A soluo de problemas no
linearmente separveis obtida por perceptrons com uma ou mais camadas
intermedirias. Camadas de neurnios que no pertencem nem a camada de entrada
nem a camada de sada so camadas de neurnios internos rede e so
denominadas camadas intermedirias, ou camadas escondidas (hidden layers)
[HAYKIN, 2001] [BRAGA, LUDEMIR, CARVALHO, 2000].
1
m
k kj j
j
u w x
=
=
( )
k k k
y u b = +

51
A arquitetura de rede acclica com mltiplas camadas se caracteriza
pela presena de uma ou vrias camadas escondidas. Os neurnios dessa camada
so chamados de neurnios escondidos. A funo dos neurnios escondidos intervir
entre a entrada externa da rede e a camada de sada. Geralmente, os neurnios de
cada camada escondida da rede recebem como entradas apenas os sinais da camada
precedente.
O perceptron de mltiplas camadas (Multi-Layer Perceptron MLP)
uma rede do tipo perceptron com pelo menos uma camada intermediria, onde o sinal
de entrada se propaga para frente atravs da rede, camada por camada. Essa rede
treinada com o algoritmo de retropropagao de erro (error back-propagation)
16
, que
baseado na regra de aprendizado por correo de erro (visto na seo 2.4).
A Figura 2.7 apresenta uma rede neural MLP totalmente conectada com
duas camadas escondidas.

Figura 2.7: Rede Neural MLP com duas camadas escondidas [HAYKIN,2001,p.186]

Segundo Haykin [2001] a aprendizagem de uma rede MLP pode ser
dividida em duas fases:
- de passos para frente, a propagao: nessa fase o padro de
atividade (vetor de entrada) aplicado aos ns sensoriais da rede e seu efeito se
propaga por toda a rede, camada por camada. Consequentemente, um conjunto de
sadas produzido como resposta da rede. Durante essa fase, os pesos sinpticos
so fixos.
- de passo para trs, a retropropagao: nessa fase os pesos sinpticos
so ajustados de acordo com uma regra de correo de erros. A resposta atual da
rede ento comparada com a resposta desejada e a diferena dessas duas
respostas produz o sinal de erro. Esse sinal ento propagado para trs atravs da
rede, contra a direo das conexes sinpticas. Os pesos sinpticos so ajustados

16
Tambm conhecido como retropropagao (back-propagation).

52
para que a resposta da rede esteja cada vez mais perto da resposta desejada. Como a
propagao do erro calculada no sentido inverso do sinal, o algoritmo denominado
de retropropagao do erro. Uma ilustrao das direes dos sinais dessas duas fases
pode ser observada na Figura 2.8.

Figura 2.8: Ilustrao das direes dos sinais do algoritmo de retropropagao: a
propagao de sinais funcionais e a retropropagao de sinais de erro [HAYKIN, 2001,
p.186]

No passo de propagao do sinal os pesos sinpticos mantm-se
inalterados, e cada sinal funcional calculado individualmente, neurnio por neurnio.
O sinal funcional da sada do neurnio j dado por:
(2.10)

em que ) (n v
j
o campo de ativao ou potencial de ao do neurnio j, dado por:
(2.11)

em que m o nmero total de entradas, exceto o bias, que so aplicadas ao neurnio
j, e ) (n w
ji
o peso sinptico que conecta o neurnio i ao neurnio j, e ) (n y
i
o sinal
de entrada do neurnio j ou o sinal funcional correspondente sada do neurnio i. Se
o neurnio j estiver situado na primeira camada oculta da rede,
0
m m = e o ndice i se
referir ao i-simo terminal de entrada da rede, ento:
(2.12)

em que ) (n x
i
representa o i-simo elemento do vetor de entrada. Se o neurnio j
estiver na camada de sada da rede, e o ndice j se referir ao j-simo terminal de sada
da rede, ento:
(2.13)

em que ) (n o
j
o j-simo elemento do vetor de sada.
A sada comparada com a resposta desejada ) (n d
j
, e o sinal de erro
) (n e
j
para o j-simo neurnio de sada obtido. Dessa forma, a fase de propagao
0
( ) ( ) ( )
m
j ji i
i
v n w n y n
=
=
( ) ( )
i i
y n x n =
( ) ( )
j j
y n o n =
( ) ( ( ))
j j
y n v n =

53
comea na primeira camada oculta da rede, com a utilizao do vetor de entrada e
termina na camada de sada, em que se calcula o sinal de erro de cada neurnio
dessa camada.
Ao contrrio, a fase de retropropagao do erro comea na camada de
sada da rede e os sinais de erro so passados para a esquerda no decorrer da rede,
a cada camada, e recursivamente calculando-se o (gradiente local) de cada
neurnio.
Se o neurnio j est localizado na camada de sada da rede, o sinal de
erro ) (n e
j
associado a esse neurnio pode ser calculado da seguinte forma:

(2.14)

Depois de calculado ) (n e
j
, o calculo do gradiente local ) (n
j

efetuado da seguinte forma:
(2.15)

em que )) ( (
'
n v
j j
a derivada da funo de ativao associada.
Se o neurnio j est localizado em uma camada oculta da rede, no
possvel determinar uma resposta desejada para esse neurnio e o gradiente local
) (n
j
para o neurnio j dado por:
(2.16)

A Figura 2.9 representa graficamente o fluxo do sinal de
retropropagao do erro.

Figura 2.9: Sinal de retropropagao do erro [HAYKIN,2001,p.193]

Os pesos sinpticos so ento alterados da seguinte forma:
(2.17)

( ) ( ) ( )
j j j
e n d n y n =
'
( ) ( ) ( ( ))
j j j j
n e n v n =
( ) '( ( )) ( ) ( )
j j j k kj
k
n v n n w n =

( ) ( ) ( )
ji j i
w n n y n =

54
em que representa a taxa de aprendizagem da rede.
O aprendizado resultado da apresentao repetitiva das amostras do
conjunto de treinamento em que cada apresentao de todo o conjunto de treinamento
denominada poca. O processo de aprendizagem repetido por vrias pocas e
termina quando um critrio de parada seja satisfeito.

2.3.3 Redes Recorrentes ou Cclicas

So redes que possuem pelo menos um lao de realimentao.
Uma das redes neurais recorrentes mais utilizadas a rede de Hopfield.
(Figura 2.10) na qual a resposta de rede depende sempre de seu estado no intervalo
de tempo anterior [BRAGA, LUDEMIR E CARVALHO, 2000].

Figura 2.10: Diagrama de uma rede Hopfield [BRAGA, LUDEMIR E CARVALHO, 2000, p.
89]

O algoritmo Back Propagation Through Time uma extenso do
algoritmo Back Propagation. utilizado para o treinamento de redes recorrentes e
efetua a operao temporal de uma MLP onde a topologia da rede acrescida de uma
camada a cada instante de tempo. Na figura 2.11 est representada uma rede MLP
estendida para trs tempos.

primeiro passo segundo passo terceiro passo
Figura 2.11: Exemplo de rede BPTT com extenso de trs tempos
x
1
z
1
z
2
x
2
z
3
y
1
y
2
entrada
x
1
z
1
z
2
x
2
z
3
y
1
y
2
x
1
z
1
z
2
x
2
z
3
y
1
y
2
sada

55

A Figura 2.12 ilustra graficamente uma rede BPTT para a resoluo da
funo do senide amortecido (Figura 2.13).

(2.18)

Figura 2.12: Exemplo de rede BPTT para a funo do senide amortecido [FAUSETT,
1994]

Figura 2.13: Funo senide amortecida [FAUSETT, 1994]

A entrada da rede representa valores da funo em vrios tempos
anteriores, e a sada o valor atual da funo. No exemplo da Figura 2.13 tm-se
quatro unidades de entrada e cinco unidades escondidas. O nmero de unidades
escondidas depende da freqncia da oscilao. Para = , sete unidades de
entrada so suficientes. Para 0, 5 = , a rede pode ter de dez unidades de entrada e
dez unidades escondidas. No tempo t,
1
x recebe o valor computado ) 1 ( t f de y ;
2
x
recebe o valor ) 2 ( t f de
1
x ;
3
x recebe ) 3 ( t f de
2
x ; e
4
x recebe ) 4 ( t f de
3
x .
A Figura 2.14 representa o algoritmo da senide amortecida.
z
1
z
2
z
3
x
4
x
3
x
2
z
4
x
1
z
5
y
sin( )
( )
t
f t
t
=
Amplitude
de sada
( ) f t
10
20
30
t

56

Figura 2.14: Algoritmo do Senide Amortecido [FAUSETT, 1994]

2.4 APRENDIZADO

O processo de aprendizagem de uma rede neural consiste em estimular
a rede para um determinado ambiente
17
, e ajustar iterativamente seus parmetros
como resultado dessa estimulao. Ento a rede responde de uma maneira diferente
ao ambiente, devido s mudanas ocorridas na sua estrutura interna [HAYKIN, 2001].
O aprendizado da rede pode ser supervisionado, no-supervisionado ou por reforo.

2.4.1 Aprendizado Supervisionado

No aprendizado supervisionado, a entrada e as sadas desejadas da
rede so conhecidas e o objetivo ajustar os parmetros da rede para aprender a
relao entre os pares de entrada e sada fornecidos. O aprendizado supervisionado
tambm conhecido como aprendizado com professor, que conhece o ambiente e
fornece o conjunto de exemplos entrada-sada desejada. O aprendizado feito
utilizando a regra de aprendizagem por correo de erro. Uma ilustrao grfica do

17
o ambiente que define o uso da rede. Por exemplo, se o objetivo for reconhecer caracteres, o
ambiente representar todos os caracteres que podem ser apresentados rede.
[AZEVEDO,BRASIL,OLIVEIRA,2000]

57
aprendizado supervisionado pode ser observada na Figura 2.15 [HAYKIN, 2001]
[BRAGA, LUDEMIR, CARVALHO, 2000].

Figura 2.15: Diagrama em blocos do aprendizado supervisionado [HAYKIN, 2001, p.
88]

2.4.1.1 Regra de Aprendizado por Correo de Erros

A regra de aprendizado por correo de erros procura minimizar a
diferena entre a soma ponderada das entradas pelos pesos (sada calculada pela
rede) e a sada desejada. Uma ilustrao dessa aprendizagem est representada na
Figura 2.16 [HAYKIN, 2001] [BRAGA, LUDEMIR, CARVALHO, 2000].

Figura 2.16: Aprendizagem por correo de erros [HAYKIN, 2001, p. 77]

Um vetor de entrada aplicado aos ns de fonte da camada de entrada
da rede neural que, por sua vez, acionam uma ou mais camadas de neurnios ocultos.
As camadas de neurnios ocultos acionam o neurnio da camada de sada k atravs
de um vetor de sinal ( ) n x . O argumento n representa o instante de tempo. O sinal de
sada do neurnio k representado por ( ) n y
k
. Esse sinal de sada, que representa a
ambiente professor
Sistema
de aprendizagem
Vetor de estado
do ambiente
Resposta
desejada
Resposta
real
Sinal de erro
-
+

58
nica sada da rede neural, comparado com a sada desejada, representada por
( ) n d
k
. O sinal de erro representado por ( ) n e
k
, de tal forma que:
(2.19)

O sinal de erro ( ) n e
k
aciona um mecanismo de controle para ajustar os
pesos sinpticos do neurnio k . Esses ajustes contribuem para que, passo a passo, o
sinal de sada ( ) n y
k
esteja prximo da sada desejada ( ) n d
k
. Isso possvel atravs
da minimizao de uma funo de custo ou ndice de desempenho, ( ) n , tal que:

(2.20)

Assim, ( ) n o valor instantneo da energia do erro. Os ajustes dos
pesos sinpticos continuam at o sistema atingir um estado estvel. A minimizao da
funo de custo ( ) n resulta na regra de aprendizagem geralmente conhecida como
regra delta ou regra de Widrow-Hoff.
Tendo ( ) n w
kj
como o valor do peso sinptico
kj
w do neurnio k
excitado por ( ) n x
j
do vetor de sinal ( ) n x no passo de tempo n , o ajuste ( ) n w
kj

aplicado ao peso sinptico
kj
w no passo de tempo n dado por:

(2.21)

em que uma constante que representa a taxa de aprendizado.
Portanto, o valor atualizado do peso sinptico
kj
w determinado por:

(2.22)

2.4.2 Aprendizado No-Supervisionado

No aprendizado no-supervisionado no h um professor, ou seja, no
h exemplos rotulados da funo a ser aprendida pela rede. Nesse modelo, tambm
conhecido como auto-organizado, so dadas as condies para realizar uma medida
da representao que a rede deve aprender, e os parmetros livres da rede so
otimizados em relao a essa medida [HAYKIN, 2001] [BRAGA, LUDEMIR,
CARVALHO, 2000].
Durante o treinamento, a RNA recebe diferentes padres de entrada e
os organiza em categorias. Ao realizar sua tarefa, a RNA fornece uma resposta
( ) ( )
2
1
2
k
n e n =
( ) ( ) ( )
k k k
e n d n y n =
( ) ( ) ( )
kj k j
w n e n x n =
( ) ( ) ( )
1
kj kj kj
w n w n w n + = +

59
indicando em qual classe a entrada pertence. Se uma determinada classe no puder
ser encontrada para aquele padro de entrada, uma nova classe gerada [AZEVEDO,
BRASIL, OLIVEIRA, 2000]. O aprendizado no-supervisionado pode ser realizado
utilizando a regra de aprendizagem competitiva, ou a aprendizagem Hebbiana,
descritas nas subsees seguintes. Uma ilustrao grfica do aprendizado no-
supervisionado pode ser observada na Figura 2.17.

Figura 2.17: Diagrama em blocos do aprendizado no-supervisionado [HAYKIN, 2001,
p. 91]

2.4.2.1 Regra de Aprendizagem Hebbiana

Em termos matemticos a regra de Hebb (ou aprendizagem Hebbiana)
consiste na seguinte equao:
(2.23)

que significa que a mudana do peso sinptico ( ) n w
ij
proporcional ao valor do
neurnio ps-sinptico ( ) n y
k
e ao valor do neurnio pr-sinptico ( ) n x
j
multiplicado
pelo fator de aprendizado positivo . Isso significa que existe reforo quando h
coincidncia na ativao de ambos os neurnios.

2.4.2.2 Regra de Aprendizagem Competitiva

A idia dessa aprendizagem , dado um vetor de entrada, fazer com
que os neurnios de sada disputem entre si para serem ativados. Somente um nico
neurnio de sada fica ativo num determinado instante. O neurnio que vence a
competio denominado neurnio vencedor (winner-takes-all, em ingls).

2.4.3 Aprendizado por Esforo

O aprendizado por reforo considerado um caso particular de
aprendizado supervisionado. A principal diferena entre o aprendizado supervisionado
( ) ( ) ( )
ij k j
w n y n x n =

60
clssico e o aprendizado por esforo a medida de desempenho utilizada por cada
uma das redes. No aprendizado supervisionado clssico, a medida de desempenho
baseada no conjunto de respostas desejadas de acordo com algum critrio conhecido;
no aprendizado por reforo o desempenho baseado em qualquer medida que possa
ser fornecida ao sistema. Assim, a nica informao fornecida para a rede se uma
determinada sada est correta ou no, ou seja, no fornecida para a rede a
resposta correta para o padro de entrada [HAYKIN, 2001] [BRAGA, LUDEMIR,
CARVALHO, 2000]. Uma ilustrao grfica do aprendizado por esforo pode ser
observada na Figura 2.18.

Figura 2.18: Diagrama em blocos do
aprendizado por esforo [HAYKIN, 2001]

2.5 REDE NEURAL LSTM

A rede neural Long-Short Term Memory (LSTM) uma abordagem
nova de redes neurais, primeiramente proposta por [HOCHREITER,
SCHMIDHUBER,1997] e que desempenha um algoritmo apropriado de aprendizado
baseado no gradiente [GERS, SCHMIDHUBER,2000] [GAVES, SCHMIDHUBER,2005]
[PREZ, GERS, SCHMIDHUBER, 2003] [SCHMIDHUBER, WIERSTRA, GAGLIOLO, 2007].
Ela foi projetada para minimizar o problema do gradiente que desaparece (vanishing
gradient, em ingls) comum nas redes recorrentes padres [WILLIAMS, ZIPSER, 1992]
[HOCHREITER, BENGIO, FRASCONI, SCHMIDHUBER, 2001]. Os primeiros mtodos de
aprendizado baseado no gradiente, como o BPTT, por exemplo, dividem um problema:
conforme o tempo de aprendizado, como a informao do gradiente retropropagada
para atualizar os pesos que influenciaro as prximas sadas, o gradiente
continuamente diminudo pelos valores escalares das atualizaes dos pesos.
Portanto, em cada poca de treinamento, os sinais de erros que so retropropagados
dependem da magnitude dos pesos. Por essa razo, primeiras abordagens de redes
neurais recorrentes falham na aprendizagem de seqncias longas de padres de
entrada e valores desejados de sada. A rede neural LSTM minimiza esse problema ao
forar um fluxo de erro constante atravs dos CECs (Constant Error Carrousels)
crtico
RNA
reforo/
penalidade
resposta

61
dentro das clulas de memria, permitindo com que o erro no decresa quando
retropropagado. Isso melhora a capacidade de aprendizado da rede.
O bloco de memria a unidade bsica na camada escondida de uma
rede neural LSTM e substitui o neurnio escondido de uma rede neural recorrente
padro (Figura 2.19).
Um bloco de memria formado por uma ou mais clulas de memria e
por um par de gates multiplicativos, os quais computam entrada e sada para todas as
clulas no bloco. Todas as clulas no bloco compartilham os mesmos gates. Figura
2.20 ilustra um detalhado bloco de memria com uma clula de memria.

Figura 2.20: Um bloco de memria com uma nica clula de memria [GERS, 2001,
pp.12]

2.5.1 Passo de propagao

Essa sesso descreve o passo de propagao da rede neural LSTM e
est baseada em [GERS,2001] [HOCHREITER, SCHMIDHUBER,1997].

Figura 2.19: (a) Rede neural recorrente com uma camada escondida (b) Rede LSTM com
blocos de memria na camada escondida [GERS, 2001, pp.11]

62
A atualizao do estado da clula
c
s baseada em seu atual estado e
nas trs conexes:
c
net , que representa as conexes provenientes dos padres de
entrada;
in
net que representa as conexes do gate de entrada; e
out
net que representa
as conexes do gate de sada.
Foram considerados passos de treinamento discretos ( 1, 2,... t = ). Um
passo de treinamento envolve computar os valores de cada neurnio (passo de
propagao) e calcular o sinal de erro para atualizao dos pesos (retropropagao).
Ainda, j indexa os blocos de memria, v indexa a clula de memria no bloco j , de
tal forma que
v
j
c representa a v -sima clula do j -simo bloco de memria;
lm
w

representa o peso na conexo do neurnio m para o neurnio l .
A ativao dos gates de entrada ( )
j
in
y t e sada ( )
j
out
y t so funes
sigmides sobre a soma ponderada das entradas ( )
j
in
net t e ( )
j
out
net t ,
respectivamente, que so recebidas das entradas recorrentes do bloco de memria e
das entradas externas da rede, como se segue:

(2.24)

(2.25)

onde e representam os bias dos gates.
Os gates usam funo sigmide logstica f (no intervalo [0,1]), tal que:

(2.26)

Para as clulas
v
j
c , as entradas so multiplicadas por pesos (da
entrada mpara a clula) como se segue:
(2.27)

aplicada a uma funo sigmide g , com intervalo [-2,2]:

(2.28)

O estado interno da clula de memria
v
j
c :
( ) ( 1) ;
( ) ( ( )),
j jm j
j
j j
m
out out out
m
out
out out
net t w y t b
y t f net t
= +
=
1
( )
1
x
f x
e
=
+
( ) ( 1) ;
( ) ( ( )),
j jm j
j
j j
m
in in in
m
in
in in
net t w y t b
y t f net t
= +
=
j
out
b
j
in
b
( )
v
j
c m
w t
v
j
c
( ) ( 1),
v v
j j
m
c c m
m
net t w y t =
( )
v
j
c
net t
4
( ) 2
1
x
g x
e
=
+

63

(2.29)

para 0 t > . A sada da clula
v
j
c
y ento:
(2.30)

em que h uma funo sigmide com intervalo [-1,1]:

(2.31)

Para concluir o passo de propagao, considera-se uma rede neural
com uma camada de entrada padro, uma camada escondida consistindo de blocos
de memria, e uma camada de sada padro. A sada da rede
( )
k
y t
a soma
ponderada
( )
k
net t
passada por uma sigmide
f
como segue:

(2.32)

em que m representa todos os neurnios que alimentam os neurnios de sada
(geralmente todas as clulas dos neurnios escondidos e os neurnios de entrada).

2.5.2 Passo de retropropagao

O passo de retropropagao iniciado com a definio de uma funo
objetiva, no caso da rede LSTM, o erro quadrtico:
(2.33)

em que ( ) ( ) ( )
k k
k
e t t t y t = denota a diferena entre a sada obtida pela rede e a sada
desejada. E minimizado via gradiente descendente adicionando alteraes
lm
w
aos pesos
lm
w (do neurnio l para o neurnio m ) usando taxa de aprendizado e o
delta de Kronecker
ij
:
( ) ( ) ( 1)
m
lm l
w t t y t = (2.34)

Para l k = , obtm-se:
(0) 0;
( ) ( 1) ( ) ( ( ))
v
j
j
v v v
j j j
c
in
c c c
s
s t s t y t g net t
=
= +
( ) ( ) ( ( )),
v
j j
v
j
c out
c
y t y t h s t =
( )
2
1
1
x
h x
e
=
+
( ) ( 1)
( ) ( ( )),
m
k km
m
k
k k
net t w y t
y t f net t
=
=
2
1
( ) ( )
2
k
k
E t e t =

64

( )
'
( ) ( ) ( )
k k k k
t f net t e t = (2.35)

Similarmente, as mudanas para os pesos dos gates de sada
so obtidos da seguinte forma:

(2.36)

Para os pesos que alimentam as clulas de memria, a equao para
atualizao dos pesos :
(2.37)

em que definido como erro interno, tal que:

(2.38)

Para (
v
j
l c = ) e ( l in = ) tem-se:

(2.39)

(2.40)

O estado inicial da rede no depende dos pesos, portanto:

(2.41)

Finalmente, para atualizar os pesos do gate de entrada, necessrio
somar as contribuies de todas as clulas no bloco:
(2.42)

jm
out
w
( ) ( )
'
1
( ) ( ) ( ) ( )
j
v
j j j j
j
S
v
out out out c k
kc
v k
t f net t h s t w t
=
| |
=
|
|
\ .

( )
( ) ( )
v
j
v
v
j c
j
v
j
c
s
c m
c m
s t
w t e t
w
v
c
j
s
e
( )
( ) ( ) ' ( ) ( )
j
v v
v
j j c
j
out
s k
c kc
k
e t y t h s t w t
| |
=
|
\ .
( )
( ) ( 1)
' ( ) ( ) ( 1)
v v
j j j
v
j
v v
j j
c c in
m
c
c m c m
s t s t
g net t y t y t
w w

= +

( ) ( )
'
( ) ( 1)
( ) ( 1)
v v
j j
v
j j
j
j j
c c
m
in in
c
in m in m
s t s t
g net t f net y t
w w

= +

{ }
( 0)
0, para ,
v
j
c
v
j
lm
s t
l in c
w
=
=
1
( )
( ) ( ) , para
j
v
j
v
c
j
S
c
lm s
v
lm
s t
w t e t l in
w
= =

65
2.6 CONSIDERACES FINAIS

O estudo das Redes Neurais Artificiais motivado pelo funcionamento
dos neurnios biolgicos em sistemas nervosos. Apesar de atualmente as RNAs
estarem distantes das Redes Neurais Naturais (RNNs), elas oferecem solues para
problemas que a forma de computao algortmica possui dificuldade para resolver. A
topologia da rede e o algoritmo de aprendizado utilizado determinam como a rede
neural ir obter a soluo desejada para o problema.
As redes LSTM e BPTT so utilizadas nesse trabalho para a aplicao
de composies musicais.
No prximo captulo, sero discutidas as abordagens encontradas na
literatura sobre composio musical usando computadores, incluindo redes neurais.

66
CAPTULO 3 ABORDAGENS SOBRE COMPOSIO MUSICAL USANDO COMPUTADORES


A computao musical, incluindo reproduo e composio, tem atrado
pesquisadores h muito tempo. Composies musicais por computadores, mais
especificamente, datam da dcada de 50, quando as cadeias de Markov foram
utilizadas para compor melodias. Uma vez que estudantes de msica geralmente
aprendem a compor atravs de exemplos, abordagens iniciais foram motivadas e
baseadas em anlises de padres nas melodias [TODD e LOY,1991]. Essas
abordagens incluem cadeias de Markov, gramticas e autmatas. Mais recentemente,
as redes neurais artificiais foram desenvolvidas para a aprendizagem de processos
musicais.
O desenvolvimento de algoritmos de aprendizado por redes neurais
trouxe uma nova possibilidade para composio musical. Redes feedforward e redes
neurais recorrentes podem ser treinadas para produzir notas sucessivas ou
compassos de melodias em um conjunto de treinamento, uma vez dados
antecipadamente notas ou compassos como entrada. Uma vez elas terem aprendido a
reproduzir as melodias do conjunto de treinamento, essas redes neurais podem ser
induzidas para compor novas melodias baseadas nos padres que elas aprenderam.
As redes neurais podem incorporar estrutura musical partindo do conjunto de
treinamento. Elas permitem tambm a construo de estruturas futuras, como
restries motivadas psicologicamente na representao das notas com os
respectivos tempos. Isso contribui para que suas sadas apresentem msicas mais
apropriadas [TODD e WERNER, 1998].
Nesse captulo algumas abordagens utilizadas e estudadas so
apresentadas. Essas abordagens utilizam tcnicas como probabilidades, gramticas,
redes neurais artificiais, entre outros. A organizao do captulo a seguinte: a sesso
3.2 apresenta exemplos de abordagens para composies musicais envolvendo
tcnicas tradicionais; a sesso 3.3 apresenta exemplos de abordagens para
composies musicais usando redes neurais; e a sesso 3.4 apresenta as
consideraes finais desse captulo.

67
3.2 EXEMPLOS DE ABORDAGENS PARA COMPOSIES MUSICAIS USANDO TCNICAS
TRADICIONAIS

A idia de compor msica utilizando formas aleatrias se mostra
atrativa para os compositores, principalmente aps a inveno do computador. Porm,
simplesmente utilizar processos aleatrios pode no gerar composies interessantes.
Uma alternativa adicionar a esses processos restries de composio. Uma das
formas para obter isso atravs das probabilidades ou dos processos iterativos.
Outras abordagens constituem a utilizao de gramticas formais ou de autmatos
finitos, que possuem um conjunto de regras a serem seguidas durante o processo de
composio. A seguir sero apresentadas abordagens propostas por Miranda [2001]
que envolvem probabilidades, gramticas, autmatos finitos e processos iterativos.

3.2.1 Probabilidades

Em msica, probabilidades so normalmente usadas para gerar
seqncias musicais selecionando elementos de um conjunto. Para gerar uma
seqncia musical a partir de um conjunto de notas, o computador pode ser
programado para selecionar aleatoriamente uma nota por vez e toc-la atravs de um
sintetizador. Essa seleo de notas pode ser atravs da probabilidade justa ou da
probabilidade condicional. A probabilidade justa ocorre quando as chances de uma
possvel escolha so iguais para todas as escolhas do conjunto, ou seja, no h
favoritismo e nem informao sobre o passado das escolhas anteriores. A
probabilidade condicional ocorre quando a chance de uma possvel escolha depende
das informaes do passado das escolhas anteriores. Se no h notas repetidas no
conjunto de notas, ento as escolhas sero justas. Se tiver uma ou mais notas
repetidas no conjunto, a chance dessa nota em particular ser selecionada ser maior e
aumenta proporcionalmente com o nmero de repeties dessa nota no conjunto. As
funes de distribuio so utilizadas como ferramentas de seleo baseadas em
probabilidade. Nesse contexto, um gerador estocstico representa um sistema que
gera elementos musicais selecionando-os de um dado conjunto de acordo com
alguma funo de distribuio. Basicamente, h quatro classes de funes de
distribuio: uniforme, linear, exponencial, cncava e convexa.
A funo de distribuio uniforme a mais simples e est ilustrada na
Figura 3.1. A probabilidade de uma escolha igual para todas as escolhas (fair trial
triagem justa). No grfico da Figura 3.1 (a) todas as escolhas estaro em zero e um,
com igual probabilidade entre elas. A probabilidade tambm expressa pela

68
probabilidade de uma escolha cair em uma regio de possveis escolhas e dada pela
rea delimitada pelo valor da linha horizontal, conhecida como curva. Na Figura 3.1 (b)
a probabilidade de uma escolha estar em 0,1 e 0,2 10% e a probabilidade de uma
escolha estar entre 0,5 e 0,8 30%. Na funo de distribuio linear (Figura 3.1 (c)),
as chances de uma escolha so maiores para valores menores. A funo de
distribuio exponencial (Figura 3.1 (d)) tambm favorece os valores menores. A
diferena a presena de um parmetro que define a curva desse favoritismo.
Quanto maior o valor de , maior ser a probabilidade dos valores menores.

Na funo de distribuio cncava os elementos com maiores
probabilidades de escolha esto no centro na funo, ou seja, a distribuio
representa uma funo exponencial bilateral (Figura 3.2 (a)). O parmetro nesse
caso determina a largura da curva. As distribuies cncavas podem ser simtricas ou
assimtricas. Na funo de distribuio convexa, ao contrrio da distribuio cncava,
os maiores valores possuem maiores probabilidades de escolha. Tambm pode ser
simtrica ou assimtrica. Est graficamente representada na Figura 3.2 (b).

(a) (b)
Figura 3.2: (a) Funo de distribuio cncava (b) Funo de distribuio convexa

Uma funo de distribuio pode ser implementada como uma tabela
de probabilidade que estabelece valores que representam a probabilidade de
ocorrncia de um ou mais eventos. Em um sistema de composio musical essas

(a) (b) (c) (d)
Figura 3.1: (a) distribuio constante (b) distribuio constante por intervalo (c)
distribuio linear decrescente (d) distribuio exponencial
0 10 20 30 40 50 60 70
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
x
f
(
x
)
Grfico da distribuio cncava
0.3

69
tabelas de probabilidades podem contribuir nas rotinas de tomada de deciso. Por
exemplo, a distribuio uniforme pode ser utilizada para escolher um dos x eventos
distribudos uniformemente ao selecionar um nmero entre 0 e x-1 que ser utilizado
para chamar a rotina. Um exemplo dessa abordagem est ilustrado na Figura 3.3, em
que | | n V representa um vetor de notas.
A rotina da Figura 3.3 recebe como entrada um vetor de notas, | | n V .
Ento, aleatoriamente seleciona uma das quatro operaes a serem realizadas nessas
notas e retorna o resultado no vetor de notas | | n B . Outras funes de distribuio
podem ser utilizadas simplesmente alterando a forma com que os nmeros so
gerados.
As rotinas presentes no exemplo da Figura 3.3, tais como transpor e
retroceder esto ilustradas nas Figuras 3.4 e 3.5. Na Figura 3.4 (a) est representada
uma rotina que transpe uma seqncia de notas, | | n V , para uma quantidade de
semitons, como no exemplo da Figura 3.4 (b). Na Figura 3.5 (a) a seqncia de notas
do vetor | | n V retrocedida, como no exemplo da Figura 3.5 (b).

Figura 3.3: Exemplo de tabela de probabilidade [Miranda, 2001]

(a) (b)
Figura 3.4: Transposio de notas. (a) Exemplo de rotina de transposio (b) Exemplo
de transposio. [Miranda, 2001]

70

(a) (b)

Figura 3.5: Retroao de notas. (a) Exemplo de rotina de retroao (b) Exemplo de
retroao. [Miranda, 2001]

3.2.2 Cadeias de Markov

Mozer [1994] comenta sobre a possibilidade de criar uma composio
musical a partir de notas selecionadas seqencialmente, de acordo com alguma tabela
de transio que determina a probabilidade da prxima nota em funo da ocorrncia
da nota anterior, ou at mesmo da anterior da anterior.
Cadeias de Markov so sistemas de probabilidades condicionais em
que a probabilidade da ocorrncia de eventos futuros depende de um ou mais eventos
passados. O nmero de eventos passados (no caso, notas geradas anteriormente)
que so levados em considerao constitui a ordem da tabela. Uma tabela de
transio que leva em considerao n notas passadas pode ser representada como
uma matriz de n + 1 dimenses. A matriz de transio de estados fornece a
probabilidade de ocorrncia de um evento dados os n estados anteriores. Para ilustrar
a gerao de seqncia de notas utilizando cadeias de Markov, sero utilizadas as
notas da seqncia musical escrita na clave de sol da Figura 3.6, que representa a
escala de C maior (D maior) na quarta oitava.

C4 D4 E4 F4 G4 A4 B4 C5
Figura 3.6: Escala de D Maior na quarta oitava

Considerando tambm as seguintes regras para determinar quais notas
podem suceder uma dada nota:
- Se C4, ento C4, D4, E4, G4 ou C5;
- Se D4, ento C4, E4 ou G4.

71
- Se E4, ento D4 ou F4.
- Se F4, ento C4, E4 ou G4.
- Se G4, ento C4, F4, G4 ou A4.
- Se A4, ento B4.
- Se B4, ento C5.
- Se C5, ento A4 ou B4.
Depois de ocorrer C4 cada uma das cinco notas C4, D4, E4, G4 ou C5
podem ocorrer com 20% de chance cada, ou seja, cada uma dessas cinco notas
possui probabilidade p = 0,2. A probabilidade no precisa ser uniformemente
distribuda. Por exemplo, depois de ocorrer D4, a nota C4 pode ter probabilidade
p = 0,2 enquanto as notas E4 e G4 podem ter probabilidade p = 0,4. Essas
probabilidades podem ser expressas em uma matriz de transio de estados de
primeira ordem (Figura 3.7).

Figura 3.7: Matriz de transio de estados para a escala de D Maior [Miranda, 2001]

Matrizes de alta ordem funcionam similarmente. Uma tabela de
transio de segunda ordem deve possuir trs dimenses: uma para a nota atual, uma
para a nota anterior e outra para a segunda nota anterior.
Papadopoulos e Wiggins [1999] mencionam que algoritmos de
composio musical que utilizam mtodos de cadeias de Markov so muito utilizadas
por serem simples de serem implementadas e so boas alternativas para aplicaes
de tempo real.
A Figura 3.8 ilustra outra tabela de transio de primeira ordem para as
notas da escala C maior na quinta oitava. Nesse exemplo, a prxima nota ser um
passo acima ou abaixo da nota atual. [MOZER, 1994]
eventos
passados
prximos
eventos

72
Nesse mtodo se a representao em matriz consiste em entradas no-
zeros imediatamente em um dos lados da diagonal principal e zeros em qualquer outro
lugar, tm-se um processo de caminhada aleatria. Tabelas de transio podem ser
construdas de acordo com um determinado critrio, como na Figura 3.8 ou podem
representar estilos musicais especficos. Nesse ltimo caso, informaes estatsticas
so coletadas de um conjunto de exemplos (o conjunto de treinamento) e assim, as
entradas da tabela de transio representaro a probabilidade de transio nesses
exemplos.
(a)

(b)
Figura 3.8: (a) Tabela de transio (b) Exemplo de seqncia musical
resultante partindo da nota C5 [MIRANDA, 2001, p. 72]

3.2.3 Gramticas

Um pedao de msica pode ser pensado como um conjunto de
estrutura hierrquica: no nvel mais baixo esto as notas, as quais formam frases
18
e
melodias, temas
19
, etc.

18
A frase musical a menor unidade estrutural musical, composta por eventos musicais que se relacionam e se
completam e combinam com outras unidades estruturais. SHOENBERG [1967] Como forma de ilustrao, a
frase musical representa o que algum consegue soletrar ou cantar em uma nica respirao. Exemplos:

nota
anterior
prxima nota
1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 C6
0.5 0.0 0.5 0.0 0.0 0.0 0.0 0.0 B5
0.0 0.5 0.0 0.5 0.0 0.0 0.0 0.0 A5
0.0 0.0 0.5 0.0 0.5 0.0 0.0 0.0 G5
0.0 0.0 0.0 0.5 0.0 0.5 0.0 0.0 F5
0.0 0.0 0.0 0.0 0.5 0.0 0.5 0.0 E5
0.0 0.0 0.0 0.0 0.0 0.5 0.0 0.5 D5
0.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0 C5
C6 B5 A5 G5 F5 E5 D5 C5
0.5 1.0
C3 D3 C3 D3 E3 D3 E3 F3 G3 F3 E3 D3 D3 D3 E3 F3 C3 D3 C3 D3 E3 D3 E3 F3 G3 F3 E3 D3 D3 D3 E3 F3
0.5 0.5 1.0 0.5 0.5 0.5 0.5 0.5 0.5 0.5 1.0 0.5 0.5 Probabilidades
C5 D5 C5 D5 E5 D5 E5 F5 G5 F5 E5 D5 C5 D5 E5 F5

73
Essa abordagem da msica possui uma estreita similaridade com a
linguagem, uma vez que as notas musicais podem ser relacionadas com os fonemas,
que se transformam em palavras, frases, e assim por diante.
Um exemplo de uma representao hierrquica para uma sonata est
parcialmente ilustrado na Figura 3.9. A sonata geralmente dividida em ABA, em que
tm-se a apresentao de um tema (A), desenvolve-se esse tema (B) e depois o
compositor retorna ao tema inicial com alguma possvel alterao (A).

Figura 3.9: Estrutura hierrquica de uma sonata [Miranda, 2001]

As gramticas formais foram primeiramente propostas por Noam
Chomsky [1957]. Chomsky acreditava que os seres humanos conseguem se
comunicar entre si atravs de uma linguagem, porque possvel coordenar a
gramtica dessa linguagem. Chomsky tambm acreditava que poderia existir uma
gramtica universal, para todas as linguagens. Compositores musicais trabalhando
com computadores ficaram interessados nos trabalhos de Chomsky e passaram a
tentar aplicar esses conceitos para a composio musical.
Como exemplo de gramtica para composio musical, considera-se as
regras da Figura 3.10 (a) e as cinco noes abaixo:
Noo
n
R para referenciar uma nota (ex: R
1
= C4).
Noo de intervalo
n
I entre duas notas (ex:
7
I = quinta perfeita).
Noo de direo do intervalo
n
D (ex:
1
D = ascendente).
Noo de seqncia
n
SEQ .

19
O tema musical est relacionado com o perodo de uma seqncia. Geralmente aparecem em msicas
clssicas como partes de grandes formas (por exemplo, representando o A da forma ABA de uma sonata), ou
podem ser totalmente independentes. Exemplos:

74
Noo de simultaneidade
n
SIM .
Portanto, tm-se os cinco vetores:
R que representa as notas musicais da escala de C maior na
quarta oitava. R = {C4, D4, E4, F4. G4. A4, B4};
I que representa os intervalos musicais. I = {2 menor, 2
maior, 3 menor, 3 maior, 4 perfeita, 4 aumentada, 5 perfeita,
6 menor, 6 maior, 7 menor, 7 maior, oitava};
D que representa a direo dos intervalos. D = {ascendente,
descendente}

(a)

(a) (b)
Figura 3.10: Exemplo de uma gramtica musical. (a) Exemplo de regras. (b) Exemplo
de notas geradas pelas regras. [Miranda, 2001]

O resultado da aplicao das regras da Figura 3.10 (a) pode ser
observado na Figura 3.10 (b) em que uma passagem musical composta por duas
seqncias tocadas simultaneamente. A primeira seqncia formada por trs notas
e a segunda seqncia formada por duas notas. As notas da primeira seqncia so
obtidas da seguinte maneira: partindo da nota de referncia
1
R = C4, a primeira nota
obtida por um intervalo de quarta perfeita ascendente (F4), depois um intervalo de
sexta menor ascendente (G#4), e por fim um intervalo de stima maior ascendente
(B4). As notas da segunda seqncia so obtidas atravs da mesma nota de
referncia nessa ordem: um intervalo de quarta perfeita descendente (G3) e um
intervalo de sexta menor descendente (E3). A passagem musical da Figura 3.10 (b) foi
editada, pois a gramtica acima no lida com outros atributos das notas musicais,
como por exemplo, durao. A curva acima das notas denomina-se ligadura. Todas as
notas dentro da ligadura devem ser tocadas sem interrupo, ligadamente.
F4 G#4 B4
G3 E3

75
O exemplo da gramtica acima pode ser alterado de vrias maneiras e
outras seqncias podem ser adicionadas para a composio de uma melodia
musical.
O desafio para sistemas musicais baseados em regras permitir com
que as regras se interagem entre si para lidar com novas situaes, uma vez que
expectativa em novas situaes so importantes para o entendimento musical
[LOY,2001].

3.2.4 Autmatos de estado finito

Os autmatos de estado finito, geralmente utilizados nas linguagens de
programao, so semelhantes s gramticas formais.
Um autmato finito contm os seguintes elementos: A = ( Q, I , F , T ),
em que: Q o conjunto de estados; I um subconjunto de Q que contm os
estados iniciais; F um subconjunto de Q que contm os estados finais; e
T representa as transies. Os elementos de T so formados pela combinao de
dois em dois estados de Qatravs de um link. Por exemplo, ) ( q a p , , significa que h
uma transio do estado p para o estado q atravs de uma ao a . As
representaes grficas auxiliam no entendimento das regras. Um exemplo de
autmato finito est ilustrado na Figura 3.11. descrito por: A = ({ p , q , r }, { p }, { r },
{( p , a , p ),( p , a , q ), ( q , b , q ), ( q , b , r )}).

Figura 3.11: Exemplo de autmato finito com trs estados [Miranda, 2001]

Para utilizar um autmato finito para composio musical, utiliza-se
preencher os estados do autmato com notas ou passagens musicais curtas. A Figura
3.12 (a) apresenta um exemplo de autmato finito para composies musicais e
exemplo de seqncia musical gerada por esse autmato pode ser observado na
Figura 3.12 (b).

76

(a) (b)
Figura 3.12: (a) Exemplo de um autmato finito para composio musical. (b) Exemplo
de seqncia musical gerada pelo autmato com quatro compassos. [Miranda, 2001]

3.2.5 Algoritmos Iterativos

Um processo iterativo a aplicao continuada de um procedimento
matemtico onde cada resultado retornado para a obteno do prximo resultado. A
Figura 3.13 ilustra graficamente os passos de um processo iterativo.

Figura 3.13: Passos de um processo Iterativo [Miranda, 2001]

Um processo interativo representa uma regra que descreve a ao a
ser repetidamente aplicada a um valor inicial
0
x . Os resultados de um processo
iterativo constituem um conjunto, formalmente referenciado como a rbita do processo,
e os valores pertencentes a esse conjunto so nomeados como pontos da rbita. A
rbita Oresultante da aplicao de um processo iterativo para uma regra F para um
valor inicial
0
x escrita como ( )
0
x O
F
. Por exemplo, seja a regra 2 :
1
+ =
+ n n
x x F . Se
o valor inicial de
0
x 0, ento ( ) } { ... , 6 , 4 , 2 , 0 0 =
F
O .
Um processo iterativo geralmente produz trs classes de rbitas:
rbitas nas quais os pontos tendem a se estabilizarem em um
valor fixo. Por exemplo, seja a regra ( ) 2 / :
1 n n
x x F =
+
.Se
0
x = 1, ( ) 1
F
O = {1, 0.5, 0.25,
0.125, ...}. Essa rbita tende a zero, independente do valor inicial.

77
rbitas nas quais os pontos tendem a oscilarem entre valores
especficos. Por exemplo, seja a regra ( )
n n n
x x x F =
+
1 1 . 3 :
1
. Se
0
x = 0,5,
( ) = 5 . 0
F
O {0.5,0.775,0.540,0.770,0.549,0.768,0.553,0.766,0.765,0.557,0.765,0.557,...}.
Depois do perodo inicial, a rbita cai em uma oscilao entre 0,765 e 0,557, oscila
entre dois pontos.
rbitas nas quais no possvel distinguir explicitamente um
padro entre os pontos. Por exemplo, ) 1 ( :
1 n n n
x x x F =
+
. Atribuindo =4 tm-se os
valores ilustrados na Figura 3.14. A Figura 3.14 (a) representa graficamente o mesmo
processo iterativo para um valor inicial
0
x = 0,3. A Figura 3.14 (b) representa
graficamente o mesmo processo iterativo para um valor inicial
0
x = 0,301. Observa-se
que pequenas variaes no valor inicial
0
x causam grandes diferenas depois de
poucas iteraes do processo iterativo.

Figura 3.14: rbita catica. (a) rbita gerada para o valor inicial
0
x = 0,3. (b) rbita
gerada para o valor inicial
0
x = 0,301. [Miranda, 2001]

Os seres humanos apreciam msicas que apresentam um bom balano
entre a repetio de elementos musicais e inovaes dentro de uma melodia musical e
da relao dessa melodia com outras melodias. Para a aplicao de composio
musical, rbitas que em pouco tempo convergem para um valor estvel no so
apropriadas, uma vez que seu comportamento logo passa a ser esttico. rbitas
oscilatrias oferecem resultados musicais interessantes, principalmente quando sua
oscilao complexa, envolvendo vrios pontos, pois se a oscilao envolve poucos
pontos, os elementos musicais se repetiro com grande freqncia. rbitas caticas
so mais apropriadas para a composio de novas melodias, pois tendem a percorrer
uma extenso fixa de valores, como pontos similares, mas no idnticos. Portanto,
rbitas caticas conseguem gerar materiais musicais que se relacionam entre si.
Um processo iterativo bidimensional pode permitir controle sobre dois
parmetros musicais (nota e durao, por exemplo). Uma dificuldade encontrada pelos
compositores obter um mtodo efetivo para mapear rbitas para parmetros

78
musicais, principalmente porque os processos iterativos no foram originalmente
desenvolvidos com uma perspectiva musical em mente.

3.3 EXEMPLOS DE ABORDAGENS PARA COMPOSIES MUSICAIS USANDO REDES NEURAIS

As redes neurais artificiais geralmente oferecem mecanismos de
aprendizado em que o objetivo final pode ser obtido expondo a rede repetidamente a
exemplos que determinam o comportamento esperado. Nesses mecanismos, as redes
neurais adaptam suas interconexes at que os padres de excitao desejados
estejam pertos (do que a rede capaz de obter) do comportamento desejado. Assim,
as redes neurais so capazes de simular comportamentos complexos dificilmente de
serem gerados por conjuntos de regras ou probabilidades. As redes neurais artificiais
tm se mostrado apropriadas para a composio musical, pois so capazes de
aprender padres e caractersticas presentes nas melodias do conjunto de
treinamento e obter generalizaes dessas caractersticas para a composio de
novas melodias. A seguir so apresentadas algumas abordagens que utilizam redes
neurais artificiais para a composio musical.

3.3.1 Abordagem por Todd [1989]

A abordagem estudada por Todd [1989] para uma composio
algortmica consiste na criao de uma rede neural capaz de aprender aspectos da
estrutura musical atravs de exemplos musicais dados a ela e ento ser capaz de
utilizar o que aprendeu para construir novas melodias. O autor sugere que para a rede
neural atingir esses requisitos ela deve ser capaz de reproduzir exatamente um
conjunto de exemplos musicais, pois ser capaz de reproduzir os exemplos exige que a
rede neural aprenda lidar com as estruturas musicais desses exemplos. A rede neural
desenvolvida por Todd tem sido aplicada para a tarefa de composio algortmica em
que o domnio musical est restrito a melodias monofnicas.
O autor trata msica como um fenmeno seqencial em que notas
ocorrem uma aps a outra em seqncia. Por isso, o autor utiliza uma rede neural
seqencial que aprende a gerar uma seqncia de notas, em que a prxima nota
depende da memorizao de algumas notas geradas anteriormente, atravs de uma
memria do passado provida por conexes que retornam da camada de sada para a
camada de entrada. O tempo representado pela posio da nota dentro da
seqncia e a rede neural aprende a associar padres de sada com padres de

79
entradas ajustando os pesos das conexes na rede. A sada atual da rede influencia
na gerao da prxima sada.
A rede neural proposta por Todd [1989] est ilustrada na Figura 3.15. A
rede do tipo BPTT (Back Propagation Through Time). Na camada de entrada, um
conjunto de neurnios adicionais, denominados neurnios de planejamento, indicam
qual seqncia, entre vrias possibilidades, a rede ir aprender ou produzir. Se a rede
treinada para aprender 3 melodias, os neurnios de planejamento so 001, 010 e
100 para a primeira, segunda e terceira melodia, respectivamente. Isso feito com um
conjunto fixo de ativaes ligadas durante o aprendizado ou produo da seqncia.
Os neurnios de contexto formam o restante da camada de entrada.
Esses neurnios mantm uma memria da seqncia produzida anteriormente, a qual
forma o contexto atual utilizado pela rede para criar a prxima nota da seqncia.
Cada sada sucessiva da rede retornada para essa memria pelas conexes que
retornam da camada de sada para os neurnios de contexto. Alm da memria da
sada anterior, os neurnios de contexto possuem conexes para si mesmo.
Os neurnios de contexto e os neurnios de planejamento so
totalmente conectados com a camada de neurnios escondidos. Os neurnios da
camada escondida combinam a informao dos pesos dos neurnios de planejamento
e dos neurnios de contexto e processam essa informao atravs de uma funo
logstica. Essa informao processada combinada com o conjunto final de pesos e
transmitida para a camada de sada. Os neurnios de sada determinam o que a rede
ir produzir como o prximo elemento da seqncia. Cada sada ento passada de
volta para os neurnios de contextos atravs das conexes para alterar o contexto,
permitindo a gerao do prximo elemento da seqncia e assim por diante.

80

Figura 3.15: A rede seqencial utilizada por Todd [1989]

Para simplificar, Todd [1989] codifica apenas a altura e durao de
cada nota. Essa codificao pode ser feita de duas maneiras [BHARUCHA,1991]
[BHARUCHA e TODD,1989]:
- O valor absoluto de cada altura pode ser especificado. Nessa
abordagem so necessrios neurnios de sada para cada possvel altura que a rede
pode gerar, tal como um neurnio para C, outro para C# e assim por diante. Essa
abordagem foi utilizada por Todd [1989], visto que a rede apresentou um melhor
desempenho na fase de treinamento. Ele usou 14 notas para a escala de C maior, da
nota D4 at a C6. D4 representado como 10000000000000; E4
010000000000000, e assim por diante.
- O intervalo entre sucessivas alturas pode ser especificado. Nessa
abordagem os neurnios de sada correspondem a medidas de mudanas de alturas,
os intervalos. Assim um neurnio de sada pode especificar um intervalo ascendente
de um semitom, ou um intervalo descendente de trs semitons e assim por diante. Por
exemplo, para representar A-B-C, a sada de uma representao onde o valor de cada
nota especificado {A, B, C}, enquanto uma representao de intervalos tem como
sada algo do tipo {A, +2, +1}. Com a representao por intervalos, dado um nmero
fixo de neurnios de sada, a representao das notas no fica limitada ao intervalo
que consegue cobrir. Por exemplo, se h apenas quatro neurnios de sada, a rede
restrita a representar somente quatro notas. Porm, se esses neurnios representam
intervalos entre notas, como por exemplo, + 1 semitom, -1 semitom, 0 semitom, + 2
semitons, qualquer nota pode ser alcanada repetitivamente ascendendo e

81
descendendo semitons. Alm disso, a representao por intervalos favorece com que
as msicas criadas sejam independentes de uma tonalidade especfica. A no ser pela
especificao da altura inicial, a sada da rede no contm indicao da tonalidade,
exceto indicaes de modos, como maior e menor, baseados nos intervalos utilizados.
Independncia de tonalidade tambm permite transposies de uma melodia inteira
simplesmente alterando o valor da nota inicial. Em contraste, utilizando a
representao de um valor absoluto da nota, ao transpor a melodia seria necessrio
treinar a rede novamente.
H uma desvantagem nessa representao por intervalos de notas,
conforme mencionado por Todd [1989]. Quando ocorre um intervalo que no
adequadamente gerado na criao de uma seqncia, o restante da melodia ser
transposto para diferente tonalidade. Essa diferena de tonalidades bem observada
quando ouvida. Portanto, um erro em uma seqncia compromete todo o restante da
melodia, ao passo que na representao do valor absoluto da nota esse erro local, e
somente a nota errada alterada e, portanto, todas as outras notas da melodia tm
seus valores inalterados. Essa desvantagem pode ser minimizada especificando a
primeira nota de cada seqncia, assim, se a rede cometer um erro, na prxima
seqncia volta a produzir as sadas corretas.
Da mesma forma, a durao das notas pode ser representada de duas
maneiras:
- A durao pode ser representada por neurnios de sada e de
contexto adicionais. Os neurnios podem representar a durao de uma nota
localmente, um neurnio representando uma semicolcheia, outro neurnio
representando uma colcheia e assim por diante.
- Uma alternativa consiste em dividir a melodia em fatias de tempo
iguais e cada sada em uma determinada seqncia corresponde a uma nota que vale
uma fatia de tempo. A durao determinada pelo nmero de sadas sucessivas e
pelo nmero de fatias de tempo de uma particular nota. O tamanho especfico da fatia
de tempo pode ser determinado por um fator comum das duraes de todas as notas
presentes no conjunto de treinamento. Isso garante que a durao de cada nota seja
adequadamente representada. Por exemplo, se a melodia designada para aprender
a melodia A-B-C-D correspondendo s duraes semnima, colcheia, semnima e
semnima pontuada
20
( ), a fatia de tempo pode ser equivalente colcheia. A rede
neural aprende ento a seqncia {A,A,B,C,C,D,D,D}. Uma informao adicional
necessria para esse tipo de representao. uma indicao da fatia de tempo em

20
O ponto de aumento serve para aumentar metade do valor da figura que acompanha. Se a semnima vale uma
unidade de tempo, com o ponto de aumento ela valer uma unidade e meia de tempo.

82
que cada nota comea (nb na Figura 3.15). Sem essa indicao no seria possvel
determinar quando a sada da rede dada por {A,A} indicaria duas notas A, cada uma
tendo como durao uma fatia de tempo; ou uma nota A que possui como durao
duas fatias de tempo. Essa indicao feita pelo neurnio comeo de nota (note
begin) nas camadas de sada e contexto.
O primeiro passo do treinamento proposto por Todd [1989] consiste em
iniciar os pesos com pequenos valores aleatrios. O segundo passo consiste em
determinar o planejamento correto para a primeira melodia do conjunto de
treinamento. As ativaes dos neurnios de contexto so iniciadas com zero, de modo
que a rede comece uma seqncia com um contexto vazio. As ativaes so
passadas pela rede, dos neurnios de planejamento e contexto at atingir os
neurnios de sada. A sada obtida pela rede comparada com a sada desejada e o
erro entre as duas sadas utilizado para ajustar os pesos das conexes pelo mtodo
de repropagao do erro. Os valores de sada so passados pelas conexes para
serem adicionados ao contexto atual e as ativaes so novamente passadas pela
rede e os valores de sada e desejados so novamente comparados. Esse ciclo se
repete com as conexes que ligam os neurnios de sada com os neurnios de
contexto da rede, determinando as prximas sadas e erros e ajustando os pesos para
cada fatia de tempo para a primeira melodia. Ento, os neurnios de contexto so
atribudos zero novamente, os neurnios de planejamento so arranjados
adequadamente para a segunda melodia e todo o processo se repete. Todo esse
processo pode ser efetuado para cada melodia do conjunto de treinamento at que o
erro total produzido pela rede para esse conjunto de treinamento atinja um
determinado threshold, ou seja, at que a rede seja capaz de produzir as melodias do
conjunto de treinamento de maneira adequada.
Depois que a rede neural seqencial treinada para produzir as
melodias do conjunto de treinamento, utilizada para produzir novas melodias com
base no aprendizado. As variaes das melodias podem ser influenciadas pelo
tamanho do conjunto de treinamento utilizado, pela determinao dos neurnios de
planejamento, com a utilizao de diferentes notas no incio da composio, entre
outras possibilidades. TODD [1989]

3.3.2 Abordagem por Laden e Keef [1989]

Para Laden e Keefe [1989] uma preocupao importante na elaborao
de redes neurais para aplicaes musicais a representao da entrada para o

83
sistema. Essa forma de representao pode ser influenciada pelo ponto de vista
terico do pesquisador, pela principal funo da rede neural e pelos recursos
computacionais disponveis.
Os autores exploram alternativas na representao da nota para uma
rede neural que possui a tarefa de classificar acordes, como maior, menor ou
diminuto
21
. A rede capaz de classificar os acordes atravs de apresentaes dadas
a ela de um mesmo acorde transposto ascendentemente ou descendentemente em
intervalos.
So utilizados dois tipos de arquiteturas: arquitetura totalmente
conectada e arquitetura de camada adjacente. Na primeira categoria cada neurnio
possui conexes com todos os neurnios das camadas superiores. Na segunda
abordagem cada neurnio tem conexes com cada neurnio somente da camada
adjacente. A rede neural possui trs camadas: camada de entrada, camada
escondida, e camada de sada. O nmero de neurnios da camada de entrada
depende da representao da nota escolhida e para o treinamento utilizado o
algoritmo de aprendizado de retropropagao do erro. O conjunto de treinamento
consiste em 12 acordes maiores, 12 acordes menores e 12 acordes diminutos.
Os autores inicialmente escolheram a forma mais simples de
representar as alturas, utilizando as doze notas existentes na escala cromtica. Um
acorde especificado por trs alturas. A Figura 3.16 ilustra uma arquitetura de
camadas adjacentes com 12 neurnios de entradas e trs neurnios de sada para
representar o tipo de acorde e trs neurnios na camada escondida utilizada no
trabalho desenvolvido por Laden e Keefe [1989].

Figura 3.16: RNA proposta para classificar acordes musicais por Laden e Keefe [1989]

Laden e Keefe [1989] tambm utilizam uma abordagem em que uma
nota representada por suas componentes harmnicas. Essa abordagem motivada

21
Acordes so formados por, no mnimo, trs notas tocadas simultaneamente, denominadas fundamental,
tera e quinta. O acorde diminuto possui um intervalo de tera menor entre a primeira nota (fundamental)
e a segunda nota (tera) e um intervalo de quinta diminuta entre a fundamental e a terceira nota (quinta).

84
pela estrutura espectral de um som musical, pela estrutura psicolgica dos padres de
ativaes neuronais no sistema auditivo e trazem informaes sobre inverses de
acordes. O tipo de representao pode influenciar a habilidade da rede de aprender
uma tarefa e o nmero de pocas necessrias para seu treinamento. Redes neurais
que utilizam a representao local aprendem mais rpido, enquanto redes com
representaes complexas das componentes harmnicas classificam os acordes com
um melhor desempenho.

3.3.3 Abordagem por Lewis [1991]

Lewis [1991] desenvolveu um paradigma que utiliza redes neurais para
a criao de melodias por refinamento (CBR Creation by Refinement). CBR consiste
em uma fase de aprendizado no qual um algoritmo de aprendizado utilizando
gradiente descendente treina a rede neural para desempenhar uma crtica musical,
julgando exemplos musicais de acordo com determinados critrios. Aps o
aprendizado, CBR desempenha a fase de aplicao, na qual uma melodia no
adequadamente composta refinada por um gradiente descendente at que o critrio
estabelecido na fase de treinamento seja alcanado.
Na fase de aprendizado do CBR, quantidades de exemplos de padres
musicais e no musicais so apresentados como entradas para a rede; e a crtica de
cada padro apresentada para a sada desejada da rede. A diferena entre a sada
desejada e a obtida pela rede retornada para a rede como um erro de treinamento
( E ) e os pesos (W ) so ajustados pelo gradiente descendente na direo
W
E
. Um
simples exemplo de conjunto de treinamento poderia ser vrias seqncias de notas
que so consideradas musicais ou no musicais, com uma codificao utilizada para o
treinamento, por exemplo, 1 para boas seqncias musicais, 0 para seqncias no
musicais e 0.5 razoveis seqncias musicais.
Na fase de criao, o inverso do procedimento de treinamento
probabilisticamente explorado para gerar novas seqncias. A figura 3.17 ilustra um
esquema simplificado de criao por refinamento proposto por Lewis [1991].

85
(a)

(b)

Figura 3.17: O esquema CBR [LEWIS, 1991]

3.3.4 Abordagem por Mozer [1994]

A arquitetura proposta por Mozer [1994], CONCERT uma rede neural
recorrente (RNN), cuja topologia pode ser observada na Figura 3.18. A rede recebe
cada nota da melodia em seqncia e deve produzir como resposta a prxima nota da
melodia. Mozer comenta sobre as tabelas de transio de Markov e sobre o algoritmo
de Kohonen [1989] [Kohonen, Laine, Tiits e Torkkola, 1991]. Essas tambm so
tcnicas de composio nota por nota, no sentido de que as notas so produzidas
sequencialmente e linearmente, do comeo ao fim da melodia e cada nota depende do
contexto anterior.
A representao dos elementos musicais no CONCERT utiliza
informaes psicolgicas. Ou seja, a representao procura ficar prxima ao
entendimento musical das pessoas. Notas que as pessoas julgam ser similares teriam
representaes similares na rede neural. Por exemplo, pares de notas como C1 e C#
soam mais similares que C1 e A4. Portanto, representaes de notas utilizando
freqncias ou formas de codificao direta no seriam capazes de abranger esse
entendimento.
Shepard [1982] em sua pesquisa sobre a similaridade das notas props
uma teoria de generalizao na qual a percepo de similaridade de dois itens est
diretamente ligada com a distncia entre eles em um determinado espao, seja ele de
representao interna ou psicolgica. CONCERT representa as notas de acordo com
as idias de Shepard [1982].

86
A durao da nota baseada na diviso de cada batida em doze partes.
A semnima ter uma durao equivalente a 12/12, a colcheia ter a durao de 6/12,
a mnima ter a durao de 24/12 e assim por diante. A representao dos acordes
foi feita baseada nos trabalhos de Laden e Keef [1989] que sugeriram uma forma de
representao na qual envolvesse caractersticas psicolgicas.
Com um determinado procedimento para o treinamento proposto por
Mozer (1994), os pesos so ajustados tal que CONCERT tenha um bom desempenho
em sua tarefa para um conjunto de exemplos de melodias, utilizadas para o
treinamento. Os exemplos consistem em seqncia de notas. A nota atual na
seqncia representada pela camada de entrada e a camada de sada representa a
prxima nota a ser composta. Tanto as camadas de entrada e sada conseguem
representar trs atributos das notas: altura, durao e acorde de acompanhamento
harmnico. Como a Figura 3.18 indica a prxima nota a ser composta codificada de
duas maneiras diferentes, distribuda e local. A camada que representa a nota
distribuda (ND) a representao interna de nota do CONCERT, dividida em trs
grupos de neurnios, formando representao distribuda de altura, durao e acorde.
A camada que representa a nota localmente (NL) contm um neurnio para cada
altura, durao e acorde, permitindo mais facilmente que as sadas finais sejam
tratadas como probabilidades.
Aps ter sido treinado, CONCERT executado para criar novas
melodias. Para isso, ele preenchido com pequenas seqncias de notas,
provavelmente as notas iniciais do conjunto de treinamento. Aps isso, cada resultado
da camada de sada realimentado para a camada de entrada. A sada no gerar
como resultado uma nota com absoluta certeza, esse resultado se caracteriza pela
distribuio de probabilidade sobre alguns candidatos. A nota resultante final ser
gerada de acordo com essa distribuio [MOZER,1994].

87

Figura 3.18: Arquitetura da Rede Neural (CONCERT) proposta por Mozer [1994]

3.3.5 Abordagem por Carpinteiro [1995]

Carpinteiro [1995] props uma rede neural para compor seqncias
musicais de acordo com trs casos de segmentao rtmica: duraes longas, pausas
e quebras de similaridade. A topologia do modelo semelhante ao modelo NETtalk
22

estudadas por Sejnowski e Rosenberg [1987].
Conforme as sugestes de segmentao de Carpinteiro [1995], exemplo
de durao longa (Figura 3.19 (a)), pausa (Figura 3.19 (b)) e quebrada de similaridade
(Figura 3.19 (d)) est ilustrado na Figura 3.19.

Figura 3.19: Segmentaes do ritmo proposta por Carpinteiro [1995]

Se a colcheia () for utilizada como unidade de tempo (UT), todas as
outras figuras se tornaro mltiplas da colcheia, ou seja, uma semnima ( ) ter dois
tempos, a mnima ( ) ter quatro tempos e assim por diante. Pode-se tambm definir
um contador de unidade de tempo (CTU). Um CTU uma unidade na qual a

22
A NETtalk foi a primeira rede paralelamente distribuda a converter o idioma ingls para fonemas. Seu
desempenho mostra um aprendizado semelhante ao aprendizado humano.[HAYKIN, 1999]

88
seqncia musical medida. Portanto, a cada CTU ou tem-se uma nota sendo soada
(quando a nota continuada, porm sem tocar), ou uma nota tocada, ou acontece
uma pausa (silncio). No trabalho proposto por Carpinteiro [1995], cada um desses
trs eventos foi representado por um par de unidades de neurnios de entradas. Os
pares esto indicados como 00 quando ocorrer uma pausa, por 10 quando uma nota
estiver sendo soada e 11 quando a nota for tocada (Figura 3.20).

A arquitetura proposta por Carpinteiro [1995] est ilustrada na Figura
3.21. A camada de entrada contm certo nmero de pares de neurnios de entrada
que forma uma janela. O tamanho dessa janela pode variar conforme desejado. Cada
par representa um dos trs eventos mencionados anteriormente (nota soada, nota
tocada e pausa). Esses pares de neurnios da janela so ativados de tal forma a
representar um padro rtmico. Como se pode observar, Carpinteiro [1995] utilizou
dois neurnios na camada de sada. Os resultados obtidos mostraram que a rede, que
foi treinada com algumas composies de Bach, teve um bom desempenho e que,
portanto, segmentao musical pode ser realizada por uma rede neural com
aprendizado supervisionado.

Figura 3.21: Arquitetura proposta por Carpinteiro [1995]

3.3.6 Abordagem por Chen e Miikkulainen [2001]

Segundo Chen e Miikkulainen [2001] e Eck e Schmidhuber [2002] redes
neurais feedforward no contm habilidade em armazenar a informao sobre o
passado e, portanto, no so indicadas para o processo de gerao de composies

Figura 3.20: Representao do CTU (Contador de Unidade de Tempo
para a colcheia como Unidade de Tempo. CARPINTEIRO [1995]

89
musicais como preditor de um passo, uma vez que sempre ser necessrio repetir
padres de alturas e ritmos. J as redes recorrentes podem utilizar ativaes nas
camadas de entrada e escondida como memrias e, portanto, possuem dinmica
temporal.
A arquitetura proposta por Chen e Miikkulainen [2001] uma rede
neural recorrente do tipo SRN (Simple Recurrent Network) e est representada na
Figura 3.22. Essa rede neural compe um compasso a cada tempo
23
. Os valores dos
neurnios de sada no tempo t so copiados para os neurnios de entrada no tempo t
+ 1, e uma cpia da camada escondida salva na camada de contexto para que a
rede possa iniciar de um dado ponto de partida.

Figura 3.22: Arquitetura proposta por Chen e Miikkulainen [2001].

A rede neural de Chen e Miikkulainen [2001] totalmente conectada na
direo forward e seus pesos so evoludos com a utilizao de algoritmos genticos.
Os autores optaram por representar apenas as cinco primeiras notaes
rtmicas: semibreve, mnima, semnima, colcheia e semicolcheia. No so usadas
pausas nem figuras pontuadas e o intervalo de notas abrange trs oitavas, ou seja, do
C2 ao C5. Segundo Chen e Miikkulainen [2001] possvel representar as notas de
duas maneiras: nota relativa e absoluta. So raras as pessoas que conseguem
identificar notas sem um contexto tonal previamente apresentado. A maioria das
pessoas apresentam uma melhor performance para notas relativas por que notas
conhecidas so apresentadas anteriormente como referncia. Para tanto, normal
treinar uma rede neural com base em notas relativas, ainda mais quando essa rede
compe msicas com base no seu passado.
Continuando com o trabalho de Chen e Miikkulainen [2001], na camada
de sada um vetor de neurnios utilizado para representar os intervalos das notas
relativas para uma determinada nota de referncia. O neurnio mais a esquerda

23
A camada de entrada representa um compasso no tempo t, e a camada de sada representa o compasso
no tempo t + 1.
Neurnios
de sada
Neurnios
escondidos
Neurnios
de sada

90
possui o maior valor negativo, e o neurnio mais a direita possui o maior valor positivo.
O neurnio do meio corresponde a nenhum intervalo especificado, ou seja, a nota se
repetir.

Figura 3.23: Exemplo de gerao da prxima nota tendo como nota anterior A4 [Chen
e Miikkulainen, 2001]

Conforme ilustrado na Figura 3.23, cada neurnio de sada corresponde
a um aumento ou diminuio da altura em um semitom em relao nota de
referncia. O neurnio com o maior valor ser o vencedor. Na ilustrao da Figura
3.23, o vencedor o neurnio com valor -4, pois seu valor de sada o maior de todos
(1.4). Ento, se a nota de referncia A4, o resultado ser A4 4 semitons = F4.
Chen e Miikkulainen [2001] utiliza a mesma idia para representar a
durao das notas. Ou seja, um vetor de cinco neurnios utilizado, onde cada
neurnio corresponde a uma durao. Como na representao das notas, o neurnio
com a maior valor de sada vence e sua durao atribuda para a nota em questo.
Caso haja empate, o vencedor ser o neurnio que representa a maior durao
(Figura 3.24).

Figura 3.24: Representao da durao segundo Chen e Miikkulainen [2001]

Como citado anteriormente, os compassos so utilizados na melodia
para agrupar os tempos em pores iguais, ou seja, a durao de todas as notas
dentro de um compasso deve somar a mesma quantidade para todos os compassos
da melodia. Nos experimentos de Chen e Miikkulainen [2001] utilizada uma
unidade de tempo como o tamanho do compasso. Assim, dentro de um compasso
poder haver uma semibreve, ou duas mnimas, ou quatro semnimas, ou uma
4
F4 F#4 G4 G#4 A4
Neurnio vencedor Nota de referncia
- 4 semitons
A durao que ser atribuda
nota atual ser a colcheia ( )

91
mnima e duas semnimas, ou qualquer combinao que preencha todo o
compasso. Chen e Miikkulainen [2001] criaram o par D-N que concatena uma
representao da durao e uma representao da nota. Portanto, uma
representao de compassos abrange dezesseis pares (D-N) e h um algoritmo
para a formao dos compassos (Figura 3.25).

Figura 3.25: Representao dos compassos Segundo Chen e Miikkulainen [2001]

3.3.7 Abordagem por Rowe [2001]

Rowe [2001] props uma rede neural para aprender a identificar a
tonalidade de uma seqncia de acordes. Os acordes da seqncia representam o
primeiro, quarto e quinto graus de uma escala, denominados tnica, subdominante e
dominante, respectivamente. Por exemplo, se a rede recebe como entrada a
seqncia I-IV-V-I que contm os acordes CFGC, deve corretamente identificar
a tonalidade de C maior. Esses graus foram escolhidos por serem os mais importantes
dentro de uma escala.
Em um primeiro estudo, a rede possui uma camada de entrada,
escondida e de sada com doze neurnios. No conjunto de treinamento, os acordes
(I-IV-V-I) indicam uma determinada tonalidade maior, representada pelo primeiro
grau, a tnica. Um exemplo de treinamento est representado na Figura 3.26, em que
a linha de cima de doze valores de ponto flutuante inserida nos neurnios de
entradas e a linha de baixo representa a sada que a rede neural deve associar com a
entrada dada.

C C# D D# E F F# G G# A A# B
1.0 0.0 0.0 0.0 0.0 1.0 0.0 1.0 0.0 0.0 0.0 0.0 - entrada
1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 - sada

Figura 3.26: Exemplo de treinamento para a tonalidade de C maior

Camada de entrada
Camada de sada

92
Posteriormente, Rowe [2001] inseriu como entrada da rede, as notas
que representam as sete notas da escala de C maior e obteve os resultados indicados
na Figura 3.27 depois de mais de duas mil pocas. Apesar de nota C ter sido indicado
com a tnica para essa entrada com um valor menor, comparado com o exemplo
original de treinamento da Figura 3.26 (0,37 ao invs de 1,0), nem uma outra nota foi
referenciada como possvel candidata com algum valor significante.

1.0 0.0 1.0 0.0 1.0 1.0 0.0 1.0 0.0 1.0 0.0 1.0 - entrada
0.37 0.0 0.0 0.0 0.1 0.1 0.0 0.0 0.0 0.0 0.0 0.0 sada

Figura 3.27: Exemplo de treinamento que usa todas as notas da escala de C maior

Em um segundo estudo, Rowe [2001] props uma rede neural
seqencial totalmente conectada em que os acordes so apresentados em seqncia,
e no ao mesmo tempo. A arquitetura semelhante ao estudo anterior, contm doze
neurnios de entrada, doze neurnios escondidos e doze neurnios de sada. A
diferena que os neurnios de entrada possuem conexes que retornam para si
mesmos, e os neurnios de sada possuem conexes que retornam para os neurnios
de entrada, como ilustrado parcialmente na Figura 3.28.

Figura 3.28: Rede neural seqencial proposta por Rowe [2001, p.102]

As notas so representadas localmente nos neurnios de entrada e
sada. Por exemplo, uma rede designada para representar quatro notas distintas
precisaria de quatro neurnios de entrada e sada, uma para cada nota, como 0001,
0010, 0100, 1000 representando cada uma das quatro notas.
A rede neural ento treinada para reconhecer progresses de acordes
e reconhecer a tonalidade dessa progresso. O conjunto de treinamento deve conter
as seqncias relevantes para que a rede neural aprenda a estabelecer a tonalidade
correta. A Figura 3.29 lista o conjunto de treinameto utilizado para que a rede neural

93
aprenda a reconhecer a progresso I-IV-V-I em C maior. H, portanto, quatro pares
entrada/sada para que o aprendizado dessa progresso (da escala de C maior) seja
realizado. O conjunto de treinamento total deve conter progresses I-IV-V-I para
todas as doze possveis tnicas. Em cada par da Figura 3.29, a linha de cima
representa o conjunto de valores dados aos doze neurnios de entradas, e a linha de
baixo representa o conjunto de valores desejados para os neurnios de sada.

1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 -entrada
0.5 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0sada desejada

0.0 0.0 0.0 0.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0-entrada
0.5 0.0 0.0 0.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0sada desejada

0.0 0.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0 0.0 0.0 0.0-entrada
0.5 0.0 0.0 0.0 0.0 0.5 0.0 0.0 0.0 0.0 0.0 0.0sada desejada

1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0-entrada
1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0sada desejada

Figura 3.29: Pares de treinamento para a progresso I-IV-V-I em C maior

O conjunto de treinamento contm informaes sobre os graus I-V
(tnica e dominante) tambm importantes na anlise tonal. Quando o primeiro acorde
apresentado rede (sem nenhum contexto ainda apresentado), ele indicado como
uma evidncia fraca (0,5) de ser a tnica da tonalidade. O segundo par do treinamento
da Figura 3.29 indica uma progresso do acorde C para o acorde F. Essa progresso
poderia representar uma relao I-IV em C maior, a interpretao desses acordes
como a tonalidade C continua com a ativao 0,5. Porm, essa progresso tambm
poderia representar a relao V-I (C-F) em F maior, que a rede tambm deve
aprender como sendo uma relao importante. Portanto, a sada desejada 1,0 para a
nota F. Quando o terceiro acorde (G) apresentado rede, a progresso C-F-G
ainda mantm F maior e C maior como possveis tonalidades, mas no G maior. O
ltimo acorde (C) apresentado rede, e a progresso I-IV-V-I se completa
corretamente, e a nota C deve ser estabelecida como a tonalidade correta de C maior.

94
3.3.8 Abordagem por Eck e Schmidhuber [2002]

Conforme mencionado por Eck e Schmidhuber [2002], uma maneira
simples de criar composies musicais com Redes Neurais Artificiais (RNA) sugere
com que a rede trabalhe como um preditor de um passo. Assim, a rede capaz de
aprender notas no tempo t + 1 utilizando como entrada notas referentes ao tempo t.
Os autores ainda complementam que aps o aprendizado a rede pode ser alimentada
com valores de entrada do treinamento para que seja possvel a criao de novas
composies usando suas prprias sadas como entradas subseqentes.
Eck e Schmidhuber [2002] observam que essa falha das redes
neurais conseqncia de suavizao de gradientes (vanishing gradients). Quando se
utiliza mtodos tais como Back Propagation Through Time (BPTT) e Real-Time
Recurrent Learning (RTRL) os erros logo desaparecem ou explodem
exponencialmente, e assim se torna-se impossvel para as redes neurais gerenciarem
corretamente as dependncias de longo termo (long-term-dependencies). Para
msica, essas dependncias so importantes e permitem com que eventos de vrias
notas ou compassos contribuam para a formao mtrica e estrutura da frase. Como
exemplo desses eventos, pode-se citar as mudanas de acorde que permanecem por
vrios compassos, principalmente em estilos musicais como o rock-and-roll.
Portanto, Eck e Schmidhuber [2002] propuseram a utilizao de uma
rede neural artificial com a arquitetura LSTM (Long Short-Term Memory), na qual
utiliza unidades lineares chamadas Constant Error Carousels (CECs) para minimizar o
problema do decaimento do erro presentes em outras arquiteturas recorrentes e
assim, essa rede consegue um fluxo de erro mais constante.
A representao dos dados proposta por Eck e Schmidhuber [2002]
feita de forma simples e local. Utiliza-se uma unidade/alvo por nota, com 1,0
representando on e 0,0 representando off.. Os autores explicam que a preferncia
dessa representao se deve no diferenciao de acordes e melodias, porque
fcil obter distribuio de probabilidade sobre um conjunto de notas possveis e
flexvel no sentido que se pode tratar probabilidades com dependncia ou no de
notas anteriores. A Figura 3.30 mostra as notas utilizadas para o treinamento, tanto
para melodias, que esto representadas por notas do C4 ao C5, quanto para acordes,
que esto representados por notas do C3 ao C4.
O aprendizado proposto por Eck e Schmidhuber [2002] trabalha tanto
com o mtodo gradiente descendente que utiliza um algoritmo BPTT modificado

95
quanto um algoritmo customizado de RTRN
24
(Real Time Recurrent Network). Os
dados de treinamento utilizaram uma seqncia popular de acordes de blues com 12
compassos
25
, que no variam de melodia para melodia. Os autores utilizaram um
preditor de 8 passos, assim a melodia foi gerada pela rede em 96 passos. As
inverses de acordes foram possveis desde que os mesmos no sassem do intervalo
de notas especificado. Nos experimentos foram utilizados tanto somente os acordes
quanto melodias acompanhadas dos acordes.
Essas melodias utilizaram a escala pentatnica menor de blues
26
. O
treinamento das melodias foi realizado concatenando segmentos de compassos que
combinam musicalmente com os acordes. No foram utilizadas figuras pontuadas e
somente foram utilizadas semicolcheias. Segmentos meldicos que caracterizam a
forma blues foram selecionados de forma aleatria para comporem o conjunto de
dados.

Figura 3.30: Notas utilizadas por Eck e Schmidhuber [2002] para o treinamento da rede
neural

3.3.9 Abordagem por Verbeurgt, Fayer e Dinolfo [2004]

Verbeurgt, Fayer e Dinolfo [2004] usaram uma abordagem hbrida que
utiliza redes neurais e cadeias de Markov para composio musical atravs de
exemplos. Nessa abordagem, o primeiro passo consiste em extrair padres musicais
das seqncias de treinamento. Para isso, eles utilizaram uma estrutura de dados
caracterizada por uma rvore de sufixos (Figura 3.31 (a)), em que as arestas
representam os intervalos, em semitons, entre notas sucessivas. Cada n na rvore

24
Essas redes possuem como caracterstica diferencial habilidade para lidar com entradas e sadas que
variam no tempo, atravs do funcionamento presente nelas. [BRAGA, LUDEMIR E CARVALHO, 2000]
25
Os acordes dessa seqncia so os seguintes (Eck e Schmidhuber,2002,p.4):

26
Escalas pentatnicas contm apenas cinco notas e possuem uma entonao triste. Elas existem tanto
no modo maior quanto no modo menor. A escala pentatnica menor de blues uma variao da escala
pentatnica menor, acrescida da quarta maior (conhecida como blue note):

96
representa corresponde a um padro em passos de intervalo. Ns internos
correspondem a padres que ocorrem mais de uma vez nas seqncias de
treinamento, e as folhas correspondem a exatamente uma ocorrncia do padro. A
posio inicial do padro na seqncia de treinamento est indicada em cada folha, e
a altura de referncia da seqncia dada pela nota nessa posio.
No segundo passo, uma cadeia de Markov construda com bases
nesses padres (Figura 3.31 (b)), com cada estado correspondendo a um padro e as
transies representam seqncias de padres permitidas. O estado nomeado como
nenhum no diagrama corresponde a uma nica nota, indicando que no h intervalos
para notas sucessivas no padro. As transies indicam as freqncias nas quais os
padres seguem uns aos outros nas seqncias de treinamento. Os estados iniciais
do modelo so aqueles que representam padres que geralmente ocorrem no comeo
das seqncias de treinamento.
Por fim, uma rede neural treinada para aprender a distribuio das
notas de referncia do estado atual condicionada s notas de referncias do estado
anterior (Figura 3.31 (c)). Portanto, a entrada da rede neural representa o estado
anterior do modelo de Markov juntamente com a nota e durao de referncia; e a
sada indica a nota e durao de referncia do estado atual.
Figura 3.31: Abordagem hbrida Neural-Markov proposta por Verbeurgt, Fayer e
Dinolfo [2004] (a) rvore de Sufixos (b) Modelo de Markov (c) Topologia da Rede
Neural (qualidade)

97
3.3.10 Abordagem por Frankin [2005]

Franklin treinou uma rede neural LSTM (Long-Short Term Memory) para
aprendizagem de seqncias de jazz. A representao das alturas das notas e
acordes utilizou sete bits e foi baseada nos intervalos de tera maior e menor. Uma
tera maior formada por um intervalo de quatro semitons entre duas notas, e uma
tera menor por uma diferena de trs semitons. A Figura 3.32 apresenta os quatro
ciclos de tera maiores utilizados por Franklin [2005], numerados de um a quatro, e
trs ciclos de tera menores, numerados de um a trs. Cada ciclo lido na direo
anti-horria. Por exemplo, G# representa a tera maior de E, C representa a tera
maior de G#, Eb representa a tera menor de C, F# representa a tera menor de D# e
assim por diante.

Figura 3.32: Representao por ciclos de (a) teras maiores e (b) teras menores
[Franklin, 2005]

Nessa representao das notas, os primeiros quatro bits indicam qual
ciclo de teras maiores a nota est localizada, e os trs bits restantes indicam qual
ciclo de tera menores a nota representa. A representao da nota A, por exemplo,
0100100, indicando ciclo de tera maior dois e ciclo de tera menor um. A
representao da nota E 1000010, indicando ciclo de tera maior um e menor dois, e
por assim em diante. Segundo o autor, essa representao permite um bom
aprendizado da rede. A indicao de oitava dada separadamente, com a incluso de
dois neurnios, um para indicar se a oitava de C2 at B2, outro para indicar se a
oitava de C4 at B4. Se os dois neurnios possuem valores zero, ento a oitava de
C3 at B3.
Conforme anteriormente mencionado, acordes so, no mnimo, trades
de notas representadas pela fundamental, tera e quinta. O autor utiliza a
representao por ciclos de teras para cada nota em que o acorde composto, em
um total de vinte e um bits. Porm, o autor tambm relata que com essa

98
representao de vinte e um bits seria difcil para a rede aprender relaes entre
acordes. Por isso, utilizada sobreposio das notas do acorde, resultando em uma
representao de apenas sete bits. Por exemplo, o acorde de G com a representao
de ciclos de teras em 21 bits 0001010 (G), 0001001 (B) e 0010001 (D). A
representao por sobreposio a soma bit a bit dessas trs notas: 0 0 1 2 0 1 2
(acorde de G). Nos experimentos realizados, Franklin [2005] verificou que a rede
neural poderia aprender melhor se esses valores fossem escalados para o intervalo
[0,1]. Portanto, a representao final do acorde de G seria 0 0 0,5 1 0 0,5 1.
Franklin [2005] utilizou uma representao modular para a durao das
notas, em que a semnima dividida em 96 subdivises, um padro conhecido como
ticks na interface MIDI (Musical Instrument Digital Interface). Essa representao da
durao permite a utilizao de todas as figuras rtmicas.

3.3.11 Abordagem por Adiloglu e Alpaslan [2007]

Adiloglu e Alpaslan [2007] utilizaram redes neurais para gerao de
contrapontos
27
. Nessa aplicao, o algoritmo de retropropagao do erro utilizado no
treinamento da rede. Os autores escolheram as primeiras espcies
28
de contraponto
com duas vozes. A entrada da rede representada pelas quatro notas mais recentes
da segunda voz e pelas trs notas da primeira voz, correspondente s trs primeiras
notas da segunda voz. A rede dever aprender a quarta nota da primeira voz,
correspondente quarta nota da segunda voz, portanto, a camada de sada possui
apenas um neurnio. Um neurnio adicional utilizado para enfatizar a tnica ou a
dominante da pea em questo, para assegurar determinadas regras do contraponto.
A representao das alturas na camada de entrada dada atravs da
combinao de valores absolutos (nmeros MIDI, por exemplo) e dos ciclos
cromticos e de quintas, possibilitando a equivalncia de oitavas. utilizada a
representao de classe de altura na camada de sada. Essa representao no faz
distino entre oitavas e um neurnio reservado para cada nota dentro de uma
oitava, em um total de 12 neurnios. A informao de oitava dada explicitamente,
com neurnios adicionais. Para durao, utilizada a mesma idia de Todd [1989],
com o uso de um neurnio adicional para cada nota, para indicar se uma nova nota
comea com uma nota fatia de tempo. A figura 1.33 (a) ilustra os neurnios de

27
Contraponto: a combinao de duas ou mais linhas meldicas e os princpios tcnicos a serem
considerados para essa combinao.
28
Contrapontos de primeira espcie, tambm conhecidos como nota contra nota permitem somente a
utilizao da semibreve. Portanto, cada nota de uma voz corresponde a uma nota nas outras vozes.

99
entrada, em que cada nota representada por 14 neurnios. A nota de sada
representada por 23 neurnios (Figura 3.33 (b)).

(a)

(b)
Figura 3.33: Neurnios de entrada (a) e sada (b) por Adiloglu e Alpaslan [2007]

3.4 CONSIDERAES FINAIS

Vrios estudos foram realizados na tentativa de que sistemas de
composio artificial oferecessem bom desempenho e criaes meldicas de boa
qualidade. Em cada uma das abordagens h vantagens e desvantagens que talvez
sejam resultantes do entendimento incompleto do funcionamento da mente humana
em domnios como a msica. Com as abordagens descritas anteriormente, verificou-
se que as redes neurais so bem indicadas como compositores musicais artificiais,
pois tentam imitar o entendimento humano sobre percepo musical. Quando as redes
neurais trabalham em conjunto com outras tcnicas de aprendizado, como algoritmos
genticos ou sistemas baseados em conhecimento, h uma melhor probabilidade de
se obter boas melodias, uma vez que as redes no possuem um conhecimento a priori
(regras, restries) e conseguem aprender atravs de exemplos e serem criativas.
A forma de representao dos elementos musicais tambm interfere
nas composies geradas por esses sistemas. Formas de representao direta e
locais possuem baixa complexidade, porm no conseguem armazenar informaes
psicolgicas do entendimento musical humano.
O sistema de composio musical desenvolvido no prximo captulo
busca superar algumas dificuldades encontradas nas abordagens anteriores.

100

4 PROPOSTA DE TRABALHO


Esse captulo descreve o projeto desenvolvido de mestrado que aborda
um sistema de composio musical com a utilizao de redes neurais que tambm
usa como inspirao dados obtidos de contornos de relevos naturais. O sistema
proposto pode ser dividido em quatro processos principais para a composio de uma
nova melodia usando redes neurais: treinamento, aplicao, avaliao e correo.
Na sesso 4.2 apresentada uma descrio geral do sistema. A sesso
4.3 apresenta a representao dos elementos musicais, como notas, durao e
acordes. As arquiteturas das redes BPTT e LSTM, assim como aspectos de
treinamento esto descritos na sesso 4.4. Nessa sesso tambm apresentado o
mtodo proposto para inicializao de parte dos pesos da rede neural LSTM e para a
estimao do nmero ideal de neurnios escondidos. A sesso 4.5 apresenta a
abordagem proposta para avaliao e correo das melodias. Por fim, a sesso 4.6
descreve as consideraes finais desse captulo.

4.2 DESCRIO GERAL DO SISTEMA

O principal objetivo do sistema proporcionar uma interface amigvel
para que os usurios possam utilizar o que foi desenvolvido para criar novas melodias
de forma mais dinmica. Tambm adequado que o sistema possa ser aplicvel para
esses usurios sem a necessidade de um conhecimento aprofundado das tcnicas
utilizadas. Ainda, esse sistema pode estar disponvel na Internet. A tela da interface
amigvel do sistema foi desenvolvida em ingls para obter maior abrangncia em
futuras contribuies.
A princpio, o sistema foi desenvolvido em Matlab, mas ser migrado
para Java, permitindo uma maior acessibilidade. Em conjunto com esse sistema,
utilizado o programa Encore para visualizao das partituras e audio das melodias.
O usurio poder escolher compor melodias com as duas arquiteturas
de redes utilizadas nesse trabalho, a BPTT e a LSTM. Uma vez definida a rede
utilizada, o usurio pode testar vrios parmetros disponveis para o treinamento e
verificar a influncia desses parmetros na composio de melodias. Aps configurar
o treinamento da rede, o usurio pode interagir com a tela de composio, para

101
visualizar e ouvir a melodia composta. O usurio poder avaliar a melodia de acordo
com os requisitos previamente definidos e otimiz-la, se julgar necessrio. A Figura
4.1 apresenta a tela principal do sistema.

Figura 4.1: Tela principal do sistema

Primeiramente, o usurio escolhe qual rede deseja utilizar para compor.
Em seguida ele pode configurar os parmetros da rede escolhida e executar o
treinamento. Quando o treinamento estiver concludo, o usurio usa o sistema para
compor novas melodias. A partir da melodia composta, a avaliao pode ser realizada
conforme as abordagens propostas pelo trabalho (sesso 4.5). Por fim, as melodias
geradas e avaliadas podem ser otimizadas, caso seja o interesse do usurio.
A Figura 4.2 apresenta a tela que representa a parte do sistema para a
configurao do treinamento da rede BPTT. O usurio poder definir alguns
parmetros da rede (quadro superior esquerdo) e do treinamento (quadro superior
direito), assim como a inspirao (foto geogrfica) e as melodias que faro parte do
conjunto de treinamento, permitindo assim, uma maior flexibilidade, visto que esses

102
parmetros influenciam na melodia composta. A rede LSTM tambm possui uma tela
para sua configurao e treinamento.

Figura 4.2: Tela da configurao da rede BPTT

4.3 REPRESENTAO DOS ELEMENTOS MUSICAIS

Compassos musicais podem ser vistos como primitivas meldicas que
se conectam com outros compassos musicais para a formao da melodia. Portanto,
na fase de treinamento os compassos musicais devem pertencer a um mesmo estilo
musical. Os compassos musicais desse trabalho consistem de notas, durao das
notas, pausas e acordes.

4.3.1 Representao da altura

Esse trabalho utiliza dois tipos de representao da altura:
representao por intervalos de notas e representao por ciclos de teras. A
representao por intervalos de notas proposta neste trabalho como uma alternativa
s representaes existentes. A representao por ciclos de teras foi anteriormente
proposta por Franklin [2005], como descrito no captulo anterior. O objetivo da
utilizao dessa representao permitir uma comparao do desempenho das redes.

103
Como explicado no primeiro captulo, na representao por intervalos
de notas, as alturas so representadas pela combinao de nmeros inteiros e
intervalos musicais. Cada nota possui seu prprio nmero inteiro. Cada intervalo
musical determina uma distncia de freqncia de uma nota para outra, em semitons
ou em freqncia logartmica. Mesmo com um nmero fixo de neurnios, vrios
intervalos de notas podem ser alcanados com essa representao. As notas para o
treinamento da rede so normalizadas para o intervalo [0,1] e as pausas so
representadas por -1.
Para ilustrar melhor a representao por intervalos, considera-se a nota
de referncia C4 (representada por 0) e os dois compassos da Figura 4.3, que so os
dois primeiros compassos da melodia Escravos de J. Exemplo da representao
por intervalo desses compassos pode ser observada na matriz representada pela
equao 4.1, sendo que a primeira linha da matriz corresponde ao primeiro compasso
e a segunda linha corresponde ao segundo compasso.

Figura 4.3: Dois compassos musicais

0.2500 0.6667 0.5000 0.4167
0.2500 0.4147 0.2500 0.4167
notas
(
=
(

(4.1)

A representao por ciclos de teras utiliza sete bits. Os quatro
primeiros bits indicam em qual ciclo de tera maior a nota est localizada, num total de
quatro ciclos. Os trs ltimos bits indicam em qual ciclo de ciclo de tera menor a nota
est localizada, num total de trs ciclos. A informao de oitava dada
separadamente, com dois neurnios adicionais, um para indicar se a oitava de C3
at B3, outro para indicar se a oitava de C5 at B5. Se os dois neurnios possuem
valor zero, ento a oitava de C4 at B4. Essa representao est mais detalhada na
sesso 3.3.10 do captulo 3. Os compassos da Figura 4.3 esto novamente ilustrados
na Figura 4.4. Na matriz representada pela equao 4.2 foi utilizada a representao
dos ciclos de teras, em que cada linha da matriz corresponde a uma nota da melodia.

104

Figura 4.4: Dois compassos musicais

0 0 1 0 0 0 1 0 0
0 0 0 1 0 1 0 0 0
0 1 0 0 0 0 1 0 0
1 0 0 0 0 1 0 0 0
0 0 1 0 0 0 1 0 0
1 0 0 0 0 1 0 0 0
0 0 1 0 0 0 1 0 0
1 0 0 0 0 1 0 0 0
notas
(
(
(
(
(
(
=
(
(
(
(
(
(

(4.2)

4.3.2 Representao da durao e acordes

O treinamento da durao das notas feito separadamente. A
representao utilizada para durao a representao local, em que existe um
neurnio de sada para cada figura rtmica a ser representada. Nesse trabalho, so
representadas dezesseis figuras rtmicas. A representao da durao pode ser
observada na matriz representada pela equao 4.3. Portanto, so necessrios
dezesseis neurnios de sadas. Cada linha da matriz durao representa uma das
figuras rtmicas. Por exemplo, a primeira linha representa a semibreve, a segunda
linha representa a mnima pontuada, a terceira a mnima, a quarta a semnima
pontuada, a quinta a semnima, a sexta a colcheia pontuada e assim por diante. As
duas ltimas linhas representam quiltera
29
de colcheia e de semicolcheia,
respectivamente.

29
O termo rtmico quiltera caracteriza-se pela execuo de trs notas no tempo de duas. Por exemplo,
considerando a semnima como unidade de tempo, uma quiltera de colcheia, formada por trs colcheias,
deve ser tocada em um tempo.

105

1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0
duracao =
0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(

(4.3)

Os acordes so representados com a utilizao de sete bits, que se
caracterizam pela combinao da representao de ciclos de teras das notas que
compe o acorde. Por exemplo, o acorde de Em formado pela soma das notas E, G
e B, conforme Figura 4.5.

1 0 0 0 0 1 0 (E - fundamental)
1 0 0 0 0 0 1 (G tera menor)
0 0 0 1 0 0 1 (B quinta justa)
2 0 0 1 0 1 2 acorde de Em

Figura 4.5: Representao do acorde musical Em

Esses valores so normalizados para o intervalo [0,1] . Portanto, a
representao do acorde de Em usada no treinamento
1 0 0 0.5 0 0.5 1 . A Figura 4.6 apresenta alguns acordes e suas
respectivas representaes.

106

Figura 4.6: Exemplos da representao de acordes

4.4 ARQUITETURAS

Nessa sesso so apresentadas as arquiteturas das redes BPTT (Back-
Propagation Through Time) e LSTM (Long-Short Term Memory) utilizadas no
trabalho
30
. Alguns aspectos de treinamento tambm so discutidos. Como
anteriormente mencionado, a rede LSTM foi criada com o objetivo de minimizar o
problema do gradiente que desaparece, presente nas primeiras abordagens de redes
neurais recorrentes, como o BPTT. A utilizao da rede LSTM neste trabalho tem
como objetivo propor novas abordagens para composio musical e comparar os
resultados obtidos com a rede BPTT.

4.4.1 BPTT

O modelo de rede BPTT utilizado nos treinamentos est ilustrado na
Figura 4.7. Esse modelo consiste de entradas recorrentes (
i
x ), no-recorrentes (
i
i ),
uma camada escondida (representada pelos neurnios
i
z ) e uma camada de sada
(neurnios
i
y ). As entradas recorrentes representam a realimentao de sadas
anteriores, ou seja, os compassos de treinamento. As entradas no-recorrentes
representam os dados provenientes da inspirao da rede. A camada de sada
representa as notas, durao e os acordes musicais. A rede treinada com a
implementao do algoritmo padro de retropropagao do erro. Na fase de
treinamento, a rede neural deve aprender as melodias escolhidas pelo usurio. Na
fase de aplicao, a rede deve compor novas melodias baseadas nas melodias
previamente treinadas.

30
Um estudo comparativo entre as redes BPTT e SOM (Self-Organizing Maps) para composio musical
assistida por computador pode ser observado em [CORREA, SAITO, LEVADA e MARI, 2008].

107

Figura 4.7: Arquitetura da rede BPTT

Em todos os treinamentos, a taxa de aprendizado muda dinamicamente,
de acordo com o desempenho da rede. A atualizao dos pesos offline, ou seja, os
pesos so ajustados depois que todos os pares (entrada, sada desejada) so
apresentados rede. Os neurnios da camada escondida e da camada de sada
utilizam funo de ativao sigmide. As notas das melodias de treinamento e das
notas dos contornos de relevos naturais formam o vetor de entrada.
Geralmente, no comeo do treinamento, as sadas produzidas pela rede
sero diferentes das sadas desejadas e isso pode interferir nas equaes de
atualizao dos pesos. Conforme o treinamento continua, as sadas produzidas pela
rede estaro mais prximas das sadas desejadas, at que estejam prximas o
suficiente de forma que o treinamento possa ser concludo.
Este trabalho prope otimizar o treinamento da rede BPTT de duas
formas. Uma delas consiste no treinamento forado. Considera-se para o
treinamento da rede as sadas depois de totalmente treinada. O treinamento forado
considera as sadas produzidas pela rede iguais s sadas desejadas e as fornece aos
neurnios de entrada, uma vez que os valores desejados so conhecidos durante o
treinamento. Esse procedimento proporciona um treinamento mais rpido.
Uma das desvantagens do treinamento forado que ele no
aplicado para os neurnios escondidos, uma vez que os valores desejados para esses
neurnios no so conhecidos. Alm disso, mesmo quando a rede estiver totalmente
treinada, as sadas produzidas podem no serem exatamente iguais s sadas

108
desejadas. Portanto, quando a rede for utilizada na fase de aplicao, para a
composio de novas seqncias musicais depois do treinamento, os valores de
sadas sero realimentados para os neurnios de entrada e iro conter variaes no
presentes no treinamento. A segunda forma de treinamento proposta neste trabalho
busca minimizar essa segunda desvantagem. Para tanto, o treinamento incorpora uma
funo de probabilidade gaussiana nos neurnios de entrada, com mdia sendo o
valor de sada desejado e uma pequena varincia (por exemplo, 0.001). Isso significa
que os neurnios de entrada no iro receber exatamente os valores de sada
desejados, mas sim valores aleatrios que pertencem a um intervalo pequeno e que
contm o valor desejado (centro do intervalo) do passo de treinamento anterior. Assim,
possvel com que a rede aprenda a lidar com pequenas variaes durante o
treinamento, melhorando tambm a fase de aplicao.
Esses dois tipos de treinamentos produzem melodias diferentes e
podero ser escolhidos pelo usurio na interface proposta na sesso 4.2 como uma
das opes de treinamento da rede BPTT.

4.4.2 LSTM

O modelo geral da rede LSTM utilizado nos treinamentos est ilustrado
na Figura 4.8 para dois blocos de memria. Os blocos de memria representam a
camada escondida da rede. A Figura 4.8 apresenta apenas um tipo de cada conexo.
Como na rede BPTT, a camada de entrada representa os compassos de treinamento
e as notas da inspirao da rede. A camada de sada representa as notas, durao e
os acordes musicais. A rede deve ser treinada com a implementao do algoritmo
descrito na sesso 2.5 do captulo 2. Similarmente rede BPTT, na fase de
treinamento, a rede neural LSTM deve aprender as melodias escolhidas pelo usurio.
Na fase de aplicao, a rede deve compor novas melodias baseadas nas melodias
previamente treinadas.

109
Figura 4.8: Arquitetura da rede LSTM (apenas algumas conexes esto ilustradas)

4.4.2.1 Otimizao da iniciao dos pesos e estimao do nmero de
neurnios escondidos para a rede LSTM

O trabalho de mestrado prope tambm um mtodo novo para iniciar os
pesos da rede LSTM e estimar a configurao dos neurnios escondidos com o
objetivo de otimizar e estabilizar a fase de treinamento, baseado nos trabalhos de
Hguyen e Widrow para redes neurais MLP [NGUYEN E WIDROW, 1990]. As
equaes obtidas para a iniciao dos pesos so baseadas no estudo do
comportamento das sadas das clulas de memria na camada escondida da rede
LSTM [CORREA, LEVADA, SAITO, 2008]. A estimao do nmero ideal de neurnios
escondidos baseada no nmero de pontos de mnimo e mxima de funes 1-D e 2-
D. Para testar e avaliar o mtodo proposto, uma rede neural LSTM de duas camadas
foi treinada para aproximar funes no-lineares de uma e duas dimenses.

110
4.4.2.2 O comportamento dos neurnios escondidos da rede LSTM na
aproximao de funes no-lineares 1-D

Redes neurais com mais de uma camada podem ser usadas para
aproximar quaisquer funes arbitrrias, uma vez que elas possuam uma quantidade
suficiente de neurnios escondidos [IRIE e MIYAKE, 1988] [NGUYEN e
WIDROW,1990].
Basicamente, durante o treinamento com o objetivo de aproximar uma
funo desejada ( ) d x , a rede neural constri aproximaes lineares por partes ( )
i
y x
da funo ( ) d x . Ento, as partes so somadas para gerar a funo resultante. A idia
que cada neurnio escondido responsvel por uma determinada aproximao
linear ( )
i
y x .
Nessa abordagem, os pesos sinpticos e o bias controlam o
comportamento dessas aproximaes lineares por partes. Durante o processo de
aprendizado, os pesos sinpticos da rede devem se movimentar de modo que a regio
de interesse seja dividida em subintervalos, sendo cada um deles responsvel por
uma pequena poro da funo ( ) d x .
Portanto, razovel admitir que o processo de treinamento pode ser
reduzido iniciando-se os pesos dos neurnios escondidos de modo que cada um dos
neurnios seja associado a um subintervalo j no incio do treinamento. A rede, ento,
treinada normalmente, com cada neurnio escondido ainda tendo a liberdade de se
ajustar a um subintervalo durante o processo de aprendizado. Entretanto, a maior
parte desses ajustes provavelmente ser reduzida, visto que parte da movimentao
necessria
31
dos pesos sinpticos j foi eliminada pelo mtodo proposto de iniciao
dos pesos.
No exemplo abaixo, ( ) d x uma funo real a ser aproximada por uma
rede neural no intervalo
| |
1,1 . Assim, o tamanho do intervalo igual a 2. Seja H o
nmero de blocos de memria e M o nmero de clulas em cada bloco utilizado para
aproximar a funo ( ) d x . Portanto, cada unidade de processamento ser
responsvel, em mdia, por um subintervalo de tamanho 2 HM .
As funes sigmides ( ) f x , ( ) g x e ( ) h x adotadas nesse trabalho so
dadas pelas equaes (4.4), (4.5) e (4.6). De acordo com Nguyen e Widrow [1990],

31
Definio de reas de maior/menor contribuio de cada neurnio escondido

111
essas funes sigmides podem ser consideradas aproximadamente lineares para
| | 1,1 x , mas saturam conforme x cresce em magnitude.
( )
1
1
x
f x
e
=
+
(4.4)

( )
4
2
1
x
g x
e
=
+
(4.5)

( )
2
1
1
x
h x
e
=
+
(4.6)

A partir das equaes que fornecem o relacionamento entre a sada de
uma rede LSTM contendo um nico bloco de memria com uma nica clula, para o
caso unidimensional, e considerando a primeira iterao, quando no existe retorno
das conexes recorrentes e adotando uma aproximao linear para a sigmide no
intervalo
| |
1,1 , possvel escrever:

1
1 1
1
1 1,
in out
c
w b b x < < (4.7)

sendo que
1
1 1
1
in out
c
w b b x uma aproximao para a sada do j simo bloco de
memria na etapa de iniciao da rede. Isso implica em:

1 1
1 1 1 1
1 1
1 1
,
in out in out
c c
x
w b b w b b
< < (4.8)

resultando num intervalo de tamanho
1
1 1
1
2
in out
c
w b b
.
Como descrito anteriormente, esperado que cada bloco de memria
seja responsvel, em mdia, por um subintervalo de tamanho 2 HM . Portanto:

1
1 1
1
1
1 1
1
2 2
in out
c
in out
c
HM w b b
HM w b b
=
=
(4.9)

Adotando o esquema de iniciao dos bias proposto por GERS [2001],
tem-se:

112

1 1
2 2
0.5
1.0
(0.5* )
j j
in out
in out
in out
b b
b b
b b j
= =
= =
= =
M
(4.10)
Como resultado, uma expresso geral para a iniciao dos pesos
1
v
j
c
w
em uma rede LSTM com apenas uma entrada, dada por:

( )
2 1
0, 5
v
j
c
HM
w
j
=
(4.11)

Como recomendado por Nguyen e Widrow [1990], prefervel se ter
subintervalos com um pouco de sobreposio, de modo que ( ) 0,1 representa o
coeficiente que controla o nvel de sobreposio entre os subintervalos. Ao longo dos
experimentos nessa dissertao, considera-se 0, 7 = , Note que, de acordo com
essa metodologia,
1 2
1 1 1
1 1 1
M
c c c
w w w = = = K , no caso de M clulas em um bloco.

4.4.2.3 Redes LSTM com mltiplas entradas

A interpretao da aproximao de uma funo N-dimensional ( 1 N > )
um pouco mais complicada. Basicamente, so utilizados os mesmos conceitos
adotados na reconstruo de imagens de tomografia computadorizada [KAK E
SLANEY, 2001]. A ferramenta matemtica fundamental para essa anlise o Teorema
do Corte de Fourier (Fourier Slice Theorem). A idia consiste em tentar se aproximar a
Transformada de Fourier (TF) ( ) D U da funo desejada ( ) d x a partir das fatias 1-D
( )
i
D U . Aplicando-se a Transformada de Fourier Inversa no resultado, possvel
definir uma aproximao ( ) d x
%
para a funo desejada ( ) d x .
Considerando uma rede neural com duas entradas, uma sada tpica de
um neurnio escondido possui como sua Transformada de Fourier uma fatia da TF
2-D ( ) D U , denotada por ( )
i
D U . A verso no domnio do tempo de ( )
i
D U ,
denotada por ( )
i
d x , uma funo de uma nica varivel e pode ser aproximada por
uma rede neural, como descrito na seo anterior. Isso motiva o desenvolvimento de
uma metodologia que aproxime S fatias (funes 1-D) utilizando I intervalos cada,
adotando H blocos de memria com M clulas cada.

113
Basicamente, a direo dos vetores de peso
i
W
r
determina a direo da
i-sima fatia ( )
i
D U e a magnitude de
i
W
r
determina o tamanho do intervalo na
aproximao linear por partes da Transformada Inversa de ( )
i
D U , ou ( )
i
d x . Uma
sada tpica de uma clula de memria da rede LSTM, denotada por ( , ) q x y sendo x
e y as entradas da rede est ilustrada na Figura 4.9. A Transformada de Fourier de
( , ) q x y est ilustrada na Figura 4.10.

Figura 4.9. Ilustrao de uma sada tpica de uma clula de memria em uma rede
LSTM

Figura 4.10. A Transformada de Fourier de uma sada tpica de uma clula de memria
em uma rede LSTM

Como antes do treinamento no possvel saber de antemo o nmero
de fatias que a rede ir produzir, sugerido em Nguyen e Widrow [1990], que o

114
nmero de fatias seja dado pela relao
1 N
S I

= , sendo que N o nmero de
entradas da rede. Alm disso, como cada elemento do vetor de entrada pertence ao
intervalo
| |
1,1 , isso significa que cada intervalo tem comprimento aproximado de
2 I . Ento, pode-se definir:

( )
1
N
N
HM SI
HM I
I HM
=
=
=
(4.12)

Analogamente equao (4.9), possvel escrever a relao:

( )
1
2 2
,
v
j j
j
N
in out
c
w b b
HM
= (4.13)
o que resulta em

( )
( )
1
2
,
0, 5
v
j
N
c m
HM
w
j
=
(4.14)

com ( ) 0,1 . Da mesma maneira, 0, 7 = adotado para permitir certa
sobreposio aos subintervalos.

4.4.2.4 Estimao do nmero de neurnios escondidos

O objetivo dessa seo propor uma metodologia para estimar o
nmero de clulas de memria de uma rede LSTM na aproximao de funes,
atravs do uso do nmero de pontos de mnimo/mximo da funo desejada. Tendo
em vista que cada clula de memria responsvel por uma aproximao linear por
partes, razovel assumir que o nmero mnimo de clulas de memria deve ser igual
ao nmero de subintervalos existentes entre os pontos de mnimo/mximo locais,
como ilustra a Figuras 4.11 (a) e Figura 4.11 (b) para o caso da funo no-
linear ( ) ( ) ( )
2 5
sin exp y x x x = + .

115

(a) (b)

(c)
Figura 4.11: (a) Funo no-linear 1-D (b) Deteco dos pontos extremos (c)
Aproximao linear obtida atravs dos pontos extremos

Conectando os pontos extremos da funo possvel se obter uma boa
aproximao para a funo (Figura 4.11 (c)). A motivao para essa abordagem
consiste em um resultado extremamente importante da teoria de anlise de formas:
pontos de alta curvatura concentram informao geomtrica [COSTA E CSAR,
2001], fornecendo bons descritores de formas. Nesse trabalho, tais pontos podem ser
bem aproximados pelos extremos locais das funes desejadas.
A metodologia proposta consiste em utilizar a informao presente na
funo desejada ( ) d x , mais precisamente, o nmero de mnimos/mximos locais,
juntamente com o nmero de neurnios da camada de entrada da rede, para calcular
uma estimativa inicial do nmero de unidades escondidas necessrias para aproximar
a funo ( ) d x . Nota-se que de acordo com a metodologia proposta, possvel
associar uma configurao de rede especfica dependendo da funo objetivo
observada, ou seja, a rede configurada conforme o problema.
A deteco dos pontos extremos da funo implementada atravs do
mtodo de diferenas finitas para o clculo das primeiras derivadas. Basicamente,
existem trs tipos fundamentais de aproximaes utilizando diferenas finitas descritas
na literatura: aproximao usando diferena para frente, aproximao usando

116
diferena para trs e aproximao utilizando diferena centrada. A vantagem da
diferena centrada que ela fornece a aproximao mais precisa em termos da srie
de Taylor. A expresso para a primeira derivada, em um ponto x, utilizando a diferena
centrada dada por [SMITH, 1985]:
( )
( ) ( )
2
f x h f x h
d
f x
dx
+
(4.15)
No caso de funes reais 2-D, o gradiente de ( , ) f x y pode ser
aproximado pelas diferenas centrais nas direes x e y . A Figura 4.12 (a) mostra a
funo 2-D
} {
2 2
( , ) 0, 25 exp ( / 0, 5) ( / 0, 5) d x y x x y = + e a Figura 4.12 (b) ilustra os
pontos extremos detectados (condio ( , ) 0 d x y

= ).
Para funes 1-D, a definio de um ponto de mnimo/mximo divide o
domnio da funo em 2 regies no-sobrepostas (Figura 4.13 (a)). No caso de
funes definidas no
2
, o plano subdividido em 4 quadrantes no-sobrepostos
(Figura 4.13 (b)). Esse fato motiva a utilizao de uma heurstica para configurar o
nmero de neurnios escondidos ( ) HM necessrios para aproximar a funo. Na
verdade, HM proporcional a
2
( ) 1 n K + , em que n denota o nmero de entradas da
rede (dimensionalidade da funo) e k o nmero de pontos extremos da funo em
um dado intervalo de interesse.

(a) (b)
Figura 4.12: (a) Funo 2-D (b) Pontos extremos detectados

117

(a) (b)
Figura 4.13: Diviso do domnio da funo por um ponto extremo local (a) Duas Regies
(b) Quatro Regies

4.5 COMPOSIO DAS MELODIAS

As redes so treinadas separadamente para cada uma das melodias do
conjunto de treinamento. Depois que o treinamento concludo, cada rede neural
desempenha a fase de aplicao com a composio de uma nova melodia. Na fase de
aplicao, as primeiras notas do treinamento so dadas para cada rede treinada, e a
melodia composta utilizando as sadas obtidas por cada uma das redes. Portanto, se
o conjunto de treinamento formado por cinco melodias, uma rede treinada para
cada melodia e assim, na fase de aplicao, teremos uma nova melodia composta por
cada uma das cinco redes. A estratgia final de composio utilizada nesse trabalho
consiste na obteno de cada nota selecionada baseada na escolha de uma das notas
das melodias geradas pelas redes, incluindo informaes estatsticas sobre todas as
melodias do conjunto de treinamento atravs da elaborao de uma tabela de
probabilidade condicional para cada um dos atributos: notas, durao e acordes.
A tabela de probabilidade condicional das notas (alturas), por exemplo,
contm informaes sobre a freqncia de ocorrncia de notas de todas as melodias
do conjunto de treinamento. A tabela mostra a probabilidade de ocorrncia da nota ( x )
dada a ocorrncia da nota anterior ( y ). Essa anlise foi feita com todas as notas de
todas as melodias do conjunto de treinamento. Essa informao ento usada para
escolher a nota que far parte da melodia final. Seguindo o exemplo anterior, se h
cinco melodias compostas por cinco redes diferentes, a melodia final composta da
seguinte forma:

118
Seleciona-se a primeira nota aleatoriamente, ou seleciona-se a
nota com maior freqncia nas primeiras notas das cinco
melodias compostas.
Com as cinco notas candidatas seguintes (uma de cada melodia
composta), a prxima nota selecionada ser aquela com maior
probabilidade na tabela, dada a ocorrncia da primeira j
selecionada.
Continua-se o passo anterior at no haver mais notas a serem
selecionadas.
Para durao e acordes, a estratgia de composio a mesma.
Como exemplo de tabela de probabilidade condicional das notas, a
Tabela 4.1 apresenta as probabilidades das notas de 12 melodias usadas no conjunto
de treinamento, extradas de msicas tradicionais ou folclricas brasileiras. As 12
melodias so: O cravo e a rosa, Onde est a Margarida, Casinha pequenina,
Samba ll, Peixe vivo, O pobre e o rico, O Gato, Oh! Minas Gerais, Mulher
Rendeira, Escravos de J, Sapo Cururu e Boi da cara preta.

Tabela 4.1: Exemplo de probabilidades condicionais das notas

Para exemplificao do processo de composio, consideram-se trs
redes LSTM treinadas para as melodias Escravos de J, O Boi da Cara Preta e
Onde est a Margarida, que fazem parte da tabela de probabilidade (4.1). Em
seguida considera-se a gerao da primeira etapa de novas melodias na fase de
aplicao, mostradas pelas matrizes EscJ , BoiCaraPe OndeEstaM , na qual cada

119
elemento est sendo mostrado por um nmero que representa a nota e pela nota em
representao alfabtica entre parnteses.

2( ) 3( #) 3( #) 1( #) 5( ) 11( ) 3( #) 3( #) 6( ) 8( )
7( ) 4( ) 1( #) 4( ) 8( #) 9( ) 1( #) 1( #) 4( ) 7( )
5( ) 2( ) 1( 2) 1( 2) 10( #) 6( #) 1( 2) 1( 2) 5( ) 8( #)
4( ) 5( ) 3( #) 2( ) 11( ) 1( #) 1( #) 2( ) 6( #) 8( #)
D D D C F B D D F G
G E C E G A C C E G
EscJ
F D B B A F B B F G
E F D D B C C D F G
(
(
(
(
(
(4.16)

1( #) 9( ) 4( ) 1( #) 7( ) 3( #)
1( #) 5( ) 0( ) 2( ) 4( ) 6( #)
P
1( #) 1( #) 1( 2) 5( ) 2( ) 6( #)
11( ) 4( ) 1( 2) 8( #) 0( ) 9( )
C A E C G D
C F C D E F
BoiCara
C C B F D F
B E B G C A
(
(
(
=
(
(

(4.17)

1( 2) 7( ) 10( #) 1( 2) 4( ) 9( ) 8( #)
1( 2) 9( ) 8( #) 1( 2) 3( #) 10( #) 9( )
6( #) 7( ) 4( ) 1( 2) 7( ) 9( ) 9( )
6( #) 8( #) 1( #) 4( ) 5( ) 3( #) 5( )
B G A B E A G
B A G B D A A
OndeEstaM
F G E B G A A
F G C E F D F
(
(

(
=
(
(

(4.18)

O processo de composio proposto gera a matriz Final que
representa a melodia final gerada pela combinao das melodias EscJ , BoidaCaraP
e OndeestaM .
A matriz ( ) Final EscJ (equao 4.19) mostra as notas finais
selecionadas da matriz EscJo (equao 4.16); a matriz ( ) Final BoiCaraP (equao 4.20)
mostra as notas selecionadas da matriz BoidaCaraP(equao 1.17); e finalmente a
matriz ( ) Final OndeestaM (equao 4.21) as notas selecionadas da matriz
OndeestaM (equao 4.18). A obteno das matrizes ( ) Final EscJ ,
( ) Final BoiCaraP e ( ) Final OndeestaM baseada na escolha de maior probabilidade
conforme Tabela 4.1. A composio final obtida pela unio dessas trs matrizes,
conforme mostrado pela matriz Final (equao 4.22).
2( ) 11( ) 3( #) 6( #) 8( #)
9( ) 1( #) 4( ) 7( )
( )
5( ) 2( ) 1( 2) 1( 2) 5( ) 8( #)
4( ) 2( ) 2( ) 6( #) 8( #)
D B D F G
A C E G
Final EscJo
F D B B F G
E D D F G
(
(

(
=
(
(

(4.19)

120
7( ) 4( )
5( ) 0( ) 4( )
( )
2( )
4( ) 1( 2) 0( ) 9( )
G E
F C E
Final BoiCaraP
D
E B C A
(
(

(
=
(
(

(4.20)

1( 2) 4( ) 8( #)
1( 2) 1( 2) 9( )
( )
1( 2) 9( ) 9( )
6( #)
B E G
B B A
Final OndeestaM
B A A
F
(
(

(
=
(
(

(4.21)

2( ) 7( ) 4( ) 1( 2) 4( ) 11( ) 8( #) 3( #) 6( #) 8( #)
1( 2) 5( ) 0( ) 1( 2) 4( ) 9( ) 9( ) 1( #) 4( ) 7( )
5( ) 2( ) 1( 2) 1( 2) 2( ) 9( ) 9( ) 1( 2) 5( ) 8( #)
4( ) 4( ) 1( 2) 2( ) 0( ) 9( ) 6( #) 2( ) 6( #) 8( #)
D G E B E B G D F G
B F C B E A A C E G
Final
F D B B D A A B F G
E E B D C A F D F G
(
(

(
=

(
(
(4.22)

4.6 AVALIAO E OTIMIZAO DAS MELODIAS

O trabalho prope avaliar as novas melodias compostas pelas redes.
Como avaliar msica s vezes subjetivo, essa avaliao aplicada com base em
trs requisitos: notas repetidas na melodia (NRM), mudanas abruptas de altura (MAA)
e notas fora da tonalidade (NFT); e dois critrios: apropriadas ou inapropriadas.
Portanto, uma melodia composta classificada como no apropriada se existem
muitas notas repetitivas, se h significante nmero de ocorrncias de mudanas
abruptas de altura de uma nota para a seguinte, por exemplo, de C4 para D6; ou se h
significante quantidade de notas que no pertencem tonalidade da melodia.
Para isso, um conjunto de melodias folclricas ou tradicionais brasileiras
selecionado como exemplos de melodias apropriadas. Esse conjunto no
necessariamente precisa conter as mesmas melodias do conjunto de treinamento. Os
trs atributos, NRM, MAA e NFT so extrados desse conjunto, ou seja, para cada
exemplo de melodia apropriada so coletadas informaes sobre a incidncia de notas
repetidas, mudanas abruptas de altura e notas fora da escala.
A Tabela 4.2 apresenta os resultados obtidos do processo de extrao
de atributos para 10 melodias apropriadas. Todos os atributos foram normalizados
para o intervalo [0,1] . Similarmente, foram criados 10 exemplos representando
melodias inapropriadas e a mesma informao de incidncia foi coletada. A Tabela 4.3

121
apresenta os vetores de atributos obtidos para 10 exemplos de melodias
inapropriadas.

Tabela 4.2: Exemplos de atributos extrados de 10 melodias apropriadas
NRM MAA NFT
O Gato 0,26 0 0
Mulher Rendeira 0,28 0 0
O Cravo e a Rosa 0,20 0 0
Tocam os Sinos 0,31 0 0
Escravos de J 0,05 0 0
Oh! Minas Gerais! 0,03 0,015 0
Marinheiro Popeye 0,27 0 0
Era uma casa 0,10 0 0
Noite Feliz 0,18 0 0
Macaquinho 0,28 0 0,04
Mdia 0,196 0 0,004

Tabela 4.3: Exemplos de atributos extrados de 10 melodias inapropriadas
NRM MAA NFT
Melodia NA 1 0,4 0,13 0
Melodia NA 2 0,38 0,2 0,017
Melodia NA 3 0,08 0,017 0,45
Melodia NA 4 0,25 0,16 0,13
Melodia NA 5 0,33 0,06 0,1
Melodia NA 6 0,05 0,17 0,08
Melodia NA 7 0,16 0,08 0,25
Melodia NA 8 0,33 0,1 0,13
Melodia NA 9 0,08 0,17 0,2
Melodia NA 10 0,36 0,13 0,27
Mdia 0,242 0,12 0,1627

Os atributos NRM, MAA e NFT so extrados das novas melodias
criadas pelas redes BPTT e LSTM usando representao por intervalo e por ciclo das
teras.
O processo de avaliao realizado de duas maneiras. Basicamente, o
objetivo classificar a melodia gerada pela rede em duas classes: apropriada e
inapropriada.
A primeira abordagem consiste em medir a similaridade entre o vetor de
atributos da melodia gerada e o vetor mdia das duas classes (apropriada e
inapropriada) atravs da distncia euclidiana (norma L2). Se o vetor de atributos est
mais perto do vetor mdia correspondente a melodias apropriadas, a melodia
classificada como apropriada. Caso contrrio, ou seja, se o vetor de atributos da

122
melodia gerada estiver mais prximo do vetor mdia correspondente s melodias
inapropriadas, ento a melodia classificada como inapropriada.
A segunda abordagem consiste em treinar uma rede MLP (Multi-Layer
Perceptron) para classificao nas duas classes, cuja arquitetura est ilustrada na
Figura 4.14. Para representar a classe de melodia apropriada, os padres de
treinamento consistem nos vetores de atributos extrados dos exemplos de melodias
apropriadas e a rede treinada para produzir sada 0 quanto recebe um desses
vetores. Da mesma forma, a rede MLP treinada para produzir sada 1 se recebe
como entrada um dos vetores de atributos que representam os exemplos de melodias
inapropriadas.

Figura 4.14: Arquitetura da rede MLP utilizada para avaliao das melodias

Na fase de aplicao, os padres de entrada so os vetores de atributos
das novas melodias geradas pela rede. verificado ento se a sada da rede est
prxima de 0 (ento essa melodia ser classificada como apropriada) ou se a sada da
rede est prxima de 1 (ento a melodia ser classificada como inapropriada).
As melodias classificadas como inapropriadas passam pelo processo
de correo. A correo feita pela identificao das notas pertencentes aos atributos
NRM, MAA e NFT, ou seja, o algoritmo de correo proposto identifica ocorrncias de
notas repetidas, notas com mudanas abruptas de altura e notas fora de tonalidade
nas melodias inapropriadas. Essas notas representam partes no desejadas nas
melodias. As notas identificadas so corrigidas de acordo com a tabela de

123
probabilidade condicional que contm informaes sobre a freqncia de ocorrncia
de notas de todas as melodias do conjunto de treinamento.
Por exemplo, considera-se a seguinte seqncia de notas: C4 D4 F5 G4
G4. A passagem da nota D4 para a F5 representa uma mudana abrupta de
freqncia (altura). De acordo com a tabela de probabilidade condicional ocorre E
depois de ocorrer D com maior probabilidade. Na seqncia anterior tambm h duas
notas repetidas (G4 G4). Segundo a mesma tabela, maior a probabilidade de ocorrer
G depois de G. Como selecionar a nota G manteria o problema de notas repetidas,
busca-se na tabela a segunda nota com maior probabilidade, no caso E. Portanto, a
seqncia corrigida pelo mtodo proposto C4 D4 E4 G4 E4.

4.7CONSIDERAES FINAIS

Esse captulo descreveu a proposta de trabalho desta dissertao de
mestrado. A arquitetura da rede e as formas de representao dos elementos musicais
utilizadas seguem os exemplos propostos para a obteno dos resultados. Tambm
foi apresentado o mtodo de avaliao e correo das melodias. O prximo captulo
apresenta os resultados obtidos de acordo com as especificaes apresentadas.

124

CAPTULO 5 RESULTADOS OBTIDOS


Nesse captulo so apresentados os resultados obtidos na dissertao
de mestrado. Todos os treinamentos foram realizados com o programa MATLAB
(verso 2006b) em um computador com as seguintes especificaes: Processador
Intel Core Duo 1,66 GHz, 667 MHz FSB, 2 MB L2 cache, 1GB DDR2.
Na sesso 5.2 so apresentados os resultados obtidos com o mtodo
proposto de iniciao dos pesos e configurao dos neurnios escondidos para
otimizar o treinamento da rede neural LSTM em aplicaes que envolvem
aproximao de funes. A sesso 5.3 descreve como foram extrados os contornos
dos relevos naturais que so utilizados como inspirao da rede no processo de
composio. H tambm nessa sesso uma discusso sobre a influncia dessa
inspirao no treinamento da rede e nas composies finais obtidas. A sesso 5.4
apresenta as estratgias de composio musical desenvolvidas no trabalho e compara
resultados obtidos pelas redes BPTT e LSTM. As abordagens desenvolvidas para a
avaliao e correo das melodias obtidas pelas redes esto discutidas na sesso 5.5.
As consideraes finais desse captulo esto descritas na sesso 5.6.

5.2 EXPERIMENTOS COM O MTODO PROPOSTO DE INICIALIZAO DOS PESOS

Para testar e avaliar o mtodo proposto, uma rede neural LSTM com
quatro unidades de processamento (quatro blocos de memria com uma clula de
memria em cada bloco) foi treinada para aproximar a funo ( ) d x , como ilustrado na
Figura 5.1.

Figura 5.1: Resposta esperada para o primeiro experimento

125
Os valores iniciais dos pesos
v
j
c
w foram escolhidos aleatoriamente de
uma distribuio uniforme entre -0,2 e 0,2. Figura 5.2 apresenta as sadas das clulas
de memria ( )
v
j
c
y x e a sada da rede ( )
k
y x antes e depois do treinamento.

(a) (b)

(c) (d)
Figura 5.2: Sadas das clulas de memria com pesos iniciados aleatoriamente (a) antes
do treinamento (b) depois do treinamento (c) Sada da rede antes do treinamento (d)
Sada da rede depois do treinamento

No exemplo anterior, os pesos iniciais da rede foram selecionados com
valores aleatrios pequenos. Essa uma prtica comum no treinamento de redes
neurais. Entretanto, como observado no exemplo, os pesos precisam se mover de tal
forma que a regio de interesse seja dividida em pequenos intervalos.
Uma rede com pesos iniciais de acordo com o mtodo proposto de
iniciao, dado pela equao 4.11, foi treinada para aproximar a mesma funo
( ) d x descrita anteriormente. A Figura 5.3 apresenta, similarmente, as sadas das
clulas de memria e a sada da rede antes e depois do treinamento.
O erro quadrtico mdio como funo de tempo de treinamento
apresentado na Figura 5.4 para ambos os casos de treinamento, em que os pesos so
selecionados aleatoriamente (linha slida) e em que os pesos so selecionados de

126
acordo com o mtodo proposto (linha pontilhada). Todos os outros parmetros foram
os mesmos nos dois treinamentos.

(a) (b)

(c) (d)
Figura 5.3: Sada das clulas de memria com iniciao de pesos de acordo com o
mtodo proposto (a) antes do treinamento (b) depois do treinamento (c) Sada da rede
antes do treinamento (d) Sada da rede depois do treinamento

Figura 5.4: Erro quadrtico mdio para os dois casos de
treinamento (iniciao aleatria e iniciao otimizada)

Para ilustrar outro exemplo, a rede neural LSTM foi treinada para
aproximar a seguinte funo no-linear:

127

3
( ) sin( ) cos( ) d x x x x = + + (5.1)

A Figura 5.5 apresenta os resultados obtidos. Figura 5.5 (a) ilustra a
funo desejada (linha slida) e a sada da rede (linha pontilhada) depois do
treinamento com iniciao aleatria dos pesos. Figura 5.5 (b) ilustra a funo desejada
( ) d x (linha slida) e a sada da rede (linha pontilhada) aps a fase de treinamento com
iniciao dos pesos otimizada de acordo com o mtodo desenvolvido nesse trabalho.
Finalmente, a Figura 5.6 apresenta o erro quadrtico mdio para os dois casos de
treinamento.

(a) (b)
Figura 5.5: Funo desejada d(x) e sada da rede aps treinamento (a) com iniciao
aleatria (b) com iniciao otimizada

Figure 5.6: Erro quadrtico mdio para os dois casos de treinamento, com
iniciao aleatria e otimizada

Com os resultados obtidos, foi observado que o mtodo proposto
oferece uma maior estabilidade para o treinamento da rede, fazendo com que a rede
LSTM seja menos dependente das condies iniciais quando iniciada com pesos
escolhidos de forma aleatria. Essa comparao pode ser observada nas Figuras 5.7
e 5.8. A mesma rede dos exemplos anteriores foi treinada trs vezes, com 100 pocas
cada, adotando valores iniciais aleatrios dos pesos. A Figura 5.7 apresenta o erro

128
quadrtico mdio em funo do nmero de pocas de treinamento para cada um
desses trs treinamentos. possvel observar que a rede apresenta um
comportamento instvel.
(a)

(b)

(c)
Figure 5.7: Erro quadrtico mdio com pesos iniciais aleatrios (a) primeiro
treinamento (b) segundo treinamento (c) terceiro treinamento

O mesmo experimento foi realizado novamente, porm com o mtodo
desenvolvido para iniciao dos pesos. A Figura 5.8 apresenta o erro quadrtico
mdio em funo do nmero de pocas para os trs treinamentos. Os resultados
indicam um processo de treinamento mais estvel.
(a)

(b)

(c)
Figure 5.8: Erro quadrtico mdio com iniciao otimizada dos pesos

129

A iniciao proposta dos pesos foi usada para treinar uma rede com
duas entradas para aproximar a superfcie ilustrada na Figura 5.9. A funo que
descreve a superfcie a seguinte:

2 2
( , ) d x y x y = + (5.2)

O erro quadrtico mdio em funo do nmero de pocas est
apresentado na Figura 5.10 para o treinamento com pesos iniciados aleatoriamente
em um intervalo de -0,2 a 0,2 (curva slida); e para o treinamento com pesos iniciados
com o mtodo desenvolvido nesse trabalho (curva pontilhada).

Figure 5.9: Funo desejada 2-D

Figure 5.10: Curva de aprendizado para o treinamento da
rede para aproximar d(x,y) descrita anteriormente.

Em outro experimento, uma rede neural LSTM foi treinada para
aproximar as funes 1-D e 2-D representadas pelas Figuras 4.11 e 4.12,
respectivamente. A Tabela 5.1 apresenta os erros mdios quadrticos para a iniciao
aleatria, na qual os valores iniciais dos pesos
v
j
c
w foram escolhidos aleatoriamente de
uma distribuio entre -0,2 e 0,2.

130
A Tabela 5.1 tambm apresenta os erros quadrticos mdios para a
iniciao otimizada com o mtodo desenvolvido. Foram utilizadas vrias configuraes
de blocos e clulas de memria com diferentes taxas de aprendizado. Cada
configurao foi treinada por 300 pocas, 10 vezes. Para cada configurao
apresentado o melhor e pior caso. Erros com magnitude inferior a
4
10
foram
considerados como zero. A otimizao do treinamento da rede pode ser observada,
uma vez que todos os casos de treinamento com iniciao otimizada dos pesos
apresentam erros pequenos. Alm disso, o mtodo proposto reduz a diferena entre o
melhor e pior caso, refletindo um comportamento mais estvel. As configuraes da
rede prximas da estimativa proposta (5,1) apresentam os melhores resultados,
sugerindo que o critrio adotado pelo mtodo proposto de estimao do nmero de
neurnios escondidos valido.
Tabela 5.1: Erro quadrtico mdio para o treinamento de aproximao de funo 1-D
utilizando iniciao aleatria e otimizada
Erro quadrtico mdio
(Iniciao Aleatria)
Erro quadrtico mdio
(Iniciao Otimizada)
H

M

0.5 =

1 = 2 = 3 = 0.5 =

1 = 2 = 3 =
0.0076 0.0022 0.0017 0.0013 0.0030 0.0020 0.0017 0.0014
2 1
0.0087 0.0048 0.0093 0.0093 0.0031 0.0020 0.0023 0.0014
0.0070 0.0020 0.0010 0.001 0.0021 0.0014 0 0
3 1
0.0074 0.0097 0.0086 0.0091 0.0024 0.0020 0.0012 0.001
0.0060 0.0028 0.0023 0.0017 0.0018 0.0011 0 0
4 1
0.0084 0.0086 0.0082 0.0089 0.0034 0.0026 0.0011 0.0010
0.0031 0.0012 0.001 0 0.001 0 0 0
5 1
0.0076 0.0088 0.0070 0.0086 0.0030 0.001 0 0
0.0081 0.0087 0.0053 0.0037 0.0093 0.0081 0.0048 0.0032
1 2
0.0097 0.0097 0.0098 0.0098 0.0094 0.0097 0.0049 0.0034
0.0065 0.0081 0.0089 0.002 0.0058 0.0044 0.0023 0.0018
1 3
0.0097 0.0093 0.0094 0.0061 0.0069 0.0045 0.0024 0.0018
0.0068 0.0031 0.0020 0.0024 0.0052 0.0029 0.0018 0.0015
1 4
0.0096 0.0090 0.0092 0.0098 0.0052 0.0029 0.0018 0.0015
0.0050 0.0028 0.0020 0.0016 0.0022 0.0021 0 0
1 5
0.0086 0.0084 0.0097 0.0088 0.0034 0.0023 0.0016 0.0013

131
Como exemplos ilustrativos, so plotados a seguir as sadas da rede e o
erro quadrtico mdio para o melhor e pior caso, utilizando iniciao aleatria e
otimizada dos pesos e configurao proposta de cinco blocos de memria e uma
clula de memria por bloco. Para o pior caso, a Figura 5.10 (a) mostra a funo
desejada 1-D
2 2 5
( ) sin ( ) exp( ) y x x x = + e as sadas da rede depois do treinamento
com a iniciao aleatria e otimizada e a Figura 5.10 (b) apresenta o erro quadrtico
mdio em funo do nmero de pocas para dos dois casos de treinamento.

(a) (b)
Figura 5.10 (a) Sadas da rede para o pior caso de aproximao de funo 1-D com
iniciao aleatria e otimizada (b) Erro quadrtico mdio do treinamento em (a)

Similarmente, a Figura 5.11 (a) apresenta a mesma funo desejada
1-D (linha slida) e as sadas da rede para o melhor caso novamente utilizando os dois
tipos de iniciao. Figura 5.11 (b) ilustra o erro quadrtico mdio para os dois casos de
treinamento.

(a) (b)
Figura 5.11 (a) Sadas da rede para o melhor caso de aproximao de funo 1-D com
iniciao aleatria e otimizada (b) Erro quadrtico mdio do treinamento em (a)

Uma rede neural foi treinada para aproximar a funo 2-D ilustrada na
Figura 4.12 com diferentes configuraes, de maneira similar ao caso 1-D. Os

132
resultados indicaram que, como no treinamento do caso 1-D, quanto mais perto a
configurao dos neurnios escondidos se encontra da ideal (nesse caso, 9 neurnios
escondidos) menor o erro quadrtico mdio. A Figura 5.12 mostra os erros mdios
quadrticos para o melhor caso de treinamento para iniciao aleatria e otimizada.

Figura 5.12: Erro quadrtico mdio para a funo 2-D descrita na Figura 4.12

5.3 OBTENAO E INFLUNCIA DA INSPIRAO

Como descrito anteriormente, na fase de treinamento da rede os
compassos musicais devem pertencer a um mesmo estilo musical. Neste trabalho o
conjunto de treinamento formado por msicas brasileiras folclricas e tradicionais.
Esse estilo musical est mais detalhado na sesso 5.3.1, pois ser utilizado nas
prximas sesses.
Alm dos conhecimentos necessrios sobre msica, os compositores
geralmente consideram uma inspirao na composio de uma nova melodia. Esse
trabalho prope complementar o processo de composio com a adio de atributos
externos, referenciada como inspirao da rede. Essa inspirao representada pelos
contornos de relevos naturais e tem por objetivo simular um processo de composio
mais realstico e aprimorar a capacidade da rede na fase de aplicao. Portanto, a
sesso 5.3.2 descreve como essa inspirao foi obtida e sua influncia nas fases de
treinamento e aplicao.

5.3.1 Musicas brasileiras folclricas e tradicionais

O folclore faz parte da cultura popular e caracterizado pelo conjunto
de mitos, crenas, tradies, festas populares, costumes que so passados de

133
gerao em gerao. A palavra folclore composta por duas palavras provenientes do
ingls: folk que significa povo e lore que significa conhecimento. Portanto, diz-se que o
folclore expressa a sabedoria do povo
32
.
As msicas folclricas se caracterizam por serem simples, tonais,
geralmente estarem contidas num intervalo de uma oitava, e por apresentarem certa
monotonia e lentido. A msica folclrica est principalmente presente nas cantigas de
roda, brincadeiras infantis, danas, cantos religiosos, etc. So exemplos de msicas
folclricas brasileiras:
Cantigas de roda: Escravos de J, Atirei o Pau no Gato, Ciranda
Cirandinha, O Cravo e a Rosa, Sapo Cururu, O Pobre e o Rico,
Peixe Vivo.
Cantigas de Ninar: Boi da Cara Preta.
Modinhas: Casinha Pequenina.

A msica tradicional brasileira est ligada msica folclrica. Tambm
so msicas simples e monofnicas. Alguns autores consideram msicas folclricas e
tradicionais brasileiras como pertencentes a um mesmo estilo [ARAJO, 2007]. A
msica tradicional caracterizada como a msica prpria de um povo de uma
determinada regio ou de um determinado contexto social. So exemplos de msicas
tradicionais brasileiras: Mulher Rendeira, Oh! Minas Gerais, O Cravo e a Rosa, Onde
est a Margarida.
As caractersticas das melodias folclricas ou tradicionais brasileiras
influenciaram na escolha desses dois estilos musicais (referenciados como um nico
estilo) para formao do conjunto de treinamento.

5.3.2 Obteno da Inspirao

A inspirao da rede codificada a partir de imagens previamente
selecionadas contendo relevos naturais. Para essa codificao foi utilizada uma
combinao de filtros morfolgicos, como por exemplo, operaes de eroso e
dilatao.
A morfologia matemtica tem aplicao em diversas reas de
processamento e anlises de imagens, como por exemplo, segmentao, realce,
deteco de bordas, filtragem, entre outras [FILHO e NETO, 1999] e se caracteriza por
um conjunto de operaes que so aplicadas em uma imagem (representada por

32
Disponvel em http://ifolclore.vilabol.uol.com.br. Acesso: 1 de Maio de 2008.

134
conjunto de pixels) [PRATT, 1991]. A base da morfologia matemtica a teoria de
conjuntos, caracterizada pela extrao de informaes relativas geometria e
topologia de uma imagem desconhecida atravs de transformaes de outra imagem
bem definida, denominado elemento estruturante. Em imagens binrias, cada
elemento do conjunto um vetor 2-D representando as coordenadas (x,y) do pixel.
Sejam A e B conjuntos de membros do espao inteiro bidimensional
2
Z , com componentes
1 2
( , ) a a a = e
1 2
( , ) b b b = , respectivamente. A translao de A
por
1 2
( , ) x x x = , denotada por ( )
x
A , dada por:
{ ( ) | ,
x
A c c a x = = + para } a A (5.3)

A reflexo de B
^
B
| |
|
\ .
, caracterizada por:
{
^
| , B x x b = = para } b B (5.4)

O complemento do conjunto A definido como:
} {
|
c
A x x A = (5.5)
A diferena entre dois conjuntos A e B , ( ) A B , dada por:

} {
| ,
c
A B x x A x B A B = = (5.6)

A dilatao entre dois conjuntos A e B , indicada por A B , dada
por:

^
| ( )
x
A B x B A A
(
=
`
(

)
(5.7)

Assim, possvel definir o processo de dilatao pela reflexo de
B sobre sua origem e posteriormente pelo seu deslocamento de x . A dilatao de A
e B , portanto, o conjunto dos x deslocamentos para os quais a interseo com A
esteja contida em A. O elemento estruturante est representado pelo conjunto B .
A eroso entre A e B , indicada por A B e , definida como:
} {
| ( )
x
A B x B A = e (5.8)

135
Portanto, a eroso consiste no conjunto de pontos x , de tal forma que
B , uma vez translado de x , esteja contido em A.
Exemplos de dilatao e eroso esto ilustrados na Figura 5.13 (a).
Outras duas operaes morfolgicas importantes so a abertura e o
fechamento. Geralmente a abertura
33
usada na suavizao do contorno de uma
imagem, na eliminao de objetos pequenos e na quebra de extremidades estreitas.
A abertura de um conjunto A por B , denotada como A B o , representa a eroso de
A por B e em seguida a dilatao do resultado por B :

( ) A B A B B = o e (5.9)

Por outro lado, o fechamento
34
do conjunto A pelo elemento
estruturante B , denotado por A B , definido como a dilatao de A por B seguida
da eroso do resultado obtido por B :
( ) A B A B B = e (5.10)

O fechamento tambm suaviza contornos de objetos, elimina buracos
pequenos e une espaos pequenos entre objetos.
Os efeitos da abertura e fechamento podem ser notados na Figura
5.13(b).

33
Propriedades da abertura:
i. A B o uma subimagem de A.
ii. Se C uma subimagem de D, portanto C B o uma subimagem de D B o .
iii. ( ) A B B A B = o o o
34
Propriedades do fechamento:
i. A uma subimagem de A B .
ii. Se C uma subimagem de D, ento C B uma subimagem de D B .
iii. ( ) A B B A B =

136

(a)

(b)
Figura 5.13: Exemplos de (a) dilatao e eroso (b) abertura e fechamento [PRATT, 1991]

A idia geral do algoritmo para a extrao do contorno da inspirao
utilizado nas composies emprega a morfologia matemtica e pode ser resumido nos
seguintes passos:

137
1. Obter imagem com contornos naturais;
2. Transformar para imagem binria;
3. Criar elemento estruturante;
4. Aplicar eroso da imagem binria com elemento estruturante;
5. Computar diferena entre imagem binria com o resultado da
eroso;
6. Obter vetor de pixels do contorno da imagem.

A Figura 5.14 ilustra os seis passos do algoritmo para obteno dos
contornos dos relevos naturais. As Figuras 5.15 e 5.16 apresentam outros exemplos de
imagens utilizadas como inspirao e o contorno obtido.

(1) (2) (3)

(4) (5) (6)

Figura 5.14: Passos para extrao do contorno dos relevos naturais

(a) (b)
Figura 5.15: Imagem original (a) Extrao do contorno (b)

138

(a) (b)
Figura 5.16: Imagem original (a) Extrao do contorno (b)

O contorno ento convertido para uma seqncia de nmeros inteiros
que representam as notas musicais (Figura 5.17). Essa seqncia normalizada para o
treinamento da rede.

Figura 5.17: Converso do contorno da Figura 5.15 para seqncia de notas musicais

5.3.3 Influncia da inspirao

O objetivo dessa sesso investigar a influncia da inspirao nas
composies musicais e descrever o comportamento da rede na presena dessa
inspirao. O termo inspirao diz respeito a um vetor que representar as notas
extradas do contorno de imagens com relevos naturais.
A melodia utilizada no treinamento foi Escravos de J. Suas notas
esto ilustradas na Figura 5.18. Para melhor visualizao, as melodias sero
representadas em uma matriz, como seqncias das notas no tempo, coluna por
coluna, como na equao 5.11.

139

Figura 5.18: Partitura da melodia Escravos de J

2 2 2 1 2 11 4 4 4 7
7 4 0 2 7 9 2 2 2 7
5 2 1 1 9 7 1 1 4 7
4 4 2 2 11 2 2 2 5 7
EscJ
(
(
(
=
(
(

(5.11)

Sem a utilizao da inspirao, a entrada da rede caracterizada pelas
notas da melodia. Uma poca de treinamento consiste em apresentar todas as notas
da matriz EscJ . Cada padro de entrada representado por quatro notas da matriz
seqencialmente selecionadas, coluna por coluna. Cada coluna representa um
conjunto de quatro notas, referenciada nesse estudo como compasso. A tarefa da rede
aprender as prximas quatro notas ou o prximo compasso da coluna seguinte.
Quando a rede atingir o erro determinado (nesse caso, 0, 03 como a soma dos erros
quadrticos de todos os padres) o treinamento terminado. Para esse treinamento,
foi utilizada uma rede LSTM com quatro blocos de memria com uma clula de
memria por bloco. Os padres de entradas foram normalizados para o intervalo [0,1] .
A taxa de aprendizado utilizada foi 0, 04 a = . Foram necessrias 62910 pocas de
treinamento, num tempo de durao de 4432 segundos (especificar mquina).
Na fase de aplicao, a primeira coluna (primeiro compasso) de notas
so dadas para a rede e suas sadas so realimentadas para a gerao das prximas
notas at que a melodia seja composta. Portanto, a matriz (0) EscJ representa as
notas compostas pela rede aps o treinamento, sem nenhuma informao adicional de
inspirao.

140

(5.12)

As notas circuladas de vermelho representam as diferenas em relao
melodia de treinamento. possvel notar que, apesar das diferenas, a melodia
composta pela rede ainda apresenta algumas relaes entre alturas, encontradas na
melodia de treinamento. Por exemplo, as duas notas diferentes ao quarto compasso
esto um semitom abaixo em relao s mesmas notas da melodia de treinamento.
Em seguida, os treinamentos foram realizados com a informao
complementar da inspirao. A melodia de treinamento a mesma e tambm foi
utilizada mesma taxa de aprendizado e mesmo valor mnimo do erro.
A inspirao utilizada no treinamento representada pelo contorno da
Figura 5.15, com 263 notas de inspirao. Para o treinamento as notas so
selecionadas de acordo com a quantidade a ser utilizada nos padres de treinamento,
como descrito a seguir.
Com a utilizao de apenas uma nota de inspirao na composio,
cada padro de entrada possui cinco elementos (quatro elementos representando as
notas e um para a nota da inspirao). So necessrias 10 notas de inspirao no
total (Figura 5.19 (a)), representadas na matriz (1) insp da equao 5.13. Cada
conjunto de quatro notas da melodia acompanhado de uma nota da inspirao; e a
tarefa da rede continua sendo a aprendizagem das prximas quatro notas. Para esse
treinamento, foram utilizados cinco blocos de memria com uma clula cada. Foram
necessrias 53.371 pocas de treinamento, o que resultou em 7752 segundos.
(a) (b) (c)
Figura 5.19: Inspirao usada no treinamento: (a) 1 nota (b) 2 notas e (c) 4 notas

141
13
5
16
38
28
(1)
53
45
4
4
6
insp
(
(
(
(
(
(
(
= (
(
(
(
(
(
(
(

(5.13)
13 14
5 5
16 29
38 37
28 42
(2)
53 64
45 22
4 1
4 0
6 21
insp
(
(
(
(
(
(
(
= (
(
(
(
(
(
(
(

(5.14)
13 13 14 10
7 2 1 7
12 17 24 30
34 38 38 37
30 30 36 40
(4)
42 49 54 61
65 62 45 32
23 11 6 1
1 0 3 4
2 0 2 6
insp
(
(

(
(
(
(
(
= (
(
(
(
(
(

(
(

(5.15)

Na fase de aplicao, o primeiro compasso dado para a rede
juntamente com a primeira nota da inspirao. O prximo padro de entrada
formado pelas quatro notas geradas pela rede e pela nota seguinte da inspirao. O
procedimento continua at que a melodia seja composta. Nesse caso, a inspirao na
fase de composio exatamente a mesma do treinamento. A matriz (1) EscJ
representa as notas, em valores inteiros, compostas pela rede.

(5.16)

A melodia composta pela rede com a informao de apenas uma nota
na fase de treinamento e composio possui novamente vrias notas diferentes em
relao a melodia original. Ainda, (1) escJ est bem parecida com (0) escJ nos
primeiros seis compassos. As notas a partir do stimo compasso possuem notas mais
agudas em relao (0) escJ por causa da influncia das notas provenientes da
inspirao.
Em seguida a fase de aplicao alterada pela incluso de uma nova
inspirao, semelhante usada no treinamento, a fim de obter melodias ainda mais
diferentes. Para tanto, o treinamento foi executado da mesma forma como descrito
anteriormente. Na fase de aplicao, a inspirao caracterizada pelos dados
provenientes do contorno da Figura 5.16. Assim, a composio da melodia (1.1) escJ
foi influenciada pelas notas ilustradas na Figura 5.20 (a), representada na matriz
(1) insp da equao 5.17.

142
(a) (b) (c)

Figura 5.20: Inspirao usada na composio: (a) 1 nota (b) 2 notas e (c) 4 notas

4
5
8
19
38
(1)
68
65
17
11
21
insp
(
(
(
(
(
(
(
= (
(
(
(
(
(
(
(

(5.17)
4 1
5 11
8 13
19 27
38 47
(2)
68 68
65 55
17 14
11 21
21 29
insp
(
(
(
(
(
(
(
= (
(
(
(
(
(

(
(

(5.18)
4 2 1 5
5 8 11 11
8 10 13 16
19 22 27 31
38 42 47 64
(4)
68 69 68 67
65 60 55 47
17 15 14 7
11 14 21 20
21 28 29 30
insp
(
(
(
(
(
(
(
= (
(
(
(
(
(

(
(

(5.19)

Mesmo com a utilizao de inspiraes semelhantes na fase de
treinamento e composio, possvel observar que (1.1) escJ est mais distante da
melodia de treinamento escJ , apesar de ainda manter algumas relaes entre as
notas. Em relao (1) escJ , (1.1) escJ possui notas mais agudas, principalmente
nos ltimos compassos por causa das notas da inspirao usada (Figura 5.20 (a)),
que, comparadas com as notas da inspirao usada no treinamento (Figura 5.19 (a)),
apresentam valores inteiros maiores.

2 2 1 0 0 8 9 4 11 10
7 4 0 1 4 7 7 5 10 11
(1.1)
5 2 1 1 1 8 3 4 11 10
4 4 1 1 6 6 4 9 10 10
escJ
(
(
(
=
(
(

(5.20)

Num segundo experimento, foram utilizadas duas notas da inspirao
nos processos de treinamento e composio. O treinamento realizado da mesma
forma, com cada padro de entrada sendo representado por seis elementos (quatro
notas e duas notas da inspirao). So necessrias, portanto, 20 notas de inspirao
para o treinamento da melodia (Figura 5.19 (b)), representada pela matriz (2) insp da

143
equao 5.14. Cada conjunto de quatro notas da melodia acompanhado de duas
notas da inspirao; e a tarefa da rede continua sendo a aprendizagem das prximas
quatro notas. Para esse treinamento, foram utilizados seis blocos de memria com
uma clula cada. Foram necessrias 68.332 pocas de treinamento, o que resultou
em 11732 segundos de tempo de processamento.
Na fase de aplicao, o primeiro compasso dado para a rede
juntamente com as duas primeiras notas da inspirao; e a rede utiliza as prprias
sadas para a composio das notas seguintes. A matriz (2) EscJ representa as
notas compostas pela rede.

(5.21)

possvel observar que a melodia (2) escJ est semelhante a melodia
usada no treinamento, com apenas 12 notas diferentes, que, de forma geral, esto um
semitom abaixo das respectivas notas da melodia escJ . As duas notas da inspirao
contriburam para um aprendizado com notas mais fiis s notas usadas como
padres de treinamento. De maneira semelhante como no experimento anterior, a fase
de aplicao foi alterada com a utilizao de uma inspirao diferente, representada
na Figura 5.20 (b), porm com a utilizao de 20 notas (matriz (2) insp da equao
5.18). A melodia resultante est representada na matriz (2.2) escJ .

2 3 3 1 5 11 3 3 6 8
7 4 1 4 8 9 1 1 4 7
(2.2)
5 2 1 1 10 6 1 1 5 8
4 5 3 2 11 1 1 2 6 8
escJ
(
(
(
=
(
(

(5.22)

A melodia (2.2) escJ difere significamente da melodia (1.1) escJ por
causa da contribuio maior da inspirao, porm ainda guarda passagens de notas
presentes na melodia de treinamento.
Num terceiro experimento, foram utilizadas quatro notas da inspirao
nos processos de treinamento e composio. O treinamento como anteriormente.
Portanto, cada padro de entrada representado por oito elementos (quatro notas e
quatro notas da inspirao). Esse experimento utilizou 40 notas de inspirao para o
treinamento e composio da melodia (Figura 5.19 (c)), representada pela matriz
(4) insp da equao 5.15. Cada conjunto de quatro notas da melodia acompanhado

144
de quatro notas da inspirao; e a tarefa deve aprender as prximas quatro notas da
melodia de treinamento. Para esse treinamento, foram utilizados oito blocos de
memria com uma clula cada. Foram necessrias 2409 pocas de treinamento, o
que resultou em 594 segundos de durao.
Na fase de aplicao acontece de forma semelhante, ou seja, o
primeiro compasso da melodia de treinamento dado para a rede juntamente com as
quatro primeiras notas da inspirao; e a rede utiliza as prprias sadas para a
composio das notas seguintes. A matriz (4) EscJ representa as notas compostas
pela rede.

(5.23)

possvel observar que a melodia composta pela rede representa
quase que totalmente a melodia de treinamento. Isso foi possvel por causa da
redundncia dos dados. Haykin [1999] afirma que uma das heursticas para melhorar o
desempenho do algoritmo de retropropagao maximar o contedo da informao.
Segundo Haykin:
Como regra geral, todo exemplo de treinamento apresentado ao
algoritmo de retropropagao deve ser escolhido de forma que seu
contedo de informao seja o maior possvel para a tarefa
considerada. Dois modos de alcanar este objetivo so:
- O uso de um exemplo que resulte no maior erro de treinamento.
- O uso de um exemplo que seja radicalmente diferente de todos os
outros usados anteriormente [HAYKIN, 1999, p.205].
O uso de exemplos de treinamento que sejam diferentes dos exemplos
anteriores possvel com a incluso de mais notas de inspirao.
Como nos exemplos anteriores, a fase de aplicao foi alterada com a
utilizao de uma inspirao diferente, representada na Figura 5.20 (c), porm com a
utilizao de 40 notas (matriz (4) insp da equao 5.19). A melodia resultante est
representada na matriz (4.4) escJ .
2 4 6 0 1 11 11 11 11 11
7 5 1 4 10 11 11 11 11 11
(4.4)
5 3 1 1 8 11 11 11 11 11
4 6 3 2 11 11 11 11 11 11
escJ
(
(
(
=
(
(

(5.24)

Observa-se que a melodia composta com a utilizao de quatro notas
de uma inspirao semelhante, porm diferente do treinamento ficou saturada a

145
partir sexto compasso. Isso pode ter ocorrido pela presena de vrias notas muito
agudas e depois muito graves na inspirao.
Portanto, quando a mesma inspirao utilizada nas fases de
treinamento e aplicao, quanto mais notas de inspirao utilizadas, mais prxima
ficar a melodia final com a melodia de treinamento. Quando inspiraes diferentes
so aplicadas nas fases de treinamento e aplicao, a utilizao de mais notas de
inspirao tende a gerar melodias menos similares s melodias do treinamento.
Para uma melhor ilustrao, a melodia Escravos de J e as melodias
compostas pela rede com a utilizao da inspirao da Figura 5.20 foram
transformadas em vetores 2-D e so plotadas na Figuras 5.21. A Figura 5.21 (a)
apresenta a melodia Escravos de J e a melodia obtida pela rede com treinamento e
fase de aplicao sem nenhuma informao de inspirao. Na Figura 5.21 (b) tem-se
Escravos de J e (1.1) escJ , ou seja, a melodia composta pela rede com a
informao de uma nota da inspirao. Na Figura 5.21 (c) tem-se Escravos de J e
(2.2) escJ , que a melodia gerada com a utilizao de duas notas da inspirao. A
Figura 5.21 (d) apresenta Escravos de J e (4.4) escJ . Na Figura 5.21 (e) tem-se
(1.1) escJ e (2.2) escJ . Finalmente, na Figura 5.21 (f) tem-se (2.2) escJ e (4.4) escJ .

(a) (b)

(c) (d)

146

(e) (f)
Figura 5.21: Melodias geradas pela rede com inspirao semelhante na fase de aplicao

5.4 RESULTADOS DE COMPOSIO DAS MELODIAS

As sesses 5.4.1 e 5.4.2 apresentam exemplos de melodias compostas
com a utilizao dos algoritmos de treinamento BPTT e LSTM, respectivamente. As
redes foram treinadas com os dois tipos de representao discutidos anteriormente,
representao por intervalos e por ciclos de teras. A taxa de aprendizado utilizada no
treinamento 0, 3 = . Os compassos musicais do conjunto de treinamento e os
dados dos relevos geogrficos formam o vetor de entrada na fase de treinamento.
Duas melodias foram selecionadas para comparar os treinamentos da
rede BPTT e LSTM. No final da sesso 5.4.2 apresentada uma tabela comparando
os treinamentos das doze melodias citadas acima pelas duas redes em termos de
tempo de processamento e pocas necessrias para atingir um erro mdio pr-
estabelecido.

5.4.1 Aspectos de composio com BPTT

O modelo da rede BPTT est apresentado na sesso 4.4.1. Para
durao, foram utilizados dezesseis entradas, dezesseis neurnios escondidos e
dezesseis neurnios de sada. Para os acordes, foram utilizadas sete entradas, sete
neurnios escondidos e sete neurnios de sada.
A representao por ciclos de teras utiliza quinze entradas, quinze
neurnios escondidos e nove neurnios de entrada, de tal forma que a cada passo de
treinamento apresentado para a rede uma nota da melodia de treinamento e sua
informao de oitava e uma nota da inspirao e a sada da rede representa a prxima
nota da melodia de treinamento e a respectiva informao de oitava. Na fase de
aplicao, que consiste na composio de uma nova melodia, a rede utiliza suas
prprias sadas, a partir da primeira nota do treinamento que apresentada para a

147
rede juntamente com uma nota de uma nova inspirao, semelhante utilizada no
treinamento.
Na representao por intervalo, cada passo de treinamento consiste em
apresentar para a rede quatro notas da melodia de treinamento e duas notas da
inspirao sendo a tarefa da rede produzir as prximas quatro notas da melodia de
treinamento. Portanto, para esse treinamento foram utilizados seis neurnios de
entrada, seis neurnios escondidos e quatro neurnios de sada. Na fase de aplicao,
a rede recebe as quatro primeiras notas da melodia de treinamento e duas notas
representando os dados de relevos geogrficos parecidos aos utilizados na
composio e cada sada realimentada para a formao da melodia.
Outro estudo foi realizado quanto ao treinamento da rede BPTT. Esse
estudo se caracteriza pela configurao dos neurnios na camada escondida.
Verificou-se que para essa aplicao de composio musical, acrescentar camadas
escondidas no necessariamente melhora o desempenho da rede.
A Figura 5.22 mostra o erro quadrtico mdio para o treinamento das
melodias O Pobre e o Rico e O Boi da Cara Preta utilizando representao por
intervalo. A Figura 5.23 mostra o erro quadrtico mdio das melodias Escravos de J
e O Cravo e a Rosa utilizando a representao por ciclos de teras.

(a)

(b)
Figura 5.22: Erro quadrtico mdio do treinamento da rede BPTT com representao por
intervalo (a) O Pobre e o Rico (b) O Boi da Cara Preta

148

(a)

(b)
Figura 5.23: Erro quadrtico mdio do treinamento rede BPTT com representao de
ciclos de teras (a) Sapo Cururu (b) O Cravo e a Rosa

As Figuras 5.24 e 5.25 apresentam as melodias finais geradas pela rede
BPTT, utilizando representao por intervalo e por ciclo de teras, respectivamente.

Figura 5.24: Melodia final composta pela rede BPTT com representao por intervalo

149

Figura 5.25: Melodia final composta pela rede BPTT com representao por ciclo de
teras

5.4.2 Aspectos de composio com LSTM

O modelo de rede est apresentado na sesso 4.4.2. Como no caso da
rede BPTT, a rede LSTM possui uma camada escondida. Para a durao, tambm
foram utilizados dezesseis entradas, dezesseis neurnios escondidos (dezesseis
blocos de memria com uma clula de memria cada) e dezesseis sadas. Para
acordes, foram utilizadas sete entradas, sete blocos de memria com uma clula cada
e sete blocos de sada.
A representao por ciclo de teras utilizou quinze entradas, quinze
blocos de memrias com uma clula cada e nove neurnios de sada, de tal forma que
cada passo de treinamento e aplicao seja feito como na rede BPTT. No
diferentemente, para a representao por intervalos foram necessrios seis entradas,
seis blocos de memria com uma clula cada e quatro neurnios de sada.
Para a rede LSTM, alm do mtodo desenvolvido de iniciao dos
pesos e estimao dos neurnios escondidos que est descrito na sesso 4.4.2.1,
alguns estudos foram realizados com o objetivo de estimar outras configuraes.
Verificou-se que a rede apresenta melhor desempenho (em termos de tempo de
treinamento e convergncia) nos seguintes casos:
Os neurnios de entrada possuem conexes diretas com os
neurnios de sada. Conexes diretas, nesse caso, esto
relacionadas no existncia de pesos nessas conexes.

150
As sadas das clulas de memria possuem auto-realimentao
e realimentao para as clulas de memria do mesmo bloco e
de outros blocos.
As sadas das clulas de memrias so zeradas a cada poca
de treinamento.
O estado inicial da clula e as derivadas parciais so zeradas a
cada poca de treinamento.
Incluso de bias no gate de entrada, no gate de sada e no
neurnio de sada.
As mesmas melodias foram usadas para ilustrar os erros obtidos pela
rede LSTM. A Figura 5.26 mostra o erro quadrtico mdio para o treinamento das
melodias O Pobre e o Rico e O Boi da Cara Preta utilizando representao por
intervalo. A Figura 5.27 mostra o erro quadrtico mdio com a representao por
ciclos de teras para as melodias Sapo Cururu e O Cravo e a Rosa.

(a)

(b)
Figura 5.26: Erro quadrtico mdio do treinamento rede LSTM com representao por
intervalo (a) O Pobre e o Rico (b) O Boi da Cara Preta

151

(a)

(b)
Figura 5.27: Erro quadrtico mdio do treinamento rede LSTM com representao de
ciclos de teras (a) Sapo Cururu (b) O Cravo e a Rosa

As Figuras 5.28 e 5.29 apresentam as melodias finais geradas pela rede
LSTM, utilizando representao por intervalo e por ciclo de teras, respectivamente.

Figura 5.28: Melodia final composta pela rede LSTM com representao por intervalo

152

Figura 5.29: Melodia final composta pela rede LSTM com representao por ciclo de
teras

5.4.3 Comparao dos treinamentos das redes BPTT e LSTM

A Tabela 5.2 apresenta o nmero de pocas necessrias e a durao
(em segundos) do treinamento para que as redes LSTM atingissem um erro mdio de
0,03 sobre todos os padres de entrada, para 10 melodias do conjunto de treinamento,
utilizando a representao por intervalos. Os resultados da rede BPTT indicam a
durao do treinamento e o erro atingido para a mesma quantidade de pocas que a
rede LSTM precisou para atingir o erro mdio 0,03. Nota-se que a rede LSTM
apresenta melhor desempenho (em termos de tempo de treinamento e convergncia)
no treinamento de todas as melodias.
Tabela 5.2: pocas e durao de treinamento das redes LSTM e BPTT
LSTM Erro Mdio 0,03 BPTT
pocas Tempo Erro mdio pocas Tempo
Boi da cara preta 1417 67 seg 2,15 1417 197 seg
Escravos de J 14417 1164 seg 2,00 14417 3651 seg
Onde est a margarida 3416 187 seg 1,83 3416 548 seg
O pobre e o rico 1716 88 seg 1,06 1716 274 seg
O gato 4483 340 seg 2,41 4483 1067 seg
Mulher Rendeira 85392 10928 seg 3,13 85392 52755 seg
Sapo Cururu 26827 1241 seg 0,77 26827 5294 seg
Samba ll 30438 4278 seg 2,6 30438 154479 seg
O cravo e a rosa 2640 178 seg 1,30 2640 483 seg
Peixe vivo 91 097 18774 seg 7,21 91097 67239 seg

153
A Tabela 5.3 apresenta o erro atingido e a durao do treinamento para
8000 pocas de treinamento das duas redes, LSTM e BPTT utilizando a
representao de ciclos de teras, para 11 melodias do conjunto de treinamento.
Novamente, a rede LSTM apresentou melhores resultados.

Tabela 5.3: Erro mdio e durao de treinamento das redes LSTM e BPTT para 8000
pocas de treinamento
LSTM BPTT
Erro mdio Tempo Erro mdio Tempo
Boi da cara preta 0,04 6214 seg 62,39 14592 seg
Escravos de J 2,90 10444 seg 65,75 24326 seg
Onde est a margarida 2,11 7852 seg 31,96 18456 seg
O pobre e o rico 4,52 7854 seg 63,33 18532 seg
O gato 3,08 11084 seg 80,53 25538 seg
Oh! Minas Gerais 5,48 17934 seg 170,77 41344 seg
Mulher Rendeira 3,18 17334 seg 82,96 41296 seg
Sapo Cururu 0,52 6600 seg 53,56 15866 seg
Samba ll 3,36 20520 seg 212,73 47244 seg
O cravo e a rosa 0,17 8910 seg 64,29 21062 seg
Peixe vivo 1,63 22068 seg 147,42 51728 seg

5.5 AVALIAO E OTIMIZAO DAS MELODIAS

Os atributos NRM, MAA e NFT foram extrados das quatro novas
melodias criadas pelas redes BPTT e LSTM usando representao por intervalo e por
ciclo das teras. Essa informao est apresentada na Tabela 5.4. A Tabela 5.5
apresenta a classificao obtida por essas duas abordagens para as quatro melodias
da tabela 5.4.

Tabela 5.4: Exemplos de atributos extrados para as novas melodias compostas pelas
redes BPTT e LSTM.
NRM MAA NFT
BPTT intervalo
0,27 0,03 0
LSTM intervalo
0,15 0 0
BPTT ciclo de teras
0,13 0 0
LSTM ciclo de teras
0,14 0 0

Tabela 5.5: Avaliao obtida para as novas melodias
Distncia Euclidiana MLP Classificao
Vetor
mdia das
melodias
apropriadas
Vetor mdia
das melodias
inapropriadas

BPTT intervalo
0,0794 0,188 1,000 Inapropriada
LSTM intervalol
0,0462 0,2221 0,0004 Apropriada
BPTT ciclo de teras
0,0661 0,2311 0,0002 Apropriada
LSTM ciclo de teras
0,0562 0,2264 0,0003 Apropriada

154
Como pode ser observado, a primeira melodia foi classificada como
apropriada pela distncia euclidiana e como inapropriada pela rede MLP. Em
situaes com diferentes concluses, a deciso final ser a classificao da rede MLP.
Portanto, a melodia composta pela rede BPTT (Figura 5.24) com representao por
intervalos de notas foi classificada como inapropriada e dever ser otimizada. Um
exemplo dessa otimizao pode ser observado na Figura 5.30, em que as notas
circuladas em vermelho indicam as notas que foram corrigidas.

Figura 5.30: Melodia final composta pela rede BPTT com representao por intervalos
depois da correo

Como comparao dos resultados da avaliao proposta no trabalho, as
quatro novas melodias da Tabela 5.4 foram ouvidas por 14 pessoas diferentes. Essas
pessoas classificaram as melodias como ruim, regular ou boa, como uma analogia
apropriada e inapropriada, respectivamente. A Tabela 5.6 apresenta os resultados
obtidos da avaliao subjetiva. Das 14 pessoas que avaliaram as melodias 8 pessoas
relataram que possuem conhecimento bsico sobre msica, 4 pessoas relataram que
possuem conhecimento intermedirio, e 2 pessoas relataram conhecimento avanado.
Comparando os resultados na Tabela 5.6 nota-se que uma quantidade significativa
(16) de avaliaes boas foi atribuda para as melodias da rede LSTM em relao s
melodias da rede BPTT (8). Nota-se tambm que uma quantidade maior (6) de
avaliaes ruins foi dada as melodias da rede BPTT e quantidade menor (2) em
relao a rede LSTM. Comparando os resultados das tabelas 5.5 e 5.6 verifica-se uma

155
compatibilidade entre os dois procedimentos de avaliao, devido a melhor avaliao
dos resultados de composio da rede LSTM.

Tabela 5.6: Resultado das avaliaes
Avaliao

Melodias
Ruim Regular Boa
BPTT intervalo
2 7 5
BPTT ciclo de teras
4 7 3
Total BPTT
6 14 8
LSTM intervalo
1 4 9
LSTM ciclo de teras
1 6 7
Total LSTM
2 10 16
Total geral
8 24 24

5.6 CONSIDERAES FINAIS

Esse captulo apresentou os resultados obtidos nessa dissertao de
mestrado para o sistema proposto de composio musical. Nota-se que, independente
do algoritmo de aprendizagem, o sistema proposto til para a composio primria
de melodias, de tal forma que o usurio possa desempenhar anlises posteriores.
Apesar do conjunto de treinamento ser o mesmo, a arquitetura da rede e a
representao do conjunto de treinamento pode influenciar no resultado final. Todas
as melodias compostas so diferentes.
O prximo captulo descreve as concluses e comentrios sobre esses
resultados. Tambm so apresentadas propostas para trabalhos futuros.

156
CAPTULO 6 CONCLUSES

Nesse trabalho de dissertao de mestrado foi proposto e desenvolvido
um sistema de composio musical assistido por computador que desempenha desde
o treinamento at a avaliao e correo das melodias. A avaliao foi baseada em
trs atributos e foram propostas duas abordagens para determinar se a nova melodia
apropriada ou inapropriada. Dependendo das normas, dos classificadores e dos
atributos utilizados, as duas abordagens para avaliao das melodias podem obter
resultados diferentes. As melodias consideradas no apropriadas so corrigidas com
base na tabela de probabilidade condicional que montada sobre todas as melodias
do conjunto de treinamento.
Apesar da utilizao da inspirao baseada nos contornos dos relevos
geogrficos, nota-se que o sistema pode generalizar a origem da inspirao, o que
pode produzir resultados diferentes de composio.
No processo de treinamento estudado neste trabalho, foi observado que
a rede LSTM pode aprender de maneira mais apropriada que a rede BPTT,
principalmente na representao por ciclo de teras. Dessa forma, as novas melodias
apresentaram, mais adequadamente, a informao estatstica do conjunto de
treinamento. Alm disso, as duas melodias geradas pela rede LSTM apresentam
algumas seqncias de notas similares, dado que os dois treinamentos foram bem
desempenhados. As melodias geradas pela rede BPTT so mais distantes do conjunto
de treinamento e da tabela de probabilidade condicional das notas, uma vez que a
rede no conseguiu aprender adequadamente. Portanto, a disparidade entre as
seqncias de notas do conjunto de treinamento e seqncias de notas das novas
melodias significantemente maior. Pode ser notado que na aplicao da tabela de
probabilidade condicional, as notas escolhidas nas melodias geradas pela rede BPTT
correspondem a valores com menores probabilidades de ocorrncia em comparao
com as notas escolhidas nas melodias geradas pela rede LSTM. Isso significa que a
contribuio das probabilidades condicionais para a gerao da melodia final menor
para a rede BPTT do que para a rede LSTM.
O melhor desempenho no treinamento da rede LSTM em relao rede
BPTT tambm verificado pela velocidade atravs dos tempos de treinamento. Ou
seja, a rede LSTM tambm desempenha a fase de treinamento de forma mais rpida,
o que lhe confere caractersticas desejadas para a aplicao desenvolvida.
O trabalho de mestrado tambm descreve o comportamento dos
neurnios escondidos de uma rede neural LSTM na tarefa de aproximar funes no
lineares. A aproximao feita pela unio de aproximaes lineares por partes. Foi

157
proposto aprimorar o treinamento da rede LSTM estimando o nmero ideal de
neurnios escondidos em conjunto com um mtodo para iniciao dos pesos da rede.
Com o mtodo proposto de iniciao, alguns pesos so definidos perto dos locais
desejados finais depois do treinamento, otimizando assim o tempo de treinamento da
rede. Tambm foi observado que quanto maior o nmero de neurnios escondidos
utilizados para aproximar uma funo desejada, melhores so os resultados obtidos
com o mtodo de iniciao proposto.
Os resultados tambm mostraram que, com a iniciao aleatria,
aumentar o nmero de blocos de memria no necessariamente garante um melhor
desempenho da rede, uma vez que blocos de memria adicionais podem no ser bem
iniciados (valores iniciais so definidos aleatoriamente) e suas configuraes iniciais
esto distantes das configuraes finais ideais. Alm disso, dois ou mais blocos de
memria podem ser iniciados bem prximos um do outro e se manter prximos depois
do processo de treinamento, no permitindo contribuies significativamente
diferentes, uma vez que suas sadas podem estar altamente correlacionadas (dois ou
mais blocos podem ter sadas quase que equivalentes). A iniciao aleatria
geralmente apresenta grandes diferenas entre o melhor e o pior desempenho,
refletindo um comportamento instvel na fase de treinamento. Diferentemente, o
mtodo proposto de iniciao combinado com a deteco de pontos de mnimos e
mximos locais oferecem uma boa estimativa da configurao ideal da rede. Ainda, o
mtodo minimiza o problema de instabilidade que pode ocorrer nos treinamentos das
redes neurais.
Como uma unio das duas partes da dissertao (sistema para
composio musical envolvendo redes neurais e mtodo de iniciao de pesos da
rede LSTM) verifica-se que uma das maiores contribuies desse trabalho a
possibilidade de reduo significativa do tempo de treinamento em aplicaes de
composio musical envolvendo redes neurais, que pode ser conseguida
primeiramente pelo uso da rede LSTM ao invs de redes back-propagation tradicionais
e, segundo, pela otimizao dos pesos iniciais das redes LSTM. A combinao dessas
duas abordagens pode trazer um ganho significativo no tempo de aprendizado.

6.1 TRABALHOS FUTUROS

Trabalhos futuros incluem a insero de outros atributos musicais,
como, por exemplo, elementos de dinmicas e frases musicais. Outra possibilidade de
melhoria a incluso de um conjunto de treinamento com msicas mais complexas,

158
com a utilizao de duas claves musicais como uma alternativa a utilizao de
acordes.
Trabalhos futuros tambm podem incluir o uso de dimenses fractais da
msica, calculados por diferentes mtodos, como o FBM (Fractal Brownian Motion)
[BIGERELLE e LOST, 2000] para caracterizar a melodia gerada com o objetivo de
avaliar melhor a fase de composio. tambm interessante o uso do coeficiente de
Kappa [COHEN, 1960] para medir o desempenho da classificao, o que permite a
definio de um framework completo para anlise quantitativa dos dados.
Quanto ao mtodo proposto para iniciao dos pesos e configurao
dos neurnios escondidos da rede LSTM, trabalhos futuros incluem a tentativa de
otimizar a iniciao de outros parmetros, como os parmetros recorrentes e do bias.
Tambm sugere-se verificar o desempenho do mtodo para funes mais complexas
e para outras aplicaes, como por exemplo, tarefas de classificao e
reconhecimento de padres com o objetivo de comparar o desempenho da rede com e
sem o mtodo proposto em problemas reais.

159
REFERNCIAS BIBLIOGRFICAS
ADILOGLU, K.; ALPASLAN, F. N. A machine learning approach to two-voice counterpoint
composition. Knowledge-Based Systems, V. 20, pp. 300-309, 2007.

ARAUJO, A. M. Cem melodias folclricas. Martins Fontes, 2007.

AZEVEDO, F. M.; BRASIL, L. M.; OLIVEIRA, R. C. L. Redes Neurais com Aplicaes em
Controle de Sistemas Especialistas. SC: Visual Books, 2000.

BASILIO JOAQUIM, M.;SARTORI J.C. Anlise de Fourier. SP: Departamento de Engenharia
Eltrica So Carlos, 2003.

BENSON, D. J., Music: A Mathematical Offering. Cambridge, USA, 2007.

BHARUCHA, J.J.; TODD, P.M. Modeling the Perception of Tonal Structure with Neural Nets.
Computer Music Journal, Vol.13, No.4, 1989

BHARUCHA, J. J. Pitch, Harmony, and Neural Nets: A Psychological Perspective. Music
and Connectionism, MIT Press, 1991.

BIGERELLE, M., LOST, A. Fractal dimension and classification of music. In Chaos,
Solutions and Fractals, Vol. 11, pp.2179 2192, 2000.

BRAGA, A. P.; LUDEMIR, T. B.; CARVALHO, A. P. Redes Neurais Artificiais Teoria e
Aplicaes. R.J.: JC, 2000.

CARPINTEIRO, O. A. S. A neural model to segment musical pieces. In Proceedings of the
Second Brazilian Symposium on Computer Music, Fifteenth Congress of the Brazilian Computer
Society, p. 114 120. Brazilian Computer Society, 1995.

CHEN, C.-C. J.; MIIKKULAINEN, R. Creating Melodies with Evolving Recurrent Neural
Network. In Proceedings of the International Joint Conference on Neural Networks, IJCNN01,
p. 2241 2246, Washington - DC, 2001.

CHOMSKY, N. Syntactic Structures. The Hague: Mouton and Co., 1957

CORREA, D. C.; LEVADA A. L. M.; SAITO, J. H.; MARI, J. F. Neural Network based Systems
for Computer-Aided Musical Composition: Supervised x Unsupervised Learning. In:
Proceedings of the 2008 ACM Symposium on Applied Computing, v.3, p. 1738-1742, Fortaleza
CE, 2008.

CORREA, D. C.; LEVADA A. L. M.; SAITO, J. H. Stabilizing and Improving the Learning
Speed of 2-Layered LSTM Network. In: Proceedings on the 2008 IEEE 11th International

160
Conference on Computational Science and Engineering, Los Alamitos, CA : IEEE Computer
Society, 2008. p. 293-300.

COSTA, L. F.; CSAR, R. M. Shape Analysis and Classification: Theory and Practice. CRC
Press: 2001.

COHEN, J. A coefficient of agreeement for nominal scales. In Edu. Psycol. Measurement,
Vol 20, N. 1, pp. 37-46, 1960

DOLSON, M. Machine Tongues XII: Neural Networks. Computer Music Journal, Vol.13, No.
3, 1989.
ECK, D.; SCHMIDHUBER, J. A First Look at Music Composition using LSTM Recurrent
Neural Networks. Technical Report: IDSIA-07-02, 2002.

FAUSETT, L. Fundamentals of Neural Networks (Architectures, Algorithms, and
Applications). New Jersey: Prentice Hall International, Inc, 1994.

FILHO, O. M.; NETO, H.V. Processamento Digital de Imagens. Rio de Janeiro, Brasport,
1999.

FRANKLIN, J. A. Franklin. Recurrent Neural Networks for Music Computation. Informs
Journal on Computing, Vol.18, No.3, pp.321-338, 2006.

GAVES A., SCHMIDHUBER J., Framewise phoneme classification with bidirectional LSTM
and other neural network architectures. Neural Networks, Vol. 18, Issues 5-6, p. 602-610,
2005.

GERS, F. A.: Long Short-Term Memory in Recurrent Neural Networks. PhD thesis (2001)

GERS, F. A.; SCHMIDHUBER, J.; CUMMINS, F. Learning to Forget: Continual Prediction
with LSTM. Neural Computation, 12(10): 2451 2471, 2000.

GOGA, M.; GOGA, N. Feelings Based Computer Music. In Electrical and Computer
Engineering, p.673 676. Canadian Conference: 2004

GRIFFITH, N.; TODD, P. M. Musical Networks: Parallel Distributed Perception and
Performance. Cambridge, MA: MIT Press, 2001.

HAYKIN, S. Neural Networks A Comprehensive Foundation. Prentice Hall, 1999.

HOCHREITER S., BENGIO Y., FRASCONI P., SCHMIDHUBER J., Gradient flow in recurrent
nets: The difficulty of learning long-term dependencies. A Field Guide to Dynamical
Recurrent Networks, IEEE Press, New Your, 2001.

161
HOCHREITER S., SCHMIDHUBER J., Long Short-Term Memory. Neural Computation,
9(8):1735-1780, 1997.

IRIE, B.; MIYAKE, S. Capabilities of three-layerd perceptrons. In proceedings of the IEEE
International Conference on Neural Networks, pp. I-641, 1998.
KAK, A.C.; SLANEY M. Principles of Computerized Tomographic Imaging. Society of
Industrial and Applied Mathematics, 2001.

KOHONEN, T. A self-learning musical grammar or Associative memory of the second
Kind. In Proceedings on the International Joint Conference on Neural Network, p. 1 5, 1989.
KOHONEN, T.; LAINE, P.; TIITS, K.; TORKKOLA, K. A Nonheuristic Automatic Composing
Method. Music and Connectionism, MIT Press: 1991.

LADEN, B.; KEEFE, D. H. The Representation of Pich in a Neural Net Model for Chord
Classification. Computer Music Journal, Vol. 13, No.4, 1989.

LENT, R. Cem bilhes de neurnios Conceitos Fundamentais de Neurocincia. Atheneu,
So Paulo: 2002.

LEWIS, J. P. Creation by Refinement and the Problem of Algorithmic Music Composition.
Music and Connectionism, MIT Press: 1991.

LONGUET HIGGINS, H. C. The Perception of Music. In Proceedings of Royal Society of
London, B. 205, p. 307 322, 1979.

LOY, D. G. Connectionism and Musiconomy. Music and Connectionism, MIT Press: 1991.

MCLLOCH, W. S.; PITTS, W. A logical calulus of ideas immanent in nervous activity.
Bulletin of Mathematical Biophysics, 5: 115-133, 1943.

MIRANDA, E. R. Composing Music with Computers. Burlington, MA: Focal Press, 2001.

MOZER, M. C. Neural network music composition by prediction: Exploring the benefits of
psychoacoustic constraints and multiscale processing. Connection Science, 6(2-3), p. 247
280), 1994.

NGUYEN D., WIDROW B. Improving the learning speed of 2-layer neural networks by
choosing initial values of adaptive weights. In Proc. IJCNN, vol. 3, pp. 21-26, 1990.

PAULA FILHO, W.P. Multimdia Conceitos e Aplicaes. R.J : LTC, 2000.

162
PAPADOPOULOS, G.; WIGGINS, G. AI Methods for Algorithmic Composition: A Survey, a
Critical View and Future Prospects. Proceedings of the AISB99 Symposium on Musical
Creativity, p. 110 117. Brighton, UK: SSAISB, 1999.

PREZ ORTIZ J. A., GERS F. A., ECK D., SCHMIDHUBER J., Kalman Filters improve
LSTM network performance in problems unsolvable by traditional recurrent nets. Neural
Networks, vol. 16, issue 2, p. 241-250, 2003.

RATT,W.K. Digital Image Processing. John Wiley & Sons, Estados Unidos, 1991.

ROEDERER, J.G. Introduo fsica e psicofsica da Msica. So Paulo, Edusp: 1998.

ROWE, R. Machine Musicianship. Massachusetts: MIT Press, 2001.

SANO, H.; JENKINS, B. K. A neural Network Model for Pitch Perception. Computer Music
Journal, Vol. 13, No. 3, 1989.

SCARBOROUGH, D.L.; MILLER, B. O.; JONES, J. A. Connectionist Models for Tonal
Analysis. Computer Music Journal, Vol.13, No.3, 1989.

SCHMIDHUBER J., WIERSTRA D., GAGLIOLO M., Gomez F., Training Recurrent Networks
by Evolino. Neural Computation, MIT Press Journal, 19: 757-779, 2007.

SCHOENBERG, A. Fundamentals of Musical Composition. Erwin Stein, 1967.

SEJNOWSKI, T. J.; ROSENBERG, C.R. Parallel Networks that learn to pronounce English
text. Complex Systems, Vol.1, p. 145-168, 1987.

SHEPARD, R. N. Geometrical approximations to the structure of musical pith.
Psychological Review, 89, p. 305-333, 1982

SMITH, G. D. Numerical Solution of Partial Differential Equations: Finite Difference
Methods. Third Edition, Clarendon Press, Oxford: 1985.

SMITH, S.W. The Scientist and Engineer's Guide to Digital Signal Processing. California
Technical Publishing, 1997.

TANG,H., TAN K.C.; YI Z. Neural Networks: Computational Models and Applications,
Springer, New York, 2007.

TEMPERLEY, D. The Cognition of Basic Musical Structures. Cambridge, Massachusetts:
MIT Press, 2001.

TODD, P. M. A Connectionist Approach to Algorithmic Composition. Computer Music
Journal: Vol.13, No. 4, 1989.

163
TODD, P. M.; LOY, D. G. Music and Connectionism. MIT Press, 1991.

TODD, P. M.; WERNER, G. M. Frankensteinian Methods for Evolutionary Music
Composition. Musical Networks: Parallel Distributed Perception and Performance. Cambridge,
MA: MIT Press, 1998.

VERBEURGT, K.; FAYER, M.; DINOLFO, M. A Hybrid Neural-Markov Approach for
Learning to Compose by Example. LNAI, 3060, pp.480-484, 2004.

WILLIAMS R. J., ZIPSER D., Gradient-Based Learning Algorithms for Recurrent Networks and
Their Computational Complexity. In Back-propagation:Theory, Architectures and Applications.
Hillsdale, NJ: Erlbaum, 1992.

Rnas para Composição Musical

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Rnas para Composição Musical

Загружено:

Авторское право:

Доступные форматы

UNIVERSIDADE FEDERAL DE SO CARLOS

CENTRO DE CINCIAS EXATAS E DE TECNOLOGIA

< < (4.8)

Вам также может понравиться