Академический Документы
Профессиональный Документы
Культура Документы
Giuliano Ferronato
Albert Einstein
Agradecimentos
Ao CNPq pelo apio financeiro. E aos amigos, Daniel, Kka, Cau, Primo Lu
enfim, a todos comigo conviveram durante todo o perodo de estudo.
Giuliano Ferronato
Agosto/2008
Giuliano Ferronato
August/2008
Abstract: This work describes the application of a nonlinear regression technique (least
squares) to create prediction intervals on artificial neural networks (ANNs). Through
Monte Carlos simulations it is shown a way of choosing the set of parameters (weights)
to a neural network, according to a selection criteria based on the magnitude of the
prediction intervals provided by the net. With this technique it is possible to obtain the
prediction intervals with the desired amplitude and with known coverage probability,
according to the chosen confidence level. The associated results and discussions
indicate to be possible and feasible to obtain these intervals, thus making the network
response more informative and consequently increasing its applicability. The
computational implementation is available in www.inf.ufsc.br/~dandrade.
Sumrio
1. Introduo.................................................................................................. 8
1.1. Problema e enfoque ......................................................................................... 9
1.2. Objetivo............................................................................................................... 9
1.2.1. Objetivo geral....................................................................................... 10
1.2.2. Objetivos especficos........................................................................... 10
1.3. Justificativa ....................................................................................................... 10
1.4. Limitaes ......................................................................................................... 10
1.5. Resultados esperados ..................................................................................... 11
1.6. Estrutura de apresentao............................................................................. 11
2. Fundamentao terica......................................................................... 13
2.1. Redes neurais artificiais ................................................................................... 13
2.1.1. Aproximador universal de funes ................................................... 13
2.1.2. Perceptron multicamadas.................................................................. 14
2.2. Redes neurais artificiais via regresso no linear ........................................ 15
2.2.1. Estimao dos parmetros do modelo de regresso.................... 16
2.2.2. Predies intervalares ......................................................................... 17
3. Simulao de Monte Carlo .................................................................... 19
3.1. Etapa A: Criao da base de dados ........................................................... 19
3.2. Etapa B: Definio da arquitetura neural utilizada .................................... 20
3.3. Etapa C: Treinamento de RNAs .................................................................... 21
3.4. Etapa D: Definio do critrio de seleo composto utilizado ............... 21
4. Resultados e discusso........................................................................... 23
5. Consideraes finais............................................................................... 27
6. Referncias .............................................................................................. 29
Anexo 1 Tabela de distribuio t-student ................................................ 32
Anexo 2 Funes de ativao utilizadas ................................................. 33
Apndice 1 Tabela completa de anlise da srie CU_1........................ 34
1. Introduo
O paradigma conexionista, dentro do contexto de inteligncia artificial,
originou o que se conhece por neurocomputao, disciplina que trata de dispositivos
artificiais baseados em sistemas biolgicos, em especial o sistema nervoso. Neste
sentido acredita-se na possibilidade de construo de mquinas que imitem a estrutura e
funcionamento do crebro biolgico, na esperana da emergncia de um
comportamento inteligente (KOEHLER, 1998); (BITTENCOURT, 2006). Considerada
atualmente a principal tcnica utilizada em neurocomputao, a teoria de redes neurais
artificiais (RNAs), vem se consolidando mundialmente como uma eficiente ferramenta
para se lidar com a ampla classe dos, assim chamados, problemas complexos, em que
extensas massas de dados devem ser modeladas e analisadas em um contexto
multidisciplinar, envolvendo simultaneamente, tanto aspectos estatsticos e
computacionais como dinmicos e de otimizao. (BARBOSA, 2004) e (KOVACKS,
2002).
Esta ferramenta tem sido usada com grande eficincia em sistemas que
precisam aprender com usurios e adaptar-se a eles, pois ao contrario de programas
computacionais comuns, que executam apenas comandos de forma ordinria e fixa, esta
possui flexibilidade, sofre modificaes enquanto evolui e aprende atravs de exemplos.
utilizada em um grande nmero de aplicaes, nas mais diversas reas do
conhecimento, tais como, financeira, industrial, mdica, etc., com diferentes propsitos,
como, por exemplo, data mining, classificao, reconhecimento de padres,
segmentao, estimao e predio. (TAFNER, et.al., 1996 apud SANTOS, M. 2006).
Segundo Haykin (1999), deve-se entender as RNAs como uma extenso das
convencionais tcnicas estatsticas, pela qual o conhecimento emprico sobre um
fenmeno fsico ou ambiente de interesse pode ser codificado atravs de treinamento.
Neste sentido, uma das principais vantagens na utilizao RNAs a facilidade com que
se pode alterar o modelo neural usado para a estimao. De forma que, alterando-se o
nmero de neurnios, de camadas e/ou as funes de ativao da arquitetura, a funo
de regresso modelada modificada. E isto, podendo ser feito empiricamente, sem que
se faa necessrio um amplo conhecimento sobre os modelos de regresso que esto
sendo utilizados, simplifica a tarefa de obteno de um modelo que satisfaa as
necessidades especficas da aplicao. No caso, encontrar um modelo matemtico capaz
de aprender a relao existente nos dados disponveis, de forma a poder fazer predies
acuradas. (BRAGA; CARVALHO, et.al., 1998), (BARRETO 2001) e (NUNES, 1998).
Este trabalho restringe a aplicao desta ferramenta tarefa de predio, e
interpreta seu funcionamento do ponto de vista de anlise de regresso. O fato de
interpretar o modelo neural sob o aspecto de um modelo de regresso, possibilita a
aplicao de propriedades particulares, as quais no s permitem como tambm validam
a criao de predies intervalares, desde que se respeitem alguns pressupostos e
limitaes deste tipo de estimao. Esta interpretao se torna possvel devido
possibilidade de utilizar determinadas arquiteturas neurais como aproximadores
universais de funes.
A tarefa de predio, dentro do contexto da teoria da aproximao, consiste em
obter estimativas para a varivel de interesse (resposta), a partir de um conjunto de
exemplos (observaes). (KOVACKS, 2002). De maneira que, o modelo utilizado para
simular, ou ainda, reproduzir o comportamento presente nas observaes, deve ser
capaz de aprender a relao existente entre as variveis preditoras (entradas) e a
varivel resposta (sada), de forma aproximada. (HAIKYN, 1999).
1.2. Objetivo
Desta forma, destacam-se como:
1.2.1. OBJETIVO GERAL
Implementar e disponibilizar uma forma de obteno de uma medida de
preciso para predies de RNAs.
1.2.2. OBJETIVOS ESPECFICOS
Estudar a tcnica de obteno de intervalo de predio (mnimos quadrados),
oriunda da teoria de anlise de regresso, e avaliar sua aplicabilidade em
RNAs;
Aplicar a teoria de anlise de regresso ao contexto de RNAs, obter predies
intervalares, e indicadores de desempenho.
Apresentar um critrio de seleo de redes (escolha de um ajuste de
parmetros), que toma como base a amplitude dos intervalos de predio
obtidos, e no somente suas estimativas.
Analisar as mudanas, nos indicadores e nos intervalos obtidos, quanto a
alteraes nas caractersticas de nvel de rudo inserido nos dados fornecidos
para treinamento da rede.
Disponibilizar uma forma de obteno de predies intervalares para RNAs
em forma de package/biblioteca para Matlab.
1.3. Justificativa
Em geral as RNAs, utilizadas como aproximadoras universais de funes,
fornecem predies pontuais baseadas em um melhor ajuste de seus pesos (parmetros).
Porm a falta de uma medida de qualidade (preciso) aliada s predies faz com que a
aplicabilidade desta ferramenta possa ser discutvel.
Acredita-se que ao obter uma medida de preciso baseada nas prprias
predies fornecidas tradicionalmente pelas RNAs, haja um acrscimo qualitativo sob
os resultados, vindo a agregar valor em termos de qualidade e informao contida nas
predies. E desta forma auxiliar o utilizador da ferramenta na hora de escolher o ajuste
de parmetros que melhor adapta o modelo escolhido aos dados de seu problema.
1.4. Limitaes
A pesquisa apresenta algumas limitaes:
Apenas RNAs que so aproximadoras de funes, utilizadas para fins de
predio so consideradas, e apenas uma especfica arquitetura utilizada;
No so realizadas comparaes entre diferentes topologias ou arquiteturas, e
no se utiliza a tcnica de Weigth Decay na estimao dos pesos das redes.
A estimao dos parmetros do modelo realizada apenas por uma dentre as
diversas tcnicas estatsticas disponveis;
So utilizados apenas dados de simulao, no sendo considerados problemas
com dados reais;
No so feitos testes sobre dados que no correspondam aos pressupostos dos
modelos de regresso, afim de testar a robustez das predies.
Yi=(Xi,) + i, (2.4)
com i=1,...,n, onde Xi e Yi correspondem aos valores de X e Y para o i-simo elemento
do conjunto de dados disponveis, (Xi,) a equao de regresso (parte
determinstica do modelo) que supostamente rege a relao entres as variveis
dependentes e independentes, e i o erro aleatrio associado (existente por ser uma
relao estatstica); o vetor de parmetros do modelo. Esta equao de regresso
tida como linear, ou no linear, dependendo da complexidade relativa disposio dos
parmetros no modelo.
Em decorrncia da caracterstica de o modelo neural poder ser interpretado
como um aproximador universal de funes, sua equao explicita (eq. 2.1) passa a
representar a parte determinstica do modelo de regresso (eq. 2.4). Permitindo desta
forma, a utilizao das propriedades e tcnicas da anlise de regresso em estimaes,
tanto na fase de estimao dos parmetros do modelo (treinamento) quanto no
fornecimento de predies intervalares (generalizao). Para que esta utilizao seja
assintticamente validada, preciso que se atendam os pressupostos deste tipo de
modelo: Aleatoriedade dos resduos: Os resduos do modelo devem se apresentar de
forma aleatria, segundo os requisitos bsicos de homocedasticidade (varincia
constante), independncia e no auto-correlao; e No multicolinearidade das
variveis preditoras: Significando que, no podem existir relaes lineares entre as
variveis independentes do modelo de regresso. Outra caracterstica que no
exigncia para estimao dos parmetros, porm, se faz necessria quando se deseja
criar predies intervalares para um modelo, a Normalidade dos resduos: ou seja,
pressupe-se que os resduos, alm de serem aleatrios e independentes sigam uma
distribuio aproximadamente normal. Uma maneira de verificar se os dados atendem
tais requisitos recorrer a ferramentas como anlise de resduos e anlise de correlao.
Detalhes podem ser obtidos em Neter et al. (1996).
MSE =
SSE
=
(Y i Yi ) 2
, (2.6)
n p n p
onde n o numero de observaes disponveis para treinamento, e p a quantidade de
parmetros do modelo,
)
( ) ( )
VAR Yn +1 2 g tn +1 J t J
1
g n +1 , (2.7)
onde J a matriz das derivadas de primeira ordem da estimao i|Xi, com i=1,2,...,n, e
gn+1 um vetor de derivadas de primeira ordem da predio pontual i+1|Xi+1, ambos em
)
relao a todos os parmetros j, com j=1,...p. As i-simas entradas destes elementos
so consistentemente calculadas por 2.8 e 2.9 respectivamente:
J ixj =
(
) )
Yi | X i , ) , (2.8)
)
j
g n +1 =
(
)
Yn +1 | X n +1 ,
)
,
) (2.9)
)
j
2
onde n+1 uma notao que representa um dado novo (presente ou no no conjunto de treinamento),
e |X representa uma estimao dado que X o conjunto de valores de entrada da rede.
E assim, baseado no teorema das amostras grandes, a seguinte equao
apresenta uma estimativa intervalar assintticamente vlida para n+1|Xn+1.
( ) 1
Y n +1 t . MSE .1 + gnt +1 J t J gn + 1 ,
(2.10)
onde t representa o valor crtico obtido pela distribuio t-student3 com n-p graus de
liberdade e grau de confiana desejado, escolhido arbitrariamente (geralmente entre
95% e 99%). A magnitude de t, e consequentemente a amplitude do intervalo obtido
so diretamente proporcionais a este valor escolhido, de forma que, quanto maior o
nvel de acerto desejado para o intervalo, maior o valor crtico a ser utilizado e
consequentemente maior tende a ser o intervalo obtido (menos preciso).
3
A tabela t-student pode ser consultada no Anexo 1. considerada tal distribuio para as predies, uma
vez que se utiliza uma estimao da varincia do erro (MSE), e no seu real valor 2.
3. Simulao de Monte Carlo
Monte Carlo um mtodo estatstico utilizado em simulaes estocsticas.
Pode ser utilizado como forma de obter aproximaes numricas de funes complexas.
Tipicamente envolve a gerao de observaes com alguma distribuio de
probabilidades especfica, e o uso de tcnicas de amostragem, para ento aproximar a
funo de interesse de acordo com a metodologia escolhida.
O que se prope utilizar esta metodologia, em conjunto com o modelo neural
proposto na seo 2.1 e analisado na seo 2.2, para conduzir um experimento onde seja
possvel obter e analisar, intervalos de predio para RNAs quando utilizadas com
objetivo de aproximar uma funo complexa e fazer predies.
Para que isto se faa possvel, prope-se uma simulao em 4 etapas (A, B, C,
D), onde resumidamente, na etapa A: so criadas trs bases estocsticas de dados, com
diferentes caractersticas em relao ao termo de erro inserido no modelo; na etapa B:
definida a arquitetura (nica) utilizada pelas redes em todo o processo de simulao; a
etapa C: apresenta a metodologia utilizada para o treinamento de RNAs, segundo
arquitetura definida, para cada base de dados; e a etapa D: apresenta um critrio
composto para seleo da rede que melhor reproduz o conhecimento em cada base de
dados.
aritmtica dos valores individuais de cada meia amplitude (MA), estimada para cada
observao (ilustrada pela figura 2, na seo 2.2). Ao utilizar apenas o indicador PC
como critrio de escolha da melhor rede, priorizam-se redes que acertem mais, no
considerando a amplitude dos intervalos obtidos. Ao passo que, utilizando apenas o
critrio , priorizam-se redes que apresentem predies mais precisas, porm no
treinadas. Sendo assim, o critrio de seleo prioriza redes que obtenham maior PC
dentre as que possuem aceitvel, segundo o valor estabelecido para o critrio. E
assim, o limite aceitvel para seleo das redes pode ser obtido segundo a equao:
LA = Min + CS*Min (3.2)
onde, LA o limite mximo para valores de , que permite que uma rede possa ser
classificada como aceitvel, podendo assim vir a ser escolhida como a melhor dentre
todas as redes treinadas para determinada srie de dados.
ultimas duas colunas se referem respectivamente aos valores, mnimo e mximo obtidos
para e PC dentre todas as 100 redes treinadas em cada srie de treinamento.
melhor rede considerando o critrio composto quando especificado como 5, 10, 15, 20 e
50%.
De forma a exemplificar e simplificar a compreenso do processo de escolha
da melhor rede segundo dados de uma srie especfica encontra-se no anexo 3 a tabela
completa de valores de todos os indicadores em relao s 100 redes treinadas para a
srie CU_1. Para as demais sries analisadas, CU_3 e CU_5, o procedimento o
mesmo.
1% 1 80 1 1 1 53 2,07 94,40
5% 18 37 10 6 5 20 2,13 95,20
10% 28 37 10 6 5 20 2,13 95,20
15% 34 68 32 31 29 8 2,30 95,60
20% 34 68 32 31 29 8 2,30 95,60
50% 39 68 32 31 29 8 2,30 95,60
1% 2 80 1 6 2 45 6,36 95,00
5% 7 91 4 3 4 11 6,44 96,00
10% 17 81 23 23 16 7 6,92 96,20
15% 35 48 26 11 20 4 6,98 96,40
20% 53 32 62 58 43 3 7,45 96,60
50% 87 9 60 24 68 2 7,94 96,80
E finalmente, dentre as 100 redes treinadas com dados cuja varincia dos erros
igual a 5, observou-se como valores mnimos e mximos em relao a PC 90,20% e
95,60%; e em relao a 9,59 e 1.256,89.
1% 1 64 1 1 1 19 9,59 94,00
5% 8 64 1 1 1 19 9,59 94,00
10% 25 53 48 20 20 2 10,46 95,20
15% 51 53 48 20 20 2 10,46 95,20
20% 69 53 48 20 20 2 10,46 95,20
50% 82 96 98 30 79 1 12,29 95,60
Cabe ressaltar que, mesmo que o critrio venha a ser definido com um valor
alto de flexibilidade (ex.: 100%), a rede escolhida como melhor no necessariamente
obter valor elevado em relao a , uma vez que este calculado em relao ao
menor valor encontrado para a magnitude dos intervalos. Fica a critrio do utilizador da
ferramenta, ajustar o critrio para mais ou menos restritivo, dependendo dos resultados
encontrados por seus modelos em relao aos dados disponveis, bem como das
caractersticas e exigncias do ambiente de aplicao.
5. Consideraes finais
Com este trabalho, foi possvel demonstrar a factibilidade de se obter predies
intervalares para RNAs utilizando a tcnica de mnimos quadrados. Estes intervalos
podem ser criados de acordo com caractersticas de desempenho especficas,
aumentando ainda mais a flexibilidade desta ferramenta. Foi visto que, mesmo quando o
critrio de seleo utilizado foi estabelecido para ser bem restritivo, definindo os
menores intervalos preditivos encontrados, a probabilidade de cobertura das redes
escolhidas foi maior do que o nvel de confiana = 95% especificado para criao dos
mesmos. Uma das caractersticas constatadas, que existe uma relao diretamente
proporcional entre a variabilidade dos erros e o tamanho dos intervalos obtidos.
No somente as estatsticas de e PC foram observadas, mas tambm outros
BISHOP, C. M. Neural networks for pattern recognition. 9. ed. New York: Oxford
University Press, 2005.
HWANG J. T.; DING A. A. Prediction intervals for artificial neural networks. Journal
of the American Statistical Association, New York, v. 92 n. 438, p.748-757, jun. 1997.
JACOB, M. A. Classificao Supervisionada de imagens SAR via Redes Neurais
Artificiais. So Jos dos Campos. Dissertao (Mestrado em Engenharia Eletrnica)
Instituto Tecnolgico de Aeronutica, 2003.
PAIM, R. L. Sistema hipermdia sobre cncer de mama com interface adaptativa usando
redes neurais artificiais MLP e IAC. Florianpolis. Dissertao (Mestrado em
Engenharia Eltrica) - Universidade Federal de Santa Catarina, 2006.
Funo Identidade: Sua funo matemtica pode ser representada pela figura abaixo.
Tabela 01: Valores referentes aos indicadores MSE, MSSE, SSE, e PC obtidos
mediante a utilizao de todos os dados de teste da srie CU_1, em cada uma das 100
redes treinadas.
Legenda: