Otimizacao Escalar e Vetorial Vol 2

Universidade Federal de Minas Gerais
Departamento de Matematica
Notas de Aula
Otimiza cao Escalar e Vetorial
Volume 2: Otimiza cao Escalar
Professor: Ricardo H. C. Takahashi
Belo Horizonte, Janeiro de 2007
Conte udo
I Introdu cao e Conceitos Preliminares 6
1 Introdu cao 7
1.1 Otimiza c ao em Projeto Assistido por Computador . . . . . . . 7
1.2 Sistemas de Projeto Assistido por Computador . . . . . . . . . 9
1.3 Otimiza c ao em PAC . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.1 A Abordagem Escalar . . . . . . . . . . . . . . . . . . 12
1.3.2 A Abordagem Vetorial . . . . . . . . . . . . . . . . . . 16
1.4 Formula c ao do Problema de Otimiza c ao Vetorial . . . . . . . . 17
1.4.1 Etapa de Determina c ao das Solu c oes Ecientes . . . . 17
1.4.2 Etapa de Decis ao . . . . . . . . . . . . . . . . . . . . . 18
2 Deni c oes de Referencia 20
2.1 Espa cos e Normas . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2 Espa cos Topol ogicos . . . . . . . . . . . . . . . . . . . . . . . 24
2.3 Cones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.4 Hiperplanos e Poliedros . . . . . . . . . . . . . . . . . . . . . . 28
3 Caracteriza cao das Fun c oes 29
3.1 Superfcies de Nvel e Modalidade . . . . . . . . . . . . . . . . 30
3.1.1 Bacias de Atra c ao . . . . . . . . . . . . . . . . . . . . . 32
3.2 Continuidade e Diferenciabilidade . . . . . . . . . . . . . . . . 32
3.3 Convexidade e Quasi-Convexidade . . . . . . . . . . . . . . . . 33
3.4 Mnimos Locais e Mnimos Globais . . . . . . . . . . . . . . . 36
3.5 Caracteriza c ao dos Mnimos Locais . . . . . . . . . . . . . . . 37
4 Convergencia de Algoritmos 42
4.1 Algoritmos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
1
CONTE
UDO 2
II Otimiza cao Escalar 46
5 Interpreta cao Geometrica 47
5.1 O Jogo da Otimiza c ao . . . . . . . . . . . . . . . . . . . . . . 47
5.1.1 Formula c ao do Problema de Otimiza c ao . . . . . . . . 48
5.1.2 As Regras do Jogo . . . . . . . . . . . . . . . . . . . . 54
5.2 Otimiza c ao Sem Restri c oes . . . . . . . . . . . . . . . . . . . . 57
5.2.1 Estrategias de Dire c ao de Busca . . . . . . . . . . . . . 62
5.2.2 Estrategias de Exclus ao de Regi oes . . . . . . . . . . . 67
5.2.3 Estrategias de Popula c oes . . . . . . . . . . . . . . . . 74
5.3 Otimiza c ao com Restri c oes de Desigualdade . . . . . . . . . . 80
5.3.1 Interpreta c ao geometrica de uma restri c ao de desigual-
dade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.3.2 Interpreta c ao geometrica de v arias restri c oes de desi-
gualdade . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.3.3 Barreiras e Penalidades . . . . . . . . . . . . . . . . . . 85
5.3.4 Composi c ao pelo M aximo . . . . . . . . . . . . . . . . 89
5.4 Otimiza c ao com Restri c oes de Igualdade . . . . . . . . . . . . 90
5.5 Otimiza c ao Linear . . . . . . . . . . . . . . . . . . . . . . . . 93
6 Dire c oes de Busca 98
6.1 Estrutura B asica . . . . . . . . . . . . . . . . . . . . . . . . . 99
6.2 Busca em Dire c oes Aleat orias . . . . . . . . . . . . . . . . . . 100
6.3 Algoritmo do Gradiente . . . . . . . . . . . . . . . . . . . . . 102
6.3.1 C alculo do Gradiente . . . . . . . . . . . . . . . . . . . 103
6.3.2 Otimiza c ao Unidimensional . . . . . . . . . . . . . . . 104
6.3.3 Criterios de Parada . . . . . . . . . . . . . . . . . . . . 108
6.3.4 Convergencia . . . . . . . . . . . . . . . . . . . . . . . 112
6.4 Aproxima c oes Quadr aticas . . . . . . . . . . . . . . . . . . . . 115
6.4.1 Algoritmo de Newton . . . . . . . . . . . . . . . . . . . 118
6.4.2 Metodo de Newton Modicado . . . . . . . . . . . . . 119
6.4.3 Determina c ao Numerica da Hessiana . . . . . . . . . . 122
6.4.4 Constru c ao da Hessiana . . . . . . . . . . . . . . . . . 122
6.4.5 Corre c ao de Posto 1 . . . . . . . . . . . . . . . . . . . 124
6.4.6 Metodos Quasi-Newton . . . . . . . . . . . . . . . . . . 129
6.5 Tratamento de Restri c oes . . . . . . . . . . . . . . . . . . . . 132
6.5.1 Metodo de Barreira . . . . . . . . . . . . . . . . . . . . 132
6.5.2 Metodo de Penalidades . . . . . . . . . . . . . . . . . . 133
CONTE
UDO 3
6.6 Comportamento dos Metodos de Dire c ao de Busca . . . . . . . 135
6.6.1 N ao-Diferenciabilidade . . . . . . . . . . . . . . . . . . 135
6.6.2 N ao-Convexidade . . . . . . . . . . . . . . . . . . . . . 137
6.6.3 Multimodalidade . . . . . . . . . . . . . . . . . . . . . 138
7 Exclusao de Semi-Espa cos 139
7.1 Formula c ao Geral . . . . . . . . . . . . . . . . . . . . . . . . . 140
7.2 Metodos de Planos de Corte . . . . . . . . . . . . . . . . . . . 141
7.2.1 Algoritmo de Planos de Corte de Kelley . . . . . . . . 144
7.3 Algoritmo Elipsoidal . . . . . . . . . . . . . . . . . . . . . . . 144
7.3.1 Algoritmo Elipsoidal com Deep Cut . . . . . . . . . 146
7.5 Caractersticas de Comportamento . . . . . . . . . . . . . . . 149
7.5.1 Descontinuidades e N ao-Diferenciabilidade . . . . . . . 149
7.5.2 N ao-Convexidade . . . . . . . . . . . . . . . . . . . . . 150
7.5.4 Velocidade de Convergencia . . . . . . . . . . . . . . . 150
7.6 Algoritmo Cone-Elipsoidal . . . . . . . . . . . . . . . . . . . . 151
7.7 Deni c ao do Problema . . . . . . . . . . . . . . . . . . . . . . 152
7.8 Metodo Elipsoidal Convencional . . . . . . . . . . . . . . . . . 152
7.8.1 Problemas Difceis para o Metodo Convencional . . . . 153
7.9 Cones das Dire c oes Factibilizantes . . . . . . . . . . . . . . . . 155
7.10 O Metodo Cone-Elipsoidal . . . . . . . . . . . . . . . . . . . . 157
7.10.1 Primeira Reformula c ao do Problema . . . . . . . . . . 158
7.10.2 Segunda Reformula c ao do Problema . . . . . . . . . . . 160
7.11 O Algoritmo MCE . . . . . . . . . . . . . . . . . . . . . . . . 163
7.12 N ao-Convexidade de Restri c oes de Igualdade . . . . . . . . . . 164
7.13 Conclus oes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
8 Otimiza cao por Popula c oes 167
8.1 Algoritmo Evolucion ario Simples . . . . . . . . . . . . . . . . 169
8.2 Algoritmo de Simulated Annealing . . . . . . . . . . . . . . . 170
8.3 Algoritmos Geneticos . . . . . . . . . . . . . . . . . . . . . . . 173
8.3.1 Algoritmo Genetico - Codica c ao Bin aria . . . . . . . . 174
8.3.2 Algoritmo Genetico - Codica c ao Real - Polarizado . . 176
8.4 Sobre a Estrutura do AG-B e do AG-RP . . . . . . . . . . . . 181
8.4.1 Resultados para o AG-B . . . . . . . . . . . . . . . . . 181
8.4.2 Resultados para o AG-RP . . . . . . . . . . . . . . . . 194
CONTE
UDO 4
8.4.3 Teste das Propriedades de Convergencia . . . . . . . . 198
8.5 Metodologia de Avalia c ao da Eciencia de AGs . . . . . . . . 204
8.5.1 Metodologia de Avalia c ao . . . . . . . . . . . . . . . . 206
8.7 Caractersticas de Comportamento . . . . . . . . . . . . . . . 212
8.7.1 Descontinuidades e N ao-Diferenciabilidade . . . . . . . 212
8.7.3 Velocidade de Convergencia . . . . . . . . . . . . . . . 213
9 Exerccios - Otimiza cao Escalar 216
III Otimiza cao Vetorial 222
10 Solu c oes de Pareto 223
10.1 O Problema de Otimiza c ao Vetorial . . . . . . . . . . . . . . . 223
10.1.1 Nota c ao . . . . . . . . . . . . . . . . . . . . . . . . . . 224
10.2 Ordenamento de Solu c oes . . . . . . . . . . . . . . . . . . . . 225
10.3 O Conjunto Pareto-
Otimo . . . . . . . . . . . . . . . . . . . . 226
10.3.1 Conjunto localmente Pareto- otimo . . . . . . . . . . . 234
10.3.2 Solu c ao ut opica . . . . . . . . . . . . . . . . . . . . . . 235
10.4 O Problema de Determina c ao das Solu c oes Ecientes . . . . . 237
10.5 Condi c oes de Kuhn-Tucker para Eciencia . . . . . . . . . . . 238
11 Gera cao de Solu c oes Ecientes 242
11.1 Abordagem via Problema Ponderado . . . . . . . . . . . . . . 242
11.1.1 Interpreta c ao geometrica . . . . . . . . . . . . . . . . . 243
11.1.2 Algoritmos P
. . . . . . . . . . . . . . . . . . . . . . . 250
11.2 Abordagem via Problema -Restrito . . . . . . . . . . . . . . . 252
11.2.1 Algoritmos P
. . . . . . . . . . . . . . . . . . . . . . . 257
11.3 Abordagem hbrida: Ponderando e Restringindo . . . . . . . . 259
11.4 Abordagem da Programa c ao-Alvo . . . . . . . . . . . . . . . . 260
11.5 Abordagem P
. . . . . . . . . . . . . . . . . . . . . . . . . . 265
11.6 Teste de Eciencia . . . . . . . . . . . . . . . . . . . . . . . . 270
11.6.1 Algoritmos P
. . . . . . . . . . . . . . . . . . . . . . . 271
CONTE
UDO 5
12 Propriedades de Grupo 273
12.1 Verica c ao versus Falseamento . . . . . . . . . . . . . . . . . . 274
12.2 Estrutura do Conjunto Pareto-
Otimo . . . . . . . . . . . . . . 276
12.3 An alise Multiobjetivo . . . . . . . . . . . . . . . . . . . . . . 279
12.3.1 Consistencia . . . . . . . . . . . . . . . . . . . . . . . . 280
12.3.2 Ordenamento e Domin ancia . . . . . . . . . . . . . . . 281
12.3.3 Extens ao . . . . . . . . . . . . . . . . . . . . . . . . . . 281
12.3.4 Dados Extremos . . . . . . . . . . . . . . . . . . . . . 283
12.4 Decis ao e Sntese Multiobjetivo . . . . . . . . . . . . . . . . . 283
12.5 Algoritmo Genetico Multiobjetivo . . . . . . . . . . . . . . . . 285
12.5.1 Constru c ao do Algoritmo Genetico Multiobjetivo . . . 285
12.5.2 AG-RPMO . . . . . . . . . . . . . . . . . . . . . . . . 287
12.6 Exemplo de Aplica c ao: Projeto de Controladores . . . . . . . 293
12.6.1 Realimenta c ao completa de estados . . . . . . . . . . . 293
12.6.2 Realimenta c ao est atica de sadas . . . . . . . . . . . . 296
13 Exerccios - Otimiza cao Vetorial 299
Exerccios Computacionais . . . . . . . . . . . . . . . . . . . . 304
Parte II
Otimiza cao Escalar
46
Captulo 5
Interpreta cao Geometrica dos
Processos de Otimiza cao
Neste captulo, iremos discutir, de maneira preliminar, o que s ao os pro-
blemas de Otimiza c ao, com base sempre em fun c oes matem aticas simples,
de apenas duas vari aveis, que permitem portanto sua representa c ao gr aca
em tres dimens oes. Iremos mostrar como diferentes tipos de fun c oes ir ao
requerer diferentes estrategias de otimiza c ao e, de maneira intuitiva, iremos
discutir os princpios que se encontram por tr as dos metodos de otimiza c ao
que ser ao estudados em detalhe nos pr oximos captulos.
5.1 O Jogo da Otimiza cao
A Otimiza c ao, sob o ponto de vista pr atico, se trata do conjunto de metodos
capazes de determinar as melhores congura c oes possveis para a constru c ao
ou o funcionamento de sistemas de interesse para o ser humano. Estamos
falando da aplica c ao de uma mesma teoria, com um mesmo conjunto de
metodos e ferramentas, quando:
um engenheiro eletricista procura o melhor projeto possvel para uma
antena ou para um motor eletrico;
um engenheiro de controle e automa c ao procura o melhor ajuste possvel
para os controles de um determinado processo industrial;
um engenheiro de produ c ao busca a melhor congura c ao possvel para
encadear as etapas de fabrica c ao de um produto;
47
CAP
ITULO 5. INTERPRETAC

AO GEOM
ETRICA 48
um matem atico computacional estuda modelos quantitativos de epide-
mias, procurando determinar as melhores polticas de vacina c ao;
um cientista da computa c ao estuda o desempenho de uma rede de
computadores, e tenta estabelecer a melhor estrategia de tr afego de
informa c ao possvel, visando maximizar o uxo global de informa c ao
nessa rede;
um economista procura o melhor portfolio de investimentos, que maxi-
miza a expectativa de retorno nanceiro;
um veterin ario ou zootecnista procura determinar a melhor poltica de
compras e vendas das cabe cas de um rebanho de gado.
Apesar dos contextos completamente distintos, todos estes problemas (e mui-
tos outros) uma vez formulados matematicamente, possuem exatamente a
mesma estrutura, e sua solu c ao e obtida essencialmente atraves da utiliza c ao
do mesmo conjunto de tecnicas: a Otimiza c ao.
5.1.1 Formula cao do Problema de Otimiza cao
Evidentemente, em cada contexto distinto, h a um conjunto de informa c oes
que cada especialista de cada area deve conhecer, que lhe permite obter uma
descri c ao matem atica de cada problema, a partir da situa c ao concreta em
quest ao. Uma vez construdo o modelo do problema
1
, chegamos sempre
2
` a
formula c ao caracterstica do problema de otimiza c ao:
x
= arg min
x
f(x)
sujeito a:
_
_
_
g(x) 0
h(x) = 0
(5.1)
Vamos primeiro entender o que signica essa express ao. Como conven c ao
que adotaremos ao longo de todo este livro, as letras em negrito signicam
1
O leitor n ao deve se enganar: a constru c ao do modelo matem atico do problema muitas
vezes e a parte mais difcil de todo o processo. Estamos saltando esta parte porque a
Otimiza c ao come ca exatamente quando o modelo da situa c ao est a pronto.
2
OK, voce est a certo: quase sempre.
CAP

AO GEOM
ETRICA 49
Figura 5.1: Representa cao esquematica de uma antena de seis elementos. Na
pratica, uma antena real corresponde a uma estrutura metalica com geometria
igual à do diagrama.
grandezas vetoriais (ou seja, que representam conjuntos de v arios valores) en-
quanto as letras sem negrito signicam grandezas escalares (que representam
um unico valor).
O vetor de variaveis de otimiza cao
O vetor x e o vetor de vari aveis de otimiza c ao, que representa o conjunto
das vari aveis cujos valores procuramos especicar atraves do processo de oti-
miza c ao. Por exemplo, suponhamos que um engenheiro est a projetando uma
antena de seis elementos, como aquela representada na gura 5.1. Projetar
essa antena signica escolher os tamanhos dos seis elementos da antena e
as cinco dist ancias que separam esses elementos entre si. S ao portanto onze
valores a serem representados pelo vetor x, o qual seria dado, nesse caso, por:
x =
_
_
x
1
x
2
.
.
.
x
11
_
_
(5.2)
Uma vez especicados esses onze valores, para construir a antena basta
seguir a receita implcita em x: cortar hastes de metal com cada um dos
seis comprimentos especicados, e prender essas hastes de acordo com cada
uma das cinco dist ancias especicadas.
CAP

AO GEOM
ETRICA 50
N os optamos pelo exemplo da antena por ser ele bastante simples para
ilustrar o fato de que os elementos do vetor x possuem usualmente um sig-
nicado bastante concreto, ligado ` a estrutura do problema que est a sendo
representado. No caso do economista compondo um portfolio de investimen-
tos, outro exemplo tambem simples, o vetor seria composto pelo montante
aplicado em cada um dos tipos de aplica c ao diferentes (a c oes, ttulos com
corre c ao cambial, ouro, etc).
Em ambos os casos, o vetor x contem as vari aveis cujos valores devemos
escolher para atingirmos a melhor solu c ao possvel do problema. Se supu-
sermos que o capital nanceiro e uma grandeza continuamente vari avel
3
,
teremos, tanto no caso da antena quanto no do portfolio de investimentos,
vetores x contendo vari aveis pertencentes ao conjunto dos n umeros reais. De
maneira generica, se o vetor x possui n vari aveis reais, dizemos que x R
n
.
Nem sempre o vetor de vari aveis de otimiza c ao e composto de vari aveis
reais. Muitas vezes, as vari aveis s ao n umeros inteiros, por exemplo, quando
estamos estabelecendo quantas m aquinas ser ao utilizadas para trabalhar em
determinada etapa de um processo de fabrica c ao. Outras vezes as vari aveis
s ao ate mesmo bin arias: por exemplo, ao se estudar o problema da forma c ao
de uma malha vi aria ligando diversas cidades, deve-se decidir se determinada
estrada ligando diretamente duas cidades ser a ou n ao ser a construda (s o
existiriam, nesse caso, as op c oes sim ou n ao).
A diferen ca mais importante entre os problemas de otimiza c ao, que con-
duz a tecnicas de resolu c ao com fundamenta c oes bastante distintas, e aquela
que separa os problemas em que as vari aveis de otimiza c ao s ao reais dos
problemas que apresentam vari aveis de otimiza c ao discretas (bin arias ou in-
teiras). Neste livro, iremos estudar apenas os problemas com vari aveis reais.
A fun cao objetivo
A pr oxima entidade presente na express ao (5.1) que devemos discutir e a cha-
mada fun c ao objetivo, f(). Essa entidade representa o ndice de desempenho
do sistema, cujo valor, por conven c ao, queremos minimizar para atingirmos
o desempenho otimo.
Um ndice que muito freq uentemente desejamos minimizar e o custo de
fabrica c ao de um equipamento. Dado um certo equipamento que deve ser
fabricado e no qual as especica c oes est ao contidas num vetor x, para cada
3
Evidentemente isso e apenas uma aproxima c ao.
CAP

AO GEOM
ETRICA 51
conjunto de diferentes valores que esse vetor assumir, haver a um custo de
fabrica c ao diferente envolvido (imagine-se por exemplo a fabrica c ao de um
motor: de cada jeito diferente que ele for projetado, ele ter a custos de fa-
brica c ao diferentes). Nesse caso, a fun c ao objetivo f(x), ser a uma fun c ao
que, para cada conjunto de valores que estiver especicado no vetor x, ir a
fornecer o custo de fabrica c ao do equipamento descrito por esse vetor. De-
vido a essa interpreta c ao de custo nanceiro, muitas vezes a fun c ao objetivo
e chamada, dentro de livros de otimiza c ao, de fun c ao custo.
Outros ndices de desempenho de sistemas que muitas vezes queremos mi-
nimizar s ao: consumo de combustvel (em autom oveis, por exemplo), rudo
de funcionamento (em motores), probabilidade de defeitos (em todo tipo de
equipamento), etc. Todos eles, claramente, dependem de como o equipa-
mento foi construdo, ou seja, s ao fun c oes do vetor x.
Muitas vezes, entretanto, desejamos maximizar e n ao minimizar algum
ndice de desempenho de um sistema. Queremos, por exemplo, maximizar a
expectativa de lucro em um portfolio de investimentos, assim como o tempo
de vida util de um equipamento, ou a capacidade de produ c ao de uma f abrica.
Para simplicar a tarefa de elaborar a teoria matem atica da Otimiza c ao,
iremos manter a conven c ao de sempre formular um problema de otimiza c ao
como um problema de minimiza c ao. Nos casos em que deseja-se fazer uma
maximiza c ao, devido ao signicado dondice de desempenho escolhido, basta
minimizarmos a fun c ao que se deseja maximizar multiplicada por 1. Ou
seja, se se deseja maximizar a fun c ao p(x), basta fazer f(x) = p(x), de
forma que ao determinarmos o vetor x que minimiza f(), este ser a tambem,
por conseq uencia, o vetor que maximiza p().
Em linguagem matem atica, dizemos que f() : R
n
R. Isso signica
que f e uma fun c ao de um vetor de n vari aveis reais (pertencente ao espa co
R
n
), e a pr opria fun c ao f retorna um valor que e real. As diferentes carac-
tersticas que essa fun c ao pode ter, assim como as conseq uencias disso para
a elabora c ao de estrategias de otimiza c ao s ao os temas das pr oximas se c oes
deste captulo.
A solu cao otima
Da maneira como delimitamos nosso problema, supondo que nosso vetor de
vari aveis de otimiza c ao x seja composto de vari aveis reais, existem innitas
maneiras diferentes de especicar o sistema a ser projetado. Diante disso,
qual e a melhor especica c ao possvel, x
, que o sistema pode assumir, ou

CAP

AO GEOM
ETRICA 52
seja, qual e a especica c ao que faz com que ele funcione da melhor forma
possvel? A resposta a tal pergunta e exatamente aquilo que a Otimiza c ao
procura encontrar, por meio de suas tecnicas. Em palavras:
O vetor otimo x
e igual ao argumento da fun c ao f() que faz

com que essa fun c ao atinja seu mnimo valor.
Essa e a forma como deve ser lida a primeira linha da express ao (5.1). Posto
isso, como encontrar esse vetor x
? Esse e o assunto deste livro.

As restri c oes
Para terminarmos de entender a formula c ao contida na express ao (5.1), ainda
falta entendermos o signicado da igualdade e da desigualdade a que est a
sujeito o resultado da otimiza c ao. Essas s ao as chamadas restri c oes do pro-
blema. Elas signicam o conjunto dos requisitos que o resultado do projeto
deve atender para ser admissvel enquanto solu c ao.
Alguns tipos de restri c ao tem signicado bastante obvio, por exemplo uma
restri c ao de que o di ametro de uma engrenagem deva ser positivo. Embora, se
substitudo na express ao da fun c ao objetivo, um valor de di ametro negativo
talvez possa levar a um melhor valor para essa fun c ao, n ao e possvel no
mundo real construir pe cas com di ametro negativo.
Outros tipos de restri c ao, embora n ao estejam relacionados com a impos-
sibilidade de implementarmos a solu c ao encontrada, igualmente dizem que tal
solu c ao n ao e admissvel, se violar a restri c ao. Um exemplo disso encontra-se
no projeto de autom oveis: se queremos projetar o veculo de mnimo custo,
n ao podemos entretanto construir um que cause emiss ao de gases poluentes
acima dos limites estabelecidos em lei. Todos os veculos que emitirem polu-
entes acima de tais limites n ao ser ao considerados solu c oes admissveis, por
mais barata que seja sua constru c ao. O problema de otimiza c ao, colocado
dessa forma, passa a ser o de encontrar o projeto do veculo mais barato
possvel dentre todos os que atenderem ` a restri c ao da emiss ao de poluentes
ser menor ou igual ao limite admissvel.
Os dois exemplos anteriormente citados se enquadram na situa c ao da
restri c ao de desigualdade, isto e, s ao represent aveis pela express ao:
g(x) 0 (5.3)
Em rela c ao ` a conven c ao de que as fun c oes de restri c ao devam ser menores ou
iguais a zero, cabem coment arios similares ` aqueles apresentados a respeito
CAP

AO GEOM
ETRICA 53
da conven c ao de estarmos minimizando, sempre, a fun c ao objetivo. Para as
restri c oes de desigualdade, caso ocorram situa c oes em que se deseja garantir
que certa fun c ao seja maior que ou igual a zero, basta garantir que essa fun c ao
multiplicada por 1 seja menor que ou igual a zero. Caso seja necess ario
ainda que certa fun c ao seja menor ou igual a um n umero diferente de zero,
basta fazer com que essa fun c ao menos esse n umero seja menor que ou igual
a zero. Dessa forma, ao construirmos as tecnicas de otimiza c ao, levaremos
sempre em considera c ao o formato convencionado da desigualdade, assim
simplicando a teoria.
Deve-se observar que agora a fun c ao g() e, ela pr opria, vetorial, retor-
nando m ultiplos valores, o que quer dizer que na realidade essa express ao
sintetica, vetorial, contem um conjunto de express oes escalares, cada uma
das quais representa uma restri c ao diferente. Matematicamente, dizemos
que g() : R
n
R
m
, o que signica que para cada vetor de vari aveis de
otimiza c ao x R
n
que for utilizado como argumento da fun c ao g(), esta
retorna um conjunto de m valores reais como resultado, ou seja, a express ao
(5.3) e o mesmo que:
g
1
(x) 0
g
2
(x) 0
.
.
.
g
m
(x) 0
(5.4)
sendo cada uma das m fun c oes g
i
() uma fun c ao escalar, que retorna um unico
valor real. Em problemas pr aticos, usualmente ser a necess ario lidar com
diversas restri c oes simultaneamente. No exemplo do projeto do autom ovel,
alem de atender ao limite legal de emiss ao de poluentes, provavelmente ser a
necess aria tambem a preocupa c ao com o consumo de combustvel (que n ao
pode ultrapassar um m aximo aceit avel), com a potencia do motor (que n ao
deve ser menor que um mnimo aceit avel), etc. O veculo a ser projetado
n ao pode violar nenhuma dessas restri c oes para ser considerado uma solu c ao
aceit avel.
Resta ainda falar das restri c oes de igualdade, descritas pela express ao:
h(x) = 0 (5.5)
Esse tipo de restri c ao ocorre quando e necess ario que certas vari aveis as-
CAP

AO GEOM
ETRICA 54
sumam precisamente certos valores. Por exemplo, se estamos projetando
uma pe ca que deve se encaixar precisamente num certo espa co disponvel
num equipamento, do qual a pe ca faz parte, queremos que a pe ca tenha
exatamente o tamanho especicado, nem mais nem menos. A pe ca pode
ate ser constituda de diversos sub-componentes, cujos tamanhos poderemos
escolher, desde que a soma de todos os tamanhos tenha o tamanho total
especicado. Tambem essa express ao e vetorial: h() : R
n
R
p
, ou seja, a
fun c ao vetorial representa na realidade p diferentes equa c oes.
Para concluir este t opico, denimos a seguinte nomenclatura, relacionada
com as restri c oes:
Regiao factvel: Conjunto dos pontos do espa co R
n
que satisfazem, simul-
taneamente, a todas as restri c oes (tanto de desigualdade quanto de
igualdade).
`
As vezes a regi ao factvel e chamada de conjunto factvel,
ou de conjunto vi avel.
Regiao infactvel: Conjunto dos pontos do espa co R
n
que deixam de sa-
tisfazer (ou seja, violam) pelo menos uma das restri c oes do problema.
Ponto factvel: Ponto pertencente ` a regi ao factvel.
Ponto infactvel: Ponto pertencente ` a regi ao infactvel.
Restri cao violada: Cada uma das componentes do vetor g(x) que apre-
sentar valor positivo, ou cada uma das componentes do vetor h(x) que
apresentar valor n ao-nulo ser a chamada de restri c ao violada no ponto
x.
5.1.2 As Regras do Jogo
O problema da Otimiza c ao ca em parte denido pela express ao (5.1). Para
delinear o que vem a ser o campo de conhecimento da Otimiza c ao N ao-Linear,
enunciamos agora um conjunto de regras que dizem como e abordado esse
problema: qual e a informa c ao de que podemos fazer uso durante o processo
de otimiza c ao, e qual e o custo dessa informa c ao. Iremos supor, ao longo
deste livro, que:
Regras de Acesso à Informa cao
CAP

AO GEOM
ETRICA 55
N ao conhecemos express oes matem aticas explcitas que re-
presentem a fun c ao objetivo f() e as fun c oes de restri c ao
g() e h().
Temos entretanto a possibilidade de descobrir quanto va-
lem as fun c oes objetivo e de restri c ao em qualquer ponto
do espa co de vari aveis de otimiza c ao. Essa e a unica in-
forma c ao que conseguiremos adquirir, ao longo do processo
de otimiza c ao, para nos guiar em dire c ao ` a solu c ao desejada.
O leitor j a deve estar protestando neste ponto: por que introduzimos
essa premissa aparentemente arbitr aria? O que impede que tenhamos em
m aos um modelo matem atico de um sistema qualquer, formulado em ter-
mos de express oes matem aticas explcitas, que seriam nossas fun c oes obje-
tivo e de restri c oes? Bem, nada impede isso, pelo contr ario, muitas vezes
e isso que ocorre. Entretanto, nessas situa c oes, quando temos express oes
explcitas simples representando o sistema, podemos fazer (e usualmente fa-
zemos) uso de tecnicas da chamada An alise Matem atica para determinar o
mnimo da fun c ao objetivo, empregando ferramentas que n ao est ao no escopo
daquilo que usualmente chamamos Otimiza c ao. Um procedimento simples
que freq uentemente empregamos nesses casos, por exemplo, e o de derivar a
fun c ao objetivo, e determinar os pontos em que o gradiente se anula. Quando
e possvel fazer isso, os pontos de mnimo da fun c ao s ao determinados de ma-
neira direta e exata.
H a entretanto situa c oes em que a utiliza c ao desse tipo de procedimento
e impossvel. Suponhamos por exemplo o caso do projeto da estrutura da
asa de um avi ao. N ao e possvel descrever o comportamento din amico dessa
asa por meio de express oes simples, envolvendo por exemplo fun c oes trigo-
nometricas ou polinomiais. Tal objeto tem de ser modelado em termos de
um sistema de equa c oes diferenciais parciais, cuja solu c ao e provavelmente
muito difcil, ou mesmo impossvel, de ser determinada analiticamente. Nesse
caso, e necess ario escrever um algoritmo que realize o c alculo numerico da
solu c ao desse sistema de equa c oes. Cada vez que fazemos a avalia c ao da
fun c ao objetivo para um determinado vetor de vari aveis de otimiza c ao (que
signica uma determinada especica c ao para a asa do avi ao), temos de exe-
cutar o algoritmo e, com base no resultado do mesmo, fazer o c alculo da
fun c ao. O mesmo se aplica ` as fun c oes de restri c ao. Ora, uma fun c ao que
CAP

AO GEOM
ETRICA 56
inclui um algoritmo n ao pode ser, em geral, explicitamente representada por
uma express ao matem atica simples, nem pode ser por exemplo derivada ou
integrada de maneira explcita. A natureza da fun c ao objetivo agora deixa
de ser a de uma express ao conhecida, que podemos manipular utilizando to-
das as manipula c oes matem aticas usuais. Agora, a met afora mais adequada
para compreendermos sua natureza e a de uma caixa preta
4
, na qual podemos
entrar com um vetor x, obtendo como resposta o valor de f(x) associado a
esse vetor
5
. Essa e a unica informa c ao disponvel para ser utilizada pelos
metodos de Otimiza c ao.
Assim, as regras acima enunciadas simplesmente signicam que a teoria
da Otimiza c ao e desenvolvida para o contexto dos problemas em que n ao
temos acesso a uma express ao explcita da fun c ao objetivo e das fun c oes
de restri c ao. Obviamente, nos casos de problemas em que conhecemos ex-
press oes explcitas de todas as fun c oes, as tecnicas da Otimiza c ao continuam
sendo aplic aveis, com a ressalva de que possivelmente haveria maneiras mais
simples ou mais precisas para a determina c ao das solu c oes
6
.
Por m, h a ainda a quest ao de qu ao difcil, ou qu ao demorada, e a ob-
ten c ao da informa c ao dos valores da fun c ao objetivo e das fun c oes de res-
tri c ao: muitas vezes, para calcularmos o valor da fun c ao objetivo em um
unico ponto (ou seja, para um unico vetor x) um bom computador de ultima
gera c ao pode demorar horas ou dias. Esse e o caso, por exemplo, de um mo-
delo detalhado da estrutura da asa de um avi ao; a engenharia, a economia, as
ciencias naturais, est ao repletas de situa c oes assim. Dessa forma, n ao seria
pr atico prescrever metodos de otimiza c ao que dependessem de calcular essa
fun c ao objetivo alguns milhares ou centenas de milhares de vezes: talvez n ao
seja vi avel avaliar essas fun c oes mais que algumas dezenas ou centenas de
vezes. Uma outra regra ent ao se justica:
4
O conceito de caixa preta, nas ciencias, diz respeito a objetos cujas entradas e sadas
podem ser observadas, mas cujo interior e inacessvel.
5
O leitor deve notar que, embora n ao saibamos qual e a express ao analtica de uma
fun c ao que corresponde ` a caixa preta, tal fun c ao existe. Se o leitor se lembrar de como a
Matem atica dene fun c oes, ver a que essa caixa preta atende a todos os requisitos para ser
uma fun c ao.
6
Se houver, entretanto, um n umero muito grande de restri c oes ou vari aveis no pro-
blema, e possvel que as tecnicas de Otimiza c ao ainda sejam as mais adequadas para a
determina c ao do ponto de otimo, mesmo havendo express oes analticas para as fun c oes
objetivo e de restri c oes.
CAP

AO GEOM
ETRICA 57
Regra de Custo da Informa cao
Os metodos de otimiza c ao ser ao comparados entre si de
acordo com os criterios:
N umero de avalia c oes da fun c ao objetivo e das fun c oes
de restri c ao que s ao requeridas para a determina c ao da
solu c ao. Quanto menos avalia c oes forem necess arias,
melhor ser a considerado o metodo.
Precis ao e robustez. Quanto mais a solu c ao fornecida
pelo metodo se aproximar da solu c ao exata do problema,
melhor ser a considerado o metodo
7
.
Agora sabemos o que estaremos fazendo ao longo deste livro: iremos
construir algoritmos, que ser ao as implementa c oes pr aticas dos metodos de
otimiza c ao, cujo objetivo e determinar as solu c oes do problema (5.1). Esses
algoritmos ir ao chamar sub-rotinas que executam a avalia c ao das fun c oes
objetivo e de restri c oes, devendo entretanto fazer a chamada dessas sub-
rotinas o menor n umero de vezes que for possvel. O diagrama da gura 5.2
ilustra essa ideia.
5.2 Otimiza cao Sem Restri c oes
Para come car a estudar a interpreta c ao geometrica dos problemas de oti-
miza c ao, come caremos analisando a situa c ao mais simples, do problema de
minimiza c ao de uma fun c ao objetivo sem nenhuma restri c ao:
x
= arg min f(x) (5.6)

Para viabilizar a representa c ao gr aca do problema, estaremos supondo a
partir deste ponto que o vetor x possui apenas duas coordenadas, perten-
cendo, portanto, ao espa co R
2
. Evidentemente, na maioria das situa c oes de
7
O termo precis ao designa a capacidade de um algoritmo de, estando pr oximo da
solu c ao exata do problema, aproximar ainda mais tal solu c ao exata. O termo robustez
por sua vez designa a capacidade do algoritmo de, estando distante da solu c ao exata do
problema, atingir as proximidades dessa solu c ao. Assim, freq uentemente um algoritmo e
mais preciso e ao mesmo tempo menos robusto que outro, e vice-versa.
CAP

AO GEOM
ETRICA 58
PSfrag replacements
Modelo
computacional
do sistema
Resultado
e otimo?
Algoritmo de
otimiza c ao
f(x
k
)
g(x
k
), h(x
k
)
Sim
N ao
x
k+1
x
Figura 5.2: Diagrama do processo de otimiza cao. A rotina de otimiza cao fornece
o vetor de variaveis de otimiza cao, x, para as rotinas que avaliam a fun cao
objetivo e de restri c oes. Essas rotinas devolvem os valores de f(x), g(x) e
h(x) para a rotina de otimiza cao. A rotina de otimiza cao, com essas avalia c oes,
calcula um novo vetor de variaveis de otimiza cao a ser avaliado, e assim por
diante, ate que seja encontrada uma aproxima cao da solu cao otima x
.
CAP

AO GEOM
ETRICA 59
10
5
0
5
10
10
5
0
5
10
20
10
0
10
20
30
PSfrag replacements
f
(
x
)
x
1
x
2
Figura 5.3: Superfcie que representa o graco de uma fun cao nao-linear de duas
variaveis reais. Essa superfcie poderia representar uma fun cao f(x) cujo mnimo
devesse ser determinado por um metodo de otimiza cao. No chao do graco,
encontram-se representadas as curvas de nvel da fun cao.
interesse pr atico o n umero de coordenadas desse vetor e maior que dois; en-
tretanto, duas vari aveis s ao sucientes para discutirmos a maior parte das
quest oes conceituais que se encontram por detr as da concep c ao dos metodos
de otimiza c ao.
Embora estejamos supondo que a fun c ao objetivo f() n ao seja conhe-
cida num contexto pr atico de otimiza c ao, essa fun c ao e sempre um objeto
matem atico muito bem denido. Assim, mesmo n ao sendo possvel tra car
explicitamente o gr aco de nossa fun c ao objetivo (sabemos que isso e im-
possvel devido ` as regras da otimiza c ao, anteriormente estabelecidas), pode-
mos armar que a superfcie correspondente ` a fun c ao existe, e e desta su-
perfcie que estaremos colhendo amostras durante o processo de otimiza c ao,
a cada vez que estivermos avaliando a fun c ao objetivo. A gura 5.3 mostra
uma superfcie que corresponde ao gr aco de uma fun c ao n ao-linear de duas
vari aveis reais. Tal fun c ao poderia ser a fun c ao objetivo de um problema de
otimiza c ao.
Uma representa c ao que contem aproximadamente a mesma informa c ao
CAP

AO GEOM
ETRICA 60
10 8 6 4 2 0 2 4 6 8 10
10
8
6
4
2
0
2
4
6
8
10
PSfrag replacements
x
1
x
2
Figura 5.4: Graco de curvas de nvel da mesma fun cao nao-linear de duas
variaveis reais, f(x), que encontra-se representada na gura 5.3.
CAP

AO GEOM
ETRICA 61
que a da gura tridimensional 5.3, mas que utiliza apenas recursos gr acos
bidimensionais e a das curvas de nvel da fun c ao. A gura 5.4 mostra as cur-
vas de nvel da mesma fun c ao representada na gura 5.3. Essa representa c ao,
mais f acil de ser manipulada que a representa c ao tridimensional, e normal-
mente mais util que esta para ilustrar conceitos relacionados aos metodos de
otimiza c ao.
Uma met afora que pode ajudar a compreender o que e o processo de
otimiza c ao pode ser apresentada da seguinte forma: imaginemos (aqui a
imagina c ao e o mais importante) um ser matem atico, o Otimizador. Ele vai
ser lan cado (de p ara-quedas) em um ponto qualquer sobre a superfcie da
gura 5.3, e dever a caminhar sobre essa superfcie, em busca do ponto mais
baixo da mesma (o ponto de mnimo). O Otimizador, entretanto, dever a
caminhar com uma venda cobrindo seus olhos, sem poder olhar para a
superfcie; a unica informa c ao que ele pode utilizar a respeito da superfcie
e a altura do ponto no qual ele estiver pisando. Ele pode, entretanto, se
lembrar das alturas dos pontos em que ele j a tiver pisado anteriormente,
fazendo uso dessa informa c ao j a adquirida para tomar a decis ao de para onde
caminhar. Seu objetivo, alem de chegar no ponto de mnima altura sobre a
superfcie, e fazer isso tendo utilizado o menor n umero possvel de passos.
Essa situa c ao imagin aria ilustra bem o que e o problema de otimiza c ao.
Construir os chamados metodos de otimiza c ao corresponde, dentro de nossa
met afora, a formular as estrategias a serem utilizadas pelo Otimizador em
sua busca pelo ponto de mnimo.
Algumas caractersticas da fun c ao objetivo (ou seja, da superfcie que est a
associada a essa fun c ao) denem que tipos de estrategias seriam efetivas para
a otimiza c ao dessa fun c ao. Por exemplo, a fun c ao ser diferenci avel implica
na possibilidade de se tentar sua otimiza c ao fazendo uso do c alculo, pelo
menos aproximado, de seu gradiente (que pode ser estimado numericamente
a partir de amostras de valores da fun c ao). Se a fun c ao for unimodal, ou seja,
se tiver um unico ponto de mnimo, as estrategias para a determina c ao desse
mnimo ser ao bem diferentes daquelas que seriam empregadas caso a fun c ao
fosse multimodal, ou seja, caso tivesse v arios mnimos locais
8
.
Com o objetivo de subsidiar a escolha de metodos adequados para a
otimiza c ao de fun c oes, podemos denir a seguinte classica c ao das fun c oes:
8
Falamos de mnimos locais para designar pontos que s ao de mnimo para uma vizi-
nhan ca ao seu redor, e de mnimos globais para designar o ponto em que a fun c ao objetivo
atinge seu mnimo valor em todo o domnio considerado.
CAP

AO GEOM
ETRICA 62
Modalidade: Unimodal / Multimodal
Diferenciabilidade: Diferenci avel / N ao-diferenci avel
Convexidade: Convexa / Quasi-convexa / N ao-convexa
Linearidade: Linear / N ao-linear
Escala: Uni-escala / Multi-escala
Passamos a mostrar agora algumas superfcies tpicas, que exibem de
maneira clara essas propriedades que fazem a diferen ca (o signicado dessa
classica c ao deve car claro ` a medida em que essa discuss ao for apresen-
tada). Com esses exemplos de superfcies, discutiremos de maneira qua-
litativa possveis estrategias para a otimiza c ao de fun c oes com tais carac-
tersticas. Essas estrategias ser ao depois desdobradas, nos captulos poste-
riores, que ser ao dedicados a discutir em detalhe os metodos de otimiza c ao
correspondentes a essas estrategias.
5.2.1 Estrategias de Dire cao de Busca
Vamos considerar em primeiro lugar a fun c ao cujo gr aco e mostrado na
gura 5.5, e cujas curvas de nvel est ao representadas na gura 5.6.
Para construir essa fun c ao, n os utilizamos um esquema bastante simples:
o de uma fun c ao quadr atica. A receita para a montagem do gr aco da
gura 5.5 e dada por:
f(x) = (x x
0
)
Q(x x
0
)
Q =
_
2 0.3
0.3 1
_
x
0
=
_
1
1
_
(5.7)
Claramente, o gr aco dessa fun c ao deve ser um parabol oide com mnimo no
ponto x
0
. O Otimizador, entretanto, como j a concordamos, n ao sabe disso:
ele deve descobrir qual e o ponto de mnimo da fun c ao objetivo utilizando
apenas amostras de valores dessa fun c ao. Uma estrategia razo avel de pro-
cedimento para o Otimizador seria:
Metodo do Gradiente
CAP

AO GEOM
ETRICA 63
10
5
0
5
10 10
5
0
5
10
0
50
100
150
200
250
300
350
400
450
PSfrag replacements
f
(
x
)
x
1
x
2
Figura 5.5: Superfcie que representa o graco de uma fun cao quadratica f(x)
de duas variaveis reais. No chao do graco, encontram-se representadas as
curvas de nvel da fun cao.
CAP

AO GEOM
ETRICA 64
10 8 6 4 2 0 2 4 6 8 10
10
8
6
4
2
0
2
4
6
8
10
PSfrag replacements
x
1
x
2
Figura 5.6: Graco de curvas de nvel da mesma fun cao quadratica de duas
CAP

AO GEOM
ETRICA 65
Passo 1: O Otimizador, localizado inicialmente em um ponto
aleat orio sobre o mapa da fun c ao, toma amostras da fun c ao
pr oximas de onde ele se encontra atualmente. Com es-
sas amostras, ele descobre em qual dire c ao a fun c ao de-
cresce mais rapidamente, pelo menos sob o ponto de vista
da informa c ao localmente disponvel para ele. Em termino-
logia matem atica, o Otimizador calcula uma aproxima c ao
numerica do gradiente da fun c ao no ponto atual (que e o
oposto da dire c ao em que a fun c ao decresce mais rapida-
mente).
Passo 2: O Otimizador caminha em linha reta, na dire c ao contr aria
ao gradiente da fun c ao, continuando a andar enquanto es-
tiver sentindo que a fun c ao est a decrescendo (parando de
andar, portanto, assim que percebe que a fun c ao volta a
crescer nessa dire c ao).
Passo 3: O Otimizador decide agora se ele p ara (ou seja, se
ele considera que j a se encontra sucientemente pr oximo do
ponto de mnimo da fun c ao) ou se ele continua a busca,
retornando ao Passo 1, para escolher nova dire c ao de cami-
nhada.
O metodo do gradiente, assim esbo cado, e um dos metodos de otimiza c ao
mais primitivos, tendo sido proposto nos prim ordios da teoria de otimiza c ao,
estando hoje obsoleto. Esse metodo e, entretanto, o prot otipo mais sim-
ples de toda uma famlia de metodos, os metodos de dire c ao de busca, que
incluem importantes metodos hoje utilizados, que sempre tem a estrutura
assim descrita:
Metodos de Dire cao de Busca
Passo 1: O Otimizador, toma amostras da fun c ao pr oximas de
onde ele se encontra atualmente. Com essas amostras, ele
descobre em qual dire c ao a fun c ao decresce mais rapida-
mente, pelo menos sob o ponto de vista da informa c ao lo-
calmente disponvel para ele. Em terminologia matem atica,
CAP

AO GEOM
ETRICA 66
o Otimizador calcula uma aproxima c ao numerica do gradi-
ente da fun c ao no ponto atual (que e o oposto da dire c ao
em que a fun c ao decresce mais rapidamente).
Passo 2: Levando em considera c ao o gradiente calculado no ponto
atual, assim como todo o hist orico de gradientes anterior-
mente calculados e de valores de fun c ao objetivo amostra-
dos em pontos que o Otimizador visitou anteriormente, ele
tenta adivinhar qual seria a dire c ao mais prov avel em que
o mnimo da fun c ao devesse estar.
Passo 3: O Otimizador caminha em linha reta, na dire c ao em
que ele sup oe que o mnimo esteja, continuando a andar en-
quanto estiver sentindo que a fun c ao est a decrescendo (pa-
rando de andar, portanto, assim que percebe que a fun c ao
volta a crescer nessa dire c ao).
Passo 4: O Otimizador decide agora se ele p ara (ou seja, se
ele considera que j a se encontra sucientemente pr oximo do
ponto de mnimo da fun c ao) ou se ele continua a busca,
retornando ao Passo 1, para escolher nova dire c ao de cami-
nhada.
Qualquer estrategia de dire c ao de busca ir a funcionar para determinar
o mnimo da fun c ao mostrada na gura 5.5, pois esta fun c ao e bastante
simples. Para esses metodos funcionarem, os requisitos que encontram-se
implcitos sobre a fun c ao s ao:
A fun c ao e unimodal, ou seja, tem um unico mnimo global, no interior
de uma unica bacia de atra c ao
9
. Dessa forma, o Otimizador n ao precisa
se preocupar com a possvel existencia de outros mnimos diferentes
daquele que ele localizar.
A fun c ao e diferenci avel, ou seja, n ao s o e possvel calcular, de forma sig-
nicativa, aproxima c oes do gradiente da fun c ao em qualquer ponto do
9
Uma bacia de atra c ao e a regi ao ao redor de um mnimo local na qual as curvas de
nvel da fun c ao s ao fechadas, ou seja, a regi ao na qual um metodo de dire c ao de busca ir a
convergir para tal mnimo.
CAP

AO GEOM
ETRICA 67
espa co, como, principalmente, o gradiente da fun c ao contem informa c ao
signicativa sobre a forma como a fun c ao varia nas vizinhan cas do
ponto em que tiver sido calculado. Dessa forma, o Otimizador con-
segue encontrar dire c oes para as quais possa caminhar, nas quais ele
consegue observar a diminui c ao do valor da fun c ao objetivo.
Consideremos agora a fun c ao mostrada na gura 5.7, que tem suas cur-
vas de nvel mostradas na gura 5.8. Essa fun c ao, muito menos simples que
a fun c ao quadr atica anteriormente considerada, continua sendo adequada-
mente otimizada por metodos de dire c ao de busca: ela e unimodal (possui
um unico mnimo, no ponto x =
_
1 1
, o interior de uma unica bacia

de atra c ao), e e diferenci avel (possui gradiente bem denido em todos os
pontos).
Essa fun c ao j a e capaz de confundir um Otimizador que utilizar sim-
plesmente uma estrategia de de gradiente: quando o Otimizador chega no
fundo do vale existente na topograa da fun c ao, e tem de encontrar o ponto
mais baixo desse vale, o padr ao de mudan ca da dire c ao do gradiente torna o
metodo do gradiente muito ineciente. Outros metodos de dire c ao de busca,
no entanto, n ao encontram diculdades para minimizar esta fun c ao.
5.2.2 Estrategias de Exclusao de Regi oes
Consideremos agora a fun c ao f(x), ainda unimodal, porem agora n ao mais
diferenci avel, cujo gr aco est a mostrado na gura 5.9, e cujas curvas de
nvel est ao representadas na gura 5.10. Este tipo de fun c ao em geral traz
diculdades para as estrategias de otimiza c ao do tipo dire c oes de busca.
Ao contr ario do que pode parecer ` a primeira vista, a diculdade n ao est a
na impossibilidade de calcularmos o gradiente da fun c ao: na imensa maioria
das vezes, uma fun c ao n ao diferenci avel de interesse pr atico e diferenci avel
em quase todo ponto. Esse e o caso da fun c ao representada na gura 5.9: seu
gradiente deixa de existir apenas em alguns poucos pontos, que est ao situados
em algumas linhas sobre o mapa da fun c ao. Em todos os outros pontos, o
gradiente e bem denido e pode ser calculado. Assim, se um Otimizador
estivesse otimizando uma fun c ao n ao diferenci avel e encontrasse um ponto no
qual fosse impossvel calcular o gradiente, bastaria ele se deslocar um pouco
do ponto, para outro ponto pr oximo: l a o gradiente poderia ser calculado, e
o processo de otimiza c ao poderia prosseguir.
O problema com as fun c oes n ao diferenci aveis, quando submetidas a
CAP

AO GEOM
ETRICA 68
10
5
0
5
10
10
5
0
5
10
0
5
10
15
20
25
PSfrag replacements
f
(
x
)
x
1
x
2
10
5
0
5
10
10
5
0
5
10
0
5
10
15
20
25
PSfrag replacements
f
(
x
)
x
1
x
2
Figura 5.7: Superfcie que representa o graco de uma fun cao unimodal dife-
renciavel f(x) de duas variaveis reais, mostrada em duas vistas diferentes. No
chao dos gracos, encontram-se representadas as curvas de nvel da fun cao.
CAP

AO GEOM
ETRICA 69
8 6 4 2 0 2 4 6 8
10
8
6
4
2
0
2
4
6
8
10
PSfrag replacements
x
1
x
2
Figura 5.8: Graco de curvas de nvel da mesma fun cao unimodal diferenciavel
de duas variaveis reais, f(x), que encontra-se representada na gura 5.7.
CAP

AO GEOM
ETRICA 70
10
5
0
5
10
10
5
0
5
10
0
100
200
300
400
500
600
PSfrag replacements
f
(
x
)
x
1
x
2
Figura 5.9: Superfcie que representa o graco de uma fun cao nao diferenciavel
f(x) de duas variaveis. No chao do graco, encontram-se representadas as
curvas de nvel da fun cao.
CAP

AO GEOM
ETRICA 71
10 8 6 4 2 0 2 4 6 8 10
10
8
6
4
2
0
2
4
6
8
10
PSfrag replacements
x
1
x
2
Figura 5.10: Graco de curvas de nvel da mesma fun cao nao diferenciavel de
duas variaveis reais, f(x), que encontra-se representada na gura 5.9.
CAP

AO GEOM
ETRICA 72
PSfrag replacements
g
1
g
1
g
1
g
2
g
2
g
2
x
k
Figura 5.11: Nao-diferenciabilidade atratora, representada pela linha tracejada.
Acima dessa nao-diferenciabilidade, os gradientes da fun cao sao representados
por g
1
, e abaixo por g
2
. Exatamente na nao-diferenciabilidade, o gradiente da
fun cao muda subitamente (ou seja, o gradiente e descontnuo sobre essa linha).
A gura mostra ainda a trajet oria de um Otimizador que utiliza uma estrategia
de dire c oes de busca, percorrendo uma seq uencia de pontos x
k
. Quando atinge
a nao-diferenciabilidade atratora, o Otimizador passa a se mover segundo passos
muito pequenos. Uma amplia cao desse movimento e mostrada na gura à direita.
metodos de dire c ao de busca, e que o c alculo da dire c ao de busca, na qual o
Otimizador deve caminhar, e feito a partir da informa c ao obtida pelo c alculo
do gradiente (o gradiente atual e o gradiente em pontos anteriores). O Oti-
mizador, ao caminhar nessa dire c ao, espera que a dire c ao tenha validade
n ao apenas pontual: ele espera poder caminhar uma certa dist ancia sobre
essa dire c ao, ate que a fun c ao objetivo pare de decrescer, e ele tenha de
mudar de dire c ao. Ora, se a fun c ao objetivo muda de comportamento re-
pentinamente nos locais onde a fun c ao e n ao-diferenci avel, a informa c ao da
dire c ao de busca, obtida com o uso de gradientes pode ser inteiramente ina-
dequada para representar o comportamento da fun c ao, mesmo a pequenas
dist ancias do ponto atual. A otimiza c ao por esses metodos pode assim se
tornar invi avel. Tal diculdade, por outro lado, n ao e associada a um ou ou-
tro caso especco de metodo de dire c ao de busca: ela e intrnseca a toda a
famlia dos metodos de dire c ao de busca. A diculdade e ilustrado na gura
5.11.
Fun c oes n ao-diferenci aveis est ao longe de ser raras, dentro dos modelos
CAP

AO GEOM
ETRICA 73
de sistemas que temos interesse em otimizar. Por essa raz ao, justica-se a
formula c ao de uma famlia de metodos diferente, que n ao esteja sujeita a
tal diculdade: os metodos de exclus ao de regi oes. Para formular a nova
estrategia, como estamos abrindo m ao da premissa de diferenciabilidade da
fun c ao objetivo, introduzimos em lugar desta a premissa de convexidade dessa
fun c ao
10
.
A propriedade associada ` a convexidade que iremos utilizar na nova es-
trategia de otimiza c ao pode ser entendida da seguinte forma:
Uma curva de nvel de uma fun c ao convexa sempre delimita uma regi ao
convexa em seu interior.
O vetor gradiente, por sua vez, e sempre perpendicular ` a curva de nvel
que passa pelo ponto onde o vetor foi calculado.
Assim, a reta perpendicular ao vetor gradiente que passa no ponto onde
esse vetor foi calculado e tangente ` a curva de nvel.
Devido ` a convexidade da regi ao no interior da curva de nvel, esta
regi ao sempre ca inteiramente localizada um dos lados apenas dessa
reta tangente (essa reta n ao corta a regi ao no interior da curva de nvel):
do lado oposto ` aquele para onde aponta o vetor gradiente.
Isso signica que, se calcularmos o gradiente de uma fun c ao convexa num
ponto, podemos ter certeza que o ponto de mnimo dessa fun c ao, que se
localiza necessariamente no interior da curva de nvel fechada que passa nesse
ponto, est a no semi-plano oposto ao do vetor gradiente, delimitado pela reta
perpendicular ao vetor gradiente. Esse conceito e ilustrado na gura 5.12.
O procedimento do Otimizador agora e descrito por:
Metodos de Exclusao de Regi oes
Passo 1: O Otimizador adquire informa c ao em alguns pontos
pr oximos do atual, e faz uma estimativa do gradiente da
fun c ao objetivo nesse ponto (se ele estiver exatamente sobre
um ponto em que a fun c ao e n ao-diferenci avel, admitamos,
10
E claro que ` as vezes as fun c oes a serem otimizadas ser ao convexas e ` as vezes n ao ser ao.
Se n ao forem, os metodos de exclus ao de regi oes poder ao falhar.
CAP

AO GEOM
ETRICA 74
para simplicar, que ele se movimenta para algum ponto
pr oximo do atual, em que a fun c ao e diferenci avel).
Passo 2: Com base no gradiente, o Otimizador descobre qual e
a reta tangente ` a curva de nvel que passa pelo ponto atual,
e descarta todo o semi-plano que se encontra do lado dessa
reta para o qual o vetor gradiente aponta (o Otimizador
tem certeza de que o mnimo da fun c ao n ao est a nesse semi-
plano).
Passo 3: O Otimizador se move para algum ponto no interior da
regi ao que ainda n ao est a descartada, de preferencia para um
ponto aproximadamente no meio dessa regi ao
11
.
Passo 4: O Otimizador decide se existem indcios sucientes de
que o novo ponto j a esteja sucientemente pr oximo do mnimo
da fun c ao, caso em que o processo termina, ou se a oti-
miza c ao deve continuar. Nesse ultimo caso, retorna ao Passo
1.
Deve-se observar que agora a convergencia da seq uencia de pontos para
o ponto de mnimo da fun c ao objetivo ocorre em virtude da diminui c ao sis-
tem atica que e feita, a cada itera c ao do metodo, da regi ao em que esse ponto
de mnimo pode estar localizado. Com o avan car das itera c oes, a regi ao tem
de car pequena, e o novo ponto, que e escolhido dentro dessa regi ao, tem
de car cada vez mais pr oximo do ponto de mnimo. N ao h a a possibilidade,
agora, de uma n ao-diferenciabilidade impedir a convergencia do metodo.
Uma seq uencia de itera c oes de um metodo de exclus ao de regi ao e ilustrada
na gura 5.12.
5.2.3 Estrategias de Popula c oes
Grande parte das fun c oes objetivo que queremos otimizar na pr atica, infe-
lizmente, n ao e unimodal. Por conseq uencia, tanto as estrategias de dire c ao
de busca quanto as estrategias de exclus ao de regi oes ir ao falhar em sua oti-
miza c ao
12
. Uma fun c ao desse tipo e mostrada na gura 5.13, e suas curvas
11
A maneira exata de escolher o novo ponto varia de metodo para metodo.
12
Deve-se lembrar que se uma fun c ao n ao e unimodal, ela tambem n ao pode ser convexa.
CAP

AO GEOM
ETRICA 75
PSfrag replacements
x
1
x
2
x
3
x
Figura 5.12: Itera c oes de um metodo de exclusao de regi oes, mostradas sobre
as curvas de nvel de uma fun cao cujo mnimo exato e x
. Suponha-se que, a
priori, se sabe que o mnimo da fun cao se encontra na regiao delimitada pelo
hexagono. Ap os avaliar o gradiente da fun cao em x
1
, o Otimizador pode concluir
que o mnimo x
, cuja localiza cao ainda nao e conhecida, encontra-se abaixo da

reta perpendicular a esse gradiente, que passa nesse ponto. Um novo ponto x
2
e escolhido no interior da regiao restante. O gradiente nesse ponto tambem e
calculado, trazendo a informa cao de que o ponto x
nao se encontra abaixo da

reta perpendicular ao gradiente que passa nesse ponto. A seguir um novo ponto
x
3
e escolhido, e o processo se repete, levando à conclusao de que x
nao se
encontra à esquerda da reta que passa por esse ponto. Observa-se que a cada
passo vai diminuindo a regiao onde e possvel que x se encontre. O processo
termina quando a regiao possvel e sucientemente pequena.
CAP

AO GEOM
ETRICA 76
10
5
0
5
10
10
5
0
5
10
40
20
0
20
PSfrag replacements
f
(
x
)
x
1
x
2
Figura 5.13: Superfcie que representa o graco de uma fun cao multimodal f(x)
de duas variaveis. No chao do graco, encontram-se representadas as curvas
de nvel da fun cao.
de nvel s ao mostradas na gura 5.14.
De fato, essa fun c ao possui diversas bacias de atra c ao diferentes, asso-
ciadas a diferentes mnimos locais. Na tentativa de se fazer a otimiza c ao
desta fun c ao por meio de um mecanismo de dire c ao de busca, por exemplo, o
resultado sempre ser a o ponto de mnimo local associado ` a bacia de atra c ao
onde a busca tiver sido iniciada. Para se atingir o mnimo global com algum
grau de certeza, e necess ario investigar a fun c ao em suas diferentes bacias
de atra c ao.
A estrategia a ser adotada envolve agora o trabalho n ao mais de um
unico Otimizador sozinho: um grupo de Otimizadores ser a agora chamado a
cooperar, para tentar descobrir a localiza c ao do ponto de mnimo da fun c ao.
Essa estrategia e descrita a seguir:
Metodos de Popula c oes
Passo 1: Um grupo de Otimizadores encontra-se espalhado pela
regi ao onde acredita-se que se encontre o ponto de mnimo da
CAP

AO GEOM
ETRICA 77
10 8 6 4 2 0 2 4 6 8 10
10
8
6
4
2
0
2
4
6
8
10
PSfrag replacements
x
1
x
2
Figura 5.14: Graco de curvas de nvel da mesma fun cao multimodal de duas
CAP

AO GEOM
ETRICA 78
fun c ao. Cada um dos Otimizadores avalia a fun c ao objetivo
no ponto onde ele se encontra.
Passo 2: Os Otimizadores se comunicam, e trocam informa c oes
a respeito dos valores da fun c ao objetivo em cada ponto.
Passo 3: Um pequeno sub-grupo do grupo de Otimizadores, que
estiver nas melhores localiza c oes ca parado. Os demais
Otimizadores se movimentam, com movimentos que simul-
taneamente: (i) os fa cam se aproximarem dos otimizadores
melhor localizados; e (ii) os fa cam explorarem outras regi oes,
diferentes daquelas j a visitadas anteriormente pelo grupo de
Otimizadores.
Passo 4: Cada um dos Otimizadores avalia a fun c ao objetivo no
ponto para onde foi.
Passo 5: Os otimizadores decidem se o processo de otimiza c ao
j a produziu melhoria suciente na fun c ao objetivo, caso em
que o processo se interrompe; do contr ario, eles retornam ao
Passo 2.
H a diferentes maneiras de realizar cada um dos passos do esquema des-
crito acima. Cada combina c ao dessas diferentes f ormulas leva a um metodo
especco diferente.
Esse tipo de estrategia pode ser pensado como um jeito de localizar n ao
exatamente o mnimo global da fun c ao objetivo, mas sim a bacia de atra c ao
no qual este se encontra. Como esse esquema e muito caro comparado
aos esquemas de dire c oes de busca ou de exclus ao de regi oes (usualmente os
esquemas de popula c oes requerem um n umero muito maior de avalia c oes
da fun c ao objetivo ate atingirem o ponto de mnimo da fun c ao objetivo), a
ideia e que o esquema de popula c oes apenas conduza o Otimizador ` as pro-
ximidades do ponto de mnimo global. Uma vez dentro da bacia de atra c ao
do mnimo global, o Otimizador passa a adotar uma estrategia por exem-
plo de dire c ao de busca, que o leva muito mais rapidamente ao mnimo
da fun c ao. Esse raciocnio funcionaria corretamente, por exemplo, na oti-
miza c ao da fun c ao ilustrada na gura 5.13. A gura 5.15 mostra sucessivas
aproxima c oes do ponto de mnimo global da fun c ao, que terminam por se
parecer com uma fun c ao convexa e unimodal, nas proximidades do ponto
CAP

AO GEOM
ETRICA 79
6
7
8
9
10
1
2
3
4
5
40
35
30
25
20
15
10
5
0
5
PSfrag replacements
f
(
x
)
x
1
x
2
8
8.5
9
9.5 2
2.5
3
3.5
4
35
30
25
20
15
10
5
PSfrag replacements
f
(
x
)
x
1
x
2
6 6.5 7 7.5 8 8.5 9 9.5 10
1
1.5
2
2.5
3
3.5
4
4.5
5
PSfrag replacements
f(x)
x
1
x
2
8 8.5 9 9.5
2.4
2.6
2.8
3
3.2
3.4
PSfrag replacements
f(x)
x
1
x
2
Figura 5.15: Superfcie que representa o graco da mesma fun cao multimodal
f(x) de duas variaveis mostrada na gura 5.13, em sucessivas aproxima c oes
da regiao onde se encontra seu mnimo global. Acima, estao representados os
gracos da superfcie, e abaixo as correspondentes curvas de nvel na mesma
regiao. Deve-se observar que, na regiao mais pr oxima ao mnimo, a fun cao tem
a aparencia de uma fun cao unimodal.
CAP

AO GEOM
ETRICA 80
de mnimo. Na regi ao correspondente ` a ultima aproxima c ao mostrada na
gura, um metodo de dire c oes de busca ou de exclus ao de regi oes funciona-
ria. O metodo de popula c oes ent ao poderia ser paralisado assim que houvesse
indcios sucientes de que determinado ponto se encontra no interior da bacia
de atra c ao do mnimo global, sendo iniciado um outro metodo de otimiza c ao
nesse ponto.
Essa l ogica de mudan ca de um metodo de popula c ao para outro tipo de
metodo nem sempre funciona. Um exemplo de situa c ao em que tal esquema
n ao funcionaria e a fun c ao representada na gura 5.16. Nessa gura, ve-
mos um exemplo de fun c ao em que ocorre o fen omeno das m ultiplas escalas.
Essa fun c ao, olhada a uma grande dist ancia, parece ter algumas bacias de
atra c ao. Olhada de perto, ela revela uma estrutura muito mais complexa,
com a presen ca de dezenas pequenas sub-bacias onde parecia estar cada
uma das bacias de atra c ao inicialmente aparentes. Um metodo de dire c ao de
busca que fosse iniciado no interior dessa grande bacia aparente iria quase
certamente falhar na busca do mnimo global, cando provavelmente detido
em algum dos m ultiplos mnimos locais existentes nessa regi ao. Fun c oes desse
tipo v ao requerer a utiliza c ao de um esquema de popula c ao para realizar sua
otimiza c ao, do princpio ao m, sem a possibilidade de mudan ca para outro
tipo de metodo.
5.3 Otimiza cao com Restri c oes de Desigual-
dade
A pr oxima situa c ao a ser estudada aqui e aquela em que, na formula c ao do
problema de otimiza c ao, aparecem as chamadas restri c oes de desigualdade:
x
= arg min f(x)

sujeito a: g(x) 0
(5.8)
CAP

AO GEOM
ETRICA 81
10
5
0
5
10 10
5
0
5
10
20
15
10
5
0
5
10
15
PSfrag replacements
f
(
x
)
x
1
x
2
0
1
2
3
4
1
2
3
4
5
16
15.5
15
14.5
14
13.5
13
12.5
12
PSfrag replacements
f
(
x
)
x
1
x
2
10 8 6 4 2 0 2 4 6 8 10
10
8
6
4
2
0
2
4
6
8
10
PSfrag replacements
f(x)
x
1
x
2
0 0.5 1 1.5 2 2.5 3 3.5 4
1
1.5
2
2.5
3
3.5
4
4.5
5
PSfrag replacements
f(x)
x
1
x
2
Figura 5.16: Superfcie que representa o graco de uma fun cao multimodal f(x)
de duas variaveis que apresenta a caracterstica de m ultiplas escalas. Sucessivas
aproxima c oes da regiao onde se encontra seu mnimo global irao revelar sucessivas
estruturas de menor escala, que possuem m ultiplas bacias de atra cao dentro
de cada bacia de atra cao maior. Acima, estao representados os gracos da
superfcie, e abaixo as correspondentes curvas de nvel na mesma regiao. Deve-
se observar que onde, pelo primeiro par de gracos, esperaramos encontrar uma
unica bacia de atra cao, encontramos, no exame mais detalhado, uma estrutura
com m ultiplas pequenas sub-bacias.
CAP

AO GEOM
ETRICA 82
Essa descri c ao do problema signica, conforme j a foi visto, que o ponto de
otimo x
a ser determinado deve satisfazer ` as m desigualdades:

g
1
(x
) 0
g
2
(x
) 0
.
.
.
g
m
(x
) 0
(5.9)
5.3.1 Interpreta cao geometrica de uma restri cao de de-
sigualdade
Examinemos primeiro o que signica uma dessas desigualdades apenas, por
exemplo a primeira:
g
1
(x) 0 (5.10)
Admitamos que a fun c ao g
1
() seja contnua. Se isso for verdade, essa fun c ao
nunca muda bruscamente de valor. Por exemplo, para passar de um valor
negativo para um valor positivo, necessariamente ela tem de passar pelo valor
zero. Isso signica que, se considerarmos todo o espa co R
n
dos x, se houver
um subconjunto T
1
R
n
para cujos pontos x a fun c ao g
1
() ca positiva, e
outro subconjunto ^
1
R
n
para o qual a fun c ao g
1
() ca negativa, ent ao
tem de haver um conjunto (
1
R
n
para o qual a fun c ao se anula, e que
separa T
1
de ^
1
.
Matematicamente, denimos o conjunto T
1
da seguinte forma:
T
1
x [ g
1
(x) > 0 (5.11)
Em palavras, essa express ao deve ser lida como: O conjunto T
1
e denido
como () o conjunto dos pontos x tais que ( [ ) a fun c ao g
1
() avaliada nesses
pontos seja maior que zero. De forma similar, s ao denidos os conjuntos (
1
e ^
1
:
(
1
x [ g
1
(x) = 0
^
1
x [ g
1
(x) < 0
(5.12)
A gura 5.17 ilustra tais conjuntos, para um espa co de duas dimens oes.
CAP

AO GEOM
ETRICA 83
1
0.5
0
0.5
1
1
0.5
0
0.5
1
3
2
1
0
1
2
3
PSfrag replacements
x
1
x
2
z
1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1
1
0.8
0.6
0.4
0.2
0
0.2
0.4
0.6
0.8
1
PSfrag replacements
x
1
x
2
G
1
N
1
P
1
Figura 5.17: Na gura superior, e mostrada a superfcie z = g
1
(x), com suas
curvas de nvel, e sua interse cao com o plano z = 0. Na gura inferior, e
mostrado o plano x, sendo mostrada apenas a curva de nvel g
1
(x) = 0. Nesse
plano, a regiao ^
1
corresponde aos pontos em que a fun cao g
1
() e negativa; a
regiao T
1
1
() e positiva; e a fronteira
que separa essas regi oes, (
1
, corresponde aos pontos em que a fun cao g
1
() se
anula.
CAP

AO GEOM
ETRICA 84
Quando inserimos, no problema de otimiza c ao, a exigencia de que g
1
(x
)
0, queremos dizer que iremos aceitar como solu c oes do problema de oti-
miza c ao apenas pontos que sejam pertencentes ao conjunto ^
1
ou ao con-
junto (
1
. N ao ser ao admissveis pontos pertencentes ao conjunto T
1
, que
ser a assim denominado conjunto infactvel, ou regi ao infactvel. Diz-se ent ao
que o conjunto factvel, ou a regi ao factvel T
1
e a uni ao de (
1
e ^
1
:
T
1
= (
1
^
1
(5.13)
Se aplicarmos agora um dos metodos de otimiza c ao j a discutidos anterior-
mente para problemas sem restri c oes, para a minimiza c ao da fun c ao f(x),
h a duas possibilidades para a localiza c ao do ponto de mnimo: ele tem de
estar em T
1
ou em T
1
. Se a ultima hip otese ocorrer, a solu c ao do problema
ser a o ponto de mnimo encontrado. No entanto, se o mnimo irrestrito (ou
seja, o mnimo encontrado sem levar em considera c ao a restri c ao g
1
(x
) 0)
estiver na regi ao infactvel T
1
, alguma modica c ao dever a ser introduzida no
mecanismo de otimiza c ao, para que seja possvel localizar o ponto de otimo
x
que minimiza a fun c ao objetivo f() nos pontos pertencentes ao conjunto

factvel T
1
.
Esse e, basicamente, o problema da otimiza c ao restrita com restri c oes
de desigualdade: determinar o ponto x
T (ou seja, pertencente ` a regi ao

factvel) que minimiza a fun c ao f() nessa regi ao (ou seja, que produz o
menor valor dessa fun c ao, quando comparado com os valores da fun c ao em
todos os demais pontos da regi ao factvel).
5.3.2 Interpreta cao geometrica de varias restri c oes de
desigualdade
Antes de discutirmos como modicar os mecanismos de otimiza c ao para li-
dar com problemas de otimiza c ao restrita, vamos procurar entender o que
signica o sistema de restri c oes na forma em que o mesmo usualmente apa-
rece: um conjunto de v arias desigualdades que devem ser simultaneamente
CAP

AO GEOM
ETRICA 85
satisfeitas. Escrevendo novamente o sistema:
g
1
(x
) 0
g
2
(x
) 0
.
.
.
g
m
(x
) 0
(5.14)
A gura 5.18 mostra a situa c ao para duas restri c oes: a regi ao factvel (ou
seja, a regi ao dos pontos que simultaneamente atendem ` as duas restri c oes)
corresponde ` a interse c ao da regi ao cujos pontos atendem ` a primeira restri c ao
com a regi ao cujos pontos atendem ` a segunda restri c ao. Em geral, se T
i
designa a regi ao em que a fun c ao g
i
() e menor ou igual a zero
13
, temos que a
regi ao factvel T do problema envolvendo todo o conjunto de restri c oes (5.14)
corresponde ` a interse c ao de todas essas regi oes:
T = T
1
T
2
. . . T
m
(5.15)
O problema de otimiza c ao restrita com restri c oes de desigualdade, em sua
forma geral, trata da quest ao de determina c ao do ponto de mnimo x
de
uma fun c ao, dentro de uma regi ao factvel T denida dessa forma. Nas
subse c oes que se seguem, mostraremos algumas formas do nosso Otimizador
lidar com tal problema.
5.3.3 Barreiras e Penalidades
A primeira maneira de tentar adaptar os metodos de otimiza c ao que foram
formulados para problemas de otimiza c ao irrestrita para o caso agora em
an alise, com restri c oes de desigualdade, e a tecnica das barreiras e penali-
dades. A ideia e modicar a fun c ao-objetivo, acrescentando um termo que,
dentro da regi ao factvel, afeta pouco a fun c ao, mas que nas proximidades da
fronteira da regi ao factvel (no caso das barreiras) ou no exterior da regi ao
factvel (no caso das penalidades) muda bastante a fun c ao, impedindo o
Otimizador (ou seja, o algoritmo de otimiza c ao) de sair da regi ao factvel.
13
Observe que essa nota c ao, utilizando o ndice i, signica o mesmo que uma enu-
mera c ao de todas as fun c oes e regi oes: F
1
correspondendo ` a regi ao em que g
1
() 0, F
2
correspondendo ` a regi ao em que g
2
() 0, e assim por diante.
CAP

AO GEOM
ETRICA 86
1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1
1
0.8
0.6
0.4
0.2
0
0.2
0.4
0.6
0.8
1
PSfrag replacements
x
1
x
2
F
1
1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1
1
0.8
0.6
0.4
0.2
0
0.2
0.4
0.6
0.8
1
PSfrag replacements
x
1
x
2
F
2
1
0.5
0
0.5
1
1
0.5
0
0.5
1
3
2
1
0
1
2
3
PSfrag replacements
x
1
x
2
F
z
1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1
1
0.8
0.6
0.4
0.2
0
0.2
0.4
0.6
0.8
1
PSfrag replacements
x
1
x
2
F
Figura 5.18: A regiao T
1
1
() e
negativa (gura superior esquerda). A regiao T
2
corresponde aos pontos em
que a fun cao g
2
() e negativa (gura superior direita). A interse cao dessas duas
regi oes, T, corresponde aos pontos em que ambas as fun c oes sao negativas,
simultaneamente (gura inferior direita). A gura inferior esquerda mostra as
superfcies z = g
1
(x), z = g
2
(x), assim como sua interse cao com o plano z = 0
e suas curvas de nvel. Pode-se observar tambem nesta gura a regiao T.
CAP

AO GEOM
ETRICA 87
Em termos matem aticos, o problema de otimiza c ao original, denido por:
x
= arg min
x
f(x)
sujeito a: g(x) 0
(5.16)
e substitudo pelo problema:
x
= arg min
x
f(x) + F(x) (5.17)
A fun c ao F() deve ser muito pequena (ou zero) no interior da regi ao factvel,
de tal forma que o ponto de mnimo de f() seja muito parecido com o ponto
de mnimo de f() + F().
No caso de metodos de barreiras, a fun c ao F() deve crescer muito rapi-
damente quando estamos perto da fronteira da regi ao factvel. A ideia e que
o Otimizador, ao se aproximar dessa fronteira, verique um s ubito aumento
da fun c ao f(x) + F(x) (que e a fun c ao que ele est a otimizando), de forma
que ele n ao caminha em dire c ao a essa fronteira. O Otimizador, se tiver
iniciado a busca no interior da regi ao factvel, ir a sempre car nessa regi ao,
portanto
14
. Esse tipo de metodo e denominado de barreira porque a fun c ao
F() cria uma especie de barreira, que impede que o Otimizador atinja a
fronteira da regi ao factvel. A gura 5.19 ilustra uma fun c ao modicada com
uma barreira, para uma situa c ao de otimiza c ao em uma unica vari avel.
Os metodos de penalidades, por outro lado, s ao obtidos se se faz a fun c ao
F() crescer rapidamente do lado de fora da regi ao factvel, para valores
que aumentam ` a medida em que nos afastamos dessa regi ao. A ideia, neste
caso, e fazer com que o Otimizador, ao sair da regi ao factvel, encontre um
crescimento da fun c ao f(x) + F(x) que ele est a otimizando, de forma que
ele tende a voltar ao interior da regi ao. Esse tipo de metodo e denominado
de penalidade porque a fun c ao F() faz com que o Otimizador seja apenado
(ou seja, sofra uma penalidade) caso ultrapasse a fronteira da regi ao factvel,
sendo tanto maior a penalidade quanto mais o Otimizador se afastar dessa
regi ao. A gura 5.20 ilustra uma fun c ao de penalidade.
A gura 5.21 sobrep oe os gr acos das guras 5.19 e 5.20, que mostram
uma fun c ao barreira e uma fun c ao penalidade para o tratamento da mesma
restri c ao.
14
Deve-se tomar o cuidado, ao utilizar um metodo de barreira, para que o ponto inicial
j a esteja no interior da regi ao factvel.
CAP

AO GEOM
ETRICA 88
2
1
0
1
2
2
1.5
1
0.5
0
0.5
1
1.5
2
0
1
2
3
4
5
PSfrag replacements
x
1
x
2
F
(
x
)
Figura 5.19: Ilustra cao de uma fun cao de barreira, construda para garantir a
restri cao de que a otimiza cao deva ocorrer no interior de um crculo de raio igual
a 1, que seria a regiao factvel de um problema de otimiza cao. Essa fun cao,
somada à fun cao objetivo, teria o papel de impedir a sada de um Otimizador
do interior desse crculo de raio 1 que corresponde à regiao factvel.
2
1.5
1
0.5
0
0.5
1
1.5
2
2
1.5
1
0.5
0
0.5
1
1.5
2
0
2
4
6
8
10
PSfrag replacements
x
1
x
2
F
(
x
)
Figura 5.20: Ilustra cao de uma fun cao de penalidade. A regiao factvel corres-
ponde ao interior do crculo indicado em vermelho. A fun cao de penalidade e
igual a zero no interior da regiao factvel, e cresce rapidamente à medida em que
o ponto se afasta dessa regiao.
CAP

AO GEOM
ETRICA 89
2
1.5
1
0.5
0
0.5
1
1.5
2 2
1
0
1
2
0
1
2
3
4
5
6
7
8
9
10
PSfrag replacements
x
1
x
2
F
(
x
)
Figura 5.21: Sobreposi cao dos gracos das guras 5.19 e 5.20, de forma a
mostrar uma fun cao barreira e uma fun cao penalidade para a mesma restri cao.
No caso, a restri cao dene como regiao factvel o interior do crculo de raio 1
centrado na origem.
Deve-se notar que, uma vez que a fun c ao objetivo esteja modicada, seja
por uma fun c ao de barreira, seja por uma de penalidade, a resultante fun c ao
modicada pode ser otimizada utilizando os mesmos metodos que foram
desenvolvidos para o caso da otimiza c ao sem restri c oes. Tipicamente, ser ao
empregados metodos de dire c oes de busca para resolver problemas formulados
dessa maneira
15
.
5.3.4 Composi cao pelo Maximo
Embora seja possvel utilizar as fun c oes de penalidade para lidar com as
restri c oes de problemas de otimiza c ao nos casos em que o mecanismo de
otimiza c ao a ser empregado e do tipo exclus ao de regi oes, h a uma forma
mais natural de tratar as restri c oes nesse caso. Considera-se, primeiro, a
seguinte fun c ao:
G(x) = max(g
1
(x), g
2
(x), . . . , g
m
(x)) (5.18)
15
Deve-se notar que, em particular, as fun c oes de barreira n ao seriam funcionais se
empregados nem junto com metodos de exclus ao de regi oes nem junto com metodos de
popula c oes. J a as fun c oes de penalidade n ao causariam essas diculdades, e poderiam ser
empregadas com qualquer sistema de otimiza c ao. O leitor e convidado a explicar por que
isso ocorre.
CAP

AO GEOM
ETRICA 90
A fun c ao G() e a chamada composi c ao pelo m aximo das fun c oes g
i
(). O
leitor e convidado a examinar a curva de nvel G(x) = 0. Essa curva de nvel
corresponde exatamente ` a fronteira da regi ao factvel do problema. Cada
curva de nvel G(x) = , para > 0, corresponde a uma curva (ou hiper-
superfcie, em dimens oes maiores que dois) fechada que e exterior ` as curvas
correspondentes a valores menores de , e todas tem em seu interior a regi ao
factvel do problema (a curva correspondente a = 0)
16
.
Imagine-se agora a aplica c ao de uma tecnica de otimiza c ao por exclus ao
de regi oes ` a fun c ao G(). Se o Otimizador come car, nesse caso, em um
ponto fora da regi ao factvel, a primeira exclus ao ser a de um semi-espa co
que garantidamente n ao contem a regi ao factvel, cando para continuar a ser
examinado o semi-espa co que contem a regi ao factvel. O processo continua
ate que, certamente, o Otimizador nalmente cai dentro da regi ao factvel.
Para fechar o procedimento a ser aplicado, uma vez dentro da regi ao
factvel do problema, aplica-se um passo convencional de exclus ao de regi ao,
utilizando a fun c ao objetivo f() para determinar a exclus ao. O signicado
desse passo e: ap os esse corte, o Otimizador permanece com o semi-espa co
que contem a parcela da regi ao factvel na qual o ponto de otimo do problema
se encontra (ou seja, elimina-se a parcela da regi ao factvel em que o ponto
de otimo n ao se encontra). Essas opera c oes s ao ilustradas na gura 5.22.
O algoritmo resultante da seq uencia dessas opera c oes pode oscilar, le-
vando o Otimizador sucessivamente para dentro e para fora da regi ao factvel.
No entanto, como no caso irrestrito, o volume da regi ao considerada necessa-
riamente diminui a cada passo, sendo que o ponto de otimo permanece nessa
regi ao. O Otimizador, assim, termina arbitrariamente pr oximo do otimo.
5.4 Otimiza cao com Restri c oes de Igualdade
Consideremos agora o problema de otimiza c ao com restri c oes de igualdade:
x
= arg min f(x)

sujeito a: h(x) = 0
(5.19)
16
Para fazermos essa armativa, na verdade, estamos assumindo que as fun c oes g
i
()
sejam todas convexas ou, pelo menos, quasi-convexas.
CAP

AO GEOM
ETRICA 91
PSfrag replacements
x
x
i
f(x)
g(x)
Figura 5.22: Ilustra cao da aplica cao do processo de exclusao de regiao em um
problema de otimiza cao restrita. Sao mostradas, na gura, as curvas de nvel
da fun cao objetivo f(x), ao redor do mnimo irrestrito x
i
, e as curvas de nvel
das restri c oes g(x). Estas sao mostradas no exterior da regiao factvel, sendo
mostradas, em tra co mais grosso, as curvas correspondentes a g
i
(x) = 0 (ou
seja, as curvas que denem as fronteiras da regiao factvel). O ponto de otimo
do problema e representado por x
. Sao mostrados os vetores gradientes da

fun cao objetivo, f(x), em um ponto factvel, e gradiente de uma restri cao
violada, g(x), em um ponto factvel. Deve-se observar que as retas normais a
ambos os vetores gradiente denem cortes do plano tais que o semi-plano oposto
ao vetor gradiente, em ambos os casos, necessariamente contem a solu cao x
.
(No caso do corte feito no ponto infactvel, o semi-plano oposto ao gradiente
contem de fato toda a regiao factvel).
CAP

AO GEOM
ETRICA 92
Essa descri c ao do problema signica, conforme j a foi visto, que o ponto de
otimo x
a ser determinado deve satisfazer ` as p equa c oes:

h
1
(x
) = 0
h
2
(x
) = 0
.
.
.
h
p
(x
) = 0
(5.20)
Num espa co de n dimens oes, cada uma dessas equa c oes pode ser inter-
pretada como uma descri c ao de um conjunto de pontos (os pontos x que a
satisfazem) que fazem parte de uma superfcie de dimens ao n1. Por exem-
plo, num espa co de dimens ao 3, uma equa c ao dessas signica uma superfcie
no sentido convencional, dotada de duas dimens oes (algo como uma folha
curvada). Essa superfcie corresponde ao conjunto dos pontos factveis do
problema de otimiza c ao, se ele envolver apenas uma restri c ao de igualdade.
No caso de p restri c oes de igualdade, o conjunto factvel corresponde ` a in-
terse c ao de todas as superfcies (cada uma associada a uma das restri c oes de
igualdade).
O espa co que estamos considerando, na serie de exemplos que vem sendo
apresentada neste captulo, possui apenas duas dimens oes. Assim, o lugar
geometrico denido por uma equa c ao do tipo:
h
1
(x) = 0 (5.21)
corresponde a um objeto de dimens ao um, ou seja, uma linha (possivelmente
curva). Este ser a o conjunto factvel de um problema de otimiza c ao que tiver
(5.21) como restri c ao. A gura 5.23 mostra um exemplo dessa situa c ao.
Das tecnicas mostradas anteriormente para tratar de problemas de oti-
miza c ao com restri c oes de desigualdade, duas simplesmente n ao funcionam
para o caso de restri c oes de igualdade: o metodo de barreiras e o metodo de
composi c ao pelo m aximo. A raz ao disso e que ambas as tecnicas dependem
da existencia de pontos que sejam interiores ` a regi ao factvel do problema
para funcionarem, e as regi oes factveis de restri c oes de igualdade n ao pos-
suem pontos interiores
17
. A tecnica de penalidades, por sua vez, pode ser
empregada.
17
Pontos interiores a uma regi ao s ao pontos que pertencem a essa regi ao e n ao est ao
CAP

AO GEOM
ETRICA 93
1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1
1.5
1
0.5
0
0.5
1
1.5
2
2.5
PSfrag replacements
x
1
x
2
h(x) = 0
Figura 5.23: A linha corresponde ao lugar geometrico dos pontos que satisfazem
h(x) = 0. Essa linha e a regiao factvel de um problema de otimiza cao com essa
restri cao.
5.5 Otimiza cao Linear
Um caso especial particularmente importante do problema de otimiza c ao
ocorre quando tanto a fun c ao objetivo quanto as fun c oes de restri c ao s ao
lineares
18
. Esse e o chamado problema de otimiza c ao linear:
x
= arg min c
x
sujeito a: Ax b
(5.22)
sendo c um vetor de dimens ao n (mesmo tamanho que x), A uma matriz
R
mn
e b um vetor de dimens ao m. Claramente, a fun c ao objetivo desse
problema e a fun c ao linear:
f(x) = c
1
x
1
+ c
2
x
2
+ . . . + c
n
x
n
(5.23)
em sua fronteira. Claramente, todos os pontos factveis de problemas de otimiza c ao com
restri c oes de igualdade est ao na fronteira da regi ao factvel, isto e, possuem algum ponto
vizinho fora dessa regi ao.
18
No caso das restri c oes, uma terminologia mais precisa iria dizer que s ao ans e n ao
lineares.
CAP

AO GEOM
ETRICA 94
1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1
1
0.5
0
0.5
1
5
4
3
2
1
0
1
2
3
4
5
PSfrag replacements
x
1
x
2
z
=
f
(
x
)
Figura 5.24: Superfcie correspondente à fun cao objetivo linear f(x) = c
x. Na
gura, estao representadas tambem as curvas de nvel da fun cao, que sao retas
paralelas.
e o conjunto de restri c oes corresponde ` as m desigualdades:
a
11
x
1
+ a
12
x
2
+ . . . + a
1n
x
n
b
1
a
21
x
1
+ a
22
x
2
+ . . . + a
2n
x
n
b
2
.
.
.
a
m1
x
1
+ a
m2
x
2
+ . . . + a
mn
x
n
b
m
(5.24)
A otimiza c ao linear e particularmente importante por duas raz oes: Primeiro,
um n umero muito grande de situa c oes pr aticas e modelado pela formula c ao
linear. Segundo, devido ` a sua estrutura peculiar, problemas de otimiza c ao
linear podem ser resolvidos muito mais rapidamente que problemas de oti-
miza c ao n ao-linear com o mesmo n umero de vari aveis e o mesmo n umero de
restri c oes. Assim, algoritmos especializados para resolver apenas problemas
lineares s ao capazes de lidar com problemas muito grandes (muito maiores
que aqueles que poderiam ser resolvidos no caso n ao-linear geral).
Vamos examinar essa estrutura peculiar que torna t ao favor avel a oti-
miza c ao linear. No caso de duas vari aveis de otimiza c ao, a superfcie repre-
sentativa da fun c ao linear e simplesmente um plano, e suas curvas de nvel
s ao retas paralelas. Isso e mostrado na gura 5.24.
O problema de otimiza c ao de uma fun c ao linear n ao faz sentido se n ao
estiver acompanhado de restri c oes, pois o ponto que minimiza tal fun c ao
CAP

AO GEOM
ETRICA 95
objetivo encontra-se no innito
19
. Examinemos o que s ao as restri c oes do
problema de otimiza c ao linear. Num espa co de n dimens oes, a desigualdade:
a
11
x
1
+ a
12
x
2
+ . . . + a
1n
x
n
b
1
(5.25)
representa um semi-espa co. A fronteira que separa a regi ao factvel da in-
factvel corresponde a um hiperplano nesse espa co. No caso de duas di-
mens oes, a desigualdade:
a
11
x
1
+ a
12
x
2
b
1
(5.26)
dene um semi-plano como regi ao factvel, e a fronteira dessa regi ao factvel
corresponde ` a reta a
11
x
1
+ a
12
x
2
= b
1
. Consideremos agora v arias restri c oes
de desigualdade em duas dimens oes:
a
11
x
1
+ a
12
x
2
b
1
a
21
x
1
+ a
22
x
2
b
2
.
.
.
a
m1
x
1
+ a
m2
x
2
b
m
(5.27)
Como cada uma dessas restri c oes de desigualdade dene um semi-plano, as
v arias restri c oes de desigualdade correspondem ` a interse c ao de v arios semi-
planos, o que dene um poliedro. Isso e mostrado na gura 5.25.
Observemos agora, na gura 5.26, a superposi c ao das curvas de nvel de
uma fun c ao objetivo linear com uma regi ao factvel linear. O dado relevante a
ser observado e que, num problema linear, o ponto de otimo necessariamente
se encontra sobre um vertice do poliedro factvel.
O leitor deve se convencer de que seria impossvel, num problema linear,
que o mnimo da fun c ao objetivo estivesse no interior da regi ao factvel. Seria
tambem impossvel que esse mnimo estivesse em um ponto da fronteira da
regi ao factvel sem estar em um dos vertices dessa fronteira
20
. Assim, uma
possvel estrategia para resolver problemas lineares, seria fazer o Otimizador
percorrer apenas o conjunto dos vertices da regi ao factvel, escolhendo dentre
esses vertices aquele com menor valor de fun c ao objetivo.

E possvel imple-
mentar metodos bastante ecientes de otimiza c ao com base em tal estrategia:
19
Em outras palavras, n ao existe nenhum mnimo local irrestrito de uma fun c ao objetivo
linear.
20
No entanto, seria possvel que houvesse m ultiplos mnimos, incluindo pontos diversos
da fronteira, dentre esses necessariamente pelo menos um dos vertices.
CAP

AO GEOM
ETRICA 96
PSfrag replacements
F
Figura 5.25: Regiao factvel T, correspondente a varias restri c oes lineares de de-
sigualdade. Cada reta que contem um dos lados do poliedro factvel corresponde
à fronteira de uma restri cao de desigualdade.
PSfrag replacements
F
f(x)
x
Figura 5.26: O vetor gradiente da fun cao objetivo, f(x), mostrado no ponto
x, e constante em todo o espa co, pois a fun cao objetivo e linear. As linhas
tracejadas correspondem às curvas de nvel da fun cao objetivo, sendo que elas
correspondem a valores cada vez menores de fun cao objetivo quando se caminha
da direita para a esquerda. Dessa forma, o ponto x indicado na gura e o de
menor valor de fun cao objetivo dentro da regiao factvel T, correspondendo ao
ponto em que a curva de nvel de menor valor toca a regiao factvel.
CAP

AO GEOM
ETRICA 97
esses s ao os chamados metodos Simplex. Esse tipo de l ogica, largamente em-
pregada no contexto da otimiza c ao linear, e fundamentalmente diferente dos
procedimentos que podem ser utilizados na otimiza c ao n ao-linear
21
.
21
Devemos entretanto informar o leitor que, recentemente, outras estrategias de oti-
miza c ao linear, denominadas metodos de pontos interiores, vem ganhando a preferencia
dos usu arios, estrategias essas que tem semelhan ca com metodos de otimiza c ao n ao-linear.
Captulo 6
Metodos de Dire c oes de Busca
Os primeiros metodos de otimiza c ao (minimiza c ao) de funcionais n ao-lineares
foram desenvolvidos a partir da ideia b asica de fazer o algoritmo evoluir
encontrando novos pontos situados em dire c oes para as quais o funcional
decres ca, em rela c ao ao ponto corrente.
A vers ao mais primitiva dessa famlia de metodos vem a ser o Algoritmo
do Gradiente: dado um ponto inicial do espa co de busca, obtem-se um novo
ponto situado sobre a reta denda por esse ponto e pelo gradiente da fun c ao-
objetivo. Essa e a dire c ao para a qual, localmente, a fun c ao mais rapidamente
decresce (no sentido contr ario ao do gradiente). Determina-se o novo ponto
como sendo aquele em que a fun c ao objetivo atinge o mnimo sobre essa
reta (note-se que este e um problema de minimiza c ao de uma fun c ao de uma
unica vari avel). A partir desse novo ponto, repete-se o processo, ate que seja
satisfeito um criterio de convergencia.
Ao longo das decadas de 50 e 60 do seculo XX, tal metodo b asico foi
aperfei coado, para permitir que a dire c ao de busca na qual era feita a busca
unidimensional sofresse uma corre c ao. Tal corre c ao levava em conta mais
informa c oes a respeito da fun c ao objetivo, alem do valor de seu gradiente no
ponto corrente: procurava-se tambem levar em considera c ao a curvatura da
fun c ao. Aproxima c oes de segunda ordem, por exemplo, levando em consi-
dera c ao estimativas da Hessiana da fun c ao objetivo, permitiram signicativa
acelera c ao de convergencia dos metodos.
Os metodos aqui agrupados sob a denomina c ao de dire c ao de busca
tem essa raiz, e possuem em comum as seguintes caractersticas:
Cada novo ponto e obtido de um processo de otimiza c ao unidimensional
que tem como ponto de partida o ponto anterior.
98
CAP
ITULO 6. DIREC

OES DE BUSCA 99
A dire c ao na qual e feita a busca unidimensional e uma fun c ao das
avalia c oes anteriores da fun c ao objetivo.
O objetivo deste captulo e o estudo dessa classe de metodos, sendo o
conte udo selecionado para fundamentar sua compreens ao geral. N ao houve
a inten c ao de esgotar a apresenta c ao de todas as varia c oes j a desenvolvidas
de metodos classicados nesta categoria.
6.1 Estrutura Basica
Dado o problema (mono-objetivo) irrestrito:
x
= arg min
x
f(x) (6.1)
e dado um ponto inicial x
0
,= x
, obtem-se uma seq uencia x

k
tal que x
k
x
a partir do algoritmo de otimiza c ao. A famlia dos algoritmos de dire c ao de

busca possui a estrutura:
Algoritmo de Dire cao de Busca
k 0
enquanto (n ao criterio de parada)
d
k
h(x
1
, . . . , x
k
, f(x
1
), . . . , f(x
k
))
k
arg min
f(x
k
+ d
k
)
x
k+1
x
k
+
k
d
k
k k + 1
m-enquanto
Nessa estrutura, h(, . . . , ) e uma fun c ao que em geral ser a recursiva, isto
e, n ao ir a depender explicitamente dos pontos anteriores, mas ir a armazenar
sua inuencia em vari aveis intermedi arias. Um algoritmo ir a diferir do outro
essencialmente pela maneira como e calculada a dire c ao de busca d
k
, ou
CAP
ITULO 6. DIREC

OES DE BUSCA 100
seja, na escolha dessa fun c ao. No caso do Algoritmo do Gradiente, tem-se
simplesmente que:
d
k
= f(x
k
)
No caso do Algoritmo de Newton, tem-se que:
F
k
= hessiana(f(x
k
))
e
d
k
= F
1
k
f(x
k
)
Tanto o gradiente quanto a Hessiana s ao determinados por meio de diversas
avalia c oes da fun c ao f(x), tendo em vista a regra b asica de que este e o unico
tipo de informa c ao disponvel. A justicativa para a utiliza c ao dessas dire c oes
de busca ser a vista neste captulo. Os metodos chamados de quasi-Newton
substituem a avalia c ao da Hessiana da fun c ao objetivo pela constru c ao de
uma estimativa para essa Hessiana.
Os elementos para a constru c ao de algoritmos de dire c oes de busca s ao,
portanto: (i) um metodo de c alculo de dire c oes de busca, possivelmente envol-
vendo o c alculo de estimativas para o gradiente e para a Hessiana da fun c ao
objetivo; (ii) um metodo de minimiza c ao de fun c oes de uma unica vari avel;
(iii) um criterio de decis ao que permita armar que o algoritmo convergiu
para uma solu c ao satisfat oria, podendo ser terminada sua execu c ao. Esses
elementos ser ao examinados a seguir. Antes disso, a natureza do processo de
convergencia intrnseco aos metodos de dire c ao de busca e estudada, atraves
do exame da convergencia de um algoritmo de interesse apenas conceitual: o
algoritmo de busca em dire c oes aleat orias.
6.2 Busca em Dire c oes Aleat orias
Considere-se o algoritmo denido por:
Algoritmo de Busca em Dire c oes Aleat orias
k 0
d
k
rand(n, 1)
CAP
ITULO 6. DIREC

OES DE BUSCA 101
k
arg min
f(x
k
+ d
k
)
x
k+1
x
k
+
k
d
k
k k + 1
m-enquanto
A fun c ao rand(n, 1) e denida tal que sua sada e um vetor de n com-
ponentes aleat orias com distribui c ao Gaussiana, media 0 e vari ancia 1. A
convergencia desse algoritmo para o ponto de mnimo de uma fun c ao unimo-
dal e estabelecida no teorema a seguir.
Teorema 6.1 Seja f(x) : R
n
R uma fun c ao estritamente unimodal, e
seja x
0
um ponto qualquer em seu domnio. A aplica c ao do algoritmo de
busca em dire c oes aleat orias a essa fun c ao, partindo desse ponto, produz uma
seq uencia [f(x
k
)] que se aproxima de forma monot onica do valor mnimo da
fun c ao, f(x
).
Demonstrac
ao: A subrotina de minimiza c ao unidimensional embutida no

algoritmo implica que, qualquer que seja a dire c ao d
k
escolhida:
f(x
k
) f(x
k1
)
o que demonstra a monotonicidade da seq uencia. A unimodalidade estrita de f(x)
implica que para todo ponto x
k
= x
haver a possveis dire c oes d

k
para as quais
ocorra:
f(x
k
+
k
d
k
) < f(x
k
)
para algum valor de
k
. Se uma dessas dire c oes n ao for escolhida, ocorrer a:
x
k+1
= x
k
Do contr ario:
x
k+1
= x
k
f(x
k+1
) < f(x
k
)
Pela constru c ao da fun c ao aleat oria geradora do vetor d
k
, h a uma probabilidade
n ao-nula de gera c ao de dire c oes em que ocorre a diminui c ao do valor da fun c ao,
de forma que a aproxima c ao ca demonstrada, ou seja:
x
k
= x
N | f(x
k+N
) < f(x
k
)
CAP
ITULO 6. DIREC

OES DE BUSCA 102
Note-se que o teorema 6.1 mostra que ocorre a aproxima c ao, mas n ao
a convergencia para o ponto de mnimo x
. De qualquer forma, este e um

algoritmo que efetivamente funcionaria para a minimiza c ao de fun c oes. A
quest ao a ser observada e que uma escolha adequada da dire c ao de busca
d
k
, em substitui c ao ` a escolha aleat oria, pode aumentar em muito a eciencia
do algoritmo de minimiza c ao. Os diversos algoritmos de dire c oes de busca
surgem precisamente quando se prop oem diferentes formas de se fazer tal
escolha de uma dire c ao.
6.3 Algoritmo do Gradiente
A primeira escolha razo avel para uma dire c ao de busca d
k
e a da dire c ao
contr aria ` a do gradiente da fun c ao no ponto corrente x
k
. Essa escolha se
justica com a observa c ao de que, localmente, essa e a dire c ao na qual a
fun c ao decresce mais rapidamente. Isso dene o Algoritmo do Gradiente,
esquematizado a seguir:
Algoritmo do Gradiente
k 0
g
k
gradiente(f(), x
k
)
d
k
g
k
k
arg min
f(x
k
+ d
k
)
x
k+1
x
k
+
k
d
k
k k + 1
m-enquanto
Esse algoritmo baseia-se apenas na informa c ao local a respeito da va-
ria c ao da fun c ao em todas as dire c oes do espa co (sintetizada no gradiente da
CAP
ITULO 6. DIREC

OES DE BUSCA 103
fun c ao). A unica suposi c ao implcita na aplica c ao desse algoritmo e a de que
a fun c ao f(x) seja diferenci avel.
Os elementos construtivos desse algoritmo s ao examinados a seguir.
6.3.1 Calculo do Gradiente
No contexto da teoria de otimiza c ao, a suposi c ao mais geral a respeito da
informa c ao sobre o sistema sendo otimizado e: disp oe-se apenas de um al-
goritmo que, recebendo como entradas o vetor de vari aveis de otimiza c ao,
fornece o valor da fun c ao-objetivo para tal vetor. N ao se disp oe portanto,
em geral, de fun c oes que explicitamente forne cam o gradiente da fun c ao ob-
jetivo para certa especica c ao do vetor de vari aveis de otimiza c ao. Dessa
forma, e necess ario construir um algoritmo que forne ca o gradiente.
O algoritmo mais simples que se pode imaginar para o c alculo numerico
(aproximado) do gradiente de uma fun c ao e decorrencia imediata da deni c ao
de gradiente, sendo substituda a f ormula diferencial por diferen cas nitas.
Seja x R
n
o vetor de vari aveis de otimiza c ao, e seja e
i
o vetor denido por:
e
i
=
_
_
0
.
.
.
0
1
0
.
.
.
0
_
_
i esima posi c ao (6.2)
Considere-se um certo > 0, tal que 0. O algoritmo de c alculo do vetor
gradiente g no ponto x pode ser denido como:
Algoritmo de Calculo do Gradiente
para i 1 ate n fa ca
g
i

f(x + e
i
) f(x)
m-para
CAP
ITULO 6. DIREC

OES DE BUSCA 104
g
_
_
g
1
.
.
.
g
n
_
_
Nota 6.1 Deve-se observar que o Algoritmo de C alculo do Gradiente e exato
para fun c oes lineares, ou seja, para fun c oes cuja serie de Taylor termina no termo
de primeira ordem. Nesse caso, o valor de pode ser qualquer: o c alculo ser a
exato mesmo para grande.
Exemplo 6.1 Seja a fun c ao de duas vari aveis f(x), denida por:
f(x) = 2x
2
1
+ x
2
2
+ 2x
1
x
2
+ x
1
2x
2
+ 3
Analiticamente, o gradiente dessa fun c ao e dado por:
f(x) =
4x
1
+ 2x
2
+ 1
2x
1
+ 2x
2
2
Por essa f ormula analtica, sabe-se que no ponto x

o
= [ 0 0 ]
o gradiente ca
igual a:
f(x
o
) =
1
2
Utilizando-se o algoritmo de diferen cas nitas, para = 0.0001, obtem-se a esti-

mativa do gradiente igual a:
f(x
o
) =
1.0002
1.9999
Deve-se notar que o Algoritmo do Gradiente n ao utiliza nenhuma informa c ao

analtica a respeito da fun c ao. A unica informa c ao utilizada e proveniente de
avalia c oes da fun c ao em pontos.
6.3.2 Otimiza cao Unidimensional
A seguinte linha do algoritmo do gradiente agora e examinada:
k
arg min
f(x
k
+ d
k
)
CAP
ITULO 6. DIREC

OES DE BUSCA 105
O c alculo de
k
e feito xando-se o ponto atual x
k
e uma dire c ao de busca,
d
k
. Isso faz com que a fun c ao objetivo, f(x), que originalmente seria de n
vari aveis (ou seja, dependeria de um vetor x de dimens ao n) torne-se agora
uma fun c ao de uma unica vari avel real, .
A otimiza c ao de fun c oes de uma unica vari avel (em uma unica dimens ao,
portanto) e tarefa substancialmente mais simples que a otimiza c ao em diver-
sas dimens oes. Podem-se construir algoritmos diversos para resolver o pro-
blema, baseados em premissas diversas a respeito da fun c ao a ser otimizada.
Uma premissa comum, que necessariamente possui validade local em alguma
vizinhan ca de um ponto de otimo estrito, e a de que a fun c ao-objetivo possua
um unico mnimo local no domnio em quest ao. Um algoritmo de otimiza c ao
unidimensional pode ser construdo com fundamento nessa premissa, a partir
do teorema a seguir.
Teorema 6.2 Sejam uma fun c ao f() : R R. Seja um domnio [a, b] R,
no qual f possui um unico mnimo local x
. Sejam ainda dois pontos x

a
e x
b
tais que
a < x
a
< x
b
< b (6.3)
Se ocorrer
f(x
a
) < f(x
b
) (6.4)
ent ao a solu c ao minimizante x
n ao se encontra no intervalo [x
b
, b], e se
ocorrer
f(x
a
) > f(x
b
) (6.5)
ent ao a solu c ao minimizante x
n ao se encontra no intervalo [a, x

a
]
Demonstrac
ao: Tome-se o intervalo [a, x

b
]. Nesse intervalo, h a algum ponto
x
o
para o qual f(x
o
) f(x) x [a, x
b
] e x
o
= x
b
, pela hip otese (6.4). Logo,
x
o
e um mnimo local no segmento [a, x
b
]. Como x
o
= x
b
, tem-se que no intervalo
[a, b] x
o
permanece sendo mnimo local. Acrescentando-se agora a hip otese de que
s o h a um unico mnimo local em [a, b], obtem-se que x
= x
o
, que e o resultado
pretendido. Para o outro lado do segmento, o argumento e an alogo.
Com esse teorema, e possvel construir um algoritmo que se fundamenta
na l ogica de excluir, a cada passo, um trecho do segmento considerado,
de forma a faze-lo contrair-se. Quando o segmento estiver sucientemente
pequeno, pode-se considerar que ocorreu a convergencia para o ponto de
CAP
ITULO 6. DIREC

OES DE BUSCA 106
mnimo. A precis ao dessa convergencia (ou seja, o erro m aximo cometido)
ser a igual ` a metade do comprimento remanescente.
Existem, claramente, formas de escolher os pontos x
a
e x
b
dentro do
segmento, de forma a maximizar (em media) o comprimento do intervalo a ser
excludo a cada passo, assim minimizando o n umero de itera c oes necess ario
para se atingir determinada precis ao. Uma escolha freq uentemente adotada
e denida pela se c ao aurea: escolhem-se x
a
e x
b
de forma que:
x
b
a = 0.618(b a)
b x
a
= 0.618(b a)
(6.6)
O fator 0.618 corresponde ` a raz ao aurea, utilizada pelos antigos gregos para
denir a raz ao dos lados adjacentes de um ret angulo que seria perfeita sob
o ponto de vista estetico.
Com esta escolha, o algoritmo de minimiza c ao de uma fun c ao real no
intervalo [a, b] para se atingir uma precis ao /2 pode ser denido como:
Algoritmo da Se cao

Aurea
x
a
b 0.618(b a)
x
b
a + 0.618(b a)
f
a
f(x
a
)
f
b
f(x
b
)
enquanto b a >
se f
a
< f
b
ent ao
b x
b
x
b
x
a
x
a
b 0.618(b a)
f
b
f
a
f
a
f(x
a
)
sen ao
a x
a
CAP
ITULO 6. DIREC

OES DE BUSCA 107
x
a
x
b
x
b
a + 0.618(b a)
f
a
f
b
f
b
f(x
b
)
m-se
m-enquanto
x
a + b
2
Claramente, a cada passo do algoritmo o comprimento do intervalo [a, b]
e multiplicado por um fator menor ou igual a 0.618, de forma que pode-
se calcular o n umero esperado m aximo de passos para atingir a precis ao
desejada:
d
k
0.618
k1
d
1
(6.7)
sendo d
k
o comprimento do intervalo [a, b] no passo k.
O leitor deve estar ciente de que e possvel construir outros algoritmos,
mais ecientes, para a otimiza c ao de fun c oes de uma unica vari avel, que
levam em considera c ao aproxima c oes diversas para a fun c ao. Para maiores
detalhes, pode-se consultar a referencia (Luenberger 1984).
Exemplo 6.2 Tome-se a mesma fun c ao do Exemplo 6.1.
f(x) = 2x
2
1
+ x
2
2
+ 2x
1
x
2
+ x
1
2x
2
+ 3
O gradiente da fun c ao e dado por:
f(x) =
4x
1
+ 2x
2
+ 1
2x
1
+ 2x
2
2
No ponto x
o
= [ 1 1 ]
, o gradiente ca igual a:
f(x
o
) =
1
2
A fun c ao f(x), tomada a partir do ponto x

o
na dire c ao de f(x
o
) pode ser en-
contrada analiticamente por substitui c ao da vari avel vetorial x pela vari avel escalar
, feita segundo:
x = x
o
f(x
o
)
CAP
ITULO 6. DIREC

OES DE BUSCA 108
ou:

x
1
x
2
1
1
1
2
1
2 + 1
A fun c ao unidimensional ca:

f() = 2(1)
2
+(2+1)
2
+2(1)(2+1)+(1)2(2+1)+3 = 10
2
5+1
Essa fun c ao possui mnimo para:
df()
d
= 20 5 = 0
ou seja, para =
1
4
. Para esse valor de , o ponto no espa co dos vetores x ca:
x
1
x
2
1
1
1
4
1
2
3
4
3
2
0.75
1.5
Com o algoritmo da se c ao aurea, obtem-se uma estimativa do ponto de mnimo

igual a:
x
1
x
2
0.75010
1.49980
para uma precis ao estabelecida de = 0.001. Deve-se notar que o ponto deter-
minado n ao e o ponto de mnimo global da fun c ao f(x), nem corresponde a um
mnimo local dessa fun c ao, pois o gradiente n ao se anula nesse ponto. O mnimo
apenas diz respeito ` a minimiza c ao da fun c ao sobre a reta denida pelo ponto x
o
e
pelo vetor f(x
o
).
6.3.3 Criterios de Parada
Ap os produzir uma seq uencia de estimativas da fun c ao objetivo, avaliadas
para uma seq uencia de pontos do espa co de vari aveis de otimiza c ao, o al-
goritmo de otimiza c ao eventualmente dever a se aproximar de um ponto de
mnimo local ( otimo local) da fun c ao. Como a aproxima c ao para o otimo
ocorre de forma assint otica, e necess ario em algum momento tomar a decis ao
de interromper o algoritmo, sendo a aproxima c ao obtida considerada o valor
otimo alcan cado.
Alguns criterios possveis, para a tomada dessa decis ao, seriam:
CAP
ITULO 6. DIREC

OES DE BUSCA 109
Estabiliza cao do valor da fun cao-objetivo
Caso o valor da fun c ao-objetivo, em um certo n umero de itera c oes, n ao va-
rie mais que certo percentual da diferen ca entre seu valor m aximo ocorrido
em todo o processo de otimiza c ao e seu valor mnimo vericado tambem
em todo o processo, e possvel interromper o algoritmo supondo que dicil-
mente viriam a ocorrer melhorias signicativas da fun c ao-objetivo com essa
continuidade.
A seguir e apresentado um trecho de algoritmo que exemplica a cons-
tru c ao desse criterio, o qual considera como estabilizado um algoritmo que
varia, nas ultimas cinco itera c oes, menos de 0.1% da amplitude
f
da
fun c ao objetivo, sendo f
max
e f
min
respectivamente o m aximo e o mnimo
valor ocorrido para a fun c ao objetivo durante toda a execu c ao.
Criterio de Parada: Fun cao Objetivo
f
f
max
f
min
f
5+
max f(x
k
), f(x
k1
), f(x
k2
), f(x
k3
), f(x
k4
), f(x
k5
)
f
5
min f(x
k
), f(x
k1
), f(x
k2
), f(x
k3
), f(x
k4
), f(x
k5
)
f
f
5+
f
5
se
f
< 0.001
f
ent ao parada true
sen ao parada false
Nota 6.2 O leitor deve estar atento para o fato de que e necess ario calcular o
valor
f
, n ao sendo recomend avel utilizar, em seu lugar, nem f
min
nem f
max
.
Fica para o leitor a tarefa de explicar que problemas ocorreriam caso fossem feitas
tais escolhas.
CAP
ITULO 6. DIREC

OES DE BUSCA 110
Nota 6.3 Seria entretanto possvel utilizar, para
f
, alguma deni c ao um pouco
mais sosticada, que por exemplo exclusse alguns dos m aximos valores ocorridos
para a fun c ao objetivo antes do c alculo de f
max
. Tal procedimento aumenta a
complexidade do algoritmo, mas pode torn a-lo mais est avel.
Estabiliza cao do vetor de variaveis de otimiza cao

Outra alternativa para o problema de formula c ao de criterios de parada de
algoritmos de otimiza c ao seria a constata c ao de que o vetor de vari aveis se
estabilizou em algum ponto do espa co.
A seguir e apresentado um trecho de algoritmo que exemplica a cons-
tru c ao desse criterio, o qual considera como estabilizado um algoritmo cujo
vetor de vari aveis varia, nas ultimas cinco itera c oes, menos de 0.1% da faixa
de varia c ao vericada do vetor de vari aveis ao longo de toda a execu c ao. Se-
jam x
max
o vetor cujas componentes s ao o m aximo valor ocorrido para cada
componente do vetor de vari aveis durante toda a execu c ao, e x
min
o vetor
cujas componentes s ao o mnimo valor ocorrido para cada componente do
vetor de vari aveis durante toda a execu c ao do algoritmo. As opera c oes com
vetores s ao entendidas como opera c oes realizadas sobre cada uma das com-
ponentes dos operandos. A compara c ao entre dois vetores ser a verdadeira se
cada uma das compara c oes de componentes for verdadeira.
Criterio de Parada: Vetor de Variaveis
x
x
max
x
min
x
5+
max x
k
, x
k1
, x
k2
, x
k3
, x
k4
, x
k5
x
5
min x
k
, x
k1
, x
k2
, x
k3
, x
k4
, x
k5
x
x
5+
x
5
se
x
< 0.001
x
ent ao parada true
sen ao parada false
CAP
ITULO 6. DIREC

OES DE BUSCA 111
Nota 6.4 Novamente, observa-se que n ao e recomend avel utilizar, para construir
esse criterio de parada, nem x
max
, nem x
min
, nem x
k1
(embora essa ultima
alternativa seja freq uentemente usada na literatura) em substitui c ao a
x
. Fica
para o leitor a tarefa de explicar que problemas ocorreriam nesses casos.
Anula cao do Vetor Gradiente

Por m, e possvel ainda determinar o nal de um processo de otimiza c ao
com uma informa c ao a respeito do vetor gradiente da fun c ao objetivo. Sabe-
se que, se a fun c ao-objetivo e diferenci avel, seu gradiente ser a nulo em seus
pontos de mnimos locais. Pode-se portanto detectar a ocorrencia desses
mnimos pela monitora c ao do valor da norma do vetor gradiente.
No trecho de algoritmo a seguir, e mostrada uma implementa c ao desse
teste sobre o vetor g(x), que e o gradiente da fun c ao-objetivo f(x). A base
de compara c ao adotada e o m aximo valor da norma do gradiente ocorrido ao
longo de toda a execu c ao, denotado por M
max
.
Criterio de Parada: Vetor Gradiente
M
g
= max |g(x
k
)|, |g(x
k1
|, |g(x
k2
)|
se M
g
< 0.001M
max
ent ao parada true
sen ao parada false
Exemplo 6.3 Considere-se novamente a fun c ao f(x), utilizada nos Exemplos
6.1 e 6.2:
f(x) = 2x
2
1
+ x
2
2
+ 2x
1
x
2
+ x
1
2x
2
+ 3 (6.8)
O gradiente da fun c ao e dado por:
f(x) =
4x
1
+ 2x
2
+ 1
2x
1
+ 2x
2
2
CAP
ITULO 6. DIREC

OES DE BUSCA 112
O mnimo global dessa fun c ao ocorre no ponto em que o gradiente se anula, ou
seja:
x
1.5
2.5
Nesse ponto, a fun c ao exibe o valor f(x
) = 0.25. A minimiza c ao dessa fun c ao

ser a feita pelo Algoritmo do Gradiente, com o ponto inicial xado em:
x(1) =
1
1
O ndice entre parentesis denota o n umero da itera c ao. A seq uencia de pontos
encontrada durante a execu c ao do Algoritmo do Gradiente e mostrada na Tabela
6.1 (o c alculo do gradiente foi feito, neste caso, utilizando a f ormula analtica
acima). Deve-se observar que o ultimo criterio de convergencia a ser satisfeito,
nesse caso, foi o da estabiliza c ao do vetor de vari aveis de otimiza c ao. Pelos outros
dois criterios, o processo de otimiza c ao teria sido interrompido antes. O ponto de
otimo estimado, ao nal de 27 itera c oes do algoritmo, e dado por:
x =
1.4999
2.4998
A fun c ao objetivo, nesse ponto, vale f( x) = 0.25000 (valor igual ao otimo exato
ate pelo menos a quinta casa decimal). A evolu c ao dos tres criterios de parada e
mostrada na gura 6.1.
6.3.4 Convergencia
Pode-se mostrar, usando o teorema da convergencia global, que o Algoritmo
do Gradiente converge para a solu c ao dos problemas de otimiza c ao mediante
as condi c oes formuladas na proposi c ao a seguir.
Proposi cao 6.1 Seja o problema de otimiza c ao irrestrito denido por:
x
= arg min
x
f(x) (6.9)
sendo x R
n
, com f() : R
n
R uma fun c ao contnua. Ent ao o Algoritmo
do Gradiente ir a convergir para x
para todo ponto inicial x

0
situado na bacia
de atra c ao de x
.
CAP
ITULO 6. DIREC

OES DE BUSCA 113
Tabela 6.1: Seq uencia de valores das coordenadas do vetor de otimiza cao, x
1
e x
2
, da
fun cao objetivo, f(x) e das coordenadas do vetor gradiente, g
1
e g
2
, para a otimiza cao
da fun cao descrita na equa cao (6.8). O ndice da itera cao e dado por k.
k x
1
x
2
f(x) g
1
g
2
1 -1.0000 1.0000 1.0000 -1.0000e-00 -2.0000e+00
2 -0.7500 1.5000 0.3750 1.0000e+00 -4.9997e-01
3 -1.2500 1.7500 0.0625 -4.9996e-01 -1.0000e+00
4 -1.1250 2.0000 -0.0937 5.0006e-01 -2.4998e-01
5 -1.3750 2.1250 -0.17186 -2.4994e-01 -5.0001e-01
6 -1.3125 2.2500 -0.21093 2.5006e-01 -1.2500e-01
7 -1.4375 2.3125 -0.23046 -1.2496e-01 -2.5002e-01
8 -1.4062 2.3750 -0.24023 1.2507e-01 -6.2489e-02
9 -1.4687 2.4062 -0.24511 -6.2441e-02 -1.2502e-01
10 -1.4531 2.4375 -0.24756 6.2530e-02 -3.1278e-02
11 -1.4844 2.4531 -0.24878 -3.1277e-02 -6.2538e-02
12 -1.4765 2.4687 -0.29390 3.1283e-02 -1.5620e-02
13 -1.4922 2.4765 -0.24969 -1.5600e-02 -3.1262e-02
14 -1.4883 2.4844 -0.24985 1.5676e-02 -7.7977e-03
15 -1.4961 2.4882 -0.24992 -7.7493e-03 -1.5633e-02
16 -1.4941 2.4922 -0.24996 7.8649e-03 -3.9051e-03
17 -1.4980 2.4941 -0.24998 -3.9196e-03 -7.8515e-03
18 -1.4971 2.4961 -0.24999 3.9571e-03 -1.9424e-03
19 -1.4990 2.4970 -0.25000 -1.9426e-03 -3.9328e-03
20 -1.4985 2.4980 -0.25000 1.9744e-03 -9.8908e-04
21 -1.4995 2.4985 -0.25000 -9.7109e-04 -1.9697e-03
22 -1.4995 2.4985 -0.25000 -9.7109e-04 -1.9697e-03
23 -1.4993 2.4990 -0.25000 1.0396e-03 -4.5807e-04
24 -1.4997 2.4992 -0.25000 -4.2714e-04 -9.8425e-04
25 -1.4996 2.4995 -0.25000 5.4816e-04 -2.3553e-04
26 -1.4998 2.4996 -0.25000 -2.0023e-04 -5.0734e-04
27 -1.4998 2.4997 -0.25000 3.0737e-04 -1.1170e-04
28 -1.4999 2.4998 -0.25000 -8.4129e-05 -2.6398e-04
CAP
ITULO 6. DIREC

OES DE BUSCA 114
0
0.5
1
1.5
2
2.5
0 5 10 15 20 25
Figura 6.1: Evolu cao dos valores dos criterios de parada: Valor da diferen ca da
fun cao objetivo (), valor da norma da diferen ca do vetor de variaveis de otimiza cao
(+) e valor da norma do gradiente (). Em todos os casos, a normaliza cao foi feita
em rela cao ao padrao pertinente.
CAP
ITULO 6. DIREC

OES DE BUSCA 115
Demonstrac
ao: As condi c oes para a validade do teorema da convergencia

global se completam quando se restringe o domnio da fun c ao ` a bacia de atra c ao
do ponto de mnimo. Nessa situa c ao, a itera c ao do Algoritmo do Gradiente se
torna descendente. As demais condi c oes n ao dependem do domnio.
Corolario 6.1 Caso o Algoritmo do Gradiente seja iniciado em um ponto
x
0
n ao situado na bacia de atra c ao do mnimo global x
, podem ocorrer duas

situa c oes:
i. O Algoritmo do Gradiente converge para o mnimo local associado ` a
bacia de atra c ao em que estiver localizado seu ponto inicial x
0
.
ii. Caso o ponto inicial n ao esteja localizado em nenhuma bacia de atra c ao,
o Algoritmo do Gradiente n ao converge.
6.4 Aproxima c oes Quadraticas

Suponha-se agora que, conhecendo-se a priori a natureza da fun c ao objetivo,
saiba-se que e razo avel admitir que essa fun c ao corresponda, de maneira
aproximada, a uma fun c ao quadr atica, dentro de algum domnio que conte-
nha o ponto de mnimo x
. A aproxima c ao e feita ao redor de um ponto x

o
,
tambem contido nesse domnio:
f(x) c
0
+ c
1
(x x
o
) + (x x
o
)
C
2
(x x
o
) (6.10)
sendo c
0
R, c
1
R
n
e C
2
R
nn
. Essa suposi c ao, de fato, corresponde
` a suposi c ao de que a fun c ao f(x) seja de classe (
, pois toda fun c ao dessa

classe pode ser escrita em termos de uma serie de Taylor:
f(x) = f(x
o
) +f(x
o
)
(x x
o
) +
1
2
(x x
o
)
F(x
o
)(x x
o
) +O(3) (6.11)
onde o vetor f(x
o
) e o gradiente da fun c ao no ponto x
o
, a matriz F(x
o
) e a
Hessiana da fun c ao em x
o
, e O(3) e o conjunto das contribui c oes dos termos
de ordem maior ou igual a tres. O gradiente da fun c ao f(x) dada por (6.11)
e:
f(x) = f(x
o
) + F(x
o
)(x x
o
) (6.12)
CAP
ITULO 6. DIREC

OES DE BUSCA 116
Sabe-se entretanto que no ponto de mnimo local x
, o gradiente se anula, de
forma que:
f(x
) = f(x
o
) + F(x
o
)(x
x
o
) = 0 (6.13)
de onde se obtem a f ormula de determina c ao do ponto de mnimo:
x
= x
o
(F(x
o
))
1
f(x
o
) (6.14)
Ou seja, se a fun c ao a ser otimizada for exatamente quadr atica, basta se
conhecer o gradiente e a Hessiana em um ponto qualquer x
o
para se deter-
minar, em uma unica itera c ao, o ponto de mnimo x
, atraves da f ormula
(6.14). Se a fun c ao for aproximadamente quadr atica num certo domnio, a
f ormula (6.14) pode ainda ser empregada para produzir estimativas do ponto
de mnimo que convergem muito mais rapidamente que aquelas produzidas
pelo Algoritmo do Gradiente.
Exemplo 6.4 Considere-se a seguinte fun c ao quadr atica de tres vari aveis reais:
f(x) = x
2
1
+ x
2
2
+ 2x
2
3
+ x
1
x
2
+ x
1
x
3
7x
1
5x
2
3x
3
+ 13
O gradiente dessa fun c ao e dado por:
f(x) =
2x
1
+ x
2
+ x
3
7
x
1
+ 2x
2
5
x
1
+ 4x
3
3
A Hessiana e dada por:

F(x) =
2 1 1
1 2 0
1 0 4
O ponto de mnimo da fun c ao, x
, no qual o gradiente se anula, e dado por:

x
3
1
0
Essa fun c ao pode ser reescrita, de maneira exata, como:

f(x) = 3 +
1
2
x
1
3 x
2
1 x
3
2 1 1
1 2 0
1 0 4
x
1
3
x
2
1
x
3
CAP
ITULO 6. DIREC

OES DE BUSCA 117
O que se pretende mostrar neste exemplo e que, conhecendo-se o valor do gradiente
e da Hessiana da fun c ao em um ponto qualquer, por exemplo x
o
= [ 1 1 1 ],
e possvel utilizar tal informa c ao para determinar a localiza c ao de x
, atraves da
f ormula (6.14). Para tal x
o
, o valor do gradiente seria:
f(x
o
) =
3
2
2
Por (6.14):
x
1
1
1
2 1 1
1 2 0
1 0 4
3
2
2
3
1
0
que e o resultado esperado.

Exemplo 6.5 Seja a fun c ao de duas vari aveis:
f(x) = x
2
2
(1 cos(x
1
)) + 1 cos(x
2
) + e
x
2
1
O gradiente dessa fun c ao e dado por:
f(x) =
x
2
2
sen(x
1
) + 2x
1
e
x
2
1
2x
2
(1 cos(x
1
)) + sen(x
2
)
A Hessiana e dada por:

F(x) =
x
2
2
cos(x
1
) + 2 e
x
2
1
+ 4x
2
1
e
x
2
1
2x
2
sen(x
1
)
2x
2
sen(x
1
) cos(x
2
)
Um mnimo local dessa fun c ao ocorre para x
=

0 0

, ponto para o qual o

gradiente se anula. Nesse ponto, a Hessiana ca igual a:
F(x
) =
2 0
0 1
Tome-se um ponto pr oximo a tal mnimo local, por exemplo x

o
= [ 0.1 0.2 ]
.
Nesse ponto, o gradiente e igual a:
f(x
o
) =
0.20600
0.20067
A Hessiana e igual a:
F(x
o
) =
2.100303 0.039933
0.039933 0.980067
CAP
ITULO 6. DIREC

OES DE BUSCA 118
A estimativa do ponto de otimo, aqui denominada x, ca:
x =
0.1
0.2
2.100303 0.039933
0.039933 0.980067
1

0.20600
0.20067
5.7372 10
3
9.0822 10
4
Embora x n ao seja exatamente igual a x
, pode-se observar que a aproxima c ao

ocorreu rapidamente. Para ns de compara c ao, o valor da estimativa do otimo
produzida pela minimiza c ao da fun c ao na dire c ao do gradiente, x, a partir do
mesmo ponto x
o
, seria:
x =
0.033814
0.069652
A aproxima c ao quadr atica, em uma itera c ao, produziu convergencia uma ordem
de grandeza mais veloz, no caso apresentado neste exemplo.
6.4.1 Algoritmo de Newton
A partir da itera c ao denida pela equa c ao (6.14), pode-se construir um al-
goritmo de minimiza c ao de fun c oes que, em sua forma mais simples, envolve
a aplica c ao seq uencial de (6.14) para a busca do otimo:
Algoritmo de Newton
k 0
g
k
gradiente(f(), x
k
)
F
k
Hessiana(f(), x
k
)
x
k+1
x
k
F
1
k
g
k
k k + 1
m-enquanto
CAP
ITULO 6. DIREC

OES DE BUSCA 119
Convergencia
No caso da otimiza c ao de fun c oes com forma precisamente quadr atica, o
Algoritmo de Newton n ao apenas converge para a solu c ao exata do problema,
como tambem o faz de maneira n ao-iterativa, em um unico passo. Essa
n ao e entretanto a situa c ao geral: as fun c oes a serem otimizadas, embora
freq uentemente sejam duas vezes diferenci aveis, o que e necess ario para a
aplicabilidade desse metodo, na maioria dos casos n ao ser ao quadr aticas.
Nessa ultima situa c ao, o Algoritmo de Newton, na formula c ao apresen-
tada, pode ate mesmo n ao convergir. Observando os requisitos arrolados
entre as hip oteses do teorema da convergencia global, verica-se que o Algo-
ritmo de Newton n ao satisfaz ` a exigencia de que a itera c ao deva ser descen-
dente, ou seja, de que o valor da fun c ao objetivo necessariamente decres ca a
cada itera c ao. De fato, nada garante que o c alculo analtico da solu c ao que
seria a exata para um problema quadr atico, se aplicado a um problema que
n ao e quadr atico, n ao venha a levar ate mesmo a um aumento no valor da
fun c ao objetivo.
6.4.2 Metodo de Newton Modicado
Para garantir que o algoritmo produza a diminui c ao monot onica do valor
da fun c ao objetivo, mesmo para fun c oes n ao-lineares que tenham comporta-
mento signicativamente diferente da fun c ao quadr atica, e empregada uma
varia c ao do Algoritmo de Newton que incorpora um aspecto crucial das ca-
ractersticas de convergencia do Algoritmo do Gradiente: a execu c ao de uma
minimiza c ao unidimensional em cada itera c ao.
Algoritmo de Newton Modicado
k 0
g
k
gradiente(f(), x
k
)
F
k
Hessiana(f(), x
k
)
d
k
F
1
k
g
k
k
arg min
f(x
k
+ d
k
)
CAP
ITULO 6. DIREC

OES DE BUSCA 120
x
k+1
x
k
+
k
d
k
k k + 1
m-enquanto
Com exce c ao da rotina de c alculo da Hessiana, todas as subrotinas en-
volvidas na constru c ao desses algoritmos j a foram apresentadas por ocasi ao
da constru c ao do Algoritmo do Gradiente, e s ao reaproveitadas aqui.
Convergencia
O algoritmo modicado e exatamente equivalente ao Algoritmo de Newton
original, no sentido de que ambos produzem a mesma seq uencia de pontos,
caso a fun c ao a ser otimizada seja exatamente quadr atica. Agora, no en-
tanto, h a a garantia de decrescimento monot onico da fun c ao objetivo a cada
itera c ao, qualquer que seja a estrutura da fun c ao objetivo. Dessa forma,
garante-se o atendimento de todos os requisitos do teorema da convergencia
global num sentido similar ao da convergencia do Algoritmo do Gradiente.
Agora, para estabelecer a completa equivalencia da regi ao de convergencia do
Algoritmo de Newton Modicado com a do Algoritmo do Gradiente, basta
mostrar que o primeiro e bem denido na mesma regi ao de convergencia do
ultimo, ou seja, na bacia de atra c ao. Isto e assegurado pela proposi c ao a
seguir.
Proposi cao 6.2 Seja f() : R
n
R uma fun c ao contnua innitas ve-
zes diferenci avel. Seja x
um mnimo local estrito dessa fun c ao. Sob tais

condi c oes, a Hessiana de f() e denida positiva na bacia de atra c ao de x
H a a necessidade de diferenciabilidade innita de f() neste caso, ao

contr ario das fun c oes otimizadas com o algoritmo do gradiente, que precisam
apenas ser diferenci aveis uma vez. Isso decorre da possibilidade que haveria,
se n ao se colocasse tal exigencia, de se concatenar trechos de hiperplanos
por meio de fun c oes suaves, que podem ser diferenci aveis ate alguma ordem
nita, formando bacias de atra c ao suaves nas quais a Hessiana e nula em
diversos trechos. O metodo de Newton simplesmente n ao seria denido para
tais fun c oes. O mnimo local, agora, ainda deve ser estrito, pois do contr ario
CAP
ITULO 6. DIREC

OES DE BUSCA 121
a Hessiana poderia ter posto incompleto, tambem invalidando a itera c ao de
Newton.
Denidas essas exigencias para a aplicabilidade do metodo, e possvel
estabelecer a regi ao de convergencia.
Proposi cao 6.3 Seja o problema de otimiza c ao irrestrito denido por:
x
= arg min
x
f(x) (6.15)
sendo x R
n
, com f() : R
n
R uma fun c ao contnua innitas vezes dife-
renci avel, e x
um mnimo estrito. Ent ao o Algoritmo de Newton Modicado

ir a convergir para x
para todo ponto inicial x

0
situado na bacia de atra c ao
de x
.
Corolario 6.2 Garantidas as condi c oes da proposi c ao 6.3, caso o Algoritmo
de Newton Modicado seja iniciado em um ponto x
0
n ao situado na bacia
de atra c ao do mnimo global x
, podem ocorrer tres situa c oes:

i. O Algoritmo de Newton Modicado converge para o mnimo local es-
trito associado ` a bacia de atra c ao em que estiver localizado seu ponto
inicial x
0
.
ii. Caso o ponto inicial esteja localizado em uma bacia de atra c ao de um
mnimo local n ao estrito, o Algoritmo de Newton Modicado pode car
indenido (ou seja, a Hessiana pode ser n ao inversvel). Se isso n ao
ocorrer, ocorrer a convergencia para o mnimo local.
iii. Caso o ponto inicial n ao esteja localizado em nenhuma bacia de atra c ao,
o Algoritmo de Newton Modicado n ao converge, podendo ainda car
indenido.
Nota 6.5 O leitor deve estar ciente de que existem procedimentos ad-hoc para
evitar que a Hessiana utilizada pelo algoritmo que n ao inversvel, ao custo da
perda de sua delidade para representar a verdadeira Hessiana da fun c ao (porem
garantindo as propriedades de convergencia do algoritmo). Para maiores informa c oes,
ver (Luenberger 1984).
CAP
ITULO 6. DIREC

OES DE BUSCA 122
6.4.3 Determina cao Numerica da Hessiana
Para a implementa c ao do metodo de Newton e necess ario o c alculo numerico
da Hessiana. Por meio de um hipotetico metodo de diferen cas nitas, seria
necess ario avaliar o gradiente da fun c ao objetivo em n+1 pontos, no caso de
uma fun c ao de n vari aveis. Sendo g(x) o gradiente da fun c ao objetivo, ava-
liado numericamente por meio de diferen cas nitas, como j a visto, o metodo
de c alculo da Hessiana por diferen cas nitas poderia ser formulado como:
Calculo da Hessiana por Diferen cas Finitas
para i 1 ate n fa ca
F
i

g(x + e
i
) g(x)
m-para
F
_
F
1
. . . F
n
Cada uma das avalia c oes de gradiente por sua vez envolve, como j a se
viu, a avalia c ao da fun c ao objetivo em n +1 pontos, de forma que o n umero
total de avalia c oes da fun c ao objetivo seria igual a (n + 1)
2
.
6.4.4 Constru cao da Hessiana
Examine-se novamente a equa c ao (6.12), reproduzida abaixo por conveniencia:
f(x) = f(x
o
) + F(x
o
)(x x
o
) (6.16)
Essa equa c ao foi o ponto de partida para a constru c ao do metodo de Newton.
Ela pode tambem ser usada para construir um metodo para estimar a pr opria
Hessiana da fun c ao. Reescrevendo a equa c ao, para dois pontos x
1
e x
2
(tomar
cuidado: o ndice subscrito n ao se refere, aqui, ` as coordenadas de um vetor,
mas a vetores diferentes), e supondo que a Hessiana seja constante em todo
o espa co:
F(x
1
x
2
) = f(x
1
) f(x
2
) (6.17)
CAP
ITULO 6. DIREC

OES DE BUSCA 123
Essa mesma f ormula pode ser repetida para a seguinte seq uencia de vetores:
F(x
1
x
2
) = f(x
1
) f(x
2
)
F(x
2
x
3
) = f(x
2
) f(x
3
)
.
.
.
F(x
n1
x
n
) = f(x
n1
) f(x
n
)
F(x
n
x
n+1
) = f(x
n
) f(x
n+1
)
(6.18)
Denindo os vetores v
i
e r
i
como:
v
i
= x
i
x
i+1
r
i
= f(x
i
) f(x
i+1
)
(6.19)
tem-se que:
F
_
v
1
v
2
. . . v
n
=
_
r
1
r
2
. . . r
n
(6.20)
Denindo V =
_
v
1
v
2
. . . v
n
e R =
_
r
1
r
2
. . . r
n
:
FV = R (6.21)
Observando agora que os vetores v
i
tratam-se de escolhas, nota-se que e
possvel escolhe-los de tal forma que V seja inversvel, o que permite fazer:
F = V
1
R (6.22)
Isso signica que, avaliando o gradiente da fun c ao f(x) em n + 1 pontos
adequadamente escolhidos do espa co, e possvel determinar a Hessiana dessa
fun c ao.
Nota 6.6 Examinando-se o resultado obtido, verica-se que a equa c ao (6.21) e
uma generaliza c ao do c alculo da Hessiana por diferen cas nitas. De fato, fazendo-
se V = I tem-se de (6.21) que F =
1
R.
Nota 6.7 Da mesma forma como o c alculo do gradiente por diferen cas nitas
e exato para fun c oes polinomiais de grau 1, o c alculo da Hessiana por (6.22) e
exato para fun c oes polinomiais de grau 2 (desde que se disponha, no entanto, de
avalia c oes exatas do gradiente). Pelo mesmo motivo que no caso da avalia c ao exata
do gradiente em fun c oes lineares, caso a fun c ao seja quadr atica, n ao e necess ario
que os pontos em que se avalia o gradiente estejam pr oximos entre si para que o
c alculo da Hessiana permane ca exato.
CAP
ITULO 6. DIREC

OES DE BUSCA 124
Diversos metodos de otimiza c ao baseiam-se na equa c ao (6.22), variando-
se, de metodo para metodo, a escolha dos pontos (o que implica na varia c ao
da escolha de V ).
6.4.5 Corre cao de Posto 1
Conforme foi visto, h a certa arbitrariedade na escolha dos vetores v
i
(a unica
condi c ao necess aria e de que sejam n vetores linearmente independentes).
Dessa forma, e possvel acrescentar restri c oes ao problema de forma a obter
f ormulas recursivas particularmente interessantes.
A ideia a ser explorada aqui e a de que deve ser possvel fazer a constru c ao
recursiva da estimativa da Hessiana (ou de sua inversa), durante o decorrer
de um processo de otimiza c ao. A estimativa parcial da Hessiana deve po-
der ser utilizada no decorrer desse processo. Isso e particularmente util na
otimiza c ao de fun c oes n ao-quadr aticas, em que a Hessiana n ao e constante:
esse procedimento permite a adapta c ao contnua da estimativa da Hessiana
ao seu valor localmente v alido.
E mostrado inicialmente o algoritmo mais simples possvel para realizar o

procedimento pretendido, que ser a aqui denominado Algoritmo de Corre c ao
de Posto 1.
Seja H
k
= F
1
k
. A ideia e construir um metodo recursivo que produza
uma seq uencia de estimativas [H
k
], a partir de novas avalia c oes da fun c ao e
de seu gradiente em novos pontos. Observa-se inicialmente que a Hessiana
de toda fun c ao e simetrica, de forma que a recurs ao deve gerar uma matriz
simetrica. A recurs ao proposta e da forma:
H
k+1
= H
k
+
k
z
k
z
k
(6.23)
sendo z
k
R
n
e
k
R. Claramente, o termo
k
z
k
z
k
e uma matriz n n
com posto no m aximo igual a 1, de onde vem o nome do algoritmo. Supondo,
para ns de desenvolvimento da f ormula de recurs ao, que a fun c ao objetivo
fosse exatamente quadr atica, e preciso denir
k
e z
k
em fun c ao dos valores
conhecidos (os vetores [x
k
] e [f(x
k
)]), de forma a garantir que seja satisfeita
a rela c ao:
H
k+1
r
i
= v
i
i = 1, . . . , k (6.24)
Essa rela c ao e quase a mesma que (6.21), mas exige a igualdade apenas para
os pontos j a avaliados (ate o ndice k). Em primeiro lugar, desenvolve-se a
CAP
ITULO 6. DIREC

OES DE BUSCA 125
f ormula para i = k. Substituindo-se (6.23) em (6.24), obtem-se:
k
z
k
z
k
r
k
= v
k
H
k
r
k
(v
k
H
k
r
k
)(v
k
H
k
r
k
)
=
k
z
k
z
k
r
k
k
r
k
z
k
z
k
(v
k
H
k
r
k
)(v
k
H
k
r
k
)
=
k
(z
k
r
k
)
2
k
z
k
z
k
(6.25)
Com isso, quase se tem uma f ormula para o termo de corre c ao
k
z
k
z
k
em
fun c ao de H
k
, v
k
e r
k
, a menos da quantidade escalar
k
(z
k
r
k
)
2
. Para se
determinar essa constante, faz-se:
r
k
z
k
z
k
r
k
= r
k
(v
k
H
k
r
k
)
(z
k
r
k
)
2
= r
k
v
k
r
k
H
k
r
k
(6.26)
Substituindo-se (6.26) em (6.25) obtem-se:
k
z
k
z
k
=
1
r
k
v
k
r
k
H
k
r
k
(v
k
H
k
r
k
)(v
k
H
k
r
k
)
(6.27)
ou, voltando agora ` a f ormula recursiva para c alculo de H
k+1
:
H
k+1
= H
k
+
1
r
k
v
k
r
k
H
k
r
k
(v
k
H
k
r
k
)(v
k
H
k
r
k
)
(6.28)
Essa f ormula, por constru c ao, vale para i = k. Resta provar que ela e v alida
para i < k.
Teorema 6.3 Seja F uma matriz simetrica xa, e suponha-se que v
0
, v
1
, . . . , v
k
sejam vetores dados. Denam-se os vetores r
i
= Fv
i
, para i = 0, 1, . . . , k.
Seja ainda H
0
uma matriz simetrica qualquer. Se:
H
i+1
= H
i
+
1
r
i
v
i
r
i
H
i
r
i
(v
i
H
i
r
i
)(v
i
H
i
r
i
)
(6.29)
ent ao:
v
i
= H
k+1
r
i
i = 1, . . . , k (6.30)
CAP
ITULO 6. DIREC

OES DE BUSCA 126
Demonstrac
ao: Por constru c ao, a rela c ao e v alida para i = k. Tome-se algum

r
i
para i < k, e aplique-se esse vetor em H
k+1
:
H
k+1
r
i
= H
k
r
i
+
1
r
k
v
k
r
k
H
k
r
k
(v
k
H
k
r
k
)(v
k
r
i
r
k
H
k
r
i
)
Note-se que H
k
e simetrica, de forma que:
H
k+1
r
i
= H
k
r
i
+
1
r
k
v
k
r
k
H
k
r
k
(v
k
H
k
r
k
)(v
k
r
i
r
k
H
k
r
i
)
Adota-se neste ponto, como hip otese de indu c ao, que:
v
i
= H
k
r
i
seja verdade. Isso implica que:
H
k+1
r
i
= v
i
+
1
r
k
v
k
r
k
H
k
r
k
(v
k
H
k
r
k
)(v
k
r
i
r
k
v
i
)
Entretanto:
r
k
v
i
= v
k
F
v
i
= v
k
Fv
i
= v
k
r
i
de forma que:
v
k
r
i
r
k
v
i
= 0
ou:
H
k+1
r
i
= v
i
Isso completa a prova.
Sabe-se ent ao que, usando-se a f ormula (6.28), obtem-se o valor exato
da inversa da Hessiana de uma fun c ao quadr atica, a partir de n + 1 valores
de pontos do espa co com as respectivas avalia c oes de gradientes da fun c ao
nesses pontos.
Algoritmo de Corre cao de Posto 1
Com esse resultado, e possvel construir um algoritmo de otimiza c ao utili-
zando a estrutura b asica da dire c ao de busca, tomando H
k
como apro-
xima c ao da inversa da Hessiana. O algoritmo se inicia em um ponto x
0
qualquer:
Algoritmo de Corre cao de Posto 1
CAP
ITULO 6. DIREC

OES DE BUSCA 127
k 0
H
k
I
g
k
gradiente(f(), x
k
)
d
k
H
k
g
k
k
arg min
f(x
k
+ d
k
)
x
k+1
x
k
+
k
d
k
g
k+1
gradiente(f(), x
k+1
)
v
k
x
k
x
k+1
r
k
g
k
g
k+1
H
k+1
H
k
+
1
r
k
v
k
r
k
H
k
r
k
(v
k
H
k
r
k
)(v
k
H
k
r
k
)
k k + 1
m-enquanto
Deve-se notar que, de maneira arbitr aria, a estimativa H
0
foi inicializada
com a matriz identidade. Qualquer outra matriz simetrica poderia ter sido
utilizada, de acordo com o teorema 6.3. Esse teorema, juntamente com o
resultado anteriormente conhecido a respeito de aproxima c oes quadr aticas
em geral, arma que se a fun c ao objetivo for quadr atica, a convergencia exata
do algoritmo para o mnimo global da fun c ao necessariamente ocorrer a, e o
n umero de passos para tal convergencia ser a menor ou igual a n. Note-se que,
ao inves de serem tomados pontos quaiquer que gerem vetores v
i
linearmente
independentes, est ao sendo tomados exatamente aqueles pontos gerados pelo
processo de otimiza c ao. Estes geram vetores v
i
linearmente independentes
necessariamente, caso a fun c ao seja exatamente quadr atica.
Sob o ponto de vista da otimiza c ao de uma fun c ao a priori sabida ser
quadr atica, n ao h a vantagem computacional em se utilizar o Algoritmo de
Corre c ao de Posto 1 em lugar da f ormula exata (6.14) junto com (6.22). A
aplica c ao destas envolveria exatamente n + 1 avalia c oes de gradiente, en-
quanto a aplica c ao do algoritmo de corre c ao envolveria um n umero menor
CAP
ITULO 6. DIREC

OES DE BUSCA 128
ou igual a este de itera c oes, cada uma envolvendo uma avalia c ao de gradi-
ente, mas envolvendo tambem uma otimiza c ao unidimensional. Esta ultima
poderia tornar o algoritmo de corre c ao mais caro sob o ponto de vista com-
putacional.
No entanto, sabe-se que no caso geral da otimiza c ao de fun c oes n ao-
lineares n ao necessariamente quadr aticas, a Hessiana da fun c ao objetivo n ao
ser a em geral constante. N ao ocorrer a, de qualquer forma, a convergencia
em n itera c oes. O Algoritmo de Corre c ao de Posto 1 torna-se nesse caso
vantajoso, pois a estimativa da Hessiana vai mudando dinamicamente, de
forma a acompanhar a varia c ao dessa Hessiana. A cada passo, uma nova
estimativa da Hessiana est a disponvel, para ser utilizada no processo de oti-
miza c ao. Essas s ao caractersticas gerais da categoria de metodos conhecidos
como quasi-Newton, que ser a vista a seguir.
Nota 6.8 Deve-se notar que a primeira itera c ao do Algoritmo de Corre c ao de
Posto 1, no formato acima denido, corresponde exatamente a uma itera c ao do
Algoritmo do Gradiente. Isso ocorre porque, com a matriz H
0
sendo inicializada
igual ` a identidade, no primeiro passo a dire c ao de busca ca sendo igual ` a do gra-
diente. A partir do segundo passo, a dire c ao come ca a mudar gradativamente, ate
que no n-esimo passo a dire c ao passa a coincidir com a do Algoritmo de Newton,
caso a Hessiana seja constante. Caso a Hessiana n ao seja constante, a estimativa
do Algoritmo de Corre c ao de Posto 1 ser a sempre inexata, e este algoritmo n ao
chegar a a convergir para o comportamento hipotetico do Algoritmo de Newton.
No entanto, como a avalia c ao direta da Hessiana, exigida pelo Algoritmo de New-
ton, e inconveniente, na pr atica usualmente se opta pela utiliza c ao de algoritmos
quasi-Newton.
Convergencia do Algoritmo de Corre cao de Posto 1

O Algoritmo de Corre c ao de Posto 1 possui propriedades de convergencia que
s ao intermedi arias entre as do Algoritmo do Gradiente e as do Algoritmo de
Newton. Este ultimo simplesmente n ao se aplica quando a Hessiana n ao e
denida positiva. J a o Algoritmo do Gradiente exige apenas a existencia de
uma bacia de atra c ao de uma fun c ao diferenci avel. O Algoritmo de Corre c ao
de Posto 1 n ao pode car indenido em nenhum ponto, uma vez que n ao
envolve invers oes de matrizes. No entanto, sua formula c ao permite que a
matriz H
k+1
venha a eventualmente perder a propriedade de ser positiva
CAP
ITULO 6. DIREC

OES DE BUSCA 129
denida, caso ocorra:
r
k
v
k
r
k
H
k
r
k
< 0 (6.31)
N ao h a nada que impe ca essa condi c ao de ocorrer. Isso signica que a f ormula
de corre c ao pode eventualmente vir a car comprometida. Isso pode fazer
com que o algoritmo que estacionado em pontos que n ao correspondem ` a
solu c ao do problema. Pode-se evitar tal situa c ao incluindo-se uma verica c ao
dos autovalores de H
k+1
a cada passo, fazendo-se a substitui c ao dessa matriz
pela identidade sempre que for detectado um autovalor negativo. Isso iria res-
taurar as condi c oes do teorema da convergencia global, e o algoritmo passaria
a convergir exatamente na mesma regi ao que o Algoritmo do Gradiente.
6.4.6 Metodos Quasi-Newton
Os metodos de otimiza c ao conhecidos como quasi-Newton s ao desenvolvidos
de acordo com a mesma l ogica que foi usada na elabora c ao do Algoritmo de
Corre c ao de Posto 1 (de fato, este algoritmo e o exemplo mais simples de
um algoritmo quasi-Newton). Constr oi-se uma regra recursiva que permite
a constru c ao gradativa de uma matriz H
k
que corresponde a uma estimativa
da inversa da Hessiana da fun c ao objetivo. Como deve ter sido observado
na se c ao anterior, diversas escolhas arbitr arias de regras foram realizadas, de
forma que outras escolhas teriam sido possveis para garantir as propriedades
desejadas de H
k
. Com os graus de liberdade ainda remanescentes, podem-se
produzir metodos que evitem as diculdades de convergencia do Algoritmo
de Corre c ao de Posto 1: essencialmente, deve-se garantir que a matriz H
k
permane ca sempre denida positiva, e preferencialmente bem condicionada
(ou seja, com autovalores n ao muito distanciados entre si).
Dois metodos particularmente ecientes foram desenvolvidos para produ-
zir estimativas recursivas para H
k
com as propriedades requeridas: o metodo
DFP (Davidon-Fletcher-Powell) e o metodo BFGS (Broyden-Fletcher-Goldfarb-
Shanno), assim batizados em homenagem aos seus formuladores. Vericando-
se, a posteriori, as conex oes entre esses metodos, estes foram agrupados em
uma estrutura mais geral, a famlia de Broyden. Esses metodos s ao apresen-
tados a seguir.
CAP
ITULO 6. DIREC

OES DE BUSCA 130
Metodo DFP
A corre c ao proposta pelo metodo DFP e dada por:
C
DFP
k
=
v
k
v
k
v
k
r
k
H
k
r
k
r
k
H
k
r
k
H
k
r
k
(6.32)
Metodo BFGS
A corre c ao proposta pelo metodo BFGS e dada por:
C
BFGS
k
=
_
1 +
r
k
H
k
r
k
r
k
v
k
_
v
k
v
k
v
k
r
k
v
k
r
k
H
k
+ H
k
r
k
v
k
r
k
v
k
(6.33)
Famlia de Broyden
A corre c ao generica utilizada pelos metodos conhecidos como famlia de Broy-
den e dada por:
C
k
= (1 )C
DFP
k
+ C
BFGS
k
(6.34)
Em todos os casos da famlia de Broyden, incluindo os casos extremos
BFGS e DFP, a f ormula de atualiza c ao para a estimativa da inversa da
Hessiana ca:
H
k+1
= H
k
+ C
k
() (6.35)
Para = 0, obtem-se o metodo DFP, e para = 1 o metodo BFGS.
Alguns fatos devem ser citados a respeito dessa corre c ao da famlia de
Broyden (embora n ao sejam apresentadas aqui as respectivas provas):
A corre c ao realizada a cada passo e de posto possivelmente dois (isso
e facilmente veric avel por inspe c ao).
A corre c ao e sempre denida positiva, de forma que a matriz H
k
pre-
servar a sua propriedade de ser denida positiva. A prova disto e apre-
sentada em (Luenberger 1984).
Dados i e j tais que 0 i < j k, ent ao v
i
Fv
j
= 0, ou seja, v
i
e v
j
s ao F-ortogonais. Ver a prova em (Luenberger 1984).
Dado i tal que 0 i k, ent ao H
k+1
Fv
i
= v
i
. Ver a prova em
(Luenberger 1984).
CAP
ITULO 6. DIREC

OES DE BUSCA 131
Algoritmos Quasi-Newton
Os algoritmos obtidos a partir da famlia de Broyden, aqui denominados
Algoritmos Quasi-Newton, s ao estruturados da seguinte forma, dados um x
0
e um :
Algoritmo de Quasi-Newton
k 0
H
k
I
g
k
gradiente(f(), x
k
)
d
k
H
k
g
k
k
arg min
f(x
k
+ d
k
)
x
k+1
x
k
+
k
d
k
g
k+1
gradiente(f(), x
k+1
)
v
k
x
k
x
k+1
r
k
g
k
g
k+1
C
DFP
k

v
k
v
k
v
k
r
k
H
k
r
k
r
k
H
k
r
k
H
k
r
k
C
BFGS
k

_
1 +
r
k
H
k
r
k
r
k
v
k
_
v
k
v
k
v
k
r
k
v
k
r
k
H
k
+H
k
r
k
v
k
r
k
v
k
C
k
(1 )C
DFP
k
+ C
BFGS
k
H
k+1
H
k
+ C
k
()
k k + 1
m-enquanto
Evidentemente, para a implementa c ao pura do Algoritmo DFP ou do
Algoritmo BFGS, n ao haveria necessidade do c alculo intermedi ario de C
k
,
sendo possvel simplicar o programa, para o c alculo direto de H
k
com a
corre c ao correspondente.
CAP
ITULO 6. DIREC

OES DE BUSCA 132
Convergencia da Famlia de Broyden
A maneira mais f acil de provar a convergencia dos algoritmos da famlia de
Broyden seria introduzindo uma modica c ao nos mesmos: se se faz com que
a matriz H
k
seja periodicamente reinicializada, sendo igualada ` a identidade,
torna-se possvel a aplica c ao direta do teorema da convergencia global. Os
algoritmos passam a convergir exatamente como o Algoritmo do Gradiente.
E possvel, sem introduzir tal modica c ao, ainda assim provar a con-
vergencia dos algoritmos, sendo necess arias entretanto algumas condi c oes
adicionais sobre a fun c ao a ser otimizada. Para maiores informa c oes, ver
(Luenberger 1984).
6.5 Tratamento de Restri c oes
Considere-se agora o problema restrito:
x
= arg min
x
f(x)
sujeito a: g(x) 0
(6.36)
sendo x R
n
, f() : R
n
R e g() : R
n
R
p
.
Pretende-se resolver este problema utilizando como mecanismo de oti-
miza c ao um algoritmo de otimiza c ao irrestrita do tipo dire c ao de busca.
Para isso, s ao denidos os metodos de barreira e os metodos de penalidades,
que transformam o problema restrito em problemas irrestritos aproximada-
mente (ou assintoticamente) equivalentes. A discuss ao apresentada a seguir
pode ser vista, em maior detalhe, em (Luenberger 1984).
6.5.1 Metodo de Barreira
A forma geral dos metodos de barreira e dada pelo problema irrestrito, que
e aproximadamente equivalente a (6.36):
x
= arg min
x,
F(x, ) (6.37)
sendo F(x, ) uma fun c ao com as propriedades:
lim
g(x)0
F(x, ) = +
CAP
ITULO 6. DIREC

OES DE BUSCA 133
F(x, ) f(x) g(x) <
lim
0
+ F(x, ) = f(x) , g(x) <
Sup oem-se que > 0 e > 0 s ao escalares pequenos. Necessariamente,
deve-se ter g(x) < 0 para que a fun c ao barreira esteja denida.
Um exemplo de fun c ao barreira que pode ser construda e:
x
= arg min
x,
F(x, )
F(x, ) = f(x) +
p
i=1
G
i
(x,
i
)
G
i
(x,
i
) =

i
g
i
(x)
=
_

1

2

p
(6.38)
sendo 1
i
> 0. A solu c ao desse problema, evidentemente, tem de se
aproximar da solu c ao do problema original. A fun c ao G() e uma fun c ao
do tipo barreira, que possui a propriedade de se aproximar de innito
para pontos factveis pr oximos da fronteira da regi ao factvel. Dessa forma,
a solu c ao do problema (6.38) estar a sempre estritamente dentro da regi ao
factvel denida para o problema (6.36).
6.5.2 Metodo de Penalidades
Metodos de penalidades tambem alteram o problema original (6.36) para um
formato irrestrito assintoticamente equivalente:
x
= arg min
x,
F(x, ) (6.39)
sendo F(x, ) uma fun c ao com as propriedades:
F(x, ) >> f(x) g(x) > 0
(g(x
1
) g(x
2
) > 0; g(x
2
) > 0) F(x
1
, ) > F(x
2
, )
F(x, ) f(x) g(x) <
CAP
ITULO 6. DIREC

OES DE BUSCA 134
lim
0
+ F(x, ) = f(x)
Novamente, > 0 e > 0 s ao escalares pequenos.
Empregando um possvel metodo de penalidade, obtem-se o seguinte for-
mato irrestrito:
x
= arg min
x,
F(x, )
F(x, ) = f(x) +
p
i=1
G
i
(x,
i
)
G
i
(x,
i
) =
_
_
_
g
i
(x) , se g
i
(x) 0
i
(g
i
(x) + g
i
(x)
2
) , se g
i
(x) > 0
=
_

1

2

p
(6.40)
sendo tambem neste caso 1
i
> 0. Neste caso, a fun c ao G(), que e uma
fun c ao de penalidade, tem a propriedade de assumir valores elevados para
pontos que violem fortemente as restri c oes, e valores nulos para pontos que
n ao violem as restri c oes. Diferentemente do metodo de barreira, o ponto-
solu c ao a cada itera c ao pode, neste caso, caminhar dentro ou fora da regi ao
factvel, sendo que a solu c ao de (6.40) pode eventualmente estar fora da
regi ao factvel do problema original (6.36). Observe-se ainda que, na maioria
das vezes, a fun c ao de penalidade ser a n ao-diferenci avel, como no exemplo
acima.
Computacionalmente, os problemas (6.38) e (6.40) tem a vantagem de
serem irrestritos, de forma que e possvel aplicar a eles metodos irrestritos
de otimiza c ao. A solu c ao e produzida xando-se valores para o vetor
e calculando solu c oes em x. Heuristicamente, adota-se o mnimo de uma
seq uencia de solu c oes, para s gradativamente maiores, como a solu c ao do
problema restrito original (6.36).
Nota 6.9 Observe-se que, caso o mnimo do problema restrito se encontre na
fronteira da regi ao factvel, existe uma tendencia para que a sequencia de solu c oes
do metodo da barreira aproximar esse mnimo, sempre pelo lado de dentro da regi ao
factvel, enquanto que a sequencia gerada por aplica c oes sucessivas do metodo da
penalidade tende a aproximar o mnimo pelo lado de fora da regi ao factvel.
CAP
ITULO 6. DIREC

OES DE BUSCA 135
6.6 Comportamento dos Metodos de Dire cao
de Busca
Nesta se c ao, alguns aspectos a respeito de como os metodos de dire c oes de
busca se comportam diante de fun c oes objetivo com diferentes caractersticas
s ao discutidos.
6.6.1 Nao-Diferenciabilidade
A existencia de n ao-diferenciabilidades nas fun c oes pode causar problemas
para a execu c ao de metodos baseados em dire c oes de busca. Esses problemas
seriam de duas naturezas.
Primeiro, o c alculo do gradiente, do qual normalmente depende a execu c ao
do metodo, poder a ser inviabilizado em algumas regi oes do espa co de par ametros.
Tal diculdade, entretanto, em princpio pode ser contornada com a simples
substitui c ao do ponto de singularidade por outro ponto n ao-singular arbitra-
riamente pr oximo.
No entanto, uma diculdade maior reside na possibilidade de haver des-
continuidades da fun c ao gradiente que atraiam as trajet orias da seq uencia
de estimativas. Nesse caso, uma vez que uma trajet oria caia em uma dessas
descontinuidades atratoras, o metodo pode ter problemas de convergencia,
uma vez que a dire c ao de busca pode estar apontando para a superfcie numa
inclina c ao tal que o pr oximo mnimo unidimensional que muito pr oximo do
anterior. O efeito e muito similar ao do mal-condicionamento numerico de
uma fun c ao diferenci avel.
Essa situa c ao e ilustrada na Figura 6.2. A superfcie de descontinuidade
do gradiente, (, possui dimens ao n 1, dividindo o espa co em duas regi oes
disjuntas. O vetor menos gradiente da fun c ao em todos os pontos situados
pr oximos a ( aponta para esta superfcie, independente do lado em que o
ponto se situa. Essa superfcie ir a tender a atrair as trajet orias de busca.
Exemplo 6.6 Considere-se a fun c ao f(x) : R
2
R denida por:
f(x) = max {f
1
(x), f
2
(x)}
f
1
(x) = (x c
1
)
Q(x c
1
)
f
2
(x) = (x c
2
)
Q(x c
2
)
CAP
ITULO 6. DIREC

OES DE BUSCA 136
PSfrag replacements
A
g
1
g
2
I
II III
IV
V V I
(
Figura 6.2: Representa cao de uma descontinuidade atratora. A superfcie G possui
dimensao n 1, dividindo o espa co em duas regi oes disjuntas. Tome-se um ponto A
situado sobre a superfcie de descontinuidade G. Innitesimalmente à esquerda de A,
o gradiente da fun cao objetivo e g
2
. Innitesimalmente à direita do mesmo ponto, o
gradiente e g
1
. Esses vetores gradiente denem hiperplanos normais que dividem o
espa co em regi oes para as quais a fun cao objetivo aumenta (no sentido dos gradientes)
e regi oes para as quais a fun cao objetivo diminui (sentido contrario ao do gradiente).
Pela gura pode-se notar que: (i) a fun cao objetivo diminui apenas na dire cao do
cone formado pelas regi oes V e V I da gura. Dire c oes de busca baseadas apenas
no gradiente g
1
ou g
2
, entretanto, iriam indicar a busca dentro dos cones I e IV ,
respectivamente, deixando o metodo estacionado.
sendo:
Q =
1 0
0 1
e
c
1
=
1
0
c
2
=
1
0
CAP
ITULO 6. DIREC

OES DE BUSCA 137
Um mapa de curvas de nvel da fun c ao f(x) pode ser visto na Figura 6.3. Pode-se
perceber claramente que a fun c ao e n ao diferenci avel, e a regi ao de n ao-diferenciabilidade
corresponde ` a linha x
1
= 0.
9
7.84
6.76
5.76
4.84
4
3.24
2.56
1.96
1.44
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
Figura 6.3: Curvas de nvel da fun cao f(x) do Exemplo 6.6.
O mnimo desta fun c ao ocorre para x
= [ 0 0 ]
. O Algoritmo do Gradi-
ente, aplicado ` a otimiza c ao da fun c ao, com ponto inicial x
o
= [ 1 2 ], p ara no
ponto: x = [ 0 0.359 ]
. J a o Algoritmo Quasi-Newton DFP converge para o

valor correto do mnimo da fun c ao.
Exemplo 6.7 Considere-se agora a fun c ao f(x) : R
2
R denida por:
f(x) = max {|x
1
|, |x
2
|}
Um diagrama de curvas de nvel desta fun c ao e mostrado na Figura 6.4. A regi ao
de n ao-diferenciabilidade agora e formada pelas retas x
1
= x
2
e x
1
= x
2
.
Ap os 6 itera c oes, iniciando do ponto x
o
= [ 1 1.01 ], o Algoritmo do Gradi-
ente vai para o ponto x = [ 0.0477 0.0477 ], onde ca estacionado indenida-
mente.
Neste exemplo, diferentemente do anterior, o Algoritmo Quasi-Newton DFP
n ao e aplic avel, uma vez que as avalia c oes de gradientes produzidas s ao linearmente
dependentes, o que impede a constru c ao da Hessiana.
6.6.2 Nao-Convexidade
Caso uma fun c ao a ser otimizada seja n ao-convexa, sendo garantidas entre-
tanto a unimodalidade e a diferenciabilidade da mesma, os algoritmos de
CAP
ITULO 6. DIREC

OES DE BUSCA 138
1.96
1.44
1
0.64
0.36
0.16
0.04
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
Figura 6.4: Curvas de nvel da fun cao f(x), do Exemplo 6.7.
dire c oes de busca dever ao convergir (exceto por problemas de condiciona-
mento numerico) para o ponto de otimo da fun c ao.
6.6.3 Multimodalidade
Excluindo-se agora a unimodalidade dos funcionais, sendo mantida sua dife-
renciabilidade, os algoritmos da categoria de dire c oes de busca ainda ir ao
convergir para mnimos desses funcionais, mas agora possivelmente mnimos
apenas locais. Esses algoritmos n ao est ao munidos de nenhum instrumental
para procurar mnimos globais em fun c oes multimodais.
Captulo 7
Metodos de Exclusao de
Semi-Espa cos
Os metodos aqui denominados de exclus ao de semi-espa cos s ao aqueles que
empregam a propriedade dos subgradientes de funcionais de denir um plano
que divide o espa co em dois semi-espa cos, sendo que o funcional necessaria-
mente decresce em um desses semi-espa cos. Por trabalhar com subgradientes,
esses metodos admitem funcionais n ao diferenci aveis. Dentro dessa categoria,
encontram-se os diversos metodos de planos de corte, e tambem o metodo
elipsoidal com suas variantes. A f ormula b asica que caracteriza a evolu c ao
desses metodos e:
Metodos de Exclusao de Semi-Espa cos
Passo 1: Calcula-se o subgradiente do funcional a ser minimizado em um
ponto.
Passo 2: Com esse subgradiente, particiona-se uma regi ao de busca em duas
novas regi oes, sendo excluda uma delas.
Passo 3: Nessa regi ao, procura-se uma nova estimativa do ponto de mnimo.
Caso esta n ao seja ainda adequada, retorna-se ao primeiro passo.
139
CAP
ITULO 7. EXCLUS
AO DE SEMI-ESPAC OS 140
Os primeiros algoritmos da famlia de exclus ao de semi-espa cos a serem
propostos foram os chamados algoritmos de planos de corte. O captulo 13
da referencia (Luenberger 1984) trata desses metodos.
Em 1979, foi proposto um novo metodo que se enquadrava na categoria de
exclus ao de semi-espa cos: o algoritmo elipsoidal. Esse novo metodo veio a
possuir grande import ancia te orica: foi o primeiro metodo a partir do qual se
demonstrava a resolu c ao em tempo polinomial dos problemas de otimiza c ao
linear. Posteriormente, o metodo elipsoidal foi suplantado, em problemas
lineares, pelos metodos de pontos interiores. No entanto, na otimiza c ao n ao-
linear, o metodo elipsoidal permanece sendo uma importante alternativa. As
referencias (Bland, Goldfarb & Todd 1981, Akg ul 1984) fornecem detalhes
da hist oria do desenvolvimento do metodo elipsoidal e de sua aplica c ao em
contextos diversos.
Este captulo faz um estudo breve dos metodos de planos de corte, que
objetiva apenas a compreens ao geral de seu mecanismo, e um estudo mais
detalhado do metodo elipsoidal, em seu formato cl assico e com algumas va-
ria c oes.
7.1 Formula cao Geral
Dado o problema (mono-objetivo) irrestrito:
x
= arg min
x
f(x) (7.1)
e dado um ponto inicial x
0
,= x
, obtem-se uma seq uencia x

k
tal que x
k
x
a partir do algoritmo de otimiza c ao. Dene-se ainda uma regi ao inicial Q

0
na qual se assume que deve estar contido o ponto x
. Dene-se ainda H(g, x)

como o semi-espa co denido pelo vetor g que n ao o contem e que passa
pelo ponto x. A famlia dos algoritmos de exclus ao de semi-espa co possui a
estrutura:
Algoritmo de Exclusao de Semi-Espa co
k 1
Q
k
Q
0
x
k
x
0
CAP
ITULO 7. EXCLUS
g
k
subgradiente(f(), x
k
)
Q
k
V (Q
k1
H(g
k
, x
k
))
x
k+1
T(Q
k
)
k k + 1
m-enquanto
A especicidade do algoritmo em quest ao e denida, portanto, pela fun c ao
T(), que dene a lei de determina c ao da nova estimativa de solu c ao, e pela
fun c ao V (), que dene a lei de constru c ao de uma nova regi ao, ap os a re-
aliza c ao da exclus ao de uma parcela da regi ao anterior. Em particular, os
algoritmos do tipo elipsoidal sempre construir ao regi oes elipsoidais, en-
quanto os algoritmos de planos de corte ir ao construir regi oes poliedrais.
Nota 7.1 Os algoritmos de exclus ao de semi-espa cos n ao possuem a fun c ao ob-
jetivo como fun c ao descendente: a fun c ao T() n ao e construda para assegurar tal
propriedade. De fato, usualmente ocorre oscila c ao no valor da fun c ao objetivo ao
longo da execu c ao do algoritmo. Outra grandeza, no entanto, e descendente com
esses algoritmos: o volume da regi ao onde est a contido o otimo.
7.2 Metodos de Planos de Corte

Os metodos denominados de planos de corte
1
se aplicam a problemas cuja
forma geral e:
x
= arg min
x
c
T
x
sujeito a: x o
(7.2)
sendo o um conjunto convexo fechado. A fun c ao objetivo, portanto, e um
funcional linear. Problemas de formato geral envolvendo a minimiza c ao de
1
O conte udo desta se c ao segue predominantemente a apresenta c ao em (Luenberger
1984).
CAP
ITULO 7. EXCLUS
funcionais convexos podem ser colocados nesta forma. Considere-se o pro-
blema:
x
= arg min
x
f(x)
sujeito a: x 1
(7.3)
sendo f() : R
n
R uma fun c ao convexa e 1 R
n
um conjunto convexo
compacto. Dene-se uma nova vari avel:
x =
_
r
x
_
(7.4)
de forma que x R
n+1
. Com essa vari avel, o problema (7.3) pode ser escrito
como:
x
= arg min r
sujeito a:
_
_
_
f(x) r 0
x 1
(7.5)
Observando-se que o conjunto o denido por
o = x [ f(x) r 0 , x 1 (7.6)
e um conjunto convexo no espa co R
n+1
e que
r =
_
1 0 0 . . . 0
x (7.7)
conclui-se que o problema no formato (7.5) est a na forma (7.2), podendo
portanto ser a ele aplicado um metodo de planos de corte.
Seja dado um politopo P
0
tal que P
0
o. Os metodos de planos de corte
s ao dados pelo algoritmo geral:
Algoritmo de Planos de Corte
k 0
Minimizar c
T
x sobre P
k
, obtendo x
k
enquanto dist(x
k
, o) >
CAP
ITULO 7. EXCLUS
Determinar um hiperplano H
k
que separa x
k
de o
Colocar este novo hiperplano como suporte de uma nova face para o
politopo, que passa a ser o politopo P
k+1
Minimizar c
T
x sobre P
k+1
, obtendo x
k+1
k k + 1
m-enquanto
Deve-se observar a respeito desse algoritmo que:
O mesmo depende de uma etapa que corresponde a uma otimiza c ao
linear convencional (funcional objetivo linear e conjunto de restri c oes
em formato de politopo);
Dessa forma, sabe-se que a solu c ao de tal etapa sempre corresponder a
a um vertice do politopo;
Como o politopo e exterior ao conjunto o, e por constru c ao preserva a
cada passo tal propriedade, o ponto x
k
sempre ser a exterior a o;
A aproxima c ao da solu c ao ocorre portanto assintoticamente, e neces-
sariamente pelo lado de fora do conjunto factvel. Note-se que, pela
linearidade da fun c ao objetivo, a solu c ao necessariamente dever a estar
exatamente na fronteira de o.
Nota 7.2 A principal distin c ao entre diferentes algoritmos de planos de corte
est a na maneira como cada algoritmo faz a determina c ao do plano H
k
que ir a
separar o ponto x
k
do conjunto S. Diferentes escolhas produzem algoritmos que
geram seq uencias inteiramente diferentes de pontos, dadas as mesmas condi c oes
iniciais, e podem levar a velocidades de convergencia muito distintas.
Nota 7.3 Um problema que afeta a eciencia computacional dos algoritmos de

planos de corte e o fato de que os mesmos envolvem otimiza c oes lineares cuja
estrutura de restri c oes cresce a cada itera c ao, com o acrescimo de uma restri c ao
por itera c ao. Para os padr oes atuais, considera-se que os algoritmos de planos de
corte em geral s ao pouco ecientes, de forma que os mesmos n ao s ao usualmente
empregados a menos que a estrutura do problema em quest ao seja particularmente
favor avel ` a sua aplica c ao.
CAP
ITULO 7. EXCLUS
7.2.1 Algoritmo de Planos de Corte de Kelley
Nesta subse c ao e mostrada uma possvel realiza c ao para a escolha dos planos
de corte, proposta por Kelley. Considera-se o problema:
x
= arg min
x
c
T
x
sujeito a: g(x) 0
(7.8)
onde x R
n
e g() : R
n
R
p
e convexa. Com essas premissas, vale a
desigualdade:
g
i
(x) g
i
(w) +g
i
(w)(x w) x, w (7.9)
onde g
i
() e o gradiente da fun c ao g
i
() no ponto (ou o subgradiente, no
caso de se tratar de ponto onde a fun c ao e n ao-diferenci avel). Sendo i o
ndice que indica a restri c ao com maior valor (a restri c ao mais violada), o
hiperplano separador e denido por:
H
k
= g
i
(x
k
) +g
i
(x
k
)(x x
k
) = 0 (7.10)
Esse hiperplano pode agora ser utilizado no Algoritmo de Planos de Corte
generico anteriormente apresentado.
7.3 Algoritmo Elipsoidal
Como exemplo de metodo da famlia dos metodos de exclus ao de semi-espa co,
e apresentado aqui o metodo elipsoidal, em suas variantes b asica e com deep-
cuts. Para maiores detalhes, ver (Bland et al. 1981, Akg ul 1984, Dziuban,
Ecker & Kupferschmid 1985, Saldanha, Takahashi, Vasconcelos & Ramirez
1999).
Considere-se o problema de minimiza c ao do funcional f
0
() numa regi ao
o:
x
= arg min
x
f
0
(x)
sujeito a: x o
(7.11)
A regi ao factvel e dada por:
o x o [ f
i
(x) 0 i = 1, . . . , m (7.12)
CAP
ITULO 7. EXCLUS
O vetor de vari aveis de otimiza c ao e x R
n
.
O algoritmo elipsoidal b asico e descrito pelas seguintes f ormulas recursivas
que geram uma seq uencia de pontos x
k
:
x
k+1
= x
k

1
Q
k
g
k
(g
T
k
Q
k
g
k
)
1
2
Q
k+1
=
2
_
Q
k

3
(Q
k
g
k
)(Q
k
g
k
)
T
g
T
k
Q
k
g
k
_
(7.13)
com:
1
=
1
n + 1

2
=
n
2
n
2
1

3
=
2
n + 1
O vetor g
k
e um subgradiente da restri c ao mais violada f
i
(x
k
), i 1, ou,
no caso de x
k
estar na regi ao factvel, um subgradiente da fun c ao objetivo
f
0
(x
k
) naquele ponto. A explica c ao para tal tratamento das restri c oes e
apresentada na Se c ao 7.4 a seguir. O algoritmo come ca com um elips oide
E
0
, centrado num ponto inicial x
0
:
E
0

_
x [ (x x
0
)
T
Q
1
0
(x x
0
) 1
_
(7.14)
O otimo x
, no caso de problemas convexos (f

i
convexo i = 0, . . . , m),
garantidamente pertence ao semi-espa co H
k
dado por:
H
k

_
x [ g
T
k
(x x
k
) 0
_
(7.15)
A equa c ao 7.13 e interpretada como uma seq uencia de novos elips oides
E
k
, cada um sendo o elips oide de menor volume que contem o semi-elips oide
E
k1
H
k1
. Como o elips oide inicial contem, por premissa, a solu c ao e como
cada novo elips oide tambem o contem, a seq uencia de elips oides converge
para um elips oide de volume zero que contem x
. Se este objeto for um

unico ponto, este ser a o ponto x
. A gura 7.1 mostra uma itera c ao do

metodo elipsoidal.
CAP
ITULO 7. EXCLUS
PSfrag replacements
x
k
x
k+1
g
k
Figura 7.1: Ilustra cao de uma itera cao do metodo elipsoidal. O elips oide inicial (a
elipse maior) tem centro no ponto x
k
. O subgradiente da fun cao objetivo, calculado
no ponto x
k
, resulta no vetor g
k
. Esse vetor determina o semi-elips oide que deve estar
contido no novo elips oide, cujo centro, ap os calculado pela f ormula de recorrencia, e
o ponto x
k+1
. O novo elips oide e tambem mostrado.
7.3.1 Algoritmo Elipsoidal com Deep Cut
O procedimento convencional de deep cut e descrito pelas f ormulas:
x
k+1
= x
k

1
Q
k
g
k
(g
T
k
Q
k
g
k
)
1
2
Q
k+1
=
2
_
Q
k

3
Q
k
g
k
(Q
k
g
k
)
T
g
T
k
Q
k
g
k
_
(7.16)
nas quais:
1
=
1+n
n+1

2
=
n
2
(1
2
)
n
2
1

3
=
2(1n)
(n+1)(1+)
Este novo conjunto de f ormulas de atualiza c ao gera uma seq uencia de elips oides
que contem a interse c ao de cada elips oide anterior com um semi-espa co H
k
que n ao passa mais pelo centro do elips oide anterior:
CAP
ITULO 7. EXCLUS
H
k

_
x [ g
T
k
(x x
k
) [g
T
k
Q
k
g
k
]
1
2
_
(7.17)
A interse c ao H
k
E
k
e menor que a metade de E
k
. O par ametro e cha-
mado de profundidade do corte (cut), e representa a dist ancia de x
k
para o
semi-espa co H
k
na metrica correspondente ` a matriz Q
k
. A equa c ao 7.16 e
adequada para determinar E
k+1
com 1/n 1. Na faixa 0 1/n,
o procedimento leva a uma convergencia acelerada.
A convergencia do algoritmo b asico (sem deep cut) para a solu c ao x
,
que ocorre para problemas convexos, e devida ` a propriedade dos subgradi-
entes de denirem um semi-espa co que garantidamente contem o mnimo do
funcional
2
. Como o algoritmo de deep cut emprega um subconjunto desse
semi-espa co, a solu c ao x
pode ser perdida neste caso, mesmo para problemas

convexos.
Conjectura 7.1 Sabe-se que, alem da por c ao do elips oide anterior denida
pelo corte, cada novo elips oide tambem contem uma por c ao extra do espa co.
Essa por c ao extra permite ao algoritmo elipsoidal encontrar ate mesmo
pontos de mnimo que estejam fora do elips oide inicial. Seria possvel denir
deep cuts tais que, explorando-se essa propriedade, permanecesse sendo
garantida a propriedade de convergencia para o otimo global, mesmo havendo
a perda do ponto de otimo em alguma itera c ao?
Conjectura 7.2 Seria possvel utilizar cortes com profundidade negativa,
para permitir o corte de elips oides com base em subgradientes avaliados fora
do centro? (Isso seria potencialmente util para restaurar o condicionamento
numerico da matriz geradora do elips oide durante o processo de otimiza c ao).
Conjectura 7.3 O padr ao de convergencia dos centros dos elips oides quando
o otimo n ao est a contido nos mesmos deve ser diferente daquele quando o
otimo est a contido. Deve ser possvel portanto elaborar um teste de perda
do ponto de otimo.
A quest ao do tratamento de restri c oes n ao-lineares genericas e uma an-
tiga diculdade que desaa os diferentes metodos de otimiza c ao conhecidos
2
De fato, esta e a deni c ao de subgradiente.
CAP
ITULO 7. EXCLUS
(Luenberger 1984). Metodos que se baseiam em fun c oes de barreira ou pena-
lidade, por exemplo, podem estar sujeitos a mal-condicionamento numerico.
Outros metodos, tais como aqueles baseados em programa c ao quadr atica, ne-
cessitam aproximar as suas restri c oes por fun c oes ans, o que pode impedir
a sua aplica c ao em determinadas classes de problemas. Em particular, res-
tri c oes n ao-diferenci aveis constituem uma classe de problemas para os quais
existem poucos metodos disponveis.
Os metodos da categoria de exclus ao de semi-espa cos tem em comum
ainda a maneira imediata como tratam a quest ao das restri c oes. O me-
canismo de tratamento de restri c oes se baseia no fato de que, dada uma
restri c ao convexa (ou seja, que dene uma regi ao factvel convexa), o sub-
gradiente dessa restri c ao num ponto sempre dene um semi-espa co no qual
dever a estar contida a regi ao factvel. Dessa forma, n ao e necess aria nenhuma
altera c ao estrutural no algoritmo para tratar as restri c oes, basta substituir
o subgradiente da fun c ao objetivo pelos subgradientes dos funcionais que
representam as restri c oes violadas.
A estrutura l ogica da abordagem de exclus ao de semi-espa cos para o
tratamento de m ultiplas restri c oes decorre do fato de que a interse c ao de
conjuntos convexos e um conjunto convexo. Para ilustrar isso, considere-se o
sistema com uma fun c ao-objetivo e duas fun c oes de restri c ao, sendo as tres
fun c oes convexas:
x
= arg min
x
f(x)
sujeito a:
_
_
_
g
1
(x) 0
g
2
(x) 0
(7.18)
com f() : R
n
R, g
1
() : R
n
R e g
2
() : R
n
R. A regi ao factvel do
problema e dada pela interse c ao das regi oes sub-nvel das duas fun c oes, para
o nvel zero:
T = R(g
1
, 0) R(g
1
, 0) (7.19)
Esta regi ao factvel pode ainda ser interpretada como sendo a regi ao sub-nvel
para o nvel zero de uma outra fun c ao, r(), construda como:
r(x) = maxg
1
(x), g
2
(x) (7.20)
Dessa forma:
T = R(r, 0) (7.21)
CAP
ITULO 7. EXCLUS
Claramente, a partir da convexidade de g
1
() e g
2
(), tem-se a convexidade
de r() e de T. Dessa forma, no caso geral, pode-se denir:
r(x) = maxg
1
(x), g
2
(x), , g
m
(x) (7.22)
A otimiza c ao de r(x), claramente, resulta em um ponto factvel, se houver
tal ponto. A cada passo antes de se atingir a factibilidade, exclui-se apenas
um semi-espa co infactvel. Dena-se por m a fun c ao s() : R
n
R dada
por:
s(x) =
_
_
_
f(x) , se r(x) 0
r(x) , se r(x) > 0
(7.23)
A otimiza c ao de s(x) ir a produzir a cada passo:
a exclus ao do semi-espa co em que o ponto de otimo n ao se encontra,
se o ponto corrente for factvel;
a exclus ao do semi-espa co que e totalmente infactvel, se o ponto cor-
rente for infactvel.
A otimiza c ao de s() leva, portanto, ` a convergencia para o otimo restrito x
.
Devido a tal estrutura de tratamento de restri c oes, o metodo elipsoidal e
conhecido como um procedimento particularmente exvel de otimiza c ao, que
possui convergencia garantida para o otimo sob a condi c ao de convexidade
da fun c ao objetivo e das restri c oes (Akg ul 1984). A simplicidade de se tratar
com com restri c oes n ao-lineares neste metodo e uma das principais raz oes de
sua aplicabilidade.
7.5 Caractersticas de Comportamento
O comportamento dessa categoria de metodos frente a algumas diculdades
que ir ao surgir com freq uencia em problemas de otimiza c ao de tipo geral e
agora discutido.
7.5.1 Descontinuidades e Nao-Diferenciabilidade
As regi oes de descontinuidade e n ao-diferenciabilidade de funcionais no espa co
de par ametros n ao constituem problema para a execu c ao dos metodos de ex-
clus ao de semi-espa cos. Tais singularidades n ao obstruem a determina c ao de
CAP
ITULO 7. EXCLUS
subgradientes, que s ao o elemento utilizado para a evolu c ao desses metodos.
N ao h a tambem problemas com singularidades do tipo atrativa, uma vez
que o c alculo do pr oximo ponto estimado n ao e feito sobre uma trajet oria
que parte do ponto atual, como no caso dos algoritmos de busca em dire c oes
(isso faz com que que tais algoritmos quem presos nessas singularidades).
O pr oximo ponto, ao inves disso, e obtido por constru c ao a uma dist ancia
nita do ponto anterior, o que impede que a seq uencia de estimativas que
aprisionada.
7.5.2 Nao-Convexidade
A principal premissa sobre a qual se assenta a categoria dos metodos de
exclus ao de semi-espa cos e a convexidade de todos os funcionais envolvidos.
Se tal premissa for violada, o processo de exclus ao passa a ser feito ` as cegas,
de forma que a evolu c ao do metodo torna-se imprevisvel.

E possvel que,
nessas circunst ancias, o metodo n ao convirja para o ponto de otimo.
A quest ao da multimodalidade pode ser entendida como um caso particular
da n ao-convexidade. Isso poderia levar a an alise a conclus oes semelhantes.
No entanto, deve-se observar que uma fun c ao multimodal pode ser local-
mente convexa, de forma que os algoritmos de exclus ao de semi-espa cos
podem convergir para mnimos locais.

E possvel, entretanto, que n ao ocorra
convergencia para nenhum mnimo.
7.5.4 Velocidade de Convergencia
Deve-se notar inicialmente que as caractersticas de convergencia tanto dos
metodos de dire c ao de busca quanto dos de exclus ao de semi-espa cos po-
dem ser muito diferentes dependendo do metodo especco que estiver sendo
referido em cada caso. De uma forma geral, entretanto, e possvel armar
que h a uma tendencia para que em problemas nos quais s ao aplic aveis tanto
os metodos do tipo dire c ao de busca quanto os metodos de exclus ao de
semi-espa cos, os primeiros apresentem maior velocidade de convergencia.
Os segundos devem ser aplicados, portanto, especicamente nos problemas
em que houver n ao-diferenciabilidades que impediriam a convergencia dos
CAP
ITULO 7. EXCLUS
primeiros. H a ainda o caso de problemas de factibilidade (que podem cons-
tituir a etapa inicial de grande parte dos problemas de otimiza c ao), em que
a eciencia de alguns metodos (especicamente os metodos do tipo elip-
soidal) de exclus ao de semi-espa cos pode ser muito aumentada com a
aplica c ao de deep cuts.
7.6 Algoritmo Cone-Elipsoidal
Esta se c ao e as pr oximas do presente captulo pretendem mostrar que a inter-
preta c ao das condi c oes de Karush-Kuhn-Tucker para otimalidade enquanto
uma condi c ao de inexistencia de um cone, e seu complemento como uma
condi c ao de existencia de um cone de dire c oes factveis pode fornecer in-
sights a respeito de problemas de otimiza c ao em geral. Esses cones oriundos
da condi c ao KKTE ser ao utilizados para aperfei coar as propriedades de con-
vergencia do algoritmo elipsoidal.
Nas se c oes que se seguem, e mostrado que: (i) em algumas situa c oes, a
congura c ao das restri c oes pode levar a uma convergencia arbitrariamente
lenta do metodo elipsoidal cl assico para a solu c ao do problema; e (ii) uma mo-
dica c ao do metodo elipsoidal, denominada Metodo Cone-Elipsoidal (MCE),
proposta por este autor e colaboradores (Takahashi, Saldanha, Dias-Filho &
Ramirez 2003), restaura as propriedades de convergencia do metodo, obtendo
a mesma taxa de convergencia atingida quando o mesmo e aplicado a pro-
blemas irrestritos. O algoritmo MCE proposto preserva as condi c oes formais
de convergencia para o otimo em problemas convexos, possibilitando, ainda,
tratar uma classe de problemas n ao-convexos.
Os dados apresentados a seguir foram, em grande parte, publicados na
referencia (Takahashi, Saldanha, Dias-Filho & Ramirez 2003) e na tese de
doutorado, orientada pelo presente autor, (Dias-Filho 2003). Uma aborda-
gem diferente da que est a sendo proposta aqui foi empregada na referencia
(Shah, Mitchell & Kupferschmid 2001) para lidar com a mesma diculdade
de convergencia do metodo elipsoidal em problemas com restri c oes de igual-
dade. Entretanto, tal referencia se limita a abordar problemas com restri c oes
lineares, fazendo uso de proje c oes do elips oide dentro da variedade linear que
dene o conjunto factvel.
CAP
ITULO 7. EXCLUS
7.7 Deni cao do Problema
Considere-se o problema de otimiza c ao com restri c oes de igualdade
3
e de
desigualdade, denido no espa co dos par ametros x R
n
:
x
= arg min
x
f(x)
sujeito a:
_
_
q
j
(x) 0 ; j = 1, . . . , r
h
l
(x) 0 ; l = 1, . . . , s
h
l
(x) 0 ; l = 1, . . . , s
(7.24)
Assume-se que as fun c oes f(), q() e h() devam ser convexas, para permitir
a constru c ao de provas formais de convergencia para o otimo global. No
caso de fun c oes arbitr arias, o metodo pode convergir para mnimos locais ou
pode divergir (assim como qualquer outro metodo de otimiza c ao). O vetor
de restri c oes e reescrito da seguinte forma:
g(x) =
_
q
T
(x) h
T
(x) h
T
(x)
T
(7.25)
Seja T o conjunto de solu c oes factveis do problema (7.24), ou seja, o conjunto
dos pontos para os quais g(x) 0.
7.8 Metodo Elipsoidal Convencional
O processamento de restri c oes no metodo elipsoidal cl assico e realizado atraves
do processamento de uma restri c ao por vez (no caso, a restri c ao mais vio-
lada):
g
max
= max
i
g
i
(x) (7.26)
Dena-se:
m() =
_
_
_
g
max
(x) if g
max
< 0
f(x) if g
max
0
(7.27)
3
Nas equa c oes (7.24), cada restri c ao de igualdade foi substituda por duas restri c oes de
desigualdade, ou seja: h
l
(x) = 0 h
l
(x) 0 e h
l
(x) 0.
CAP
ITULO 7. EXCLUS
onde () signica ou o gradiente ou qualquer subgradiente do argumento.
O algoritmo elipsoidal b asico, neste caso, e descrito pelas equa c oes recursivas
(7.13) com o vetor m
k
denido em (7.27).
7.8.1 Problemas Difceis para o Metodo Convencional
Um problema formulado como (7.24), de fato, n ao pode ser diretamente
resolvido pelo metodo elipsoidal cl assico, uma vez que as restri c oes de igual-
dade, se existirem, estar ao sempre ativas. Alguma relaxa c ao nas mesmas e
necess aria, dentro da formula c ao cl assica, para tais restri c oes:
x
= arg min
x
f(x)
sujeito a:
_
_
q
j
(x) 0 ; j = 1, . . . , r
h
l
(x) ; l = 1, . . . , s
h
l
(x) ; l = 1, . . . , s
(7.28)
Com essa reformula c ao, pode haver algum x tal que as restri c oes quem sa-
tisfeitas. O algoritmo cl assico, neste caso, ir a funcionar dirigindo o centro do
elips oide para a regi ao factvel, s o ent ao ativando a fun c ao objetivo enquanto
guia do processo de otimiza c ao.
`
A medida em que 0, o problema se torna mais difcil, terminando por
recair na completa n ao-convergencia do metodo para = 0. Esse e um caso-
limite articial que, entretanto, expressa o que acontece quando o conjunto
factvel e muito estreito. Note-se que: (i) isso pode ocorrer mesmo que
haja apenas restri c oes de desigualdade; e (ii) isso, de fato, n ao signica que
o conjunto factvel e pequeno: ele pode ser grande, no sentido de conter
pontos localizados a grande dist ancia uns dos outros.
Exemplo 7.1 Para ilustrar como o metodo convencional pode falhar, considere-
se o problema:
x
= arg min (x c)
T
(x c)
subject to: {ax + b = 0
(7.29)
com x R
2
e:
a =

1 1

b = 1 c =

1 0

T
CAP
ITULO 7. EXCLUS
Esse problema possui como solu c ao analtica x
= [ 0 1 ]
T
. Fazendo = 110
5
,
o metodo converge para x = [ 0.5 1.5 ]
T
, que e o ponto mais pr oximo do ponto
inicial, dentro do conjunto factvel, mas que est a distante do otimo analtico. Nesse
caso, a evolu c ao do algoritmo foi guiada apenas pela fun c ao de restri c ao, a fun c ao
objetivo nunca foi ativada (ou seja, seu gradiente n ao foi utilizado em nenhuma
itera c ao pelo metodo para determinar o corte do elips oide). A seq uencia de pontos
gerados pelo algoritmo e mostrada na Figura 7.2.
1.5 1 0.5 0 0.5 1 1.5
0.5
0
0.5
1
1.5
2
2.5
PSfrag replacements
x
1
x
2
Figura 7.2: Seq uencia dos centros dos elips oides para o algoritmo elipsoidal conven-
cional (+), e para o algoritmo cone-elipsoidal (MCE) (). O conjunto factvel e a
linha, o otimo restrito e representado por () e o ponto inicial de ambos os algoritmos
e representado por ().
CAP
ITULO 7. EXCLUS
7.9 Cones das Dire c oes Factibilizantes
Considere-se o problema de otimiza c ao, denido sobre o espa co de par ametros
x R
n
, com um conjunto de restri c oes:
x = arg min
x
f(x)
sujeito a: g
j
(x) 0 ; j = 1, . . . , r
(7.30)
Seja T o conjunto dos pontos factveis do problema (7.30), ou seja, dos pontos
que satisfazem ` a desigualdade vetorial g(x) 0.
Uma situa c ao em que as condi c oes KKT se encontram satisfeitas est a
exemplicada na gura 7.3. Nessa gura, est ao representados os vetores
gradiente da fun c oes-objetivo e de duas restri c oes ativas, que atendem ` as
condi c oes.
PSfrag replacements
x
g
1
(x)
g
2
(x)
f(x)
Figura 7.3: Exemplo de situa cao na qual estao atendidas as condi c oes de Karush-
Kuhn-Tucker (KKT). Nesse caso, existem multiplicadores positivos que fazem com que
a soma dos vetores gradiente da fun cao-objetivo, f(x) e de duas restri c oes ativas,
g
1
(x) e g
2
(x), no ponto x se anule.
De maneira similar, e possvel denir uma condi c ao necess aria para a
infactibilidade de um problema de otimiza c ao:
Teorema 7.1 (Condi cao Necessaria para a Infactibilidade (CNI))
Seja o problema de otimiza c ao (7.30) com todos g
i
diferenci aveis e quasi-
CAP
ITULO 7. EXCLUS
convexos. Se esse problema e infactvel ent ao existe pelo menos um ponto x
tal que:
i. g
i
(x
) > 0 para algum i = 1, . . . , r;

ii. existe um vetor multiplicador
0, com pelo menos uma desigualdade

estrita
i
> 0, tal que:
g
k
(x
) < 0
k
g
k
(x
) = 0 ; k = 1, . . . , r
r
k=1
k
g
k
(x
) = 0
(7.31)
Uma situa c ao em que as CNI se encontram satisfeitas est a exemplicada

na gura 7.4. Nessa gura est ao representados os vetores gradiente de tres
restri c oes ativas que atendem ` as condi c oes.
A ideia central neste trabalho e utilizar o complemento da condi c ao CNI
para gerar dire c oes de busca. Parte-se da observa c ao de que um ponto x
k
que n ao satisfaz ` as CNI possui a ele associado um cone de dire c oes factibi-
lizantes, ou seja, um cone de dire c oes nas quais existem outros pontos x
k+1
capazes de gerar solu c oes tais que g(x
k+1
) g(x
k
).
Deni cao 7.1 (Cone de dire c oes factibilizantes (CDF)) Seja (
k
um
cone com vertice num ponto x
k
infactvel. Esse cone e um cone de dire c oes
factibilizantes do problema de otimiza c ao (7.30) se:
x (
k
> 0 [ g(x
k
+ (x x
k
)) g(x
k
) (7.32)
O teorema a seguir permite a determina c ao desse cone, para pontos in-

factveis.
Teorema 7.2 Considere-se o problema (7.30). Seja um ponto x
k
tal que
g
i
(x
k
) 0 para algum i = 1, . . . , r. Seja 1 i [ g
i
(x
k
) 0, com v ele-
mentos. Suponha-se que as fun c oes g
i
() tais que i 1 sejam diferenci aveis
em x
k
. Seja denida a matriz G
f
:
G
f
=
_
g
I(1)
(x
k
) . . . g
I(v)
(x
k
)
(7.33)
CAP
ITULO 7. EXCLUS
PSfrag replacements
x
g
1
(x) = 0
g
3
(x) = 0
g
2
(x) = 0
g
1
(x)
g
2
(x)
g
3
(x)
Figura 7.4: Exemplo de situa cao na qual estao atendidas as condi c oes necessarias
de infactibilidade (CNI). Nesse caso, existem multiplicadores positivos que fazem com
que a soma dos vetores gradiente de tres restri c oes ativas no ponto x, g
1
(x), g
2
(x)
e g
3
(x), se anulem.
O cone de dire c oes factibilizantes (
f
k
associado ao ponto x
k
e dado por:
x (
f
k
G
f
(x x
k
) > 0 (7.34)
Corolario 7.1 Como corol ario desse teorema, obtem-se que, caso o cone (
f
n ao exista em nenhum ponto do espa co de par ametros, ent ao o problema e
infactvel.
O conceito de Cone de Dire c oes Factibilizantes (CDF) e ilustrado nas
guras 7.5 e 7.6.
7.10 O Metodo Cone-Elipsoidal
O Algoritmo Cone-Elipsoidal utiliza o cone CDF, para o tratamento si-
mult aneo de todas as restri c oes ativas e da fun c ao objetivo.
CAP
ITULO 7. EXCLUS
PSfrag replacements
x
g
1
(x) > 0
g
2
(x) > 0
g
3
(x) > 0
g
1
(x) < 0
g
2
(x) < 0 g
3
(x) < 0
g
1
(x)
g
2
(x)
g
3
(x)
p
1
p
2
Figura 7.5: Nesta gura sao estabelecidos os elementos para ilustrar o conceito de
Cone de Dire c oes Factibilizantes (CDF). Sao mostradas as variedades g
1
(x) = 0,
g
2
(x) = 0, g
3
(x) = 0, que determinam os limites da regiao factvel do problema. Sao
tomados dois pontos infactveis, p
1
e p
2
, sobre os quais sao calculados os gradientes
das restri c oes ativas em cada caso, g
2
(x) em p
1
, e g
1
(x) e g
3
(x) em p
2
. Para
o ponto p
1
, o Cone das Dire c oes Factibilizantes (CDF) e todo o semi-espa co atras
do plano denido por g
2
(x). Pode-se constatar que, de fato, a regiao factvel esta
toda contida nesse semi-espa co. O CDF associado ao ponto p
2
e mostrado na pr oxima
gura.
7.10.1 Primeira Reformula cao do Problema
Inicialmente, deve-se observar que e possvel, sem perda de generalidade,
transformar o problema com restri c oes de igualdade num problema com res-
tri c oes estritamente de desigualdade, sendo possvel, ainda, eliminar algumas
restri c oes de desigualdade do problema, desde que se conhe ca a priori qual
CAP
ITULO 7. EXCLUS
PSfrag replacements
x
g
1
(x) > 0
g
2
(x) > 0
g
3
(x) > 0
g
1
(x) < 0
g
2
(x) < 0 g
3
(x) < 0
g
1
(x)
g
2
(x)
g
3
(x)
p
1
p
2
Figura 7.6: Nesta gura sao mostrados os mesmos elementos denidos na gura
anterior. O Cone das Dire c oes Factibilizantes (CDF) associado ao ponto p
2
e indicado
pela regiao hachurada. Deve-se observar que toda a regiao factvel esta de fato contida
nesse cone.
e o ponto de otimo irrestrito do problema, ou, pelo menos, quais restri c oes es-
tariam ativas nesse ponto. Claramente, basta manter essas restri c oes, sendo
possvel simplesmente descartar aquelas que estivessem inativas no otimo ir-
restrito. Tendo em vista essa observa c ao, o problema pode ser reformulado
como:
x
= arg min
x
f(x)
sujeito a:
_
g
j
(x) 0 ; j = 1, . . . , m
(7.35)
CAP
ITULO 7. EXCLUS
sendo m r + s e sendo g
i
(x) o conjunto de restri c oes de desigualdade do
problema (7.24) que se encontram ativas no ponto x
o
denido por:
x
o
= arg min
x
f(x) (7.36)
ou seja:
g
j
(x
o
) = h
i
(x
o
) > 0
ou
g
j
(x
o
) = q
l
(x
o
) > 0
(7.37)
Note-se que, em alguns problemas, e possvel saber de antem ao, a partir
do signicado fsico das vari aveis, quais restri c oes deveriam estar ativas num
hipotetico otimo irrestrito. Se n ao for esse o caso, e sempre possvel exe-
cutar um algoritmo de otimiza c ao sem restri c oes, para determina c ao previa
desse otimo irrestrito.
A simples utiliza c ao de (7.35) em lugar de (7.24) j a permitiria tratar da
diculdade acima descrita, permitindo a convergencia do metodo elipsoidal
convencional para o ponto de otimo de problemas com restri c oes de igualdade.
Entretanto, e possvel melhorar ainda mais as propriedades de convergencia
do metodo, utilizando a ideia de cones, o que permitir a aplicar a informa c ao
simult anea de mais de uma restri c ao e da fun c ao objetivo em um unico corte.
7.10.2 Segunda Reformula cao do Problema
A ideia fundamental do metodo proposto neste captulo encontra-se na ob-
serva c ao de que, a cada vez que o algoritmo determina um novo ponto factvel
x
k
do problema modicado (7.35), pode-se introduzir a informa c ao de que o
ponto de otimo do problema, x
, ter a fun c ao-objetivo com valor menor ou

igual ao de x
k
. Essa informa c ao pode ser entendida como uma nova res-
tri c ao, e a interse c ao dessa seq uencia de restri c oes denidas pela seq uencia
dos x
k
e dada por:
f(x
k
) min
iZ
f(x
i
) 0 (7.38)
onde Z designa o conjunto dos ndices para os quais o ponto tornava o pro-
blema (7.35) factvel, ou seja:
g(x
i
) 0 i Z (7.39)
CAP
ITULO 7. EXCLUS
Dessa forma, o problema (7.24) pode sofrer nova reformula c ao, cando:
x
= arg min
x
f(x)
sujeito a:
_
_
q
j
(x) < 0 ; j = 1, . . . , r
h
l
(x) < 0 ; l = 1, . . . , s
h
l
(x) < 0 ; l = 1, . . . , s
f(x) min
iZ
f(x
i
) < 0
(7.40)
O problema (7.40) ter a sempre no mnimo uma restri c ao ativa (observe-se que
as desigualdades foram substitudas por desigualdades estritas, para impedir
a ocorrencia, mesmo hipotetica, de factibilidade). Dessa forma, o problema
de determina c ao de x
e substitudo pelo problema de factibilidade de (7.40),

o qual pode sempre ser tratado por meio dos cones CDF.
A interpreta c ao desse resultado e apresentada na gura 7.7.
CAP
ITULO 7. EXCLUS
PSfrag replacements
g(x) > 0
g(x) < 0
f(x)
f(x)
g(x)
g(x)
g(x)
f(x)
f(x)
x
a
x
b
x
c
x
x
o
x
d
x
e
Figura 7.7: Nesta gura sao mostradas todas as possveis situa c oes que podem
ocorrer para a evolu cao do algoritmo MCE. O ponto x
corresponde ao ponto de
otimo do problema, e o ponto x
o
corresponde ao ponto de otimo irrestrito do
problema. Sao esbo cadas algumas curvas de nvel da fun cao objetivo f(x), com
formato aproximadamente elipsoidal.

E tambem mostrada a variedade convexa g(x) =
0, que passa por x
, que corresponde à restri cao de igualdade do problema. Suponha-se

que se vericou, ap os a obten cao do ponto x
a
, que este constitua a melhor estimativa
ate aquele instante do otimo do problema, ocorrido do lado oposto ao de x
o
. Isso faz
com que a restri cao f(x) < f(x
a
) passe a valer para os pr oximos passos do algoritmo,
ate que se encontre outro ponto do lado oposto ao de x
o
que permita reduzir ainda
mais a regiao onde possivelmente se encontraria x
. Haveria quatro possibilidades

para a evolu cao do algoritmo. O pr oximo ponto poderia ser tal que: (x
b
) o valor da
fun cao objetivo aumentasse e o ponto estivesse do mesmo lado que x
o
, o que faria
com que o cone fosse denido pelos gradientes da restri cao e da fun cao objetivo; (x
c
)
o valor da fun cao objetivo diminusse, estando o novo ponto do mesmo lado que x
o
,
o que faria com que o cone fosse denido apenas pelo gradiente da restri cao; (x
d
) o
valor da fun cao objetivo aumentasse, estando o ponto do lado oposto ao de x
o
, sendo,
nesse caso, o cone denido tanto pelo gradiente da restri cao quanto pelo da fun cao
objetivo; e (x
e
) o valor da fun cao objetivo diminuisse, estando o ponto do lado oposto
ao de x
o
, sendo que nesse caso o cone seria denido apenas pelo gradiente da fun cao
objetivo, e a restri cao associada à fun cao objetivo seria atualizada para f(x) < f(x
e
).
O leitor deve observar que, em todas as situa c oes, o cone contem o ponto x
.
CAP
ITULO 7. EXCLUS
7.11 O Algoritmo MCE
Dado esse resultado, o tradicional algoritmo elipsoidal pode ser empregado
agora com qualquer vetor d
k
tal que:
d
k
, c
k
) c
k
(
k
. (7.41)
No algoritmo elipsoidal, d
k
ir a substituir m
k
, o (sub-)gradiente da fun c ao
objetivo ou da restri c ao mais violada, na equa c ao (7.13). A ideia e que
cada corte do elips oide ir a manter no novo semi-elips oide o cone de dire c oes
factibilizantes (
k
. O algoritmo ir a gerar uma seq uencia de elips oides que ir a
convergir para uma solu c ao factvel do problema.
Uma adapta c ao do metodo, e obtida empregando a deni c ao de op-
factibilidade apresentada a seguir:
Deni cao 7.2 (Op-Factibilidade) Um ponto x
k
e op-factvel se atender
simultaneamente ` as condi c oes:
g
i
(x
k
) 0 (7.42)
e
f(x
k
) f(x
i
) x
i
[ g(x
i
) 0 , i < k (7.43)
O conceito de pontos op-factveis permite escrever o problema de encon-

trar pontos melhores (sob o ponto de vista da fun c ao objetivo) e simultane-
amente factveis como um problema de factibilidade. Assim, a otimiza c ao
utilizando a ideia de manter os cones de dire c oes factveis no interior da
sequencia de elips oides gerada pelo metodo elipsoidal e capaz de levar em
considera c ao simultaneamente as restri c oes e a fun c ao objetivo para a deter-
mina c ao da solu c ao otima do problema.
Um algoritmo para encontrar o vetor d
k
pode ser estabelecido a partir de
qualquer combina c ao convexa dos vetores gradiente das restri c oes violadas
g
i
(x) (incluindo a op-restri c ao f(x
k
) min f(x
i
)):
d
k
=
m
i=1
i
g
i
(x
k
)
i
0
g
i
(x
k
) < 0
i
= 0
(7.44)
CAP
ITULO 7. EXCLUS
Para que o algoritmo funcione corretamente, a op-restri c ao s o pode ser
includa ap os ter sido encontrado pelo menos um ponto factvel do problema.
Note-se que, na abordagem proposta, n ao h a nenhuma perda da propri-
edade de convergencia garantida, que ocorreria em outros tipos de tentativa
de se ponderar o funcional objetivo e as fun c oes de restri c ao. Isso e parti-
cularmente importante quando existem restri c oes de igualdade que, de outra
forma, poderiam impedir a fun c ao objetivo de ser considerada.
Exemplo 7.2 Considere-se o mesmo problema analtico (7.29) mostrado difcil
para o metodo elipsoidal tradicional, dependendo do tamanho da relaxa c ao que for
empregada. Agora, o problema e considerado como ele e, sem qualquer relaxa c ao,
dentro da formula c ao (7.24). O Metodo Cone-Elipsoidal (MCE), come cando do
mesmo ponto inicial com o mesmo elips oide inicial, converge para o otimo, como
mostrado na Figura 7.2. Claramente, o gradiente da fun c ao objetivo dirige o
algoritmo para o otimo restrito. O algoritmo converge para este otimo, ao mesmo
tempo se aproximando do conjunto factvel.
7.12 Nao-Convexidade de Restri c oes de Igual-
dade
A principal premissa sobre a qual se assenta a categoria dos metodos de
exclus ao de semi-espa cos e a convexidade da fun c ao-objetivo e da regi ao
factvel. Entretanto, sabe-se que o unico tipo de restri c ao de igualdade que
produz regi oes factveis convexas e o am (ou seja, constitudo por funcio-
nais lineares).
A metodologia aqui desenvolvida, entretanto, permite tratar um caso
especco de restri c ao de igualdade n ao-linear, preservando a propriedade
de convergencia garantida do metodo. A situa c ao trat avel se estabelece
quando a variedade n ao-linear g(x) = 0 divide o espa co em duas regi oes,
sendo uma convexa e a outra c oncava, ocorrendo ainda que o ponto de otimo
irrestrito x
o
se encontre no interior da regi ao c oncava. Nesse caso, e imediato
observar que o problema (7.35) e convexo. Pode-se ent ao empregar uma nova
CAP
ITULO 7. EXCLUS
reformula c ao do problema:
x
= arg min
x
f(x)
sujeito a:
_
_
g
j
(x) < 0 ; j = 1, . . . , m
f(x) min
iZ
f(x
i
) < 0
(7.45)
na qual, novamente, se resolve o problema de factibilidade utilizando os cones
CDF. A diferen ca desse problema em rela c ao ao problema (7.40) e que, para
pontos no interior da regi ao convexa, apenas o gradiente da fun c ao-objetivo
e empregado para produzir cortes. O gradiente da restri c ao e utilizado so-
mente na regi ao c oncava. Essa situa c ao e ilustrada na gura 7.8. O leitor e
convidado a comparar essa gura com a gura 7.7.
7.13 Conclus oes
Foi mostrada a adapta c ao dos Cones de Dire c oes Factibilizantes para agregar,
em um unico corte, a informa c ao proveniente de v arias restri c oes e da fun c ao
objetivo, simultaneamente. Alem disso, foi apresentada uma forma de tratar
restri c oes de igualdade, eventualmente sendo possvel a transforma c ao de
problemas com restri c oes de igualdade n ao-lineares em problemas convexos.
Tais quest oes foram abordadas dentro do contexto da otimiza c ao baseada
no algoritmo elipsoidal. Foi mostrado, por meio de um exemplo simples,
que os procedimentos propostos podem acelerar a convergencia do metodo
elipsoidal, ou, ate mesmo, permitir tal convergencia em situa c oes nas quais
a mesma n ao ocorreria.
CAP
ITULO 7. EXCLUS
PSfrag replacements
g(x) > 0
g(x) < 0
f(x)
f(x)
g(x)
g(x)
f(x)
f(x)
f(x)
x
a
x
b
x
c
x
x
o
x
d
x
e
Figura 7.8: Nesta gura sao mostradas todas as possveis situa c oes que podem ocor-
rer para a evolu cao do algoritmo MCE, agora para uma restri cao de igualdade g(x) = 0
nao convexa. A variedade nao-convexa g(x) = 0, que passa por x
, dene uma regiao

convexa g(x) < 0 e outra regiao c oncava g(x) > 0 no espa co de parametros. O ponto
x
corresponde ao ponto de otimo do problema, e o ponto x

o
corresponde ao ponto
de otimo irrestrito do problema (e importante notar que esse ponto encontra-se na
regiao c oncava denida por g(x) > 0). Sao esbo cadas algumas curvas de nvel da
fun cao objetivo f(x), com formato aproximadamente elipsoidal. Suponha-se que se
vericou, ap os a obten cao do ponto x
a
, que este constitua a melhor estimativa ate
aquele instante do otimo do problema, ocorrido do lado oposto ao de x
o
. Isso faz com
que a restri cao f(x) < f(x
a
) passe a valer para os pr oximos passos do algoritmo, ate
se encontrar outro ponto do lado oposto ao de x
o
que permita reduzir, ainda mais,
a regiao onde possivelmente se encontraria x
. Haveria quatro possibilidades para a

evolu cao do algoritmo. O pr oximo ponto poderia ser tal que: (x
b
) o valor da fun cao
objetivo aumentasse e o ponto estivesse do mesmo lado que x
o
, o que faria com que
o cone fosse denido pelos gradientes da restri cao e da fun cao objetivo; (x
c
) o valor
da fun cao objetivo diminusse, estando o novo ponto do mesmo lado que x
o
, o que
faria com que o cone fosse denido apenas pelo gradiente da restri cao; (x
d
) o valor da
fun cao objetivo aumentasse, estando o ponto do lado oposto ao de x
o
, o cone neste
caso, diferentemente do caso da restri cao convexa, seria denido apenas pelo gradiente
da fun cao objetivo; e (x
e
) o valor da fun cao objetivo diminuisse, estando o ponto do
lado oposto ao de x
o
, sendo que o cone seria denido apenas pelo gradiente da fun cao
objetivo, e a restri cao associada à fun cao objetivo seria atualizada para f(x) < f(x
e
).
O leitor deve observar que, em todas as situa c oes, o cone contem o ponto x
. O leitor
ainda e convidado a comparar esta gura com aquela do caso da restri cao convexa.
Captulo 8
Metodos de Otimiza cao por
Popula c oes
Os metodos de otimiza c ao por exclus ao de semi-espa cos e os metodos de
otimiza c ao por dire c oes de busca trabalham sempre com:
apenas uma estimativa corrente da solu c ao;
informa c oes obtidas apenas localmente, sobre a estimativa corrente,
para denir a pr oxima estimativa de solu c ao.
Diferentemente disso, os metodos aqui denominados de otimiza c ao por
popula c oes poder ao trabalhar com:
informa c ao a respeito de mais de um ponto, que e tratada como in-
forma c ao corrente; e/ou
informa c oes obtidas em mais de um ponto do espa co de solu c oes que
e utilizada para denir a transi c ao do estado corrente para o pr oximo
estado da seq uencia de solu c oes.
Um metodo primitivo de otimiza c ao utilizando a l ogica das popula c oes
e o chamado Algoritmo Evolucion ario (AE). Os principais algoritmos atu-
almente utilizados, representativos dos metodos de popula c oes, s ao os Algo-
ritmos Geneticos (AGs) e o Algoritmo de Simulated Annealing (SA). Esses
tres tipos de algoritmos ser ao abordados neste captulo, sendo os ultimos
(os AGs) estudados em maior detalhe. Existem outros metodos que se en-
quadram na deni c ao de metodos de popula c oes, e que n ao ser ao tratados
167
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 168
aqui, tais como: Otimiza c ao por Col onia de Formigas (Dorigo, Maniezzo &
Colorni 1996), M aquinas de Boltzman (Ackley, Hinton & Sejnowski 1985),
etc.
A formula c ao geral dos metodos de popula c oes pode ser sistematizada
conforme o esquema a seguir. Dena-se T
i
como um certo conjunto de pontos
pertencentes ao espa co de objetivos, e dene-se como um vetor de vari aveis
aleat orias com determinada distribui c ao de probabilidades. O formato b asico
dos metodos dessa famlia e:
Algoritmo de Popula cao
k 1
T
k
T
0
A
k
avalia c ao(f(T
k
))
T
k+1
G(A
k
, T
k
,
k
)
k k + 1
m-enquanto
Por utilizar o vetor de vari aveis aleat orias para denir a transi c ao de
uma popula c ao para a seguinte, os metodos de popula c oes s ao freq uente-
mente denominados tambem metodos estoc asticos, ou ainda algoritmos evo-
lucion arios (esta e uma denomina c ao geral, para toda a categoria de metodos
deste tipo, que n ao deve ser confundida com a denomina c ao algoritmo evolu-
cion ario simples, que se refere a um metodo dessa famlia, bastante simples,
que ser a mostrado neste captulo).
Note-se que n ao e feito uso de nenhuma informa c ao a respeito de gra-
dientes de fun c oes. Cada inst ancia particular do algoritmo de popula c ao e
construda denindo-se a fun c ao G(, , ), que dene como e feita a transi c ao
de uma popula c ao para a popula c ao seguinte. A evolu c ao da popula c ao ao
longo das itera c oes conduz a uma convergencia do conjunto dos indivduos
para uma regi ao pr oxima de um ponto de otimo. Um subconjunto da po-
pula c ao efetivamente converge para uma vizinhan ca do ponto de otimo.
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 169
8.1 Algoritmo Evolucionario Simples
O modelo mais simples de algoritmo de popula c oes e baseado apenas em
uma busca aleat oria cuja media vai sendo deslocada ` a medida em que s ao
geradas novas avalia c oes da fun c ao objetivo. Este tipo de algoritmo e aqui
denominado Algoritmo Evolucion ario Simples. Uma possvel vers ao desse
algoritmo e fornecida a seguir.
Considere-se o problema de otimiza c ao irrestrita:
x
= arg min
x
f(x) (8.1)
sendo f() : R
n
R. Sup oe-se que, embora o problema seja irrestrito, sabe-
se a priori que as solu c oes de interesse provavelmente estar ao no interior de
uma esfera de raio e centro x
0
.
Denomina-se uma popula c ao um conjunto X =
_
x
1
x
2
. . . x
N
, com
x
i
R
n
. A avalia c ao da fun c ao objetivo nos pontos correspondentes aos ele-
mentos da popula c ao e organizada no vetor F =
_
f(x
1
) f(x
2
) . . . f(x
N
)
.
F(i) ir a designar o escalar f(x
i
) e X(i) ir a designar o vetor x
i
. As vari aveis
X e F receber ao ndices para designar a itera c ao ` a qual correspondem.
Sup oem-se disponveis as fun c oes:
randn(p, q): gera uma matriz de p linhas e q colunas, sendo cada
entrada da matriz um n umero aleat orio com distribui c ao Gaussiana,
media zero e vari ancia um.
logspace(p, q, r): gera um vetor de r componentes, logaritmicamente
espa cados, come cando em 10
p
e terminando em 10
q
.
O Algoritmo Evolucion ario Simples e mostrado a seguir.
Algoritmo Evolucionario Simples
Entradas do algoritmo: , x
0
, N
V logspace(3, 0, N)
k 0
x
min
x
0
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 170
para i 1 ate N fa ca
randn(n, 1)
X
k
(i) x
min
+ V (i)
F
k
(i) f(X
k
(i))
m-para
j arg min
i
F
k
(i)
f
min
F
k
(j)
x
min
X
k
(j)
m-enquanto
Claramente, o Algoritmo Evolucion ario Simples produz sucessivas po-
pula c oes, sempre centradas no melhor elemento obtido na popula c ao da
itera c ao anterior, sendo que cada elemento da nova popula c ao e gerado a
dist ancias que em media ir ao desde 10
3
ate . Dessa forma, garante-se
que o algoritmo fa ca sempre uma busca em regi oes pr oximas ` a melhor es-
timativa disponvel, realizando tambem a procura em regi oes distantes, na
tentativa de se escapar de mnimos locais.
Nota 8.1 Esse algoritmo, na forma apresentada, serve para a determina c ao de
uma unica bacia de atra c ao. Para o prop osito de se localizarem mais bacias de
atra c ao, e possvel executar novamente o algoritmo, excluindo os pontos gerados
que se encontrem a dist ancias menores que um certo valor d em rela c ao ao(s)
mnimo(s) anteriormente encontrado(s). O valor de d depende do tamanho que se
espera que possuam as bacias de atra c ao da fun c ao f().
8.2 Algoritmo de Simulated Annealing

O algoritmo de Simulated Annealing (ou, em portugues, Recozimento Si-
mulado) emprega um princpio de funcionamento parecido com o do Algo-
ritmo Evolucion ario. No entanto, agora h a a previs ao de que eventualmente
ocorram transi c oes de uma solu c ao corrente para outra pior que a corrente,
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 171
segundo certa probabilidade. Essa probabilidade foi estabelecida para mi-
metizar as probabilidades de mudan ca de estados em s olidos submetidos a
processos de recozimento, da a denomina c ao do algoritmo.
Considere-se o problema de otimiza c ao irrestrita:
x
= arg min
x
f(x) (8.2)
sendo f() : R
n
R. Sup oe-se que, embora o problema seja irrestrito, sabe-
se a priori que as solu c oes de interesse provavelmente estar ao no interior de
uma esfera de raio e centro x
0
.
Denomina-se uma popula c ao um conjunto X =
_
x
1
x
2
. . . x
N
, com
x
i
R
n
. A avalia c ao da fun c ao objetivo nos pontos correspondentes aos ele-
mentos da popula c ao e organizada no vetor F =
_
f(x
1
) f(x
2
) . . . f(x
N
)
.
F(i) ir a designar o escalar f(x
i
) e X(i) ir a designar o vetor x
i
. As vari aveis
X e F receber ao ndices para designar a itera c ao ` a qual correspondem.
Sup oem-se disponveis as fun c oes:
randn(p, q): gera uma matriz de p linhas e q colunas, sendo cada
entrada da matriz um n umero aleat orio com distribui c ao Gaussiana,
media zero e vari ancia um.
rand(p, q): gera uma matriz de p linhas e q colunas, sendo cada entrada
da matriz um n umero aleat orio com distribui c ao uniforme entre 0 e 1.
O Algoritmo de Simulated Annealing e mostrado a seguir.
Algoritmo de Simulated Annealing
Entradas do algoritmo: , x
0
, N
0.9
para i 1 ate N fa ca
randn(n, 1)
X
0
(i) x
0
+
F
0
(i) f(X
k
(i))
m-para
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 172
H max([F
0
(1) F
0
(2)[, [F
0
(2) F
0
(3)[, . . . , [F
0
(N 1) F
0
(N)[)
j arg min
i
F
k
(i)
x
min
X
k
(j)
y x
min
q 1 , p 1
T 3
q
H
x y +
q
randn(n, 1)
se f(x) f(y)
y x
se f(x) < f(x
min
)
x
min
x
m-se
sen ao
= exp
_
f(y)f(x)
T
_
= rand(1, 1)
se
y x
m-se
m-se
p p + 1
se p > 100
p 1
q q + 1
m-se
m-enquanto
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 173
A vari avel T dentro do algoritmo faz a analogia com a temperatura
de um processo de recozimento, estando positivamente correlacionada com a
probabilidade de ocorrencia de transi c oes de estado.
8.3 Algoritmos Geneticos
Os Algoritmos Geneticos (AGs) utilizam um mecanismo de funcionamento
bastante distinto dos anteriormente apresentados. Tal mecanismo baseia-se
na ideia de mimetizar a evolu c ao natural dos seres vivos. Os AGs s ao carac-
terizados pela evolu c ao de um conjunto de solu c oes-tentativas (popula c ao),
segundo regras estoc asticas de busca e combina c ao que, levam de uma po-
pula c ao ` a seguinte, numa seq uencia de gera c oes. A existencia de tres regras
b asicas, ou operadores geneticos b asicos, dene um Algoritmo Genetico:
i. Um operador de cruzamento, que combina a informa c ao contida em
dois ou mais indivduos (ou seja, duas ou mais solu c oes-tentativas),
assim gerando outros indivduos;
ii. Um operador de muta c ao que, utilizando a informa c ao contida em um
indivduo, estocasticamente gera outro indivduo; e
iii. Um operador de sele c ao que, utilizando a avalia c ao da fun c ao objetivo
sobre todos os indivduos da popula c ao, produz replicas de alguns des-
ses indivduos e elimina outros indivduos, assim gerando a pr oxima
popula c ao.
Um Algoritmo Genetico pode ser construdo a partir dessas tres regras so-
mente, ou pode conter outros tipos de regras, tais como: nicho, busca local,
etc.
Como referencias para o estudo dos Algoritmos Geneticos, s ao indica-
dos os artigos tutoriais (Tanomaru 1995, K. F. Man & Kwong 1996, John-
son & Ramat-Semii 1997). O presente autor e colaboradores estudaram a
quest ao da eciencia dos AGs, sendo os resultados desses estudos relatados
em (Vasconcelos, Ramirez, Takahashi & Saldanha 2001, Takahashi, Vascon-
celos, Ramirez & Krahenbuhl 2003).
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 174
8.3.1 Algoritmo Genetico - Codica cao Binaria
Como exemplo de metodo pertencente ` a famlia dos Algoritmos Geneticos,
e aqui apresentada em primeiro lugar uma formula c ao comumente aplicada.
Por possuir codica c ao bin aria das vari aveis de otimiza c ao, tal algoritmo ser a
aqui denominado AG-B. A forma especca como encontra-se implementado
o AG-B, descrita a seguir, segue a referencia (Tanomaru 1995).
Algoritmo Genetico Binario (AG-B)
Cada par ametro de projeto e codicado segundo uma codica c ao bin aria
com 16 bits de comprimento, correspondendo ` a faixa de varia c ao desse
par ametro. O c odigo de um determinado indivduo e obtido pela con-
catena c ao das codica c oes correspondentes a cada um dos par ametros.
O algoritmo se inicia com a gera c ao aleat oria de um n umero N, (usu-
almente grande) de conjuntos de par ametros (ou indivduos) dentro da
faixa admissvel.
S ao realizadas em seq uencia as opera c oes de: cruzamento, muta c ao,
avalia c ao, c alculo da fun c ao de ajuste (tness function), sele c ao e
elitiza c ao, sendo gerada nova popula c ao com mesmo n umero de in-
divduos.
O algoritmo termina seja atingindo determinada condi c ao de termino,
seja excedendo o n umero m aximo permitido de itera c oes.
As opera c oes realizadas s ao denidas da seguinte forma:
Cruzamento: Divide-se a popula c ao em duas metades. Para cada par for-
mado, verica-se se vai ou n ao ocorrer cruzamento, com probabilidade
de ocorrencia de 0, 6. Caso v a ocorrer cruzamento, determina-se para
cada bit dos cromossomas, com probabilidade 0, 5, se esse bit ser a tro-
cado ou n ao. Caso seja trocado, os indivduos em quest ao cam cada
um com o bit correspondente do outro indivduo.
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 175
Muta cao: Determina-se para cada indivduo se o mesmo sofrer a ou n ao
muta c ao, com probabilidade igual a 0, 02. Caso v a ocorrer muta c ao,
escolhe-se com um gene (com igual probabilidade para todos os genes)
que ser a trocado por seu complemento.
Avalia cao: Cada indivduo e retornado ` a codica c ao no formato de um
vetor de par ametros reais, e ent ao avaliado na fun c ao objetivo.
Fun cao de Ajuste: A fun c ao objetivo e injetada na fun c ao de ajuste, dada
por (8.3), sendo obtido para cada indivduo um valor de fun c ao de
ajuste. Foi adotado um valor de = 1, 8.
Sele cao:

E realizada uma sele c ao de N indivduos dentre os N indivduos
existentes, sendo que cada indivduo pode ser selecionado mais de uma
vez. A probabilidade de um indivduo ser selecionado a cada vez e
igual ao valor da fra c ao de sua fun c ao de ajuste em rela c ao ` a soma das
fun c oes de ajuste de todos os indivduos.
Elitiza cao: Caso o melhor indivduo n ao tenha sido selecionado para a nova
popula c ao, ele e nela introduzido, com a exclus ao de um elemento qual-
quer, escolhido aleatoriamente.
Seja J o vetor das avalia c oes da fun c ao objetivo para os N indivduos da
popula c ao. A equa c ao da fun c ao de ajuste (FT) e dada por:
J = media(J)
J
M
= max(J)
J
m
= min(J)
v =
(J
m
J
M
)
( 1)
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 176
J
m
v
_
_
=

J
( 1)
(J
M

J)
=

J
(J
M

J)
(J
M

J)
J
m
< v
_
_
=
J
(J
M
J
m
)
=
JJ
m
(J
M
J
m
)
FT = J +
(8.3)
Exceto pelo formato da fun c ao de ajuste (8.3) (que foi proposta em
(Goldberg 1989)), o restante do algoritmo e constitudo de opera c oes-padr ao,
encontradas com grande freq uencia na literatura. Esse algoritmo, conforme
mostrado acima, foi utilizado em (Takahashi, Peres & Ferreira 1997).
8.3.2 Algoritmo Genetico - Codica cao Real - Polari-
zado
Outro algoritmo genetico, o qual foi proposto e vem sendo pesquisado pelo
presente autor, com bons resultados, e tambem apresentado a seguir: o Al-
goritmo Genetico Real-Polarizado (AG-RP).
O algoritmo AG-RP adota uma codica c ao real dos par ametros de oti-
miza c ao, e realiza ainda a opera c ao de cruzamento polarizado, que produz
como resultado da opera c ao de cruzamento entre dois indivduos (ancestrais)
dois novos indivduos, sendo que um desses tem maior probabilidade de se
encontrar pr oximo ao ancestral com melhor valor da fun c ao objetivo.
Algoritmo Genetico Real Polarizado (AG-RP)
Cada par ametro de projeto e descrito por uma vari avel real, sendo o
conjunto de par ametros armazenado em um vetor no espa co R
n
. Cada
indivduo corresponde a um vetor nesse espa co.
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 177
Existe uma faixa admissvel para cada um dos par ametros (ou seja,
para cada coordenada do vetor de par ametros), dentro da qual estar ao
localizados os respectivos componentes de todos os indivduos.
O algoritmo se inicia com a gera c ao aleat oria de um n umero N, (usu-
almente grande) de vetores (indivduos) dentro das faixas admissveis.
S ao realizadas em seq uencia as opera c oes de: cruzamento, muta c ao,
avalia c ao, c alculo da fun c ao de ajuste (tness function), sele c ao e
elitiza c ao, sendo gerada nova popula c ao com mesmo n umero de in-
divduos.
O algoritmo termina seja atingindo determinada condi c ao de termino,
seja excedendo o n umero m aximo permitido de itera c oes.
As opera c oes realizadas s ao denidas da seguinte forma:
Cruzamento: Divide-se a popula c ao em duas metades. Para cada par for-
mado, verica-se se vai ou n ao ocorrer cruzamento, com probabilidade
de ocorrencia de 0, 5. Caso v a ocorrer cruzamento, s ao gerados dois
novos indivduos segundo a lei:
x
g
= x
1
+ (1 )x
2
0, 1 < < 1, 1
sendo x
g
o novo indivduo gerado, x
1
e x
2
os indivduos ancestrais.
Deve-se observar neste caso a restri c ao de que:
J(x
2
) < J(x
1
)
sendo J() a fun c ao objetivo a ser minimizada. Para a gera c ao de ,
verica-se se o cruzamento ser a polarizado ou n ao-polarizado, sendo que
a probabilidade de ser polarizado e de 0,3. Caso n ao seja polarizado,
adota-se com distribui c ao uniforme de probabilidade dentro do inter-
valo de valores possveis para ambos os novos indivduos gerados. Caso
seja polarizado, para um dos novos indivduos escolhe-se:
= 1, 4
1
2
0, 2 (8.4)
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 178
sendo
1
e
2
escolhidas aleatoriamente e independentemente, com dis-
tribui c ao de probabilidade uniforme no intervalo [0, 1]. O outro in-
divduo sempre ser a escolhido sem polariza c ao. Cada novo indivduo
gerado est a portanto necessariamente sobre o segmento de reta que
contem x
1
a x
2
, com extremos localizados de forma a ultrapassar em
0, 1 os ancestrais. Esta opera c ao est a mostrada, em duas dimens oes,
na gura 8.1. Sendo denida dessa forma a opera c ao de cruzamento,
0.5 0.55 0.6 0.65 0.7 0.75 0.8
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
Figura 8.1: Opera cao de cruzamento no AG Real. Os indivduos ancestrais sao
marcados com (o). Os novos indivduos gerados podem estar em qualquer ponto
sobre o segmento de reta representado na gura, com equiprobabilidade.
torna-se possvel que os indivduos gerados estejam localizados fora das
faixas admissveis de par ametros. Caso isso ocorra, ainda e realizada
uma opera c ao de reex ao do indivduo para o interior da regi ao ad-
missvel. Essa opera c ao e denida como:
x
r
= x
L
+[x x
L
[
para reex ao no limite inferior, sendo x o indivduo que violava a res-
tri c ao, x
r
o resultado da reex ao, e x
L
o vetor de limites inferiores.
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 179
Para a reex ao no limite superior, a opera c ao e denida por:
x
r
= x
U
[x
U
x[
para x
U
o vetor de limites superiores, e as demais vari aveis com mesmo
signicado que anteriormente. A opera c ao de reex ao e mostrada, em
duas dimens oes, na gura 8.2.
-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
Figura 8.2: Opera cao de reexao no AG-RP. O indivduo inicial e marcado com (o),
e o indivduo resultante e marcado com (x).
Muta cao: Determina-se para cada indivduo se o mesmo sofrer a ou n ao
muta c ao, com probabilidade igual a 0, 02. Caso v a ocorrer muta c ao, e
somado ao indivduo x um vetor cujas componentes s ao dadas por:
i
= 0, 05
i
(x
R
)
i
sendo
i
um n umero aleat orio com distribui c ao gaussiana, media zero
e vari ancia um, e x
R
o vetor de diferen ca entre os m aximos e mnimos
dos par ametros:
x
R
= (x
U
x
L
)
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 180
Avalia cao: Cada indivduo e avaliado na fun c ao objetivo.
Fun cao de Ajuste: A fun c ao objetivo e injetada na fun c ao de ajuste, dada
por (8.3), sendo obtido para cada indivduo um valor de fun c ao de
ajuste. Foi adotado um valor de = 1, 8.
Sele cao:

E realizada uma sele c ao de N indivduos dentre os N indivduos
existentes, sendo que cada indivduo pode ser selecionado mais de uma
vez. A probabilidade de um indivduo ser selecionado a cada vez e
igual ao valor da fra c ao de sua fun c ao de ajuste em rela c ao ` a soma das
fun c oes de ajuste de todos os indivduos.
Elitiza cao: Caso o melhor indivduo n ao tenha sido selecionado para a nova
popula c ao, ele e nela introduzido, com a exclus ao de um elemento qual-
quer, escolhido aleatoriamente.
A opera c ao de cruzamento polarizado imita uma busca seguindo a dire c ao
de uma tendencia (com uma informa c ao semelhante ` a fornecida pelo gra-
diente), o que n ao e feito por nenhum operador genetico convencional, ao
mesmo tempo em que mantem a vantagem do AG de avaliar apenas a fun c ao
objetivo (sem nenhum c alculo de derivadas). No caso de ancestrais loca-
lizados pr oximos um ao outro, e realizado um passo semelhante ao do al-
goritmo do gradiente. Isso acelera a convergencia local para o otimo. No
caso de indivduos que se encontram distantes (possivelmente em bacias de
atra c ao diferentes), a opera c ao pode ser interpretada como a utiliza c ao de
uma informa c ao de tendencia de longa dist ancia. A utiliza c ao de tal tipo de
informa c ao n ao possui nenhum tipo de correlato nem em outros operadores
geneticos nem em algoritmos determinsticos.
O AG-RP foi utilizado nos trabalhos de p os-gradua c ao (Meneguim 1999,
Miranda 2000), e no artigo (Takahashi, Ramirez, Vasconcelos & Saldanha
2001), e teve seu desempenho avaliado em detalhe no artigo (Takahashi, Vas-
concelos, Ramirez & Krahenbuhl 2003). Esse algoritmo e ainda a base para
a formula c ao do Algoritmo Genetico Multiobjetivo, que ser a apresentado no
Captulo 12.
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 181
8.4 Sobre a Estrutura do AG-B e do AG-RP
Nesta se c ao
1
, uma serie de estudos s ao realizados, na tentativa de elucidar
quais s ao os mecanismos segundo os quais os algoritmos AG-B e AG-RP
produzem a convergencia de suas popula c oes para os pontos de otimo de
problemas de otimiza c ao.
Para o prop osito de testar o comportamento dos algoritmos analisados,
foram empregadas duas fun c oes-padr ao, uma fun c ao quadr atica convexa e a
fun c ao Rastrigin. A primeira se presta a simular o comportamento que seria
esperado em regi oes pr oximas a mnimos locais de fun c oes diferenci aveis.
A segunda consiste em uma fun c ao multimodal, que serve para avaliar o
comportamento do algoritmo diante da multiplicidade de mnimos locais. A
express ao dessas fun c oes e:
Fun c ao Quadr atica:
f = x
Q x
Q > 0
(8.5)
Fun c ao Rastrigin:
f =
n
i=1
(x
2
i
10 cos(2x
i
)) (8.6)
Os testes s ao inicialmente realizados em um espa co de dimens ao 2, de
forma que e possvel a visualiza c ao gr aca direta dos resultados (note-se
que a informa c ao relevante, neste caso, e a distribui c ao da popula c ao de
indivduos gerados no espa co de solu c oes). Para validar os resultados, s ao
realizados testes tambem em espa cos de dimens ao maior.
8.4.1 Resultados para o AG-B
Fun cao Quadratica
O AG-B foi executado para popula c oes de 100 indivduos, e 70 itera c oes
(gera c oes), para a fun c ao quadr atica acima denida com duas vari aveis, sendo
1
Os resultados de avalia c oes apresentados nesta se c ao foram mostrados na disserta c ao
de mestrado (Meneguim 1999).
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 182
a matriz Q dada por:
Q =
_
1 0.5
0.5 3
_
Foi considerando o espa co de solu c oes inicial com ambas as vari aveis entre
1.0 e +1.0. Os resultados da execu c ao do AG-B s ao mostrados na gura
8.3.
-0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5
-0.5
-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
0.5
Figura 8.3: Resultado da aplica cao do AG-B à fun cao quadratica de duas dimens oes.
Sao mostradas as curvas de nvel da fun cao, e a popula cao de solu c oes nas itera c oes
10 (o), 30 (x) e 70 (+).
Pode-se observar um curioso fen omeno: ` a medida em que prosseguem
as itera c oes, a popula c ao tende a se concentrar segundo determinados eixos,
paralelos aos eixos coordenados das vari aveis de otimiza c ao.
Para testar a conjectura de que tal concentra c ao da popula c ao ocorre
efetivamente segundo eixos paralelos aos eixos coordenados das vari aveis de
otimiza c ao, foi realizada a rota c ao da mesma fun c ao objetivo quadr atica, e
realizada nova otimiza c ao com o AG-B. Para relizar tal rota c ao, foi adotada
em lugar da matriz Q anteriormente denida a matriz:
Q =
_
3 0.5
0.5 1
_
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 183
A otimiza c ao foi realizada utilizando as mesmas condi c oes denidas para o
experimento anterior. Os resultados s ao mostrados na gura 8.4.
-0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5
-0.5
-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
0.5
Figura 8.4: Resultado da aplica cao do AG-B à fun cao quadratica de duas dimens oes
com rota cao de eixos. Sao mostradas as curvas de nvel da fun cao, e a popula cao de
solu c oes nas itera c oes 10 (o), 30 (x) e 70 (+).
Nesta gura, e necess aria a visualiza c ao de um detalhe pr oximo ao ponto
de otimo, para que seja possvel discernir a distribui c ao da popula c ao nal.
Isso e mostrado na gura 8.5.
Foi a seguir denida mais uma fun c ao quadr atica, agora com curvas de
nvel que s ao elipses com semi-eixos paralelos aos eixos coordenados das
vari aveis de otimiza c ao. Isso e obtido com:
Q =
_
3 0
0 1
_
Foi realizada novamente a otimiza c ao utilizando o AG-B nas mesmas condi c oes
anteriores. O resultado e mostrado na gura 8.6.
O fen omeno de concentra c ao da popula c ao segundo eixos paralelos aos
eixos coordenados das vari aveis de otimiza c ao se repete em ambos os casos.
Dessa forma, ca corroborada a hip otese que as dire c oes segundo as quais a
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 184
-0.1 -0.08 -0.06 -0.04 -0.02 0 0.02 0.04 0.06 0.08 0.1
-0.1
-0.08
-0.06
-0.04
-0.02
0
0.02
0.04
0.06
0.08
0.1
-0.01 -0.008 -0.006 -0.004 -0.002 0 0.002 0.004 0.006 0.008 0.01
-0.01
-0.008
-0.006
-0.004
-0.002
0
0.002
0.004
0.006
0.008
0.01
Figura 8.5: Detalhe ampliado da gura anterior. Os pontos sao marcados segundo a
gera cao a que pertencem: 10 (o), 30 (x) e 70 (+).
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 185
popula c ao se aglutina n ao dependem da fun c ao objetivo, dependendo apenas
das coordenadas utilizadas para representar tal fun c ao.
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 186
-0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5
-0.5
-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
0.5
-1 0 1 2 3 4 5 6 7 8 9
x 10
-3
-1
0
1
2
3
4
5
6
7
8
9
x 10
-3
Figura 8.6: Resultado da aplica cao do AG-B à fun cao quadratica de duas dimens oes
com semi-eixos paralelos aos eixos coordenados. Sao mostradas as curvas de nvel da
fun cao, e a popula cao de solu c oes nas itera c oes 10 (o), 30 (x) e 70 (+). No quadro
de baixo, e mostrado um detalhe da gura de cima.
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 187
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
Figura 8.7: Curvas de nvel da fun cao Rastrigin.
Para vericar a dependencia desse fen omeno em rela c ao ` a natureza da
fun c ao objetivo, e realizado um experimento com a fun c ao Rastrigin acima
denida, em duas dimens oes. As curvas de nvel dessa fun c ao est ao mostradas
na gura 8.7. Os limites das vari aveis s ao denidos em 4 e +4, sendo
utilizadas popula c oes de 100 indivduos e executadas 70 itera c oes.
Os resultados desse experimento est ao mostrados na gura 8.8. No gr aco
do alto, pode-se perceber por exemplo diversos indivduos da gera c ao 10
localizados pr oximos do eixo x
1
= 1, para valores diversos da vari avel x
2
.
E signicativo o fato de que isto ocorre para indivduos localizados em regi oes
de atra c ao de mnimos locais diferentes, o que representa mais um elemento a
indicar que esta ordena c ao da popula c ao n ao depende realmente da estrutura
da fun c ao objetivo, sendo causada pela estrutura do pr oprio algoritmo de
otimiza c ao. No gr aco de baixo, s ao visualizados indivduos pertencentes ` as
gera c oes 30 e 70, todos localizados em uma regi ao de atra c ao de um unico
mnimo local. O padr ao de ordenamento dos indivduos novamente se verica
aqui.
Pode-se notar, no conjunto de testes realizados, a ocorrencia de um
fen omeno de concentra c ao da popula c ao de indivduos em torno de alguns ei-
xos (com valores de coordenadas aproximadamente constantes). Tal fen omeno
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 188
n ao foi particularidade de uma fun c ao especca, tendo ocorrido para todos
os casos, mesmo sendo as fun c oes de naturezas bastante diversas.
Para tomar um exemplo em 3 dimens oes, foi executado ainda o AG-B
na otimiza c ao de uma norma H
2
de um sistema din amico de ordem 3. As
vari aveis de otimiza c ao s ao os tres valores de ganhos da matriz do controlador
por realimenta c ao est atica de estados. Para n ao introduzir neste momento
informa c oes que desviariam o leitor do cerne do problema aqui estudado,
limitamo-nos a informar que o problema em quest ao possui caractersticas
bastante distintas dos anteriores. O detalhamento do problema aqui apre-
sentado como exemplo ser a apresentado no captulo 4 desta disserta c ao. A
gura 8.9 mostra o espalhamento da popula c ao correspondente ` a gera c ao 70
obtida pelo AG-B, num gr aco tridimensional.
O mesmo padr ao de aglutina c ao das popula c oes segundo eixos paralelos
aos eixos coordenados e vericado nesse gr aco. Existe aglutina c ao segundo
todas as tres dire c oes coordenadas.
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 189
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
-0.1 -0.08 -0.06 -0.04 -0.02 0 0.02 0.04 0.06 0.08 0.1
0.9
0.92
0.94
0.96
0.98
1
1.02
1.04
1.06
1.08
1.1
Figura 8.8: Resultado da aplica cao do AG-B à fun cao Rastrigin de duas dimens oes.
10 (o), 30 (x) e 70 (+). No quadro de baixo, e mostrado um detalhe da gura de
cima.
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 190
-2
-1.5
-1
-0.5
0
0
1
2
3
4
5
0
0.5
1
1.5
2
2.5
Figura 8.9: Resultado da aplica cao do AG-B à otimiza cao da norma H
2
de um
sistema dinamico. O graco tridimensional mostra as tres variaveis do controlador por
realimenta cao completa de estados (o) e a proje cao de cada elemento desses no plano
K
3
= 0 (x).
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 191
Parece possvel, com base nos dados levantados, propor a seguinte con-
jectura:
Conjectura 8.1
`
A medida em que ocorre a sequencia de gera c oes em um
algoritmo genetico com codica c ao bin aria, as sucessivas popula c oes tendem
a se distribuir segundo padr oes que v ao se aproximando de eixos paralelos
aos eixos em que est ao representadas as vari aveis de otimiza c ao.
Se essa conjectura estiver correta, ser a possvel concluir que o AG-B en-
contra condi c oes favor aveis ` a sua execu c ao no caso de fun c oes com par ametros
aproximadamente desacoplados, isto e, fun c oes em que a otimiza c ao de cada
um dos par ametros possa ser feita independentemente da otimiza c ao dos de-
mais. Sendo particularmente adequado para tal classe de fun c oes, o AG-B
certamente tenderia a ter um desempenho pior quando essa hip otese de desa-
coplamento de par ametros n ao fosse verdadeira. Nesse caso, algoritmos que
n ao zessem buscas privilegiando as dire c oes paralelas aos eixos coordenados
tenderiam a ter um comportamento melhor.
Na tentativa de isolar as causas para o fen omeno observado, foram re-
alizados dois testes adicionais: o AG-B foi executado, para otimiza c ao da
mesma fun c a quadr` atica de duas vari aveis inicialmente empregada, com a
matriz Q dada por:
Q =
_
1 0.5
0.5 3
_
O AG-B foi executado para uma popula c ao de 100 indivduos e 70 itera c oes
(gera c oes), sendo considerado o espa co de solu c oes inicial com ambas as
vari aveis entre 1.0 e +1.0. Em uma das execu c oes, foi apenas desabilitada
a opera c ao de muta c ao, sendo os resultados desse experimento mostrados na
gura 8.10.
Na outra execu c ao foi desabilitada a opera c ao de cruzamento, sendo
tambem aumentada a probabilidade de muta c ao para 0.8. Os resultados
desse experimento s ao mostrados na gura 8.11.
Pode-se vericar que em ambos os casos continuou a ocorrer o fen omeno
de concentra c ao da popula c ao segundo eixos paralelos ` as coordenadas. Pa-
rece que a causa do mesmo est a associada ` a pr opria realiza c ao de opera c oes
sobre a representa c ao bin aria dos par ametros, que implica na transmiss ao das
caractersticas assim codicadas de um unico indivduo para v arios outros.
A opera c ao de cruzamento seria ent ao, nesse caso, respons avel pela
produ c ao de novos indivduos que estar ao provavelmente localizados em posi c oes
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 192
-0.04 -0.03 -0.02 -0.01 0 0.01 0.02 0.03 0.04
-0.04
-0.03
-0.02
-0.01
0
0.01
0.02
0.03
0.04
Figura 8.10: Resultado da aplica cao do AG-B à otimiza cao da fun cao quadratica,
com a opera cao de muta cao desabilitada.
coordenadas iguais ` as de ancestrais (em pelo menos uma coordenada).
Como a opera c ao de sele c ao faz o papel de reduzir a diversidade de in-
divduos, possivelmente replicando v arias c opias de indivduos com melhores
caractersticas, existe uma grande probabilidade de surgimento de grupos
de indivduos compartilhando determinadas coordenadas. Por outro lado
a muta c ao acima denida iria sempre produzir necessariamente novos in-
divduos que possuem pelo menos uma coordenada igual ` a de um indivduo
preexistente (que por sua vez possivelmente possui replicas), causando o
mesmo efeito.
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 193
-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
Figura 8.11: Resultado da aplica cao do AG-B à otimiza cao da fun cao quadratica,
com a opera cao de cruzamento desabilitada.
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 194
8.4.2 Resultados para o AG-RP
O algoritmo AG-RP foi desenvolvido ao longo do ano de 1998 exatamente a
partir da observa c ao do fen omeno vericado no algoritmo AG-B, de existencia
de uma premissa implcita em sua formula c ao de desacoplamento de vari aveis.
Tal premissa implcita seria indesej avel, em um algoritmo que tivesse o
prop osito de otimizar fun c oes n ao-lineares genericas. A observa c ao de que o
problema estaria associado intrinsecamente ao fato dos operadores geneticos
do AG-B serem construdos com base numa codica c ao bin aria levou ` a ten-
tativa de se trabalhar com uma codica c ao real. Considera c oes de velocidade
de convergencia e de robustez (conabilidade) levaram ` a concep c ao do ope-
rador de cruzamento real-polarizado, que veio a ser um elemento inovador
que determinou as propriedades mais importantes desse algoritmo. A seguir
e apresentada a bateria de testes que foi originalmente empregada para a
avalia c ao do desempenho do AG-RP.
Fun cao Quadratica
O AG-RP foi executado para popula c oes de 100 indivduos, e 70 itera c oes
(gera c oes), para a fun c ao quadr atica acima denida com duas vari aveis, sendo
a matriz Q dada por:
Q =
_
1 0.5
0.5 3
_
Foi considerando o espa co de solu c oes inicial com ambas as vari aveis entre
1.0 e +1.0. Os resultados da execu c ao do AG-RP s ao mostrados na gura
8.12.
Pode-se observar que neste caso a popula c ao tende a ter distribui c ao n ao
exatamente uniforme, porem ainda aproximadamente aleat oria, como no caso
do AG-R. Tambem aqui a distribui c ao dos indivduos tende a acompanhar
as curvas de nvel da fun c ao (isso e particularmente visvel na popula c ao
da gera c ao 10). Parece novamente que a distribui c ao dos indivduos est a
fortemente correlacionada com a estrutura geometrica da fun c ao objetivo que
est a sendo otimizada, sendo aparentemente independente das coordenadas
em que essa fun c ao se encontra representada. Existem portanto indcios de
que seria plausvel armar que a popula c ao gerada fornece uma descri c ao da
geometria da fun c ao objetivo na regi ao em que essa popula c ao est a localizada,
podendo ser utilizada para an alises aproximadas dessa geometria.
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 195
Fun cao Rastrigin
Foi tambem realizado um experimento com a fun c ao Rastrigin acima denida,
em duas dimens oes. Os limites das vari aveis s ao denidos em 4 e +4, sendo
utilizadas popula c oes de 100 indivduos e executadas 70 itera c oes.
Os resultados desse experimento est ao mostrados na gura 8.13. Tambem
neste caso se conrma a tendencia das popula c oes consecutivas acompanha-
rem a geometria das curvas de nvel, ocupando curvas correspondentes a
nveis menores (menor valor da fun c ao objetivo) ` a medida em que avan cam
as gera c oes. N ao ca aparente, tambem neste caso, nenhuma dependencia
da distribui c ao de indivduos nem rela c ao aos eixos coordenados nem em
rela c ao ` a estrutura do pr oprio algoritmo de otimiza c ao. Deve-se observar
que o AG-RP convergiu para o otimo global da fun c ao.
Desses experimentos, pode-se inferir que a propriedade de dispers ao espa-
cial aproximadamente uniforme das popula c oes aparentemente se preservou.
Pode-se inferir que e possvel utilizar o AG-RP, nas mesmas condi c oes que o
AG-R, para an alise da geometria da fun c ao objetivo em regi oes pr oximas ao
ponto de mnimo. A quest ao relevante que estabelece a escolha entre o AG-
RP e o AG-R e portanto a compara c ao entre as propriedades de convergencia
dos dois algoritmos.
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 196
-0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5
-0.5
-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
0.5
-0.05 -0.04 -0.03 -0.02 -0.01 0 0.01 0.02 0.03 0.04 0.05
-0.05
-0.04
-0.03
-0.02
-0.01
0
0.01
0.02
0.03
0.04
0.05
Figura 8.12: Resultado da aplica cao do AG-RP à fun cao quadratica de duas di-
mens oes. Sao mostradas as curvas de nvel da fun cao, e a popula cao de solu c oes nas
itera c oes 10 (o), 30 (x) e 70 (+). No quadro de baixo, e mostrado um detalhe do
graco acima, em regiao pr oxima ao ponto de otimo.
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 197
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
-0.1 -0.08 -0.06 -0.04 -0.02 0 0.02 0.04 0.06 0.08 0.1
-0.1
-0.08
-0.06
-0.04
-0.02
0
0.02
0.04
0.06
0.08
0.1
Figura 8.13: Resultado da aplica cao do AG-RP à fun cao Rastrigin de duas dimens oes.
10 (o), 30 (x) e 70 (+). No quadro de baixo, e mostrado um detalhe da gura de
cima.
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 198
8.4.3 Teste das Propriedades de Convergencia
Os algoritmos AG-B e AG-RP foram testados nalmente para a avalia c ao de
suas propriedades de convergencia. Para se testar o exato papel do opera-
dor de cruzamento real polarizado, foi feito um teste em que esse operador
se encontrava habilitado e outro em que este se encontrava desabilitado
2
,
dentro do AG-RP. Para designar o caso em que o operador real-polarizado
se encontrava desabilitado, o algoritmo resutante ser a aqui designado como
Algoritmo Genetico Real, e referido pela sigla AG-R.
Por propriedades de convergencia entende-se: (i) o fato de um algoritmo
convergir ou n ao para o mnimo global de uma fun c ao, e (ii) o n umero de
itera c oes necess arias para a convergencia, nos casos em que esta ocorre. Para
realizar a compara c ao das propriedades de convergencia dos algoritmos, fo-
ram empregadas as mesmas fun c oes quadr atica e Rastrigin anteriormente
denidas, a primeira em duas e cinco dimens oes, a ultima apenas em duas
dimens oes.
Para que a compara c ao fosse realizada em bases comuns para os tres algo-
ritmos, foi realizada uma bateria de testes sendo cada algoritmo empregado
para otimizar a mesma fun c ao diversas vezes. A seq uencia de testes envolveu:
1. gerar uma popula c ao inicial;
2. utilizar essa mesma popula c ao para inicializar os tres algoritmos;
3. para cada algoritmo, determinar se houve convergencia para o otimo
global, e qual o n umero de itera c oes necess ario para se atingir a con-
vergencia.
Essa seq uencia foi realizada diversas vezes para cada caso estudado, sendo
gerado um conjunto de dados que se pretende que permita comparar a capa-
cidade de convergencia dos algoritmos, em uma base estatstica.
Como criterio de convergencia, foi exigida uma dist ancia menor que ou
igual a 0, 001, para os problemas de duas dimens oes, e 0, 01 para os problemas
de cinco dimens oes, em rela c ao ao ponto de otimo x
(que corresponde em
todos os casos ` a origem das coordenadas), sendo tal dist ancia denida como:
(x) = max
i
[x
i
x
i
[ = max
i
[x
i
[ (8.7)
2
Desabilitar o operador real-polarizado signica realizar sempre apenas o cruzamento
n ao-polarizado, com sendo escolhido segundo uma probabilidade uniforme; ver esse
conceito na deni c ao do cruzamento.
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 199
Como criterio de n ao-convergencia, foi estabelecido que o algoritmo n ao teria
convergido caso tivessem ocorrido 1000 itera c oes (gera c oes) sem que fosse
satisfeito o criterio de convergencia.
Os resultados dos testes realizados s ao apresentados a seguir.
Fun cao Quadratica 2-D
A fun c ao quadr atica em duas dimens oes e dada por:
J(x) = x
Qx (8.8)
sendo a matriz Q dada por:
Q =
_
1 0.5
0.5 3
_
Foi empregada uma popula c ao de 100 indivduos. A regi ao de busca foi
denida pelos extremos:
X
ub
=
_
10
10
_
X
lb
=
_
10
10
_
Foram realizadas 30 execu c oes de cada algoritmo de otimiza c ao. A tabela
8.1 apresenta o n umero de itera c oes necess ario para cada algoritmo convergir
em cada caso executado.
Os dados da tabela 8.1 mostram que para o conjunto de execu c oes dos
algoritmos, apenas o algoritmo genetico bin ario n ao convergiu, uma unica
vez. Os algoritmos geneticos reais convergiram em todos os casos. Excluindo
o caso em que o AG-B n ao convergiu, s ao obtidas as seguintes medias do
n umero de itera c oes para a convergencia:
AG-B: 155, 52 itera c oes
AG-R: 154, 17 itera c oes
AG-RP: 53, 97 itera c oes
Esses resultados sugerem que, uma vez que a popula c ao j a se encontra
em uma regi ao localmente convexa pr oxima ao ponto de mnimo, o AG-B e o
AG-R possuem propriedades de convergencia aproximadamente equivalentes.
J a o AG-RP, nessas circunst ancias, converge muito mais rapidamente que os
anteriores.
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 200
AG-B AG-R AG-RP
240 46 28
182 48 66
75 174 82
116 25 76
110 209 51
51 89 72
71 17 49
84 123 89
183 124 54
77 171 35
92 113 78
1001 182 50
136 113 62
101 153 33
97 374 56
104 117 53
67 221 92
897 303 36
659 174 26
132 51 56
91 431 41
93 84 44
128 21 45
98 114 42
75 196 51
43 348 41
159 155 45
86 64 51
116 92 63
147 321 48
Tabela 8.1: N umero de itera c oes que foram necessarias para cada algoritmo atingir
a convergencia, para a fun cao quadratica de duas dimens oes e popula cao de 100
indivduos. As colunas correspondem aos dados de: AG-B (algoritmo genetico binario),
AG-R (algoritmo genetico real) e AG-RP (algoritmo genetico real polarizado). Cada
linha corresponde à execu cao dos tres algoritmos, para uma mesma popula cao inicial
gerada aleatoriamente.
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 201
Fun cao Quadratica 5-D
Para estudar a interferencia da dimensionalidade do problema em quest ao,
foi utilizada uma fun c ao quadr atica de cinco vari aveis. Tal fun c ao e dada
por:
J(x) = x
Qx (8.9)
sendo a matriz Q dada por:
Q =
_
_
1.6695 0.2023 0.8054 0.4637 0.3353
0.2023 2.5152 0.0935 0.6921 0.0628
0.8054 0.0935 2.9959 0.5379 0.5159
0.4637 0.6921 0.5379 1.8253 0.3957
0.3353 0.0628 0.5159 0.3957 2.5741
_
_
Essa ultima matriz possui autovalores iguais a:
=
_
2.8900 2.2500 1.4399 1.0000 4.0000
_
A otimiza c ao dessa fun c ao e apresentada na tabela 8.2. Os dados da tabela
8.2 mostram que, tambem neste caso, para o conjunto de execu c oes dos
algoritmos, apenas o algoritmo genetico bin ario n ao convergiu, uma unica
vez. Os algoritmos geneticos reais convergiram em todos os casos. Excluindo
o caso em que o AG-B n ao convergiu, s ao obtidas as seguintes medias do
n umero de itera c oes para a convergencia:
Esses resultados sugerem que, uma vez que a popula c ao j a se encontra em
uma regi ao localmente convexa pr oxima ao ponto de mnimo, o AG-R possui
convergencia um pouco mais acelerada que o AG-B. J a o AG-RP, tambem
nessas circunst ancias, converge muito mais rapidamente que os anteriores.
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 202
AG-B AG-R AG-RP
359 256 149
512 308 155
272 306 165
591 193 203
367 237 143
294 238 199
239 264 261
459 91 158
201 246 200
230 245 144
397 204 275
234 250 118
482 236 126
587 304 212
556 387 235
567 282 169
407 289 158
309 216 208
1001 183 193
386 178 127
364 215 220
134 219 209
370 236 138
177 139 157
376 351 164
253 304 238
760 290 190
407 178 127
558 167 251
318 270 221
Tabela 8.2: N umero de itera c oes que foram necessarias para cada algoritmo atingir
a convergencia, para a fun cao quadratica de cinco dimens oes e popula cao de 40 in-
divduos. As colunas correspondem aos dados de: AG-B (algoritmo genetico binario),
AG-R (algoritmo genetico real) e AG-RP (algoritmo genetico real polarizado). Cada
linha corresponde à execu cao dos tres algoritmos, para uma mesma popula cao inicial
gerada aleatoriamente.
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 203
Fun cao Rastrigin 2-D
Para estudar um problema com caractersticas de multimodalidade, foi uti-
lizada a fun c ao Rastrigin em duas dimens oes.
Neste conjunto de testes, pode-se observar que houve um n umero signi-
cativo de casos em que os tres algoritmos n ao convergiram para a solu c ao
otima global. O desempenho dos tres algoritmos foi:
AG-B: n ao-convergencia: 17 vezes (57%)
AG-R: n ao-convergencia: 11 vezes (37%)
AG-RP: n ao-convergencia: 5 vezes (17%)
Esses resultados mostram que houve neste teste uma clara superioridade do
AG-RP sobre os demais algoritmos, e uma pequena superioridade do AG-R
sobre o AG-B.
Considerando a media de itera c oes despendida por cada algoritmo nos
casos em que convergiu, obtem-se os seguintes resultados:
Entretanto, considerando apenas os casos em que todos os tres algoritmos
convergiram (apenas 08 casos), obtem-se:
Por alguma raz ao o AG-RP e o algoritmo de convergencia mais lenta den-
tre os tres na presente situa c ao, quando ocorre convergencia. O algoritmo
mais veloz parece ser o AG-R, com pequena diferen ca de velocidade de con-
vergencia em rela c ao ao AG-B. Entretanto, o AG-RP converge com muito
maior seguran ca que os outros dois algoritmos.
Esse resultado talvez possa ser explicado pelo fato de os algoritmos gene-
ticos reais possurem uma capacidade de extrapola c ao embutida na opera c ao
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 204
de cruzamento a qual, combinada com o operador de polariza c ao, permite
a considera c ao implcita de tendencias globais (de longo alcance) da fun c ao.
Essa propriedade n ao est a presente no AG-B devido ` a ausencia da capacidade
de extrapola c ao, nem no AG-R, devido ` a total aleatoriedade da extrapola c ao
nele realizada.
8.5 Metodologia de Avalia cao da Eciencia
de AGs
Existe
3
um grande n umero de operadores geneticos potencialmente plausveis
que poderiam dar origem a Algoritmos Geneticos que funcionassem adequa-
damente. Os operadores genetico b asicos podem ser implementados atraves
de uma crescente variedade de f ormulas, ver, por exemplo, (Choi & Oh
2000, Vasconcelos et al. 2001); e existe ainda um n umero crescente de ope-
radores adicionais, ver, por exemplo, (J. C. Potts & Yadav 1994, Sareni &
Krahenbuhl 1998). Essa situa c ao decorre do fato de que o estudo de estru-
turas de operadores e hoje em dia uma area de pesquisa fertil.
Infelizmente, na maioria dos casos, n ao existe uma justicativa analtica
para a escolha de uma estrutura de operador especca. A referencia (Naudts
& Kallel 2000) discute algumas diculdades associadas ` a tarefa de prever ana-
liticamente o desempenho de um AG especco. Sabe-se, entretanto, que es-
truturas especcas de operadores, com os respectivos ajustes dos par ametros
desses operadores, deveriam ser empregados para as diferentes classes de
problemas, para preservar a eciencia computacionaL do algoritmo quando
aplicado a tais classes (Wolpert & Macready 1997). As escolhas de cada
inst ancia de operador e dos valores para seus par ametros deveria ser reali-
zada, portanto, com base em avalia c oes empricas previas (Z. Michalewicz &
Stidsen 2000, Vasconcelos et al. 2001).
N ao existe rmemente estabelecida, ate hoje (incio de 2003), nenhuma
fonte de informa c ao integrativa para guiar tal escolha pelo usu ario. O tipo
de informa c ao usual que se encontra disponvel na literatura cai em uma das
seguintes categorias:
i. Tutorial: Algumas alternativas comuns de operadores s ao apresentadas
e alguns valores para seus par ametros s ao recomendados, sob a forma
3
A discuss ao apresentada nesta se c ao segue essencialmente a referencia (Takahashi,
Vasconcelos, Ramirez & Krahenbuhl 2003).
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 205
de largas faixas de valores. Esse e o caso, por exemplo, de (Tanomaru
1995, K. F. Man & Kwong 1996, Johnson & Ramat-Semii 1997).
ii. Avalia c ao de Algoritmo

Unico: Segue o esquema b asico de apresentar
um novo algoritmo e avaliar esse algoritmo contra algum algoritmo que
seja considerado cl assico ou usual. Nesta categoria se encontra,
por exemplo, o trabalho (J. C. Potts & Yadav 1994).
iii. Compara c ao de Operador

Unico: Compara diferentes alternativas de
implementa c ao de um certo operador, mantendo xados os demais ope-
radores. Em geral, o objetivo e fazer a apresenta c ao de uma nova estru-
tura de operador proposta. Um exemplo de trabalho nessa categoria e
(Schell & Wegenkittl 2001), que estuda especicamente operadores de
sele c ao.
iv. Estudos em Aplica c oes Especcas: Faz compara c oes e recomenda c oes,
em geral avaliando algoritmos distintos, especicamente relacionados
com uma certa aplica c ao. Um exemplo de tal tipo de trabalho e (Jain
& Zongker 1997).
Algumas quest oes sobre o que deveria ser considerado uma fonte de
informa c ao integrada para a escolha de AGs s ao:
i. As mais recentes e complexas estruturas de operadores deveriam ser
consideradas enquanto alternativas a serem analisadas, seja contra es-
truturas convencionais, seja umas contra as outras.
ii. Deve-se reconhecer tambem que alguns problemas podem apresentar
forte sensibilidade ao ajuste de par ametros, o que impede a usabili-
dade de largas faixas de valores de referencia enquanto guia para o
ajuste (Jain & Zongker 1997).
iii. Deve-se reconhecer tambem, por m, que os diferentes operadores n ao
s ao independentes entre si. Isso signica que, por exemplo, um opera-
dor de cruzamento que apresenta o melhor desempenho quando apli-
cado junto com determinado operador de muta c ao pode ser eventual-
mente suplantado por outro operador de cruzamento quando o operador
de muta c ao for mudado (Belmont-Moreno 2001).
A escolha de AGs adequados para aplica c oes especcas e uma tarefa com-
plexa que deveria ser estruturada de forma sistem atica, com os objetivos de
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 206
permitir o uso do conhecimento mais recente para a constru c ao de AGs es-
peccos, ao mesmo tempo mantendo o esfor co de desenvolvimento desses
AGs em um patamar razo avel.
8.5.1 Metodologia de Avalia cao
Um dos problemas a serem abordados aqui e denido como:
Deni cao 8.1 (Problema de Avalia cao de Algoritmos (PAA)) Dada
uma classe de problemas a serem tratados com um conjunto de operadores
geneticos, determinar os melhores algoritmos, considerando tanto o criterio
de m axima taxa de convergencia e mnima taxa de falha de convergencia.
Como o Problema de Avalia c ao de Algoritmos e denido em termos de

dois objetivos, sua solu c ao e denida como a solu c ao de um problema de oti-
miza c ao vetorial, e possui a forma de um conjunto de Pareto. Este conjunto e
denido a partir do conceito de domin ancia: uma solu c ao e dita ser dominada
se ela e pior que alguma outra solu c ao em pelo menos um dos objetivos, sem
ser melhor em nenhum outro objetivo. Este conceito ser a mais precisamente
discutido no pr oximo captulo. O conjunto de Pareto e o conjunto que n ao
contem nenhuma solu c ao dominada.
A deni c ao do outro problema a ser abordado e dada por:
Deni cao 8.2 (Problema de Avalia cao de Novo Algoritmo (PANA))
Dado um novo algoritmo e uma classe de problemas, comparar tal algoritmo
com os melhores algoritmos oriundos do PAA para tal classe, atribuindo ao
algoritmo o status de uma solu c ao melhorada ou de uma solu c ao dominada,
possivelmente atualizando o conjunto de melhores solu c oes disponvel.
O novo algoritmo, no PANA, deve ser comparado apenas com os algo-

ritmos pertencentes ao conjunto de Pareto que tiver sido encontrado atraves
do PAA. Isto signica que a base de dados de compara c oes pode descartar
a maioria das alternativas que tiverem sido consideradas no PAA, e manter
apenas as pertencentes ao conjunto de Pareto. Ap os a execu c ao do PANA,
tres coisas podem ocorrer:
i. O novo algoritmo n ao e melhor que os antigos. Ele e ent ao descartado,
e o conjunto de Pareto permanece com sua composi c ao anterior.
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 207
ii. O novo algoritmo revela-se n ao-dominado, mas tambem n ao domina
nenhum dos antigos algoritmos que j a se encontravam no conjunto de
Pareto. Neste caso, o novo algoritmo e includo no conjunto de Pareto,
que cresce.
iii. O novo algoritmo domina uma ou mais solu c oes que se encontravam
anteriormente no conjunto de Pareto. Ele e ent ao includo no conjunto
de Pareto, e os algoritmos dominados s ao excludos.
O esfor co computacional no PANA e associado apenas ` a avalia c ao das fun c oes
de teste realizadas pelo novo algoritmo. O esfor co associado ` a constru c ao do
conjunto de Pareto no PAA e re-utilizado (n ao e necess ario executar nova-
mente nenhum algoritmo j a testado).
A seguir s ao discutidos em detalhe os passos da metodologia proposta.
Sele cao de Fun c oes Analticas Representativas
A classe de problemas de interesse e possivelmente constituda de fun c oes
que n ao s ao expressas na forma de fun c oes analticas mas, ao contr ario,
s ao dadas por modelos de simula c ao que s ao difceis de avaliar. Este e o
caso, por exemplo, de modelos de dispositivos eletromagneticos (K. Rashid
& Freeman 2000). A quest ao de avaliar a usabilidade de GAs em uma classe
especca de problemas, entretanto, n ao depende da utiliza c ao factual de al-
guma fun c ao da classe para avaliar o algoritmo: e necess ario apenas que se
utilize alguma fun c ao que preserve algumas das caractersticas das fun c oes
de interesse pr atico (Z. Michalewicz & Stidsen 2000). Com esse procedi-
mento, uma fun c ao que e f acil de avaliar pode ser usada, o que torna factvel
executar um grande n umero de execu c oes do algoritmo para o prop osito de
realizar o teste. O trabalho (Z. Michalewicz & Stidsen 2000) apresenta proce-
dimentos para a constru c ao de fun c oes analticas com algumas propriedades
especicadas. Outra possvel maneira de se construirem modelos analticos
que apresentem as propriedades de sistemas mais complexos seria atraves de
alguma tecnica de aproxima c ao (K. Rashid & Freeman 2000).
No presente trabalho, a fun c ao de Rastrigin rotacionada e empregada,
com o prop osito de exemplicar a metodologia aqui proposta:
f(x) = x
T
A
T
Ax 10
_
1 1
cos(2Ax) (8.10)
sendo f() : R
n
R, A R
nn
uma matriz denida positiva e as demais
vari aveis tais que se mantenha a compatibilidade de dimens oes. Este e um
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 208
prot otipo simples de fun c ao multimodal com tendencias de larga escala e
coordenadas acopladas.
Base de Dados de AGs
Um conjunto de alternativas de operadores e denido na Tabela 8.4. As
alternativas s ao essencialmente aquelas descritas na referencia (Vasconcelos
et al. 2001). Cada vers ao do AG e testada com todas as fun c oes do conjunto
representativo, com duas guras de merito:
i. O n umero medio de avalia c oes da fun c ao objetivo necess arias para se
atingir o mnimo global; e
ii. A fra c ao das execu c oes do algoritmo que termina por encontrar o
mnimo global.
Cada uma dessas guras de merito e avaliada para um n umero (no caso do
exemplo aqui mostrado, 100) execu c oes do algoritmo.
Existem 864 diferentes inst ancias de AGs que podem ser formados por
combina c oes desses par ametros. As guras de merito s ao determinadas para
cada algoritmo e para cada fun c ao representativa. Uma base de dados e
ent ao composta, com a estrutura:
i
1
i
2
. . . i
k
f m
1
m
2
Os ndices i
1
, . . . , i
k
apontam para diferentes alternativas, dentre as k alter-
nativas que se encontram sob estudo. O ndice f identica uma fun c ao
representativa, e m
1
e m
2
s ao as resultantes guras de merito que vem da
aplica c ao do algoritmo denido por i
1
, . . . , i
m
` a otimiza c ao da fun c ao. No
caso estudado aqui, ondice i
2
, por exemplo, signica o operador de muta c ao,
e i
2
= 3 signica a op c ao de muta c ao do tipo um bit por indivduo.
Denindo m
1
e m
2
para todas as inst ancias de f como as fun c oes objetivo
de um problema de an alise multiobjetivo, e I = [i
1
, . . . , i
n
] o vetor de ndices
que identica uma inst ancia do AG, a base de dados e podada de acordo
com a lei:
A
= I
[ ,I ,= I
tal que (m
1
, f)(I) < (m
1
, f)(I
) e
(m
2
, f)(I) < (m
2
, f)(I
)
(8.11)
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 209
Ap os tal procedimento, a base de dados do conjunto de Pareto resultante,
A
, se torna muito menor que a base de dados inicial. Apenas os algoritmos

n ao dominados s ao mantidos nesta base de dados.
A fun c ao Rastrigin rotacionada foi testada para todas as 864 inst ancias de
AGs diferentes. As guras de merito resultantes encontram-se plotadas na
Figura 8.14. Essa gura mostra que, dentre os algoritmos que empregam esse
conjunto de operadores comuns, h a relativamente poucos que podem ser
considerados bons algoritmos, no sentido em que por exemplo, eles venham
a falhar em menos que 20% das execu c oes, e de que necessitem menos de 1000
avalia c oes da fun c ao objetivo para encontrar o ponto de mnimo.
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
500
1000
1500
2000
2500
3000
3500
PSfrag replacements
n ao-convergencia
a
v
a
l
i
a
c
o
e
s
d
a
f
u
n
c
a
o
Figura 8.14: Graco das guras de merito para os algoritmos compostos por com-
bina c oes de operadores comuns: n umero de avalia c oes da fun cao objetivo para a
convergencia (vertical) versus a fra cao de execu c oes que nao convergem (horizontal).
A fun cao e a Rastrigin rotacionada.
Por outro lado, existe um grande n umero de algoritmos que podem ser
muito ruins, no sentido em que, por exemplo, necessitem de mais de 2000
avalia c oes da fun c ao objetivo, ou falhem em mais de 50% das execu c oes. Este
resultado mostra que, se um algoritmo e comum, isso n ao signica que o
mesmo pode ser considerado um bom padr ao de compara c ao para avaliar
novos algoritmos.
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 210
O conjunto de Pareto e extrado desses dados, sendo mostrado na Figura
8.15. Esse conjunto e constitudo de apenas 25 algoritmos que s ao n ao-
dominados. Esses 25 algoritmos s ao sucientes para a compara c ao com
qualquer novo algoritmo sobre a mesma fun c ao de teste.
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
200
400
600
800
1000
1200
1400
PSfrag replacements
n ao-convergencia
a
v
a
l
i
a
c
o
e
s
d
a
f
u
n
c
a
o
Figura 8.15: Dois conjuntos de Pareto, formados apenas por operadores comuns
(), e de sua combina cao incluindo o novo operador de cruzamento real polarizado
(). Figuras de merito: n umero de avalia c oes da fun cao objetivo ate a convergencia
(vertical) versus a fra cao de execu c oes que nao convergem (horizontal). A fun cao e a
Rastrigin rotacionada.
Procedimentos de Avalia cao: Novo Operador e Novo Algoritmo
Para o teste de novos algoritmos (isto e, uma combina c ao especca de ope-
radores denidos), o procedimento a ser seguido e direto: avaliar o algoritmo
sobre a mesma fun c ao de teste, computando-se as duas guras de merito.
Feito isso, reavaliar o conjunto de Pareto, utilizando a equa c ao (12.3) para
incluir a informa c ao a respeito do novo algoritmo.
Para o teste de novos operadores, a quest ao se torna mais sutil: um ope-
rador (de cruzamento, por exemplo) deve ser combinado com outros opera-
dores (muta c ao e sele c ao, no mnimo) para dar origem a um AG execut avel.
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 211
Pergunta-se: ser a razo avel a heurstica de realizar o teste escolhendo bons
algoritmos anteriormente testados (que perten cam, portanto, ao conjunto de
Pareto anteriormente determinado), apenas substituindo o operador a ser tes-
tado nesses algoritmos? Isto signicaria, de alguma forma, que os operadores
seriam independentes uns dos outros. Ou, ao contr ario, seria necess ario
testar o novo operador dentro de outras combina c oes de operadores que n ao
pertencessem ao conjunto de Pareto anterior? Essa quest ao e respondida
a seguir, no contexto da avalia c ao do novo operador de cruzamento real-
polarizado.
O operador de cruzamento real-polarizado foi testado em todas as com-
bina c oes com os demais operadores da Tabela 8.4, o que signica 240 com-
bina c oes. O conjunto de Pareto extrado desses dados e mostrado na Figura
8.15, superposto ao conjunto de Pareto anteriormente obtido. O conjunto de
Pareto agora e constitudo de apenas 15 algoritmos que s ao n ao-dominados.
Comparando agora os dois conjuntos de Pareto: o algoritmo mais con avel
(que atinge mais vezes o otimo global), dentre os algoritmos comuns, falha
em 9% das execu c oes, e necessita de cerca de 1270 avalia c oes de fun c ao para
atingir o otimo. No conjunto do operador de cruzamento real polarizado, o
melhor algoritmo falha em apenas 2% das execu c oes, e necessita de menos de
1200 avalia c oes da fun c ao objetivo. Existe um algoritmo no conjunto do ope-
rador real polarizado que necessita de menos de 800 avalia c oes de fun c ao, e
falha em menos de 10% das execu c oes. O melhor algoritmo que necessita de
menos de 800 avalia c oes de fun c ao, no outro conjunto, falha em cerca de 30%
das execu c oes. O operador de cruzamento real-polarizado, para a fun c ao de
teste em quest ao, mostrou representar uma melhoria bastante signicativa
de desempenho, conduzindo tanto ao algoritmo mais r apido quanto ao mais
con avel, e gerando tambem a maioria das solu c oes intermedi arias de Pareto
(10 dos 15 algoritmos).
Infelizmente, a resposta ` a quest ao de serem os operadores independentes
entre si e: n ao. Inspecionando os 10 novos algoritmos que utilizam o operador
de cruzamento real-polarizado e comp oem o conjunto de Pareto atualizado,
constata-se que apenas dois deles puderam ser gerados pela substitui c ao do
operador de cruzamento em um dos 25 algoritmos que inicialmente cons-
tituam o conjunto de Pareto. Quase todos os novo algoritmos que passaram
a compor o conjunto de Pareto, neste caso, utilizam combina c oes de opera-
dores que n ao haviam anteriormente conduzido a solu c oes de Pareto.
Isso n ao signica que um operador n ao possa ser avaliado: os dados acima
claramente mostram que o operador de cruzamento real polarizado constitui
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 212
uma melhoria em rela c ao ` as alternativas anteriormente conhecidas (pelo me-
nos para a classe de problemas que compartilhar das caractersticas gerais da
fun c ao Rastrigin rotacionada). Entretanto, a tarefa de avalia c ao de opera-
dores deveria ser mais bem formulada que o procedimento padr ao, relatado
na maioria dos artigos sobre o assunto, que implicitamente depende da inde-
pendencia entre operadores.
Metodos de busca por popula c oes podem lidar de duas formas b asicas com
restri c oes: (i) atraves de penalidades; ou (ii) impedindo a incorpora c ao
` a popula c ao de indivduos que violam restri c oes. No primeiro caso, o pro-
blema de otimiza c ao pode envolver a busca de regi oes factveis em seu incio
(problema de factibilidade). No segundo caso, parte-se da premissa que a fac-
tibilidade pode ser resolvida a priori, seja analiticamente, seja por meio de
uma busca aleat oria que conduza com alta probabilidade a pontos factveis.
8.7 Caractersticas de Comportamento
O comportamento dessa categoria de metodos frente a algumas diculdades
que ir ao surgir com freq uencia em problemas de otimiza c ao de tipo geral e
agora discutido.
8.7.1 Descontinuidades e Nao-Diferenciabilidade
Esta famlia de metodos n ao faz uso de informa c ao nem de gradiente nem de
subgradiente. N ao h a, portanto, nenhuma diculdade associada ` a possvel
n ao-diferenciabilidade dos funcionais que denem o problema.
A principal justicativa para o desenvolvimento dos metodos de popula c oes
e precisamente a possibilidade de tratar de problemas multimodais. De fato,
esta famlia de metodos e a que mais se aproxima do conceito de algoritmo
de otimiza c ao para problemas genericos. H a entretanto algumas limita c oes
que s ao fundamentais:
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 213
Os algoritmos tendem a convergir para otimos que s ao globais na
regi ao em que foi distribuda a popula c ao inicial de pontos. Os mecanis-
mos de otimiza c ao envolvidos, embora possam conduzir ` a convergencia
para pontos distantes da regi ao em que se encontrava a popula c ao ini-
cial, fazem isso ` a custa de grande esfor co computacional e dependendo
de alguma sorte (ou seja, com baixa probabilidade de acerto).
Mesmo na pr opria regi ao em que estava distribuda a popula c ao ini-
cial, podem existir otimos globais com baixa probabilidade de serem
encontrados, ou seja, que estejam em uma bacia de atra c ao muito
pequena.
Ainda que os otimos globais sejam f aceis de ser encontrados, ou seja,
estejam localizados dentro da regi ao em que se encontra a popula c ao
inicial e estejam dentro de uma grande bacia de atra c ao, e possvel
(embora com baixa probabilidade) que os algoritmos de popula c oes
venham a n ao convergir para esses otimos.
8.7.3 Velocidade de Convergencia
Em problemas nos quais s ao aplic aveis todas as tres famlias de metodos
de otimiza c ao, os metodos de popula c oes s ao os mais inecientes, isto e,
s ao aqueles que necessitam de maior esfor co computacional para atingir os
mesmos resultados. Este e o pre co da maior generalidade desses metodos.
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 214
AG-B AG-R AG-RP
596 1001 707
109 25 875
30 76 32
70 48 38
125 1001 1001
1001 147 841
1001 1001 875
182 1001 1001
1001 29 42
1001 1001 763
1001 135 1001
1001 1001 426
1001 109 104
49 186 68
97 1001 45
1001 98 36
1001 122 40
97 115 236
1001 37 853
96 32 476
1001 1001 48
1001 1001 25
1001 68 1001
1001 107 1001
1001 143 405
31 68 49
1001 1001 81
81 1001 24
305 29 277
1001 810 595
Tabela 8.3: N umero de itera c oes que foram necessarias para cada algoritmo atingir a
convergencia, para a fun cao Rastrigin de duas dimens oes e popula cao de 40 indivduos.
As colunas correspondem aos dados de: AG-B (algoritmo genetico binario), AG-R
(algoritmo genetico real) e AG-RP (algoritmo genetico real polarizado). Cada linha
corresponde à execu cao dos tres algoritmos, para uma mesma popula cao inicial gerada
aleatoriamente.
CAP
ITULO 8. OTIMIZAC

AO POR POPULAC

OES 215
Tabela 8.4: Alternativas de Operadores.
fator ssga 1 1
2 0.8
3 0.5
4 0
muta c ao 1 cada bit
2 bit por vari avel
3 bit por indivduo
cruzamento 1 um ponto
2 dois pontos
3 um ponto por vari avel
4 uniforme
sele c ao 1 roleta
2 amostragem determinstica
3 amostr. resto estoc astico
elitismo 1 simples
2 global
tamanho popula c ao 1 30
2 100
3 300
Captulo 9
Exerccios - Otimiza cao Escalar
1. Estabele ca algumas condi c oes sob as quais o metodo de c alculo do
gradiente por diferen cas nitas ir a fornecer dire c oes (contr arias ` a do
gradiente calculado) que se dirigir ao estritamente para o interior da
regi ao de sub-nvel corrente da fun c ao. (Ou seja, xe premissas, tais
como de diferenciabilidade, convexidade, quasi-convexidade, Lipschitz,
etc, e relacione as mesmas com a propriedade desejada).
2. Mostre a execu c ao de 1 passo do algoritmo de busca pelo gradiente na
fun c ao:
f(x) = 2x
2
1
+ x
2
2
a partir do ponto:
x[k] =
_
1
1
_
3. Mostre a execu c ao de 1 passo do algoritmo de busca pelo gradiente na
fun c ao:
f(x) = 2x
2
1
+[x
2
[
a partir do ponto:
x[k] =
_
1
1
_
216
CAP
ITULO 9. EXERC
ICIOS - OTIMIZAC

AO ESCALAR 217
4. Dada uma fun c ao cujas curvas de nvel s ao mostradas na gura a seguir,
esbo car gracamente dois passos do algoritmo de busca pelo gradiente
iniciando no ponto marcado com *.
-3 -2.8 -2.6 -2.4 -2.2 -2 -1.8 -1.6 -1.4 -1.2 -1
-3
-2.8
-2.6
-2.4
-2.2
-2
-1.8
-1.6
-1.4
-1.2
-1
5. Considere o problema (irrestrito) de otimiza c ao:
f(x) = x
Ax
sendo:
A =
_
1
3
0
0
1
2
_
(a) Calcule o gradiente f(x) no ponto:
x
0
=
_
1
1
_
CAP
ITULO 9. EXERC
ICIOS - OTIMIZAC

AO ESCALAR 218
(b) Calcule o mnimo obtido em uma busca unidimensional na dire c ao
f a partir do ponto x
0
.
(c) Calcule o vetor:
d = A
1
f(x
0
)
(d) Determine o mnimo obtido em uma busca unidimensional na
dire c ao f a partir do ponto x
0
.
6. Escreva o algoritmo (em pseudo-c odigo) de busca unidimensional do
mnimo de uma fun c ao de uma unica vari avel, utilizando o metodo da
bisse c ao ou o metodo da se c ao aurea.
7. Escreva o algoritmo (em pseudo-c odigo) de determina c ao do gradiente
de uma fun c ao atraves de diferen cas nitas.
8. Escreva o algoritmo (em pseudo-c odigo) de otimiza c ao pelo metodo do
gradiente, supondo que est ao disponveis as rotinas:
gradiente - rotina de determina c ao do gradiente de uma fun c ao;
unidir - rotina de minimiza c ao unidimensional de uma fun c ao.
9. Escreva o algoritmo (em pseudo-c odigo) de otimiza c ao pelo metodo de
Newton, supondo que est ao disponveis as rotinas:
gradiente - rotina de determina c ao do gradiente de uma fun c ao;
hessiana - rotina de determina c ao da hessiana de uma fun c ao;
unidir - rotina de minimiza c ao unidimensional de uma fun c ao.
CAP
ITULO 9. EXERC
ICIOS - OTIMIZAC

AO ESCALAR 219
10. Discuta em que condi c oes podem falhar:
(a) O metodo da se c ao aurea de minimiza c ao unidimensional;
(b) O metodo do gradiente de minimiza c ao de fun c oes;
(c) O metodo de diferen cas nitas de c alculo de gradientes.
Para cada situa c ao acima mostre um exemplo de caso onde ocorre a
falha.
11. Analise o algoritmo abaixo de minimiza c ao de uma fun c ao f(x):
incio
k 0
x
k
x
0
enquanto n ao parada
d vetor aleat orio
arg min
f(x
k
d)
x
k
x
k
d
k k + 1
m-enquanto
m
(9.1)
Discuta se esse algoritmo e capaz de determinar o mnimo da fun c ao.
12. Considere o problema de otimiza c ao:
f(x) = x
2
1
x
2
2
com as restri c oes:
_
_
x
1
+ x
2
< 3
x
1
< 2
x
1
> 0
x
2
> 0
CAP
ITULO 9. EXERC
ICIOS - OTIMIZAC

AO ESCALAR 220
(a) Esboce a regi ao factvel e algumas curvas de nvel da fun c ao ob-
jetivo.
(b) Marque no esbo co o ponto solu c ao do problema.
(c) Mostre gracamente que as condi c oes de Kuhn-Tucker s ao satis-
feitas no ponto de otimo.
13. Seja o problema denido por:
x
= arg min
x
5x
1
sujeito a:
_
_
_
x
1
+ x
2
0
x
2
1
+ x
2
2
4 0
(a) Esbo car a regi ao factvel do problema.
(b) Determinar qual e o ponto de mnimo do problema.
(c) Escrever uma fun c ao de barreira que poderia ser utilizada para a
determina c ao numerica do otimo do problema.
(d) Escrever uma fun c ao de penalidade que poderia ser utilizada para
a determina c ao numerica do otimo do problema.
(e) Vericar gracamente a condi c ao de Kuhn-Tucker no ponto de
otimo.
(f) Vericar, em outro ponto da fronteira da regi ao factvel, que a
condi c ao de Kuhn-Tucker n ao se verica.
14. Seja o problema denido por:
x
= arg min
x
x
1
+ x
2
sujeito a:
_
_
(x
1
3)
2
+ (x
2
3)
2
9 0
x
2
1
+ (x
2
3)
2
9 0
3 x
2
0
CAP
ITULO 9. EXERC
ICIOS - OTIMIZAC

AO ESCALAR 221
(a) Esbo car a regi ao factvel do problema e algumas curvas de nvel
da fun c ao objetivo.
(b) Determinar qual e o ponto de mnimo do problema.
(c) Escrever uma fun c ao de penalidade que poderia ser utilizada para
a determina c ao numerica do otimo do problema.
(d) Vericar gracamente a condi c ao de Kuhn-Tucker no ponto de
otimo.
(e) Vericar, em outro ponto da fronteira da regi ao factvel, que a
condi c ao de Kuhn-Tucker n ao se verica.
Bibliograa
Ackley, D. H., Hinton, G. E. & Sejnowski, T. J. (1985). A learning algorithm
for Boltzman Machines, Cognitive Science 9: 147169.
Akg ul, M. (1984). Topics in Relaxation and Ellipsoidal Methods, number 97
in Research Notes in Mathematics, Pitman Publishing Inc., London,
UK.
Belmont-Moreno, E. (2001). The role of mutation and population size in
genetic algorithms applied to physics problems, International Journal
of Modern Physics C 12(9): 13451355.
Bland, R. G., Goldfarb, D. & Todd, M. J. (1981). The ellipsoid method: a
survey, Operations Research 29(6): 10391091.
Cao, Y.-Y., Lam, J. & Sun, Y.-X. (1998). Static output feedback stabiliza-
tion: an ILMI approach, Automatica 34(12): 16411645.
Chankong, V. & Haimes, Y. Y. (1983). Multiobjective Decision Making:
Theory and Methodology, North-Holland (Elsevier), New York.
Chen, B. S., Cheng, Y. M. & Lee, C. H. (1995). A genetic approach to
mixed H
/H
2
optimal PID control, IEEE Control Systems Magazine
15(5): 5160.
Chen, C. T. (1984). Linear System Theory and Design, Hartcourt Brace
College Pub.
Choi, D. H. & Oh, S. Y. (2000). A new mutation rule for evolutionary pro-
gramming motivated from backpropagation learning, IEEE Transacti-
ons on Evolutionary Computation 4(2): 188190.
308
BIBLIOGRAFIA 309
Dias-Filho, W. (2003). Algoritmos Cone-Elipsoidais para Gera c ao de
Solu c oes Ecientes: Constru c ao e Aplica c oes, PhD thesis, Programa
de P os-Gradua c ao em Engenharia Eletrica da Universidade Federal de
Minas Gerais, Belo Horizonte, MG.
Dorigo, M., Maniezzo, V. & Colorni, A. (1996). Ant system: optimization
by a colony of cooperating agents, IEEE Trans. Sys. Man Cyb. - Part
B 26(1): 2941.
Dziuban, S. T., Ecker, J. G. & Kupferschmid, M. (1985). Using deep cuts
in an ellipsoidal algorithm for nonlinear programming, Math. Program.
Study 25: 93107.
Goldberg, D. E. (1989). Genetic Algorithms in Search, Optimization and
Machine Learning, Addison-Wesley.
J. C. Potts, T. D. G. & Yadav, S. B. (1994). The development and eva-
luation of an improved genetic algorithm based on migration and ar-
ticial selection, IEEE Transactions on Systems, Man and Cybernetics
24(1): 7386.
Jain, A. & Zongker, D. (1997). Feature selection: evaluation, application,
and small sample performance, IEEE Transactions on Pattern Analysis
and Machine Intelligence 19(2): 153158.
Johnson, J. M. & Ramat-Semii, Y. (1997). Genetic algorithms in engineering
electromagnetics, IEEE Antennas and Propagation Magazine 39(4): 7
25.
K. F. Man, K. S. T. & Kwong, S. (1996). Genetic algorithms: concepts and
applications, IEEE Transactions on Industrial Electronics 43(5): 519
534.
K. Rashid, J. A. R. & Freeman, E. M. (2000). A general approach for extrac-
ting sensitivity analysis from a neuro-fuzzy model, IEEE Transactions
on Magnetics 36(4): 10661070.
Khargonekar, P. P. & Rotea, M. A. (1991). Mixed H
2
/H
control: a con-
vex optimization approach, IEEE Transactions on Automatic Control
36(7): 824837.
BIBLIOGRAFIA 310
Luenberger, D. G. (1984). Linear and Nonlinear Programming, Addison-
Wesley.
Meneguim, R. A. (1999). An alise da sensibilidade de solu c oes em oti-
miza c ao atraves de elips oides mnimos, Masters thesis, Programa de
P os-Gradua c ao em Engenharia Eletrica da Universidade Federal de Mi-
nas Gerais, Belo Horizonte, MG.
Miranda, M. F. (2000). Controle Multivari avel na Presen ca de Incertezas,
PhD thesis, Programa de P os-Gradua c ao em Engenharia Eletrica da
Universidade Federal de Minas Gerais, Belo Horizonte, MG.
Naudts, B. & Kallel, L. (2000). A comparison of predictive measures of
problem diculty in evolutionary algorithms, IEEE Transactions on
Evolutionary Computation 4(1): 115.
Popper, K. R. (1974). A L ogica da Pesquisa Cientca (trad.), Ed. Cultrix.
(Logic der Forschung, 5a. ed. 1973; 1a. ed. 1934).
Rudin, W. (1991). Functional Analysis, McGraw-Hill.
Saldanha, R. R., Takahashi, R. H. C., Vasconcelos, J. A. & Ramirez, J. A.
(1999). Adaptive deep-cut method in ellipsoidal optimization for electro-
magnetic design, IEEE Transactions on Magnetics, Part I 35(3): 1746
1749.
Sareni, B. & Krahenbuhl, L. (1998). Fitness sharing and niching methods
revisited, IEEE Transactions on Evolutionary Computation 2(3): 97
106.
Schell, T. & Wegenkittl, S. (2001). Looking beyond selection probabilities:
adaptation of the
2
measure for the performance analysis of selection
methods in GAs, Evolutionary Computation 9(2): 243256.
Scherer, C., Gahinet, P. & Chilali, M. (1997). Multiobjective output-feedback
control via LMI optimization, IEEE Transactions on Automatic Control
42(7): 896911.
Shah, S., Mitchell, J. E. & Kupferschmid, M. (2001). An ellipsoid algorithm
for equality-constrained nonlinear programs, Computers and Operations
Research 28: 8592.
BIBLIOGRAFIA 311
Shimomura, T. & Fujii, T. (2000). Multiobjective control design via suces-
sive over-bounding of quadratic terms, Proceedings of the 39th IEEE
Conference on Decision and Control, Sydney, Australia, pp. 27632768.
Takahashi, R. H. C., Palhares, R. M., Dutra, D. A. & Gon calves, L. P. S.
(2001). Synthesis and characterization of Pareto-optimal solutions for
the mixed H
2
/H
control problem, Proceedings of the 40th IEEE Con-

ference on Decision and Control, Orlando, FL, USA, pp. 39974002.
Takahashi, R. H. C., Peres, P. L. D. & Ferreira, P. A. V. (1997). Multi-
objective H
2
/H
guaranteed cost PID design, IEEE Control Systems

Magazine 17(5): 3747.
Takahashi, R. H. C., Ramirez, J. A., Vasconcelos, J. A. & Saldanha, R. R.
(2001). Sensitivity analysis for optimization problems solved by stochas-
tic methods, IEEE Transactions on Magnetics 37(5): 34143417.
Takahashi, R. H. C., Saldanha, R. R., Dias-Filho, W. & Ramirez, J. A.
(2003). A new constrained ellipsoidal algorithm for nonlinear opti-
mization with equality constraints, IEEE Transactions on Magnetics
39(3): 12891292.
Takahashi, R. H. C., Vasconcelos, J. A., Ramirez, J. A. & Krahenbuhl, L.
(2003). A multiobjective methodology for evaluating genetic operators,
IEEE Transactions on Magnetics 39(3): 13211324.
Tanomaru, J. (1995). Motiva c ao, fundamentos e aplica c oes de algoritmos
geneticos, Anais do II Congr. Bras. de Redes Neurais, Vol. 1, Curitiba,
PR, Brasil.
Vasconcelos, J. A., Ramirez, J. A., Takahashi, R. H. C. & Saldanha, R. R.
(2001). Improvements in genetic algorithms, IEEE Transactions on
Magnetics 37(5): 34143417.
Vidyasagar, M. (1993). Nonlinear Systems Analysis, Prentice-Hall.
Viennet, R., Fonteix, C. & Marc, I. (1996). Multicriteria optimization
using a genetic algorithm for determining a Pareto set, Int. J. Sys. Sci.
27(2): 255260.
BIBLIOGRAFIA 312
Wolpert, D. H. & Macready, W. G. (1997). No free lunch theorems for opti-
mization, IEEE Transactions on Evolutionary Computation 1(1): 6782.
Z. Michalewicz, K. Deb, M. S. & Stidsen, T. (2000). Test-case generator for
nonlinear continuous parameter optimization techniques, IEEE Tran-
sactions on Evolutionary Computation 4(3): 197215.

Otimizacao Escalar e Vetorial Vol 2

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Otimizacao Escalar e Vetorial Vol 2

Загружено:

Авторское право:

Доступные форматы

Universidade Federal de Minas Gerais

, que o sistema pode assumir, ou

e igual ao argumento da fun c ao f() que faz

? Esse e o assunto deste livro.

= arg min f(x) (5.6)

, o interior de uma unica bacia

, cuja localiza cao ainda nao e conhecida, encontra-se abaixo da

nao se encontra abaixo da

= arg min f(x)

a ser determinado deve satisfazer ` as m desigualdades:

que minimiza a fun c ao objetivo f() nos pontos pertencentes ao conjunto

T (ou seja, pertencente ` a regi ao

= arg min f(x)

. Sao mostrados os vetores gradientes da

a ser determinado deve satisfazer ` as p equa c oes:

, obtem-se uma seq uencia x

a partir do algoritmo de otimiza c ao. A famlia dos algoritmos de dire c ao de

ao: A subrotina de minimiza c ao unidimensional embutida no

haver a possveis dire c oes d

. De qualquer forma, este e um

Por essa f ormula analtica, sabe-se que no ponto x

Utilizando-se o algoritmo de diferen cas nitas, para = 0.0001, obtem-se a esti-

Deve-se notar que o Algoritmo do Gradiente n ao utiliza nenhuma informa c ao

. Sejam ainda dois pontos x

n ao se encontra no intervalo [a, x

ao: Tome-se o intervalo [a, x

A fun c ao f(x), tomada a partir do ponto x

A fun c ao unidimensional ca:

Com o algoritmo da se c ao aurea, obtem-se uma estimativa do ponto de mnimo

Estabiliza cao do vetor de variaveis de otimiza cao

Anula cao do Vetor Gradiente

Nesse ponto, a fun c ao exibe o valor f(x

) = 0.25. A minimiza c ao dessa fun c ao

para todo ponto inicial x

ao: As condi c oes para a validade do teorema da convergencia

, podem ocorrer duas

6.4 Aproxima c oes Quadraticas

. A aproxima c ao e feita ao redor de um ponto x

, pois toda fun c ao dessa

A Hessiana e dada por:

O ponto de mnimo da fun c ao, x

, no qual o gradiente se anula, e dado por:

Essa fun c ao pode ser reescrita, de maneira exata, como:

que e o resultado esperado.

A Hessiana e dada por:

Um mnimo local dessa fun c ao ocorre para x

, ponto para o qual o

Tome-se um ponto pr oximo a tal mnimo local, por exemplo x

Embora x n ao seja exatamente igual a x

, pode-se observar que a aproxima c ao

um mnimo local estrito dessa fun c ao. Sob tais

H a a necessidade de diferenciabilidade innita de f() neste caso, ao

um mnimo estrito. Ent ao o Algoritmo de Newton Modicado

para todo ponto inicial x

, podem ocorrer tres situa c oes:

E mostrado inicialmente o algoritmo mais simples possvel para realizar o

ao: Por constru c ao, a rela c ao e v alida para i = k. Tome-se algum

Convergencia do Algoritmo de Corre cao de Posto 1

. J a o Algoritmo Quasi-Newton DFP converge para o

, obtem-se uma seq uencia x

a partir do algoritmo de otimiza c ao. Dene-se ainda uma regi ao inicial Q

. Dene-se ainda H(g, x)

7.2 Metodos de Planos de Corte

Nota 7.3 Um problema que afeta a eciencia computacional dos algoritmos de