Вы находитесь на странице: 1из 18

Dilema do Prisioneiro e

Dinmicas Evolucionrias

Eleutrio F. S. Prado Professor da FEA-USP

RESUMO
Para discutir jogos evolucionrios baseados no dilema do prisioneiro apresentam-se, de
incio, as concluses bem conhecidas do teorema popular no contexto de jogos
repetidos. Em seqncia, mencionam-se as premissas e os resultados mais importantes
do estudo pioneiro de Axelrod sobre a evoluo da cooperao. Exploram-se, depois,
trs modelos evolucionrios que consideram estratgias mais complicadas do que a
simples repetio da ao de cooperao ou de defeco. Os indivduos que as
adotam so tirados de uma populao homognea para participar de competies
bilaterais. A seqncia de modelos busca encontrar aquelas estratgias que apresen-
tam maior capacidade de sobrevivncia. O objetivo, entretanto, no confirmar as
principais concluses de Axelrod, mas mostrar que elas no se sustentam.

PALAVRAS-CHAVE
jogo evolucionrio, dilema do prisioneiro, evoluo da cooperao, estratgia de
retaliao

ABSTRACT
In order to discuss evolutionary games based on the prisoner dilemma, first of all, the
paper presents the well-known folk theorem conclusions on the repeated game context.
Thus, it mentions the main assumptions and outcomes reached by Axelrods study on the
evolution of cooperation. Then, the paper analyses three evolutionary models that takes
in account strategies more complexes than the simple ones based on the repetition of
the same cooperation or defection actions. The individuals drawn from a homogenous
population adopt these strategies and participate in pairwise contests. The sequence of
models looks for strategies that have more surviving capabilities. The main objective is
not to show that Axerods conclusions are right, but, on the contrary, it is to demonstrate
that they are wrong.

KEY WORD
evolutionary game, prisoner dilemma, cooperation evolution, retaliation strategy

EST. ECON., SO PAULO, V. 29, N. 2, P. 249-266, ABRIL-JUNHO 1999


250 Dilema do Prisioneiro e Dinmicas Evolucionrias

INTRODUO

O dilema do prisioneiro tem atrado a ateno dos pesquisadores em cincia social


por retratar, de modo penetrante, uma situao paradoxal: a busca do melhor por
parte de cada jogador produz um resultado no timo do ponto de vista do
conjunto dos jogadores. A anlise de situao que propicia tem sido considerada
relevante em economia, cincia poltica, filosofia moral etc. Ademais, ele tem sido
extensamente explorado na anlise de muitas alternativas teoricamente importantes
para o desenvolvimento da teoria dos jogos, tais como a interao repetida, a
informao assimtrica, a limitao da racionalidade etc. Em conseqncia, merece
ser tambm analisado por meio dinmicas evolucionrias.1

Na seo que segue esta introduo resume-se, de incio, os principais resultados


analticos referentes ao jogo seqencial obtido pela repetio do mesmo dilema do
prisioneiro, finita e infinitamente. O que se faz de fato apresentar brevemente as
concluses do assim chamado teorema popular. Em seqncia, j no contexto
especificamente evolucionrio, mencionam-se as premissas e concluses mais
importantes do estudo pioneiro de Axelrod sobre a evoluo da cooperao.
(AXELROD, 1984) Este estudo considerado um marco no tratamento do tema,
no porque tenha provado que a cooperao entre egostas possvel, mas porque
sugeriu que existe uma estratgia robusta e boa, baseada no princpio
reciprocidade, que se mostra vencedora quando confrontada com outras em
torneios em que o objetivo dos jogadores acumular a maior soma possvel de
payoffs.

Na segunda, explora-se uma seqncia de modelos evolucionrios em que certas


estratgias adotadas por elementos de uma mesma populao podem sobreviver
ou tender a desaparecer. Estes modelos, construdos com base na formulao bsica
do dilema do prisioneiro, encontram-se expandidos para incluir estratgias mais
complicadas do que a repetio simples da ao de cooperao ou de defeco. Os
exerccios ento desenvolvidos buscam encontrar as estratgias com maior
capacidade de sobrevivncia em competies que envolvem, por simplicidade, trs
estratgias. No, porm, para confirmar as principais concluses de Axelrod, mas
para mostrar que elas no se sustentam.

1 O presente artigo originou-se de vrias modificaes e extenses feitas em um modelo bsico


encontrado em VEGA-REDONDO (1996, p. 72-79).

Est. econ., So Paulo, 29(2): 249-266, abr-jun 1999


Eleutrio F. S. Prado 251

1. EMERGNCIA DA CIVILIZAO

Tendo por perspectiva a questo da emergncia da moralidade,2 aqui se pretende


estudar o dilema do prisioneiro por meio da teoria dos jogos evolucionrios,3
explorando um caso particular. Esta aparece na seguinte matriz de payoff, em que C
responde pela estratgia cooperao e D indica a estratgia defeco:

C D
C 3;3 0;4
D 4;0 1;1

Como bem se sabe, o dilema do prisioneiro de apenas uma fase tem uma soluo
bem determinada. Tendo por certo que para cada um dos jogadores a defeco a
estratgia dominante, o equilbrio do jogo se d na combinao de estratgias (D;
D). Esta combinao, como tambm bem sabido, ineficiente, j que um
movimento simultneo para (C; C) traz um ganho para ambos. Ora, vem a ser
justamente este resultado paradoxal que suscita a busca de extenses do modelo de
fase nica.

Uma alternativa amplamente examinada na literatura consiste em considerar que o


mesmo jogo, disputado sempre pelos mesmos dois jogadores, tem agora mltiplas
fases. Dois casos so examinados: um deles em que o nmero de fases finito e
bem determinado e o outro em que o nmero de fases infinito ou finito, mas
indeterminado. No primeiro deles, os jogadores dotados de racionalidade plena e
de capacidade perfeita de previso esto obrigados a raciocinar por induo para
trs. Assim, eles examinam primeiro a ltima fase e, em seqncia, a penltima, a
antepenltima, e assim por diante, at chegar primeira delas. Como em cada fase
o futuro conhecido e s o presente importa, a deciso coincide com aquela do
jogo de apenas uma fase. Em conseqncia, a soluo do jogo repetido n vezes,
com n finito, requer que os jogadores optem pela estratgia defeco em todas as
fases.

2 Sob essa mesma perspectiva, o dilema do prisioneiro tem sido estudado de muitas formas. Uma
resenha que apresenta os esforos de economistas para compreender tal emergncia foi feita por
ROUTLEDGE (1998).
3 Esta teoria tem recebido considervel ateno recentemente na esfera da Economia, tendo sido
exposta em livros como os de SAMUELSON (1997) e WEIBULL (1997). Uma avaliao
interessante sobre o seu potencial para o desenvolvimento da teoria econmica foi feita por
MAILATH (1998).

Est. econ., So Paulo, 29(2): 249-266, abr-jun 1999


252 Dilema do Prisioneiro e Dinmicas Evolucionrias

Se o nmero de repeties infinito, a induo para trs no pode ser aplicada e,


assim, inmeras possibilidades de soluo emergem, entre as quais se encontra a
permanente defeco. Estas nascem do fato de que agora cada jogador pode punir
o outro no presente, se este for o caso, para obter dele um comportamento mais
cooperativo no futuro, mesmo se esta ao tem custos para ele prprio. Para
descobrir todo o conjunto das solues possveis, mais adequado considerar a
situao mais geral, em que o nmero de repeties pode ser finito, mas
indeterminado - num certo grau. A esta ltima aplica-se o teorema popular (folk
theorem), que tem aplicao mais geral do que a examinada no presente contexto:

Num jogo com repetio infinita e um conjunto finito de aes em


cada repetio, qualquer seqncia de aes associada a um nmero
finito de repeties forma um equilbrio perfeito de subjogo se as
seguintes condies so observadas: a) a taxa de preferncia
intertemporal zero ou positiva, mas suficientemente pequena; b) a
probabilidade de que o jogo termine em qualquer fase zero ou
positiva, mas suficientemente pequena; c) os payoffs esperados de cada
jogador na seqncia so pelo menos iguais ou maiores do que os
payoffs obtidos com a soluo minimax.

No caso em considerao, os payoffs associados soluo minimax vem ser (1;1).


Isto implica que todo ponto da interseo entre o paralelogramo e o quadrante
com vrtice em (1; 1), na figura a seguir, corresponde a um equilbrio perfeito de
subjogo (que, como se sabe, tambm um equilbrio de Nash).

Ucol

(0; 4)
(3; 3)

(1; 1)
Ulin
(0; 0)
(4; 0)

Est. econ., So Paulo, 29(2): 249-266, abr-jun 1999


Eleutrio F. S. Prado 253

Este resultado suficiente para mostrar que a cooperao possvel entre agentes
definidos como homo economicus. Entretanto, no capaz de dizer nada de muito
especfico sobre as condies nas quais a cooperao entre estes egostas racionais,
altamente abstratos, vem a ocorrer em efetivo. Para examin-las, Axelrod
desenvolveu um mtodo de investigao baseado na simulao de processos de
evoluo por meio de torneios em computador. Nestes torneios, competiam pelo
sucesso e, assim, pela prpria sobrevivncia, autmatos que representavam certas
estratgias, os quais foram criados por cientistas de vrios campos do conhecimento.
Desse modo, ele pretendia descobrir como a competio engendra a cooperao.
Com o seu mtodo Axelrod pretendeu chegar, assim, a concluses muito mais bem
definidas sobre a emergncia da cooperao e, assim, da prpria sociedade.

Ele apresentou assim o problema da cooperao:

Sob que condies a cooperao emergir num mundo de egostas e


sem autoridade central? Esta questo intrigou muitos durante muito
tempo - e por boas razes. Sabemos que as pessoas no so anjos e que
elas tendem em primeiro lugar a se preocupar consigo mesmas e com
o que lhes pertencem. Sabemos que a cooperao existe e que a
civilizao se baseia nela. Porm, em situaes em que cada indivduo
tem incentivo apenas para ser egosta, como ela poder se
desenvolver? (AXELROD, 1984, p. 3)

Mediante o seu procedimento de investigao, Axelrod pretendeu estar investigando


uma questo fundamental que diz respeito prpria constituio da sociedade.4 O
contraponto s suas pr-concepes ele encontrou em Hobbes. Este autor clssico,
como lembra o prprio Axelrod, acreditava que a ordem entre indivduos egostas
s poderia ser assegurada por meio de um poder absoluto. Sem o peso da mo
visvel de uma autoridade central os homens viveriam no estado de natureza em
que prevaleceria a luta de todos contra todos. Hobbes argumentara, ento, que
para agregar os homens no estado social era imperioso que existisse um estado
forte. De modo contrrio, Axelrod pretendeu mostrar que a cooperao pode
emergir espontaneamente entre indivduos que buscam o seu prprio interesse,
desde que na interao entre eles impere um princpio de reciprocidade.

evidente que o seu mtodo vai do fundo superfcie (bottom up approach5 ). A


partir de suposies sobre os indivduos e sobre as formas de interao prevalecentes

4 Ver HOFSTADER (1986).


5 Esta abordagem vai do indivduo sociedade, mas no implica a adoo nem do individualismo
sociolgico nem do individualismo metodolgico; ela no implica assumir qualquer reducionismo,
ou seja, a idia de que todo fenmeno social pode ser reduzido s crenas, atitudes, aes e
decises dos indivduos. (PRADO, 1993)

Est. econ., So Paulo, 29(2): 249-266, abr-jun 1999


254 Dilema do Prisioneiro e Dinmicas Evolucionrias

entre estes pretende chegar a concluses sobre o comportamento do sistema social


como um todo. Ele escolheu como modelo de interao social problemtica o
dilema do prisioneiro, que envolve tanto a possibilidade da colaborao como a do
conflito de interesses. Para demonstrar a sua tese, escolheu como contexto aquele
que dito no cooperativo, em que no existe autoridade externa reguladora das
interaes e, assim, no h inclusive a possibilidade de firmar acordos com clusula
de obrigatoriedade. Nessas circunstncias, o que torna a cooperao possvel a
prpria possibilidade do reencontro num horizonte temporal de durao
indeterminada. A possibilidade de repetio da interao interliga os resultados de
cada uma delas com os das suas subseqentes.

evidente, tambm, que Axelrod no manteve em seus exerccios evolucionrios


o suposto de que os jogadores atuam como homo economicus. Apesar de conceb-
los como egostas que buscam satisfazer o prprio interesse, diferentemente, ele os
definiu por meio de programas que so executados com consistncia ao longo do
tempo e que denotam certas regras de comportamento. Segundo ele prprio, as
estratgias refletem formas de procedimentos originados em regras prticas,
instintos, hbitos ou mecanismos de imitao. (AXELROD, 1984, p. 18) O jogo
evolucionrio, como depois notou Binmore (1995, p. 190), trabalha com um modo
de comportamento que pode ser chamado de homo behavioralis, e que se caracteriza
por ser programado ou autoprogramado. Em conseqncia, importante anotar a
seguinte advertncia de Axelrod:

Naturalmente, a formulao abstrata do problema da cooperao


como um dilema do prisioneiro coloca de lado muitas caractersticas
vitais que fazem de cada interao real algo de nico. Exemplos do
que se est deixando de lado ao adotar esta abstrao formal incluem
a possibilidade de comunicao verbal, a influncia direta de
terceiras pessoas, os problemas da implementao das escolhas, a
incerteza sobre o que o outro jogador fez na jogada anterior... O
valor de uma anlise que no os contempla que ela clarifica
algumas caractersticas sutis da interao - caractersticas estas que
poderiam ser perdidas no intrincado da complexidade das
circunstncias altamente particulares nas quais as escolhas reais so
feitas. (AXELROD, 1984, p. 19)

Os resultados dos torneios efetuados por Axelrod mostraram que havia uma
estratgia que se sobressaa sempre como vencedora e que fora chamada pelo seu
inventor, Anatol Rapopport, de tit-for-tat. Esta estratgia, que impressionava
pela simplicidade, consistia em cooperar no primeiro movimento para, depois,
replicar com o mesmo comportamento da estratgia adversria na rodada anterior:
se este era de cooperao, ela manda cooperar; se no o era, ela manda optar pela

Est. econ., So Paulo, 29(2): 249-266, abr-jun 1999


Eleutrio F. S. Prado 255

defeco. Axelrod concluiu, ento, que a cooperao podia emergir num mundo
formado por egostas e sem autoridade central e que, para tanto, era necessrio
que houvesse a possibilidade da interao repetida - o que, de fato, como se viu,
eram j inferncias que poderiam ser tiradas do teorema popular.

Entretanto, Axelrod pretendeu tirar concluses mais bem definidas de seu exerccio.
No contexto evolucionrio, ele concluiu que mostrara com suficincia que a
cooperao era necessariamente o que vinha a ocorrer em seu mundo de agentes
egostas, com horizonte temporal de durao indeterminada. Entusiasmado com
as vitrias da estratgia tit-for-tat, concluiu tambm que a cooperao evolvia
em trs estgios:6

a) Ela pode ter incio mesmo num mundo de defeco incondicional. Isto vem
a ocorrer desde que surja nesse mundo um conjunto suficientemente grande
de agentes intrinsecamente colaboradores e que agem com base na
reciprocidade;

b) A estratgia baseada na reciprocidade pode prosperar num mundo em que


diversas outras estratgias estivessem competindo;

c) Assim que a cooperao se instalasse no mundo de egostas, ela estaria


protegida da invaso de outras estratgias menos cooperativas.

Ora, as duas primeiras concluses precisam ser qualificadas e a terceira delas est
errada - o que, alis, foi mostrado por Binmore (1995, p. 187-203). Nos modelos
apresentados abaixo, em que se mantm o contexto evolucionrio, mas se opta por
um caminho analtico, sero mostrados os problemas das concluses de Axelrod
de um modo especialmente claro e transparente.

2. CIVILIZAO OU BARBRIE

Os modelos de jogos repetidos esto centrados em noes de equilbrio como


situaes que ocorrem porque as escolhas, informadas suficientemente, so
estrategicamente racionais. J os modelos de jogos evolucionrios em cincia social
baseiam-se numa idia de processo que envolve seleo, mutao e sobrevivncia
de estratgias. Estas so adotadas e substitudas durante o jogo por agentes
limitados racionalmente, que buscam melhorar o payoff obtido, de tal modo que o
equilbrio vem a ser uma conseqncia possvel de um movimento com

6 Ver AXELROD (1984, p. 20-21).

Est. econ., So Paulo, 29(2): 249-266, abr-jun 1999


256 Dilema do Prisioneiro e Dinmicas Evolucionrias

temporalidade irreversvel. A adoo no explicada nos modelos, mas a


substituio de estratgias pode ser compreendida como algo que surge por
imitao e aprendizagem: durante o jogo, os agentes buscam optar por aquelas
estratgias mais bem-sucedidas.

Os jogos evolucionrios so jogados por populaes. Suponha-se que o tempo


est subdividido em perodos e que, em cada perodo, todos os elementos de uma
populao monomrfica bem grande (infinita, tecnicamente) so escolhidos
aleatoriamente, dois a dois, para jogar o dilema do prisioneiro em considerao.
Eles podem pertencer a uma das fraes da populao, as quais se caracterizam
pelo fato de que os seus elementos adotaram, provisoriamente talvez, uma das
seguintes cinco estratgias:

poliana: coopera independentemente da estratgia da frao que enfrenta


(indicada por C);

anti-social: escolhe a defeco sempre, independentemente da estratgia da


frao adversria (indicada por D);

retaliadora: toma a iniciativa de cooperar, mas em seqncia responde com


a mesma ao empregada por sua oponente no perodo anterior; se ela
cooperou, ela coopera e se ela no o fez, ela opta pela defeco. Esta estratgia
mais conhecida como tit-for-tat (indicada por R);

oportunista: mutao da anti-social que escolhe a sua estratgia dependendo


da frao adversria do momento; se esta joga poliana, ela prefere a defeco;
se a adversria joga a defeco, ela tambm opta por esta alternativa; se
aquela joga a estratgia retaliadora, ela far o mesmo; se a outra for tambm
oportunista, ela prefere, mais uma vez, jogar tit-for-tat (indicada por O);

retaliadora disfarada: vem a ser uma mutao da estratgia anti-social que


se disfara de tit-for-tat, enganando as adversrias; estas, por acreditar
que esto enfrentado esta ltima, optam, por exemplo, pela cooperao,
mas obtm como resposta a defeco sempre (indicada por Rd).

Com base nesse pequeno conjunto de estratgias (infinitas outras poderiam ter
sido pensadas), vrios jogos podem ser considerados. O primeiro a ser examinado
contm agentes que adotaram e s podem adotar as estratgias poliana, anti-social
e retaliadora. Como a estratgia de defeco tende a desaparecer neste primeiro
jogo, em seqncia ser considerado o jogo que contm as estratgias poliana,
retaliadora e oportunista. Por sua vez, como agora a estratgia poliana que tende
a desaparecer, ser ento analisado o jogo que contm as estratgias retaliadora,
oportunista e retaliadora disfarada. Os outros jogos possveis sero desprezados.

Est. econ., So Paulo, 29(2): 249-266, abr-jun 1999


Eleutrio F. S. Prado 257

Como cada jogo tem horizonte infinito, vai-se assumir sempre que em cada
encontro os payoffs considerados so obtidos descontando-se todo fluxo de
rendimentos futuros com uma determinada taxa. De acordo com Binmore (1992,
p. 360-369), dada a matriz de payoffs anteriormente apresentada, pode-se apresentar
a estrutura de payoffs de todos os jogos possveis com estas cinco estratgias por
meio da seguinte matriz de dimenso 5 por 5

C D R O Rd

C 3; 3 0; 4 3; 3 0; 4 0; 4
D 4; 0 1; 1 1; 1 1; 1 1; 1
R 3; 3 1; 1 3; 3 3; 3 0; 4
O 4; 0 1; 1 3; 3 3; 3 0; 4
Rd 4; 0 1; 1 4; 0 4; 0 1; 1

Para dar uma forma concreta dinmica evolucionria, sob o suposto de que o
processo de seleo cego, ser utilizado aqui o replicador dinmico em sua verso
de tempo contnuo,7 a qual menos transparente do a verso em tempo discreto,
mas permite obter mais facilmente resultados por simulao.

vi' (t ) = vi (t )[Ui [i; v(t )] U m [v(t )]]; i = c, d , r, o, rd

em que i(t) a freqncia de optantes pela estratgia i (i = c, d, r, o, rd) na


populao, no momento t; i(t) a derivada em relao ao tempo dessa freqncia;
Ui[i; (t)] o payoff da estratgia i dadas as freqncias de todas as estratgias; e
Um[i; (t)] o payoff mdio das estratgias consideradas no jogo. A interpretao
da frmula acima imediata: a taxa de mudana da freqncia de optantes pela
estratgia i cresce, estaciona ou decresce no tempo, dependendo da relao -
positiva, nula ou negativa - entre o payoff da prpria estratgia i e o payoff mdio de
todas as estratgias.

7 claro que a escolha de um sistema dinmico no neutra em relao aos resultados que se
pode obter. Entretanto, este problema aqui minimizado porque o artigo tem como objetivo
refutar certas afirmaes de Axelrod, sem apresentar outras. De qualquer forma, as seguintes
proposies so verdadeiras em relao dinmica escolhida: a) se uma combinao de estrat-
gias equilbrio de Nash, ento ela um ponto estacionrio do replicador dinmico; b) h,
entretanto, pontos estacionrios do replicador dinmico que no so equilbrios de Nash; c) Se
um ponto estvel, ento ele um equilbrio de Nash, mas pode existir equilbrios de Nash que
no so estveis; d) Se um ponto assintoticamente estvel, ento isolado e um equilbrio
perfeito. Discusses mais extensas do problema, assim com as demonstraes das proposies
acima mencionadas, podem ser encontradas em SAMUELSON (1997, p. 62-81) e em VEGA-
REDONDO (1996, p. 45-46).

Est. econ., So Paulo, 29(2): 249-266, abr-jun 1999


258 Dilema do Prisioneiro e Dinmicas Evolucionrias

Na esfera da biologia, a frmula do replicador dinmico quase sempre derivada


de um processo de competio pela sobrevivncia de fentipos (identificados com
as estratgias do jogo) que tm diferentes capacidades de gerar descendentes
(medidas estas como payoffs mdios obtidos em jogos populacionais de encontros
bilaterais). Em cincia social, a mesma frmula pode ser obtida de um processo de
imitao dinmica, por meio do qual indivduos de um populao que adotaram
uma certa estratgia tm a possibilidade de rever esta adoo, de tal modo que as
freqncias com que so jogadas vai se modificando durante o jogo at se fixarem,
eventualmente, em um ponto ou rbita. (NACHBAR, 1990)

2.1 Do Estado de Natureza Civilizao

Para o primeiro jogo a ser considerado - ou seja, o jogo CDR - tem-se:

U [c; (t)] = 3 - 3d (t)

U [d; (t)] = 4 - 3d (t) - 3r (t)

U [r; (t)] = 3 - 2d (t)

com c (t) = 1 - d (t) - r (t)

Um [(t)] = 3 - 2d (t) - 2d (t) r (t)

A partir dessas expresses pode-se obter com facilidade as equaes dinmicas do


jogo estendido (omite-se a primeira delas, referente estratgia poliana, porque
uma delas sempre redundante):

vd' (t) = d (t) [1 - d (t) - 3r (t) + 2d (t) r (t)

vr' (t ) = r (t) [2d (t) r (t)]

Este sistema autnomo de equaes diferenciais tem diversos pontos estacionrios,


os quais podem ser encontrados igualando a zero ambos os termos de seu lado
direito (para maior clareza, omite-se deste ponto em diante a dependncia das
variveis em relao ao tempo):

d [ 1 - d - 3 r + 2 d r ] = 0

r [2d r ] = 0

Est. econ., So Paulo, 29(2): 249-266, abr-jun 1999


Eleutrio F. S. Prado 259

imediato que (0; 0), ponto em que existe apenas a estratgia C, um deles. Se d 0
e r = 0, ento 1 - d = 0; logo (1; 0), em que s a estratgia D est presente, vem
a ser um outro ponto estacionrio. Se d = 0 e r 0, ento d r = 0, o que
verdadeiro para qualquer ponto (0; *r ) H = {(0; r) | 0< r 1}, logo, os
pontos deste conjunto so tambm estacionrios. Em (0; 1) apenas a estratgia R
est presente e em H coexistem as estratgias C e R.

Para proceder anlise da estabilidade preciso considerar o seguinte simplex:

2 = {(d; r)|d + r 1, d 0, r 0}

Considere-se um ponto interior ( d; r) que pertence ao simplex 2 e a uma


vizinhana arbitrariamente pequena de (0; 0); como nesse ponto tem-se que
d (0) > 0 e r (0) > 0, pode-se concluir que (0; 0) no estvel. Considere-se,
agora, um outro ponto (d; r) que pertence a uma vizinhana de (1; 0); como se
tem, igualmente, que d (0) > 0 e r (0) > 0, tambm imediato que (1; 0) no
estvel.

Para prosseguir preciso ver que H pode ser particionado em dois subconjuntos
H1 = {(0; r) | 0< r < 1/3}e H2 = {(0; r) | 1/3 r 1}. Eis que h um
conjunto de pontos em 2 em que d 0 mas d = 0. Para encontr-los preciso
igualar a zero a expresso [1 - d - 3 r + 3 d r] , obtendo os seguintes resultados:

1 vd 1
vr = ; com lim v r = e com lim r = 0
3 2v d vd 0 3 vd 1

Empregando um raciocnio semelhante ao desenvolvido anteriormente fcil


verificar que os pontos de H1 no so estveis, mas que os pontos de H2 so
estveis no conceito de Liapunov, mas no assintoticamente estveis. Para verificar
esta ltima propriedade, considere-se um ponto (0; * r) H 2; considere-se
tambm, agora, um outro ponto situado no interior do simplex e numa vizinhana
do ponto anterior, ou seja, (d ; r) 2 V(0; *r), de tal modo que d > 0 e
r > *r. Examinando, agora, as equaes diferenciais que formam o sistema em
considerao, fcil mostrar que os seguintes limites so vlidos

o o o
lim vd = 0 e, ademais, lim vr = vr > vr
t t

Dito em palavras, isto implica que no h convergncia em (0; *r) H2.

Est. econ., So Paulo, 29(2): 249-266, abr-jun 1999


260 Dilema do Prisioneiro e Dinmicas Evolucionrias

com certa facilidade que se pode fazer, por meio de simulaes, uma anlise da
dinmica global deste sistema de equaes diferenciais. Os resultados aparecem no
grfico abaixo:

(0;1)

H2

(0;1/3)

H1
d
(0;0) (1;0)

A interpretao destes resultados imediata. Pode-se comear a extra-los partindo


do ponto (0; 0). Se apenas a estratgia poliana (C) aparece na populao, esta
situao permanece indefinidamente, desde que no surjam agentes que atuam
segundo as estratgias D e/ou R. Tem-se, ento, o que pode ser denominado de
estado de natureza de Rousseau. Se apenas surgem aquele que agem por meio da
defeco (D), ento no equilbrio final existiro somente indivduos desta espcie;
aqueles que atuam conforme a estratgia poliana vo se reduzindo pouco a pouco
at desaparecerem por completo no ponto (1; 0). Assim, tem-se o que pode ser
chamado propriamente de estado de natureza de Hobbes, pois vale a que a vida
solitria, pobre, suja, bruta e curta. Se surgem indivduos que agem segundo a
estratgia R, ento o equilbrio se dar em algum ponto de H. Se, porm, surge
uma combinao qualquer de D e R, ento o equilbrio final ocorrer
necessariamente em H2.

Como um todo, o exerccio confirma a tese do teorema popular segundo a qual a


cooperao pode surgir espontaneamente num jogo repetido de horizonte
indeterminado, estruturalmente no cooperativo. O contexto evolucionrio mostra
que a estratgia no cooperativa, anti-social, pode ser eliminada da populao,
desde que existam a agentes que, por opo estratgica, retaliam tal comportamento
e que esto assim vocacionados para a cooperao (ou seja, desde que haja jogadores

Est. econ., So Paulo, 29(2): 249-266, abr-jun 1999


Eleutrio F. S. Prado 261

que adotaram a estratgia tit-for-tat). Estes agentes protegem os cooperadores


persistentes (aqueles que optaram pela estratgia poliana), de tal modo que no
equilbrio haja uma composio populacional formada por agentes que escolheram
C ou R.

Nesse exerccio, que parece confirmar inteiramente as concluses de Axelrod, a


estratgia retaliadora ocupa um papel proeminente e o resultado que tende a ser
alcanado pode ser avaliado como bom, pois aqueles que atuam por meio desta
estratgica agem segundo um princpio de reciprocidade que pode ser assim
enunciado: faa aos outros aquilo que eles fazem para voc. Como este princpio
de comportamento est fundado numa norma de aprecivel valor moral, pode-se
denominar o estado social resultante pelo termo civilizao.

2.2 Da Civilizao Barbrie

O segundo jogo a ser examinado vem a ser aquele em que a populao contm
jogadores que adotam as estratgias poliana, retaliadora e oportunista (CRO). Em
relao ao jogo anterior, sai a estratgia D, que l havia desaparecido, e entra a
estratgia O, cuja origem pode ser explicada por mutao do prprio D. Procedendo
de acordo com os passos do jogo anterior, encontra-se com facilidade os payoffs
esperados das trs estratgias, assim como o payoff mdio entre elas:

U [c; (t)] = 3 - 30

U [r; (t)] = 3

U [o; (t)] = 4 - r - 0

Um [(t)] = 3 - 20 + 20 r + 220

Com base nessas expresses, pode-se chegar aqui, tal como antes, ao sistema
autnomo de equaes diferenciais:

v r' = r (2o - 2o r - 22o )

= 0 (1 - r + v0 2r 0 - 220

Do mesmo modo que anteriormente, pode-se, ento, descobrir os pontos


estacionrios, fazendo depois a anlise da estabilidade. Os seguintes pontos
isolados ou pertencentes a segmentos de reta so estacionrios: (0; 0), (0; 1),

Est. econ., So Paulo, 29(2): 249-266, abr-jun 1999


262 Dilema do Prisioneiro e Dinmicas Evolucionrias

( *r ; 0) H 3 = {(r ;0) | 0< r 1}, (*r ; *o) H4 = {(r ; o) | r + o = 1 com


0 o, r 1}.

Os resultados da anlise de estabilidade global esto no grfico a seguir. Note-se a


que os pontos de H3 no so estveis e os pontos de H4 apenas tm estabilidade de
Liapunov.

(0; 1)

H4

r
(0 ;0)
H3 (1; 0)

A interpretao dos resultados , novamente, imediata. Se apenas existem agentes


que atuam segundo a estratgia poliana, em (0; 0), esta situao tende a permanecer.
Se, entretanto, aparecem oportunistas na populao, estes tendem a eliminar
completamente os indivduos que cooperam em razo de sua natureza cooperativa.
Este estado natural substitudo por outro, em (1; 0), em que o comportamento
cooperativo surge meramente porque indivduos no cooperativos se respeitam
mutuamente. Entretanto, diferentemente, se surgem tanto oportunistas quanto
retaliadores, uma composio populacional que contm estes dois tipos de
indivduos prevalecer. A cooperao, agora, decorre antes do medo do que do
respeito mtuo. Note-se, ademais, que a proporo de oportunistas na populao,
enquanto a subsistirem polianas, tende a crescer mais rpido do que a de
retaliadores.

Se no primeiro jogo considerado havia uma tendncia para a eliminao da


estratgia anti-social, neste segundo h um vis no sentido de fazer com que a
estratgia poliana tenda a desaparecer. No primeiro contexto, as oportunidades de
sobrevivncia da poliana estavam garantidas pela reciprocidade da retaliadora,

Est. econ., So Paulo, 29(2): 249-266, abr-jun 1999


Eleutrio F. S. Prado 263

enquanto que as da estratgia anti-social estavam severamente limitadas por este


mesmo comportamento que premia a cooperao e pune a defeco. Eis que no
ltimo contexto, entretanto, a estratgia persistentemente cooperadora est
desprotegida. O comportamento cooperador, por princpio, dos que optam pela
retaliadora no consegue defend-la do comportamento predador dos que escolhem
a estratgia oportunista. Em conseqncia, apenas conseguem sobreviver essas
duas ltimas.

O exerccio confirma, mais uma vez, o resultado j clssico, segundo o qual a


cooperao emerge num jogo de dilema do prisioneiro com horizonte
indeterminado. Entretanto, agora contrariada uma concluso que se tornou
arraigada aps terem sido divulgados os resultados dos torneios de Axelrod,
segundo a qual a estratgia retaliadora sempre a mais robusta. (AXELROD,
1984, p. 169-191) O exerccio mostra que a estratgia oportunista mais forte do
que a retaliadora, j que tende a crescer mais rpido e a predominar como opo
na populao. A cooperao emerge, mas no porque est fundada no princpio de
reciprocidade antes referido e que se encontra implcito no comportamento dos
indivduos que empregam a estratgia tit-for-tat. A mutualidade que existe aqui
perversa: h cooperao porque os agentes com maior capacidade de sobrevivncia
so oportunistas, agentes do mal, que respeitam apenas os retaliadores que punem
os outros oportunistas. Se for possvel dizer que estes ltimos agem por princpio,
aqueles que seguem o da falta de princpios. H cooperao, mas o estado social
prevalecente pode ser denominado de barbrie.

2.3 Da Barbrie ao Estado de Natureza

A estratgia oportunista pode ser encarada como decorrncia de uma mutao da


estratgia anti-social. No se pense, porm, que o seu aparecimento seja o fim da
histria. At o presente momento sups-se que os indivduos so sempre capazes
de identificar corretamente os seus adversrios. possvel - e mesmo natural -
passar, agora, a admitir que os indivduos esto dotados da capacidade do disfarce
e que se utilizam dela para enganar os seus oponentes. Note-se que este recurso
normalmente empregado pelos animais racionais e no racionais na luta pela
sobrevivncia.

Por exemplo, o mesmo raciocnio poderia ser empregado para considerar uma
nova mutao da estratgia que implica jogar sempre a defeco. Por meio dela
passa a existir a possibilidade de um comportamento anti-social mais cnico, que
aparenta ser retaliador para induzir aqueles que optam pela verdadeira retaliadora
ou pela oportunista - que agora se afigura algo ingnua -, a se comportarem de
modo cooperativo. medida que eles fazem isto, o optante da estratgia
disfaradora consegue derrot-los, porque ele mesmo jogar sempre a defeco.

Est. econ., So Paulo, 29(2): 249-266, abr-jun 1999


264 Dilema do Prisioneiro e Dinmicas Evolucionrias

Num jogo com as estratgias retaliadora, oportunista e retaliadora disfarada


possvel mostrar que esta ltima acaba predominando, de tal modo que as outras
duas tendem a desaparecer. Assim, a sociedade que estava no estado de barbrie
retorna ao estado de natureza hobbesiano. A esta concluso pode se chegar
analisando a matriz de payoffs apresentada anteriormente, j que a estratgia
disfaradora, indicada pelas letras Rd, l aparece como estritamente dominante.

O grfico apresentado em seqncia sintetiza a anlise da dinmica e da estabilidade


global do sistema associado de equaes diferenciais. Pode-se ver, imediatamente,
que (*r ; 0) H5 = {(o; 0) | 0< o 1} e (0; 1) so os nicos conjuntos de
pontos estacionrios desse sistema. Os pontos de H5 no so estveis, mas o ltimo,
em que h apenas agente Rd na populao, vem a ser estvel no sentido de Liapunov
e assintoticamente.

rd

(0,1)

o
(0,0)
H5 (1,0)

CONCLUSES

No primeiro jogo examinado, as concluses de Axelrod pareciam se confirmar:


mesmo entre agentes egostas que no se encontram constrangidos por uma
autoridade externa a cooperao podia surgir e permanecer. A moralidade, assim,
poderia originar-se de uma certa naturalidade anti-social do homem, no
requerendo qualquer outro fundamento. No segundo jogo, a cooperao ainda
encontrava lugar, mas j no se podia falar mais, propriamente, em moralidade, j
que a mutualidade no se encontrava mais baseada em reciprocidade, mas no
respeito e no medo. No terceiro jogo, at mesmo a cooperao desaparece...

Est. econ., So Paulo, 29(2): 249-266, abr-jun 1999


Eleutrio F. S. Prado 265

Depois de mostrar como a sociedade em considerao passa do estado de natureza


para a civilizao, desta para o estado de barbrie e da retorna ao estado de natureza
hobbesiano, possvel enunciar algumas afirmaes que contradizem as de Axelrod:

a) cooperao pode surgir num mundo em que a defeco predomina;


entretanto, ela tambm pode desaparecer num mundo em que existe a
cooperao;

b) a estratgia tit-for-tat pode prosperar num mundo em que h outras


estratgias competindo; entretanto, tambm verdade que pode no
prosperar, dependendo das estratgias com que compete;

c) sob o pressuposto do agir egosta, a cooperao nem sempre est protegida


da invaso de outras estratgias menos cooperativas.

Em conseqncia, no possvel garantir que a cooperao possa emergir


espontaneamente num mundo de agentes egostas sem autoridade exterior,
havendo, pois, reduzida esperana para uma justificao pragmtica da moralidade.
(DANIELSON, 1998, p. 7) Como a sociedade humana requer intrinsecamente a
cooperao - provar a sua possibilidade , pois, insuficiente -, h que existir outro
fundamento para a reciprocidade e, enfim, para a moralidade em geral. Os
economistas precisam, pois, voltar-se para a tradio filosfica, prestando ateno
pelo menos em Aristteles, Hume e Kant,8 se querem sair de seu sono dogmtico
na compreenso da prpria esfera econmica como esfera das interaes estratgicas
por excelncia. A suposta prioridade lgica do agir egosta em relao ao agir
moral, da no cooperao em relao cooperao (o que, alis, Axelrod no
afirma, mas corrobora), no pode ser sustentada.

REFERNCIAS BIBLIOGRFICAS

AXELROD, R. The evolution of cooperation. USA: Basic Books, 1984.


BINMORE, K. Fun and games - a text on game theory. Lexington, MA: Ann
Arbor, 1992.
_______. Game theory and the social contract - playing fair. Cambridge, MA:
The MIT Press, 1995.

8 O autor do artigo ficaria com a renovao do argumento kantiano no interior da filosofia da


linguagem para compreender a moralidade numa perspectiva universalista, ou seja, com Habermas.
Esta opo tem profundas conseqncias para a compreenso da Economia como cincia, da
teoria dos jogos e da oposio sustentada em seu interior entre jogos cooperativos e no coope-
rativos. A elaborao disto requer um esforo bem mais extenso do que o necessrio para expor
uma refutao dos argumentos de Axelrod.

Est. econ., So Paulo, 29(2): 249-266, abr-jun 1999


266 Dilema do Prisioneiro e Dinmicas Evolucionrias

DANIELSON, P. Introduction. In: Modeling rationality, morality, and evolution.


Oxford: Oxford University Press, 1998, p. 3-9.
HOFSTADER, D. R. The prisoners dilemma - computer toournaments and
the evolution of cooperation. In: Metamagical themas: questing for the
essence of mind and pattern. New York: Bentam Books, 1986, p. 715-734.
NACHBAR, J. H., Evolutionary selection in dynamic games. In: Internacio-
nal Journal of Game Theory, v. 19, p. 59-90, 1990.
PRADO, E. F. S. Metodologia da economia: individualismo ou holismo? In:
Impulso, n. 13, p. 29-48, 1993.
_______. A USP e a tragdia dos comunas. In: Jornal da USP, ano XIV, n 460,
8/2/1999, p. 2 e Informaes FIPE, n. 121, fevereiro de 1999, p. 23-25.
ROUTLEDGE, B. R. Economics of the prisioners dilemma: a background.
In: Modeling rationality, morality, and evolution. Oxford: Oxford University
Press, 1998, p. 92-118.
SAMUELSON, L. Evolutionary game and equilibrium selection. Cambridge,
MA: The MIT Press, 1997.
VEGA-REDONDO, F. Evolution, games e economic behaviour. Oxford: Oxford
University Press, 1996.
WEIBULL, J. W. Evolutionary game theory. Cambridge, MA: The MIT Press,
1997.

(Recebido em maro de 1999. Aceito para publicao em junho de 1999).


e-mail: eleuter@usp.br

Est. econ., So Paulo, 29(2): 249-266, abr-jun 1999