Вы находитесь на странице: 1из 29

Nvel 9: Mecnica intransitivos 01 de setembro de 2010 Leituras / playings Consulte "recursos adicionais" no final deste post no blog para

ler mais. Esta semana Bem-vindo de volta! Hoje vamos aprender sobre como equilibrar a mecnica intransitivos. Como um lembrete, "intransitivo" apenas uma maneira de dizer nerd "jogos como PedraPapel-Tesoura" - ou seja, jogos em que no h uma estratgia nica dominante, porque tudo pode ser batido por outra coisa. Vemos mecnica intransitivos em jogos o tempo todo. Em jogos de luta, um padro tpico que os ataques normais so derrotados por blocos, blocos so derrotados por lances e lances so derrotados pelos ataques. Em jogos de estratgia em tempo real, um padro tpico que voc tem pilotos que podem destruir infantaria, infantaria que funciona bem contra arqueiros e arqueiros so timos para derrubar folhetos. Jogos de estratgia baseado em turnos, muitas vezes tm algumas unidades que funcionam bem contra os outros, um exemplo de padro sendo que tanques pesados perder para anti-tanque de infantaria que perde a infantaria normal que perder para tanques pesados. Tiro em primeira pessoa, por vezes, tm uma relao intransitiva entre diferentes armas ou veculos, como lanadores de foguetes sendo bom contra tanques (uma vez que eles so lentos e fcil de acertar) que so bons contra veculos leves (que so destrudas pelo ritmo rpido do tanque de fogo uma vez que chegar no intervalo) que por sua vez so bons contra lanadores de foguetes (j que eles podem esquivar-se e tecer em torno dos foguetes lentos entrada). MMOs e RPGs de mesa, muitas vezes tm algumas classes de personagens que so particularmente bons em lutar contra as outras classes, tambm. Assim voc pode ver que a mecnica intransitivos esto em todos os tipos de lugares. Algumas dessas relaes podem no ser imediatamente bvio. Por exemplo, considere um jogo onde um tipo de unidade tem ataques de longo alcance, que derrotado por um atacante de curto alcance que pode ficar invisvel, o que por sua vez derrotado por um atacante de mdio alcance com radar que revela unidades invisveis e o atacante de mdio alcance naturalmente fraco contra o atacante de longo alcance. s vezes puramente matemtico, no Magic: the Gathering, uma criatura 1/3 vai perder no combate a uma criatura 3/2, que perde para uma criatura Strike 2/1 e que por sua vez perde para a criatura 1/3 original. Dentro do metagame de um CCG muitas vezes voc tem trs ou quatro plataformas dominantes, cada um projetado para bater um ou mais dos outros. Esses tipos de coisas que no so mesmo necessariamente concebido com a inteno de ser intransitivo, mas o que acaba acontecendo. Solues para a mecnica intransitivos

Hoje ns estamos indo para chegar em nossas mos muito sujo com alguns dos mathiest matemtica que temos feito at agora, pegando emprestado quando necessrio a partir das ferramentas da lgebra, lgebra linear e teoria dos jogos. No processo, vamos aprender a resolver mecnica intransitivos, para que possamos aprender mais sobre como funcionam esses dentro do nosso jogo eo que podemos esperar do comportamento do jogador a nvel de peritos. O que faz uma "soluo" parece aqui? No pode ser uma curva de custo, porque cada escolha ganha, s vezes perde e s vezes. Em vez disso, uma relao de quantas vezes voc escolher cada opo disponvel, e quantas vezes voc espera o seu adversrio para escolher cada uma de suas opes. Por exemplo, a construo de um exrcito de arqueiros, infantaria 30% a 50%, folhetos, 20% (ou 03:05:02) pode ser uma soluo para um jogo intransitivo com essas unidades, sob certas condies. Como um designer do jogo, voc pode desejar certos objetos do jogo para ser usado mais ou menos frequncia do que os outros, e alterando os custos e disponibilidade de cada objeto que voc pode mudar a combinao ideal de objetos que os jogadores iro utilizar no jogo. Ao projetar o jogo especificamente para ter uma ou mais estratgias ideais de sua escolha, voc vai saber de antemo como o jogo propensos a desenvolver. Por exemplo, voc pode querer que certas coisas s acontecem raramente durante o jogo normal, mas ser espetacular quando o fazem, e se voc entender como os custos afetam freqncias relativas, voc pode criar um jogo para ser como que intencionalmente. (Ou, se parece em playtesting, seus jogadores esto usando uma coisa muito mais do que o outro, esse tipo de anlise pode ser capaz de lanar luz sobre por que .) Quem se importa? Talvez valha a pena perguntar, se todos os mecnicos intransitivos so apenas glorificado verses de Pedra-Papel-Tesoura, qual o recurso? Poucas pessoas jogar Pedra-Papel-Tesoura para se divertir, ento por que eles gostam de um jogo que s usa a mesma mecnica e vestidos de forma diferente? Por um lado, um jogo intransitivo de pelo menos mais interessante do que um com uma nica estratgia dominante ("Rock-Rock-Rock"), porque voc vai ver mais variedade no jogo. Por outro lado, um mecnico de intransitivo incorporado em um jogo maior ainda pode permitir que os jogadores de alterar ou modificar as suas estratgias em meados do jogo. Os jogadores podem fazer escolhas certas luz do que eles observam outros jogadores fazendo agora (em tempo real), especialmente em ao baseados em jogos onde voc deve reagir a reao de seu oponente para a sua reao sua ao no espao de alguns milissegundos. Em jogos com a mecnica blefando, os jogadores podem fazer escolhas com base no que tenho observado outros jogadores a fazer no passado e tentar usar isso para inferir os seus movimentos futuros, o que particularmente interessante em jogos de informao parcial, mas incompleta (como Poker). Ento, espero que voc pode ver que s porque um jogo tem

uma mecnica intransitivo, no significa que ele to montona como Pedra-Papel-Tesoura. Alm disso, a mecnica intransitivos servir como uma espcie de "freio de emergncia" na fuga estratgias dominantes. Mesmo se voc no sabe exatamente o que a melhor estratgia em seu jogo, se todas as estratgias tm uma relao intransitivo, voc pode pelo menos sei que no vai haver uma nica estratgia dominante que invalida todos os outros, porque ser fraco contra pelo menos um outro contra-estratgia. Mesmo que o jogo em si desequilibrado, mecnica intransitivos permitir uma correo metagame - no uma coisa ideal para contar com exclusivamente (tal coisa seria design muito preguioso), mas melhor ter uma rede de segurana que no se voc est lanando um jogo onde grandes alteraes de equilbrio do jogo no pode ser feita facilmente aps o fato. Ento, se eu consegui convenc-lo de que a mecnica intransitivos valem inclusive para pelo menos alguns tipos de jogos, prepare-se e vamos aprender a resolv-los! Resolver o jogo RPS bsica Vamos comear por resolver o jogo bsico de Pedra-Papel-Tesoura para ver como isso funciona. Uma vez que cada lance teoricamente to bom quanto qualquer outro, podemos esperar que a razo de ser de 1:1:1, ou seja, voc escolhe cada lance com a mesma freqncia. E isso o que vamos encontrar, mas importante entender como chegar l para que possamos resolver os problemas mais complexos. Primeiro, vamos olhar para os resultados. Vamos chamar nosso oponente joga r, p e s, e nossos arremessos R, P e S (temos as letras maisculas porque somos incrveis). Desde que ganhar e perder so iguais e opostas (isto , uma vitria + uma perda de saldos fora) e empates so bem no meio, vamos chamar uma vitria um ponto, um ponto a perda de -1, e um empate 0 pontos. A matemtica aqui seria realmente trabalhar para quaisquer valores de ponto realmente, mas estes nmeros fazem que mais fcil. Ns agora construir uma tabela de resultados: rps R 0 -1 +1 P +1 0 -1 S -1 1 0 claro, esta a nossa perspectiva - por exemplo, se jogarmos (R) Ock e lances adversrio (s) cissors, ns ganhamos, para uma uma rede para a nossa pontuao. Tabela do nosso oponente seria o inverso. Vamos re-frame isso um pouco, chamando r, p e probabilidades s que o adversrio vai fazer cada lanamento respectivo. Por exemplo, suponha que voc sabe de antemo que o seu

adversrio est usando uma estratgia de r = 0,5, p = s = 0,25 (ou seja, eles jogam 2 rock para cada papel ou tesoura). Qual o melhor contra-estratgia? Para responder a essa pergunta, podemos construir um conjunto de trs equaes que lhe diz a sua retornos para cada lance: Payoff para R = 0r + (-1) p + 1s = s-p Pagamento para P = 1r + 0p + (-1) s = r-s Payoff para S = (-1) r + 1p + 0s = p-r Assim, com base nas probabilidades, voc pode calcular os retornos. No caso de nosso adversrio rock pesado, os ganhos so de R = 0, P = 0,25, S = -0,25. Uma vez que P tem a melhor recompensa de todas as trs lances, assumindo que o adversrio no varia sua estratgia em tudo, o nosso melhor contra-estratgia jogar papel cada vez, e esperamos que vamos ganhar 0,25 por jogar - isto , fora de cada quatro lanamentos, vamos ganhar mais um jogo do que perdemos. Na verdade, vamos descobrir que, se o nosso adversrio joga apenas balanar o mais nfimo pouco, mais leve com mais freqncia do que os outros, o pagamento lquido de P ser melhor do que os outros, e nossa melhor estratgia ainda jogar% Papel 100 do tempo, at que o nosso adversrio modifica sua estratgia. Isto significativo, que nos diz que um mecnico intransitivo muito frgil, e que mesmo um ligeiro desequilbrio por parte do jogador pode levar a uma estratgia completamente dominante por parte do adversrio. Claro, contra um oponente humano que percebe que estamos sempre jogando P, sua contraestratgia seria lanar uma proporo maior de s, que depois nos obriga a jogar cerca de R, que ento faz com que jogue p, o que nos faz jogar S, o que os torna jogar r, e voltas e voltas vamos ns. Se ns dois estamos ajustando constantemente nossas estratgias para combater uns aos outros, ns nunca chegar a qualquer ponto em que ambos estamos fazendo o melhor que pode? Com o tempo, ns tendem para um estado estvel de algum tipo? Alguns Teoremas de Matemtica Antes de responder a essa pergunta, h um par de coisas que eu vou lhe pedir para confiar em mim, as pessoas mais inteligentes que eu realmente provou isso matematicamente, mas este no um curso em provas de matemtica, ento estou mais que handwaving parte de coisas. Espero que voc me perdoe por isso. O primeiro que, se a mecnica de jogo so simtricas (isto , ambos os jogadores tm exatamente o mesmo conjunto de opes e eles funcionam da mesma maneira), a soluo vai acabar sendo o mesmo para ambos os jogadores; probabilidade do adversrio do Rock escolher o mesmo que a probabilidade. Em segundo lugar que cada pagamento deve ser o mesmo que os retornos outras, isto , R = P = S, se qualquer estratgia vale escolha em todos, que ir fornecer a recompensa mesmo que todas as outras estratgias vlidas, porque, se o pagamento foi em vez menos do que os outros que j no vale a pena escolha (que tinha acabado de tomar outra coisa com maior

recompensa), e se fosse mais alto do que os outros que voc escolher exclusivamente e ignorar os outros. Assim, todos os movimentos possveis que valem a pena ter de tomar a recompensa mesmo. Por ltimo, em simtricas soma zero jogos especificamente, a recompensa por tudo deve ser zero (porque os pagamentos vo ser o mesmo para ambos os jogadores, devido simetria, ea nica maneira para os retornos para resumir a zero e ainda ser igual se ambos so zero). Para resumir: Todos os payoffs que valem a pena tomar em tudo, dar um retorno iguais uns aos outros. Simtricas soma zero jogos tm todos os pagamentos iguais a zero. Jogos simtricos tm a mesma soluo para todos os jogadores. Finalizando a Soluo RPS Vamos voltar aos nossos equaes. Pedra-Papel-Tesoura um jogo de soma zero simtrica, ento: R = P = S = 0. Uma vez que o adversrio deve selecionar exatamente um lance, ns tambm sabemos as probabilidades de seu lance adicionar at 100%: r+p+s=1 A partir daqui, podemos resolver o sistema de equaes por substituio: R = 0 = s-p, portanto, p = s P = 0 = r-s, portanto, r = s S = 0 = p-r, portanto, p = r r + p + s = r + r + r = 1, ento r = 1/3 Uma vez que r = p = s, p = 1/3, s = 1/3 Portanto, a nossa soluo que o adversrio deve jogar r, p e s cada um com probabilidades de 1/3. Isto sugere que, contra um adversrio completamente aleatria, no importa o que escolhemos, as nossas chances de ganhar so os mesmos, no importa o qu. Claro, o adversrio sabe disso tambm, ento se ns escolhemos uma estratgia desequilibrada podem alterar sua relao de lance para nos vencer, a nossa melhor estratgia tambm para escolher cada lance com 1/3 de probabilidade. Note-se que efetivamente em jogo, isso no significa que a melhor estratgia realmente jogar aleatoriamente (digamos, rolando um dado secretamente antes de cada lanamento)! Como eu j disse antes, quando os seres humanos tentar jogar de forma aleatria, eles tendem a no fazer um trabalho muito bom dele, assim, no mundo real, a melhor estratgia

ainda jogar cada lance quase to frequentemente como qualquer outra, mas ao mesmo tempo que voc escolher jogar depende de sua capacidade de detectar e explorar padres de jogo de seu oponente, enquanto, ao mesmo tempo mascarar quaisquer padres aparentes em seu prprio jogo. Portanto, a nossa soluo de 1:1:1 no diz que jogar voc deve escolher, em determinado momento (que , de fato, onde a habilidade do jogo vem dentro), mas apenas que ao longo do tempo, esperamos a melhor estratgia a ser um 1 : proporo de 1:1 (porque qualquer desvio do que as mos de seu oponente uma estratgia que ganha mais frequentemente sobre voc at que reajustar sua estratgia de volta para 1:1:1). RPS resolver com Pontuao desigual O exemplo anterior muito bom e correto para a Pedra-Papel-Tesoura, mas como podemos aplicar isso para algo um pouco mais interessante? Como o nosso prximo passo, vamos mudar o mecanismo de pontuao. Por exemplo, em jogos de luta, h um sistema comum intransitivo que ataca lances batida, joga blocos de batida, e bloqueia ataques de batida, mas cada um deles tem uma quantidade diferente de dano, ento eles tendem a ter resultados diferentes no sentido de que cada escolha coloca uma quantidade diferente em risco. Como o Pedra-Papel-Tesoura mudana quando se mexe com os custos? Aqui est um exemplo. Suponha que eu faa uma nova regra: cada vitria atravs da contagem de rock duplas. Voc poderia facilmente enquadrar-lo assim: em um jogo de luta, ataques de fazer dano normal, e blocos de fazer a mesma quantidade de dano em um ataque (digamos que um bloco de sucesso permite um contra-ataque), mas que joga fazer duas vezes mais danos como um ataque ou bloco. Mas vamos dizer que "ganhar todos com contagens Rocha duplo" para a simplicidade aqui. Como isso afeta nossas probabilidades? Mais uma vez comeamos com uma tabela de pagamento: rps R 0 -1 2 P +1 0 -1 S -2 1 0 Em seguida, usar isso para construir nossas trs equaes para pagamento: R = 2s-p P = r-s S = p-2r Mais uma vez, o jogo de soma zero e simtrica, e tanto ns e nosso oponente deve escolher exatamente um lance, ento ainda temos:

R=P=S=0 r+p+s=1 Mais uma vez, resolver: R = 0 = 2s-p, portanto 2s = p P = 0 = r-s, portanto, r = s S = 0 = p-2r, portanto 2r = p r + p + s = r 2 r + r = 1, ento r = 1/4 r = s, portanto, s = 1/4 2r = p, ento p = 1/2 Ento, aqui temos um resultado surpreendente: se dobrar as vitrias para o Rock, o resultado final que o papel escolhido a metade do tempo, enquanto Rock e Tesoura cada ter escolhido um quarto do tempo! Essa uma resposta que seria pouco provvel que venha com a sua prpria, sem fazer as contas, mas, em retrospecto, faz sentido: desde Tesoura uma jogada to arriscada, os jogadores so menos propensos a escolher. Se voc sabe que seu adversrio no susceptvel de desempenhar Tesoura, Papel mais provvel que desenha ou vencer, por isso realmente do papel (e no Rock), que jogado com mais freqncia. Ento, se voc teve um jogo de luta onde um lance bem sucedido faz duas vezes tanto dano como um ataque bem sucedido ou um bloco de sucesso, mas voc fazer tanto dano com um bloco ou um ataque, ento voc realmente esperar para ver ataque dobro tentativas como lances ou blocos! RPS resolver com vitrias incompletas Suponha que fator custos de recursos para isso. Jogos de luta normalmente no tm um "custo" associado com a realizao de um movimento (que no seja o tempo, talvez), mas jogos RTS geralmente tm custos de recursos reais para produzir unidades. Vamos ter um jogo RTS simples onde voc tem que vencer os arqueiros cavaleiros, arqueiros batida folhetos e panfletos bater cavaleiros. Vamos dizer tambm que se voc enviar um tipo de unidade contra o mesmo tipo, eles matam-se mutuamente por isso no h ganho ou perda em ambos os lados, mas que um pouco diferente, com os vencedores. Vamos dizer que, quando cavaleiros atacar arqueiros, eles ganham, mas ainda perde 20% de sua sade para o vlei seta inicial antes de fechar as fileiras. E vamos dizer contra insectos, arqueiros perder 40% de sua sade para contra-ataques. Mas contra cavaleiros, folhetos tomar nenhum dano em tudo, porque os cavaleiros no podem fazer outra coisa seno ficar l e lev-lo (as espadas no funcionam muito bem contra os inimigos de uma centena de metros acima deles, deixando cair pedras sobre eles de cima ). Finalmente, vamos dizer que custar 50 cavaleiros de ouro, os arqueiros custo 75, e fliers custar 100. Agora, como isso funciona? Comeamos com a tabela de pagamento:

kaf K 50-50 = 0 (-50 * 0,2) = 75 65 -50 A -75 + (0,2 * 50) = -65 75-75 = 0 (-75 * 0,4) 100 = 70 F 50 -100 + (75 * 0,4) = -70 100-100 = 0 Para explicar: se ambos tm a mesma unidade que acaba sendo zero, isso apenas o senso comum, mas realmente o que est acontecendo que ns dois estamos pagando o mesmo valor e ambos perdem a unidade. Assim, ambos tm realmente uma perda lquida, mas em relao ao outro ainda de soma zero (por exemplo, com Knight vs Knight, ganhamos 50 Ouro em relao ao adversrio, derrotando o seu cavaleiro, mas tambm perder -50 ouro, porque a nossa Cavaleiro morre prprio bem, e adicionando esses resultados, juntos, acabar com um ganho lquido de zero). O que dizer quando o nosso cavaleiro encontra um inimigo Archer? Matamos seu Archer, que vale uma vantagem de 75 ouro, mas tambm reduziu HP nossa Knight em 20%, ento voc poderia dizer que ns perdemos 20% do nosso custo Cavaleiro de 50, o que significa que perdeu um equivalente de 10 de ouro em o processo. Assim, o resultado real que estamos por 65 de ouro. Quando o nosso cavaleiro encontra um inimigo Flier, perdemos o Cavaleiro de modo que estamos para baixo 50 de ouro. No doeu o adversrio em tudo. Onde que o custo de 100 Flier entrar? Neste caso, no, na verdade - o adversrio ainda tem uma Flier aps a troca, por isso eles ainda tm 100 no valor do ouro de Flier em jogo, eles perderam nada ... pelo menos, no ainda! Assim, no caso de custos diferentes ou vitrias incompletas, o difcil s alterar a sua tabela de pagamento. A partir da, o processo o mesmo: K = 0k + 65a + (-50) = f 65a-50f A = (-65) k + 0a + = 70f 70f-65k F = 50k + (-70) a + = 0f 50k-70a K=A=F=0 k+a+f=1 Resolvendo, encontramos: K = 0 = 65a-50f, portanto 65a = 50f A k = 0 = 70f-65k, portanto 70f = 65k, portanto, f = (13/14) F = 0 = 50k-70a, 70a = 50k portanto, portanto, a = (10/14) k k + a + f = k + (10/14) + k (13/14) k = (37/14) k = 1, portanto, k = 14/37 f = (13/14) k = (13/14) (14/37), portanto, f = 13/37 a = (10/14) k = (10/14) (14/37), portanto, a = 10/37

Neste caso, voc realmente ver uma bonita mesmo misturar de unidades, com cavaleiros de ser um pouco mais comum e arqueiros um pouco menos. Se voc quisesse folhetos a ser mais raro voc podia brincar com os seus custos, ou permitir cavaleiros para fazer um pouco de dano a eles, ou algo assim. RPS resolver com Pontuao assimtrica At agora temos assumido um jogo que simtrico: ambos temos exatamente o mesmo conjunto de lances, e ns dois ganhar ou perder a mesma quantidade de acordo com o mesmo conjunto de regras. Mas nem todos os jogos intransitivos so perfeitamente simtricos. Por exemplo, suponha que eu fiz uma variante Pedra-Papel-Tesoura, onde cada rodada, eu virar um novo carto que altera as recompensas de vitria. Nesta rodada, o meu carto diz que o meu oponente recebe dois pontos por uma vitria com Rock, mas eu no (eu s iria marcar normalmente). Como isso as coisas mudam? Ele realmente complica a situao de um grande negcio, porque agora ambos os jogadores devem descobrir as probabilidades de lances dos seus oponentes, e essas probabilidades no pode ser mais o mesmo! Vamos dizer que o jogador A tem o bnus duplo-Rock-ganha, eo jogador B no. Qual a melhor estratgia para ambos os jogadores? E quanto de uma vantagem que isso dar ao jogador A, se for o caso? Vamos descobrir atravs da construo de duas tabelas de saldo. Tabela de pagamento do jogador A assim: rB pB sB RA 0 -1 2 PA +1 0 -1 SA 0 -1 +1 Tabela de pagamento do jogador B fica assim: rA pA sA RB 0 -1 +1 PB 1 0 -1 SB -2 1 0 Aqui podemos supor que RA = PA = SA e RB = PB = SB, e tambm que rA + sA = pA + RB + PB + sB = 1. No entanto, no podemos assumir que RA = PA = SA = RB = PB = SB = 0, porque ns

realmente no sabemos que os pagamentos para os jogadores A e B so iguais, na verdade, a intuio nos diz que eles provavelmente no so! Temos, agora, este conjunto de equaes intimidante: RA = 2sB - PB PA = RB - sB SA = PB - rB RB = sA - PA PB = rA - SA SB = pA - 2rA RA = PA = SA RB = PB = SB rA + PA + sA = 1 RB + PB + sB = 1 Ns poderamos fazer isso da maneira mais difcil por meio da substituio, mas uma maneira mais fcil usar matrizes. Veja como funciona: ns reescrever as tabelas recompensa como matrizes. Aqui est o primeiro: RA 0 -1 2 [PA +1 0 -1] SA 0 -1 +1 Aqui, a coluna da esquerda representa o lado esquerdo das trs primeiras equaes acima, a segunda coluna rA, a terceira coluna pA, e a quarta coluna sA. Duas alteraes para maior clareza: primeiro, vamos mover a coluna da esquerda para a direita em vez disso, o que tornar mais fcil trabalhar com, e segundo, porque RA = PA = SA, vamos substitu-los todos com um X nica varivel, que representa a retorno lquido para o jogador A: 2 X 0 -1 [1 0 -1 X] -1 1 0 X Esta apenas uma forma abreviada de escrever estas trs equaes, omitindo os nomes, mas mant-los todos alinhados na mesma ordem, de modo que cada coluna representa uma varivel diferente: 0RB-1PB 2 sB = X 1RB 0 pB-1SB = X

-1RB um pB = sB 0 X lgebra nos diz que podemos multiplicar tudo em uma equao por uma constante e ainda verdade (o que significa que poderia multiplicar qualquer linha da matriz por qualquer valor e ainda vlido, desde que se multiplicam todos os quatro entradas na linha pelo mesmo quantidade). lgebra tambm nos diz que podemos acrescentar os dois lados de duas equaes eo resultado ainda verdade, o que significa que pode adicionar cada entrada de duas linhas em conjunto ea linha resultante ainda uma entrada vlida (que poderamos usar para adicionar as linhas j est l, ou at mesmo substituir uma linha existente com o novo resultado). E ns tambm pode reorganizar as linhas, porque todos eles ainda so verdadeiras, no importa que ordem, coloc-los dentro O que queremos fazer aqui colocar esta matriz em que chamado de forma triangular, isto , da forma onde tudo sob o diagonal zeros, e as diagonais prprios (marcados com um asterisco aqui) tem que ser diferente de zero: *? ? ? [0 *? ? ] 0 0 *? Ento, primeiro, reorden-los, trocando as linhas superior e mdio: -1 1 0 X [0 -1 2 X] 1 X 0 -1 Para eliminar a um na linha de fundo, podemos adicionar as linhas superior e inferior e recoloque a linha de fundo com que: -1 1 0 X + 1 X 0 -1 0 1 -1 2 * X Nossa matriz agora: -1 1 0 X [0 -1 2 X] 0 1 -1 2 * X

Agora, queremos eliminar a 1 sobre a linha de fundo, ento adicionamos as linhas do meio e inferior juntos e substituir a linha de fundo com o resultado: -1 1 0 X [0 -1 2 X] 0013*X Agora podemos escrever estas nas formas equao padro e resolver, indo de baixo para cima, utilizando a substituio: 1 (SB) = 3 * X, portanto sB = 3 * X -1 (PB) 2 (SB) = X, portanto -1 (PB) 2 (3 * X) = X, portanto, pB = 5 * X -1 (RB) + 1 (PB) = X, portanto, rB = 4 * X Neste ponto, ns realmente no precisamos saber o que X, mas sabemos que a razo para o jogador B de 3 a 5 Tesoura de papel para 4 Rock. Desde sB + PB + rB = 1, isto significa: rB = 4/12 PB = 5/12 = sB 3/12 Podemos usar a mesma tcnica com o segundo conjunto de equaes para descobrir a proporo opcional para o jogador A. Mais uma vez, a tabela de pagamento : rA pA sA RB 0 -1 +1 PB 1 0 -1 SB -2 1 0 Isto torna-se a seguinte matriz: 0 -1 1 RB [+1 0 PB -1] -2 +1 SB 0 Mais uma vez, reorganizar, e uma vez que RB = PB = SB, vamos chamar todos estes Y uma nova varivel (no usar X para evitar confuso com o X anterior, lembre-se que a recompensa para um jogador pode ser diferente do outro aqui) . Vamos trocar o fundo e esse tempo topo, juntamente com a substituio dos pagamentos por Y:

-2 1 Y 0 [1 0 -1 Y] 0 -1 +1 Y Para eliminar a 1 na fila de centro, temos que multiplicar a linha centro por 2 antes de adicion-lo para a linha superior (ou, multiplicar a primeira linha por 1/2, mas acho que mais fcil para multiplicar por nmeros inteiros de fraes ). -2 1 Y 0 + 1 * 2 * 2 0 -1 * 2 * 2 Y 0 +1 -2 Y * 3 Nossa matriz agora: -2 1 Y 0 [0 +1 -2 Y * 3] 0 -1 +1 Y Adicionando segunda e terceira fileiras para eliminar o -1 na linha de fundo, temos: -2 1 Y 0 [0 +1 -2 Y * 3] 0 0 -1 Y * 4 Novamente trabalhando para trs e substituindo: sA =-Y * 4 PA - 2Sa Y = 3 *, portanto, pA =-Y * 5 -2rA + pA = Y, e portanto-2rA = 6Y, portanto rA =-Y * 3 Agora, pode parecer meio estranho que ns temos um monte de nmeros negativos aqui quando chegamos positivos antes. Este provavelmente apenas um efeito colateral do fato de que o retorno mdio para o jogador A provavelmente positivo, enquanto o jogador B provavelmente negativo, mas em qualquer caso, todos os fatores de fora porque s se preocupam com a proporo relativa do Rock ao Livro de Tesoura. Para o jogador A, esta a 3 Rock 4 a 5 Tesoura Papel:

rA = 3/12 pA = 5/12 sA = 4/12 Este um pouco diferente do mix timo jogador B: rB = 4/12 PB = 5/12 = sB 3/12 Agora, podemos usar isso para descobrir a real vantagem para o jogador A. Podemos fazer isso atravs de realmente fazer uma 12 12 grfico e fazer todas as 144 combinaes e contandolos usando a probabilidade, ou podemos fazer uma simulao de Monte Carlo, ou pudssemos ligar esses valores em nossas equaes existentes. Para mim, essa ltima a mais fcil, porque j temos um par de equaes de mais cedo que se relacionam diretamente estes junto: sA =-Y * 4, portanto, Y = -1/12 rB = X * 4, portanto, X = 1/12 Sabemos que RA = PA = SA e RB = PB = SB, ento isso significa a recompensa para um jogador. um / 12 e para o jogador B -1/12 Isso faz muito sentido e funciona como um teste de sanidade: uma vez que este ainda um jogo de soma zero, sabemos que a recompensa para A deve ser igual ao retorno negativo para B. Em um jogo simtrico tanto teria que ser zero , mas isto no simtrica. Dito isso, verifica-se que se os dois jogadores da melhor maneira, a vantagem surpreendentemente pequena: apenas um extra de ganhar em cada 12 jogos, se tanto a pea ideal! Resolvendo RPS Alargada At agora, todas as relaes que temos analisados tiveram apenas trs opes. Podemos usar a mesma tcnica com mais? Sim, isso significa apenas que fazer a mesma coisa, mas mais do mesmo. Vamos analisar o jogo Pedra-Papel-Tesoura-Lizard-Spock. Neste jogo, Rock bate Tesoura e Lagarto; Papel ganha da pedra e Spock; Tesoura Papel batidas e Lagarto e Lizard batidas Spock (e Papel Lagarto batidas, Spock bate Tesoura e Rock). Nossa tabela de pagamento (com "k" de Spock uma vez que h j um 's' para Tesoura, e 'z' para Lagarto para que ele no se parece com o nmero um): rpszk R 0 -1 +1 +1 -1 P 1 0 1 -1 -1 S -1 1 0 1 -1 Z -1 1 -1 0 1

K +1 -1 1 -1 0 Sabemos tambm r + p + s + z + k = 1 e R = P = S = L = K = 0. Poderamos resolver isso com a mo tambm, mas no h outra maneira de fazer isso usando o Excel que torna as coisas um pouco mais fcil, s vezes. Primeiro, voc deve inserir na matriz acima de 5 5 grade de clulas em algum lugar. Voc tambm precisa adicionar outro 1 5 coluna de todos os 1s (ou qualquer nmero diferente de zero, na verdade) para representar a varivel X (o retorno) para a direita de sua grade de 5 5. Em seguida, selecione um novo 1 5 coluna que est em branco (basta clicar e arrastar), e em seguida, digite a frmula na barra de frmulas: = MATRIZ.MULT (MATRIZ.INVERSO (A1: E5), F1: F5) Para o parmetro MATRIZ.INVERSO, coloque o canto superior esquerdo e inferior direito de sua clulas 5 5 grade (eu uso A1: E5 se a grade est no canto superior extrema esquerda da planilha). Para o parmetro final (eu uso F1: F5 aqui), dar o 1 5 coluna de todos os 1s. Finalmente, e isto importante, pressione Ctrl + Shift + Enter quando terminar de digitar na frmula (no apenas Enter). Esta propaga a frmula para todas as cinco clulas que voc destacou e trata-los como um conjunto unificado, o que necessrio. Um aviso que este mtodo nem sempre funciona e, em especial, se no h solues ou solues infinitas, ele vai te dar # NUM! como resultado, em vez de um nmero real. Na verdade, se voc entra na tabela de pagamento acima, ele vai te dar esse erro, definindo uma das entradas para algo ligeiramente diferente (por exemplo, alterar um do s 1-0,999999), voc vai gerar uma soluo nica que apenas fora por uma pequena frao, ento em volta dele com a aproximao de algumas casas decimais para a resposta "real". Outro alerta que qualquer pessoa que realmente sabe muito sobre matemtica vai estremecer quando voc faz isso, porque o tipo de trapaa e voc realmente no deveria resolver uma matriz assim. Excel d-nos uma soluo de 0,2 para cada uma das cinco variveis, o que significa que igualmente provvel que o adversrio vai escolher qualquer um dos cinco arremessos. Podemos, ento, verificar que sim, na verdade, R = P = S = L = K = 0, ento no importa o que ns escolhemos jogar, qualquer vai fazer to bem quanto qualquer outro, se o adversrio joga de forma aleatria, com chances iguais de cada lance. Resolvendo RPS Adultos com relaes desiguais Nem todos os mecnicos intransitivos so igualmente equilibrado. Em alguns casos, mesmo sem custos ponderados, alguns lances so apenas melhor do que outros lances. Por exemplo, vamos considerar o jogo desequilibrado de pedra-papel-tesoura Dynamite. A idia que, com este lance quarto, Dinamite bate Rock (por exploso), e Tesoura bate Dynamite (cortando o pavio). As pessoas vo argumentar que deve ganhar em uma competio entre papel e Dynamite, mas para nossos propsitos vamos dizer Papel batidas Dynamite. Em teoria, isso faz

Dynamite e Tesoura parecer escolhas muito boas, porque ambos vencer dois dos trs lances outros. Ele tambm faz Rock and Paper parecer ms escolhas, pois ambos perdem a dois dos outros trs lances. O que a matemtica real dizer? Nossa tabela de pagamento fica assim: rpsd R 0 -1 1 -1 P 1 0 -1 -1 S -1 1 0 1 D +1 +1 -1 0 Antes de ir mais longe, nos deparamos com um problema: se voc olhar de perto, voc vai ver que Dinamite melhor ou igual ao de papel em cada situao. Ou seja, para cada entrada na linha P, ou igual ou menor do que a entrada correspondente na linha D (e do mesmo modo, a cada entrada na coluna de p pior ou igual coluna d). Papel e Dynamite perder para Tesoura, tanto batida rock, mas contra cada um ganha Dinamite outros. Em outras palavras, no h nenhuma razo lgica para nunca ter papel porque sempre que voc pensa sobre isso, voc levaria Dynamite vez! Em termos da teoria dos jogos, podemos dizer que o livro dominado por Dynamite. Se tentou resolver esta matriz matematicamente, como fizemos anteriormente, iria acabar com algumas respostas muito estranhas e ns rapidamente descobrir que era insolvel (ou que as respostas no fazia sentido, como uma probabilidade de r, p, s ou d que era menor do que zero ou maior do que um). A razo por que no trabalhar que em algum momento ns faramos a suposio de que R = P = S = D, mas neste caso, isso no verdade - a recompensa para papel deve ser menor do que a recompensa para Dynamite, de modo um pressuposto invlido. Para corrigir isso, antes de prosseguir, preciso eliminar sistematicamente todas as escolhas que so dominados. Em outras palavras, remover do papel como uma escolha. A nova tabela de pagamento torna-se: Rsd R 0 1 -1 S -1 0 +1 D +1 -1 0 Ns verificamos novamente para ver se, aps a primeira srie de eliminaes, outras estratgias esto agora dominados (s vezes uma linha ou coluna no estritamente

dominada por outra, at atravessar algumas outras opes dominados, de modo que voc tem que executar esta procedimento vrias vezes at eliminar tudo). Mais uma vez, para verificar estratgias dominadas, voc deve comparar cada par de linhas para ver se um domina o outro, e depois a cada par de colunas da mesma forma. Sim, isso significa um monte de comparaes, se voc dar a cada jogador 10 ou 12 opes! Neste caso, a eliminao de papel era tudo o que era necessrio, e, de fato, estamos de volta para a mesa exatamente o mesmo retorno como com os originais Pedra-Papel-Tesoura, mas com o papel de ser "rebatizado" de dinamite. E agora voc sabe, matematicamente, por que nunca fez sentido para adicionar Dynamite como um lance quarto. Outra relao desigual E se em vez disso, criou um lance novo que no foi fracamente dominada, mas que trabalhou um pouco diferente do normal? Por exemplo, algo que era equivalente a tesoura, exceto que ele trabalhou na ordem inversa, batendo Rock, mas perdendo para o papel? Vamos dizer ... Veculo de Construo (C), que bulldozes (vitrias contra) Rock, dada uma citao por (perde contra), Papel e Tesoura empates com porque nenhum dos dois pode realmente interagir muito. Agora a nossa tabela de pagamento fica assim: rpsc R 0 -1 1 -1 P 1 0 -1 +1 S -1 1 0 0 C 1 -1 0 0 Aqui, nenhum lance nico estritamente melhor do que qualquer outro, por isso, comear a resolver. Sabemos r + p + s + c = 1, e as recompensas R = P = S = D = 0. Nossa matriz torna-se: 0 -1 +1 -1 0 +1 0 -1 0 +1 [-1 1 0 0 0] +1 -1 0 0 0 Reorganizando as linhas para obter no-zeros ao longo da diagonal, temos esta invertendo a ordem de cima para baixo: +1 -1 0 0 0

-1 +1 0 0 0 [1 0 -1 1 0] 0 -1 +1 -1 0 Zerar a primeira coluna, adicionando as duas primeiras linhas, e subtraindo o terceiro da primeira, temos: +1 -1 0 0 0 00000 [0 -1 1 -1 0] 0 -1 +1 -1 0 Curioso! A segunda linha todos os zeros (o que nos d absolutamente nenhuma informao til, como s nos dizer que zero igual a zero), e as duas ltimas linhas so exatamente o mesmo que o outro (o que significa que a ltima linha redundante e novamente nos diz nada extra). Ficamos com apenas duas linhas de informao til. Em outras palavras, temos duas equaes (trs, se voc contar r + p + s + c = 1) e quatro incgnitas. O que isto significa que h, na verdade, mais do que uma soluo vlida aqui, potencialmente, um nmero infinito de solues. Ns descobrir as solues na mo: r-p = 0, ento r = p -P + s-c = 0, portanto, c = s-p Substituindo em r + p + s + c = 1, temos: p + p + s + (sp) = 1, portanto, p +2 s = 1, portanto, p = 1-2s (e, portanto, R = 1-2s). Substituindo de volta para c = sp, temos c = s-1 s 2, portanto, c = 3s-1. Temos, assim, conseguiu colocar todas as trs outras variveis em termos de s: p = 1-2s r = 1-2s c = 3s-1 o que parece primeira vista que h, de facto um nmero infinito de solues: escolher qualquer valor para s, em seguida, que lhe dar os valores correspondentes para p, r, c. Mas podemos diminuir os intervalos ainda mais.

Como? Lembrando que todas estas variveis so probabilidades, o que significa que todos eles devem estar na faixa de 0 (se nunca acontecer) a 1 (se eles sempre acontece). Probabilidades nunca pode ser inferior a zero, ou maior que 1. Isso nos permite limitar a gama de s. Por um lado, sabemos que deve estar entre 0 e 1. A partir da equao c = 3s-1, sabemos que s deve ser pelo menos 1/3 (c outra forma seria negativo) e s pode ser, no mximo, 2/3 (c outra forma seria maior do que 100%). Olhando em vez de p e r, sabemos s pode variar de 0 at 1/2. Combinando os dois intervalos, s deve estar entre 1/3 e 1/2. Isso interessante: ela nos mostra que no importa o que, Tesoura uma parte indispensvel de todas as estratgias ideais, sendo usadas em algum lugar entre um tero e metade do tempo. Na condio de limite inferior (s = 1/3), descobrimos que p = 1/3, r = 1/3, c = 0, que uma estratgia vlida. No limite superior (s = 1/2), encontramos p = 0, r = 0, c = 1/2. E tambm se pode optar por qualquer estratgia de entre, por exemplo s = 2/5, p = 1/5, r = 1/5, c = 1/5. Alguma dessas estratgias "melhor" do que os outros, de modo que um nico iria ganhar mais do que os outros? Que, infelizmente, requer a teoria do jogo um pouco mais do que eu queria entrar hoje, mas posso dizer que a resposta "depende" baseadas em certas suposies sobre como racional seus adversrios so, se os jogadores so capazes de cometer erros ocasionais na implementao sua estratgia, e quanto os jogadores sabem sobre como seus adversrios jogam, entre outras coisas. Para nossos propsitos, podemos dizer que qualquer um destes to bom quanto qualquer outro, embora eu tenho certeza que os tericos dos jogos profissionais poderiam filosoficamente discutir o caso para certos valores sobre os outros. Alm disso, para os nossos propsitos, podemos dizer que Veculo de Construo provavelmente no um bom complemento para o ncleo do jogo de Pedra-Papel-Tesoura, j que permite uma estratgia vencedora, onde o lanamento de C pode ser completamente ignorado, e outro onde estratgia vencedora P e R so ignorados, fazendo-nos perguntar por que estamos perdendo recursos de desenvolvimento na implementao de dois ou trs lances que nunca pode nem ver o jogo uma vez que os jogadores so suficientemente competentes! Resolver o jogo de Malkav At agora temos sistematicamente acabar com cada um dos nossos pressupostos bsicos: que um jogo tem um payoff simtrica, que soma-zero, que h exatamente trs opes. H uma outra coisa que ns no cobrimos no caso de dois jogadores, e isso o que acontece se os jogadores tm uma seleo diferente de escolhas - e no apenas um retorno assimtrico, mas um jogo assimtrico. Se invocar a existncia de exatamente como muitos lances de um jogador como o outro, o que acontece quando um jogador tiver, digamos, seis lances diferentes quando o oponente tem apenas cinco? Parece um problema sem soluo seria uma soluo nica (h seis incgnitas e apenas cinco equaes, certo?), Mas, de fato, acontece que podemos usar uma tcnica mais poderosa para resolver um jogo to excepcionalmente, em alguns casos.

Vamos considerar um carto chamado "jogo de Malkav" de um CCG obscura que a maioria de vocs provavelmente nunca ouviu falar. Ele funciona assim: todos os jogadores secretamente e, simultaneamente, escolher um nmero. O jogador que jogou este carto escolhe entre 1 e 6, enquanto todos os outros jogadores escolher entre 1 e 5. Cada jogador ganha como a vida tanto quanto o nmero que escolher ... a no ser que outro jogador escolheu um nmero exatamente um a menos, caso em que eles perdem muito que a vida em seu lugar. Assim, por exemplo, se voc escolher cinco, voc ganha 5 pontos de vida, a menos que qualquer outro jogador escolheu 4. Se algum escolheu quatro, voc perde 5 pontos de vida ... e eles ganham 4, a menos que algum tambm escolheu trs, e assim por diante. Isto pode ficar muito complicado com mais jogadores, ento vamos simplesmente considerar o caso de dois jogadores. Vamos tambm fazer a hiptese simplificadora de que o jogo de soma zero, e que voc ganhar uma vida um valor equivalente ao seu adversrio perder uma vida (Sei que isso no necessariamente vlida, e isso vai variar de acordo com os totais de vida relativos, mas pelo menos um ponto de partida para entender o que este carto realmente valha a pena). Podemos nos perguntar, qual o retorno esperado de jogar este carto, em geral? Ser que a opo adicional de jogar 6, quando seu oponente s pode jogar at 5? Qual a melhor estratgia, e qual o resultado final esperado? Em suma, o carto vale a pena jogar ... e se assim for, quando voc jog-lo, como voc decide o que escolher? Como de costume, vamos comear com uma tabela de pagamentos. Vamos chamar as escolhas P1-P6 (para o jogador que jogou a carta) e O1-O5 (para o adversrio): O1 O2 O3 O4 O5 P1 0 3 -2 -3 -4 P2 -3 0 5 -2 -3 P3 2 -5 0 7 -2 P4 +3 +2 -7 0 9 P5 4 3 2 0 -9 P6 5 4 3 2 -11 Poderamos tentar resolver isso, e no me parece haver qualquer picaretas dominado por um ou outro jogador, mas vamos descobrir rapidamente que os nmeros ficam muito peludo muito rpido ... e tambm que ele acaba sendo insolvel, por razes que voc vai encontrar se voc tentar. Basicamente, com 6 equaes e 5 incgnitas, h redundncia ... s que neste caso, no h linhas cancelar, e em vez disso, voc acaba com pelo menos duas equaes que se contradizem. Portanto, deve ser realmente algumas estratgias dominadas aqui ... s que eles no so imediatamente bvios, porque h um conjunto de linhas ou colunas que so

coletivamente dominadas por um outro conjunto, que muito mais difcil de encontrar apenas pelo olhar. Como que vamos encontr-los? Comeamos por encontrar a melhor jogada para cada jogador, se soubessem o que o adversrio estava fazendo antes do tempo. Por exemplo, se o adversrio sabe que vai jogar P1, sua melhor jogada O5 (dando-lhes uma rede de quatro ns e um -4 lquido). Mas, ento, continuar reagindo a sua reao: se o jogador sabe que o adversrio vai escolher O5, sua melhor jogada P4. Mas contra P4, a melhor jogada O3. Contra O3, a melhor jogada P2. Contra P2, h dois movimentos igualmente bons: O1 e O5, pelo que consideramos as duas opes: Contra O5, a melhor resposta P4, como antes (e continuamos em torno da seqncia intransitivo O5-> P4-> O3-> P2-> O5 indefinidamente). Contra O1, a melhor resposta P6. Contra P6, a melhor resposta O5, que nos traz novamente para a seqncia intransitivo O5-> P4-> O3-> P2-> O1-> P6-> O5. O que se comearmos em um lugar diferente, digamos, inicialmente jogando P3? Ento melhor contador do adversrio o O2, a nossa melhor resposta para isso P6, que depois leva-nos para a O5-> P4-> O3-> P2-> O1-> P6-> O5 loop. Se comearmos com P5, a melhor resposta O4, que obtm a resposta P3, que apenas coberto. O que se comearmos com O1, O2, O3, O4, O5, P2, P4 ou P6? Todos eles j esto contabilizados nas seqncias anteriores, ento no h mais nada a analisar. Assim, vemos que no importa o que comear, finalmente, aps o jogo repetido apenas um pequeno subconjunto de movimentos realmente acabar sendo parte da natureza intransitivo deste jogo porque eles formam dois loops intransitivos (O5/P4/O3/P2, e O5/P4/O3/P2/O1/P6). Olhando para estas seqncias, as nicas escolhas j utilizados por qualquer jogador so O1, O3, O5 e P2, P4, P6. Qualquer outra escolha acaba sendo estritamente inferior: por exemplo, em qualquer ponto em que vantajoso para jogar P6 (ou seja, voc est esperando um retorno positivo), no h razo para voc preferir P5 vez (mesmo se voc espera que o seu adversrio O5 de jogar, a sua melhor resposta no P5, mas sim P4). Ao usar esta tcnica para encontrar loops intransitivos, muitas vezes voc pode reduzir um nmero maior de opes para um conjunto menor de entes viveis ... ou na pior das hipteses, voc pode provar que todo o conjunto maior so, de fato vivel. Ocasionalmente voc vai encontrar um jogo (Dilema do Prisioneiro um exemplo famoso, se voc j ouviu falar de que) onde h um ou mais locais na tabela que so igualmente vantajoso para ambos os jogadores, de modo que aps o jogo repetido esperamos que todos os jogadores ser atrados para esses locais; tericos dos jogos chamar esses equilbrios de Nash aps o matemtico quem primeiro escreveu sobre eles. No que voc precisa para cuidar. Portanto, neste caso, pode-se reduzir a mesa para o conjunto de valores significativos: O1 O3 O5

P2 -3 5 -3 P4 3 -7 9 P6 5 3 -11 De l, resolver, estando ciente de que este no simtrica. Portanto, sabemos que O1 = O3 = O5 e P2 = P4 = P6, mas no sei se eles so todos iguais a zero ou se um o negativo do outro. (Presumivelmente, P2 positivo e O1 negativo, uma vez que seria de esperar a pessoa que joga este carto para ter uma vantagem, mas vamos ver.) Ns construmos uma matriz, usando o X para representar o Payoff para P2, P4 e P6: -3 -3 5 X [+3 -7 9 X] 5 3 -11 X Isto pode ser reduzido a forma triangular e, em seguida, resolvido, o mesmo que os problemas anteriores. Sinta-se livre para experiment-lo voc mesmo! Eu dou a resposta abaixo. Agora, a soluo que a matriz faz com que voc as probabilidades O1, O3 e O5, mas para aprender as probabilidades de escolher P2, P4 e P6 voc tem que virar a matriz de toda a diagonal de forma que o sistema operacional esto todos na esquerda eo PS esto no topo (isso chamado de transposio). Neste caso, ns tambm precisamos fazer todos os nmeros negativos, uma vez que tal matriz do ponto de vista do jogador e, portanto, tem os retornos opostos: 3 Y -5 -3 [-5 Y 7 -3] 3 -9 11 Y Isto, tambm, pode ser resolvido normalmente. Se voc estiver curioso, as respostas finais so aproximadamente: P2: P4: P6 = 49%: 37%: 14% O1: O3: O5 = 35%: 41%: 24% Esperado retorno ao jogador P (apresentado como "X" acima): 0,31, eo retorno para o jogador (apresentado como "Y") o negativo de X: -0,31.

Em outras palavras, no caso de dois jogadores do jogo, quando os dois jogadores jogam de forma otimizada, o jogador que iniciou este carto fica frente por uma mdia de menos de um tero de um ponto de vida - por isso, enquanto podemos confirmar que jogar a carta e ter a opo extra de escolher 6 de fato uma vantagem, acaba por ser um muito pequeno. Por outro lado, a possibilidade de oscilaes sbitas grandes podem torn-lo til no jogo real (ou talvez no), dependendo da plataforma que est a jogar. E, claro, o jogo fica muito mais complicada em multi-jogador situaes que no consideramos aqui. Trs resolver-Player RPS At agora ns cobrimos praticamente todos os casos possveis para um jogo com dois jogadores, e voc pode combinar os diferentes mtodos conforme necessrio para praticamente qualquer aplicao, para qualquer tipo de jogo de dois jogadores. Podemos estender este tipo de anlise a vrios jogadores? Afinal, muitos desses jogos envolvem mais do que apenas um nico cabea-de-cabea, eles podem envolver equipes ou livre-para-todos os ambientes. As equipes so simples, se h apenas duas equipes: apenas tratar cada equipe como um "jogador" nico para fins de anlise. Free-for-all um pouco mais difcil porque voc tem que gerenciar mltiplos oponentes, e como veremos a complexidade tende a explodir com cada jogador sucessiva. Trs-jogador jogos so detestveis, mas ainda bastante possvel para resolver; quatro jogadores jogos so, provavelmente, o limite superior do que eu jamais tentar mo usando qualquer um dos mtodos que eu mencionei hoje. Se voc tem um seis-jogador livre para todos os jogos intransitivo onde cada jogador tem um conjunto diferente de opes e uma matriz de payoff macia que d recompensas a cada jogador para cada combinao ... bem, vamos apenas dizer que isso pode ser feito, provavelmente exigindo a ajuda de um computador e um terico jogo profissional, mas neste momento voc no iria querer. Uma coisa que os tericos dos jogos que aprendi que quanto mais complexo o jogo, j que tende a levar os jogadores humanos em um laboratrio de convergir para as melhores estratgias ... o que significa para um jogo altamente complexo, playtesting lhe dar uma idia melhor de como o jogo realmente joga "no campo" do que fazer a matemtica para provar as melhores solues, porque os jogadores provavelmente no vai encontrar as melhores solues de qualquer maneira. Assim, para um sistema complicado como esse, voc melhor fora de playtesting ... ou, mais provavelmente, voc melhor fora de simplificar seus mecnicos! Vamos tomar um caso multi-player simples: trs jogadores Pedra-Papel-Tesoura. Ns definimos as regras como esta: se todos os jogadores fazem o lance mesmo ou se todos os jogadores cada um escolher diferentes lances, chamamos isso de um empate. Se dois jogadores fazem o lance e mesmo o terceiro jogador escolhe um diferente ("Odd Man Out"), ento quem joga o lance vencedor ganha um ponto de cada um perdedor. Portanto, se dois jogadores jogam Rock eo terceiro joga Tesoura, cada um dos jogadores da rocha obter um ponto eo jogador Tesoura infeliz perde 2 pontos. Ou se o contrrio, um jogador que joga Rocha enquanto dois jogam Tesoura, o jogador recebe uma rocha dois pontos, enquanto os outros dois jogadores perdem 1 ponto cada. (A idia por trs desses nmeros a de manter o jogo de soma zero, para simplificar, mas voc pode usar este mtodo para resolver qualquer

mecanismo de pontuao dos outros.) Claro, sabemos que por causa da simetria que a resposta a esta 1:1:1, assim como a verso de dois jogadores. Ento vamos jogar na ruga mesma de antes: ganha com Rock dupla contagem (o que tambm significa, uma vez que este de soma zero, que as perdas com a tesoura contar duplo). No caso de dois jogadores que encontrou a soluo de Rock = Tesoura = 1/4 do papel, = 1/2. Ser que esta mudana em tudo, no caso de trs jogadores, j que agora h dois adversrios que o tornam ainda mais perigoso para jogar Tesoura (e possivelmente ainda mais rentvel para jogar Rock)? O truque precisamos usar aqui para fazer esta solucionvel olhar para o problema da perspectiva de um nico jogador, e tratar todos os adversrios coletivamente como um nico adversrio. Neste caso, vamos acabar com uma tabela de pagamentos que se parece com esta: rr rp rs pp ps ss R 0 -1 2 -2 0 4 P 2 1 0 0 -1 -2 S -4 0 -2 2 1 0 Voc pode dizer: espere um minuto, h trs variveis aqui e seis incgnitas (dois 'r' e dois 'p' e dois 's', uma para cada adversrio) o que significa que este no o nico solucionvel. Mas a boa notcia que este jogo simtrico, portanto, na verdade pode resolv-lo, porque as probabilidades de os adversrios sejam tomados juntos e multiplicados (lembre-se que multiplicar probabilidades quando precisamos de duas coisas independentes a acontecer ao mesmo tempo). Uma coisa a ter cuidado: h realmente nove possibilidades para os adversrios, e no seis, mas alguns deles so duplicados. A tabela real assim: rr rp pr rs sr pp ps sp ss R 0 -1 -1 2 2 0 0 4 -2 P 2 1 1 0 0 0 -1 -1 -2 S -4 0 0 -2 -2 2 1 1 0 Tudo isso significa que, ao usar a matriz original e grav-lo em forma de mo, temos que lembrar a multiplicar rp, rs e PS por 2 cada, uma vez que h duas maneiras de obter cada um deles (rp e PR, por exemplo ). Note que eu no tenha mencionado qual dos dois adversrios que, como eu disse anteriormente, no importa, porque este jogo simtrica, ento a probabilidade de qualquer jogador que joga Rocha ou tesoura a mesma que a dos outros jogadores .

Esta tabela de pagamento no apresenta to bem em forma de matriz, j que estamos lidando com duas variveis, em vez de um. Uma maneira de fazer isso seria realmente dividir esta em trs mini-matrizes, uma para cada uma das escolhas do oponente primeiro, e em seguida, comparando cada um dos com a escolha do segundo oponente de ... ento resolver cada matriz individualmente, e combinando as trs solues em um no final. Isso um monte de trabalho, por isso vamos tentar resolv-lo algebricamente vez, gravando-lo em forma longa e ver se podemos isolar nada combinando como termos: Payoff para R = 4-2RP rs-2pp 4 ss = 0 Payoff para P = 2 2RR rp-2SP-2ss = 0 Payoff para S =-4RR-4RS 2 pp 2 sp = 0 r + s + p = 1 (como de costume) A "= 0" no final porque sabemos que este jogo a soma simtrica e zero. Onde voc comear com algo como isso? Um local de partida til geralmente usar r + s + p = 1 para eliminar uma das variveis, colocando-as em termos do outro, em seguida, substituindo em trs equaes acima para pagamento. Eliminando Rock (r = 1-sp) e substituindo, depois de multiplicar tudo e combinao de termos, temos: -4pp 2 ps-2p 4 s = 0 -2p-4s +2 = 0 2pp-6PS 8 p s-4 4 = 0 Pudssemos isolar ou p ou s nas equaes de primeiro ou o ltimo, usando a frmula quadrtica (voc sabe, "menos b mais ou menos a raiz quadrada de 4ac, tudo dividido por 2a"). Isso daria origem a duas solues possveis, embora na maioria dos casos, voc vai achar que voc pode eliminar uma medida que se afasta fora dos limites de 0 a 1 (que r, p e s devem todos se encontram dentro, como so todas as probabilidades). No entanto, a equao acima do meio torna a nossa vida muito mais fcil, como se pode resolver por p ou s em termos do outro: p = 1-2s Substituindo que para as outras duas equaes nos d o mesmo resultado, o que nos permite saber que provavelmente est no caminho certo j que as equaes no se contradizem: 20ss-26s 6 = 0 Aqui ns temos que usar a frmula quadrtica temida. Multiplicando tudo para fora, descobrimos s = (26 + / -14) / 40 ... que , s = 100%, ou s = 30%. So ambas estas solues vlidas? Para descobrir, avaliar p = 1-2s e qualquer outra equao com r. Para s = 30%, p =, encontramos 40% e r = 30%, de modo que uma soluo vlida. Para s =

100%, temos p = -100% e r = 100%, o que invlido (p no pode ser abaixo de zero), deixandonos apenas com uma nica soluo vlida: r: p: s = 03:04:03 . Acontece que ter vrios jogadores tem um efeito sobre o "rock ganha contar duplo" problema, mas pode no ser o resultado que espervamos, com trs jogadores, realmente mais perto de 1:01:01 do que era com dois jogadores ! Talvez seja porque a probabilidade de desenho com uma rocha jogador escolher, um papel escolha e uma escolha de Tesoura faz Tesoura menos arriscado do que seria em um jogo com dois jogadores, porque mesmo que um oponente escolhe Rock, o outro pode escolher papel e vire sua perda dupla em um sorteio. Resumo Esta semana vimos como para avaliar a mecnica intransitivos usando matemtica. provavelmente a coisa mais complicada que temos feito, uma vez que rene as curvas de custo da mecnica transitivos, probabilidade e estatstica, que por isso que eu estou fazendo isso no final do curso s depois de cobrir aqueles! Para resolver isso, voc passar por esse processo: Faa uma tabela de pagamento. Eliminar todas as opes dominadas de ambos os jogadores (comparando todas as combinaes de linhas e colunas e ver se qualquer par contm uma linha ou coluna que estritamente melhor ou igual a outro). Continue fazendo isso at que todas as opes restantes so viveis. Encontrar todos os intransitivos "loops" atravs de encontrar a melhor resposta adversria para escolha inicial de cada jogador. Calcular os retornos de cada escolha de um dos jogadores, estabelecendo os pagamentos iguais mesma varivel X. Em um jogo de soma zero, X para um jogador ser o negativo do X para o outro jogador. Em um jogo simtrico, X zero, ento apenas definir todos os pagamentos a zero vez. Adicionar mais uma equao, de que as probabilidades de todas as escolhas para a soma 1. Usando substituio algbrica, de forma triangular matrizes, Excel, ou qualquer outro significa que voc tem sua disposio, para resolver tantas variveis quanto voc puder. Se voc conseguir aprender o valor de X, ele diz que o ganho esperado (ou perda) para o jogador. Somando os valores de todos os jogadores X diz-lhe se o jogo de soma zero (X1 + X2 + ... = 0), soma-positivo (> 0) ou de soma negativa (<0), e por quanto global. Se voc pode encontrar um valor nico para cada escolha que est entre 0 e 1, essas so as probabilidades timas com o qual voc deve escolher cada lance. Para jogos assimtricos, voc precisa fazer isso individualmente para cada jogador. Esta a sua soluo. Para jogos com mais de dois jogadores cada um fazer uma escolha simultnea, escolha payoffs de um jogador como seu ponto de referncia, e tratar todos os outros jogadores como um nico adversrio combinado. A matemtica fica muito mais difcil para cada jogador que voc adicionar mais dois. Afinal, com dois jogadores de todas as equaes so estritamente linear, com trs jogadores que voc tem que resolver equaes de segundo grau, com quatro jogadores h equaes cbicos, com cinco jogadores que voc v equaes qurticas, e assim por diante.

Gostaria tambm de salientar que o campo da teoria dos jogos enorme e abrange uma grande variedade de outros jogos ns no cobrimos aqui. Em particular, tambm possvel analisar os jogos em que os jogadores escolhem seqencialmente ao invs de simultaneamente, e tambm jogos em que os jogadores so capazes de negociar antes do tempo, fazendo apelos ou ameaas, coordenando seus movimentos ou assim por diante (como pode ser encontrado na soma positiva jogos onde dois jogadores podem negociar ou cooperar para chegar frente de seus adversrios). Estes esto fora do escopo deste curso, mas se voc estiver interessado, vou dar um par de referncias no final. Se voc est trabalhando em um jogo agora ... Pense no seu jogo e se apresenta qualquer mecnica intransitivos. Se no, pergunte-se se existem oportunidades ou razes para tomar alguns mecnicos transitivos e convert-los para intransitivo (por exemplo, se voc est trabalhando em um RPG, talvez em vez de apenas com uma seqncia de armas, onde cada um melhor do que o estritamente o anterior, talvez haja uma oportunidade em um ponto no jogo para oferecer ao jogador a opo de vrias armas que so todos igualmente bom no geral, mas cada um melhor que o outro em diferentes situaes). Se voc tem qualquer mecnica intransitivos em seu jogo, descobrir o que o mais importante, e analis-lo como fizemos hoje. Das escolhas que voc oferece o jogador, so alguns deles escolhas dominantes ou dominados? Qual a proporo esperada da freqncia com que o jogador deve escolher cada uma das opes disponveis, assumindo o jogo ideal? o que voc esperava? o que voc quer? Lio de casa Para a prtica, sinta-se livre para comear a fazer as contas mo para confirmar todos os problemas que eu resolvidos aqui, hoje, para pegar o jeito dele. Quando voc estiver confortvel, aqui um jogo derivado de um mini-jogo que vi uma vez em uma das sries Suikoden dos RPGs (esqueci qual). O jogo em si no utilizado 13 cartes, mas, para simplificar, eu vou usar um deck de 5 cartas para este problema. Aqui esto as regras: Jogadores: 2 Configurao: Cada jogador tem cinco cartas, numeradas de 1 a 5. Uma pilha de cartes de terceiro numeradas de 1 a 5 so embaralhadas e colocadas de face para baixo como uma pilha de compras. Progresso de jogo: No incio de cada rodada, um carto de chamar a pilha est virado para cima, a rodada vale um nmero de pontos igual ao valor de face do que o carto. Ambos os jogadores em seguida, escolha um de seus prprios cartes, e jogar simultaneamente. Quem jogou a maior carta ganha os pontos para essa rodada, em caso de empate, ningum recebe os pontos. Ambos os jogadores de lado as cartas que eles escolheram para jogar nessa rodada, os cartes no podem ser utilizados novamente. Resoluo: O jogo termina depois que todos os cinco rounds ter sido jogado, ou depois de

um jogador atinge 8 pontos. Quem tiver mais pontos ganha. fcil de ver que no h uma estratgia dominante. Se o adversrio joga de forma completamente aleatria (20% de chance de jogar cada carto), voc sai muito frente apenas tocando o nmero em sua mo que coincide com os pontos de cada rodada vale a pena (para jogar o seu 3 se a 3 invertida, jogar o seu 4 em um 4, etc.) Voc pode demonstrar isso no Excel, arrastando a mo do oponente, de modo que eles esto jogando de forma aleatria, e comparando que a estratgia para a estratgia de "ponto de correspondncia" que eu descrevi aqui, e voc vai descobrir rapidamente que a correspondncia ponto ganha a grande maioria da tempo. (Voc tambm pode calcular as chances exaustivamente para isso, como existem apenas 120 maneiras de reorganizar 5 cartas, se voc quiser.) Isso significa que "combinando os pontos" a estratgia dominante? Certamente que no. Se eu sei que meu oponente est jogando esta estratgia, posso trucidar-los jogando um superior correspondncia em todos os cartes, e jogar o meu carto de 1 na rodada de 5 pontos. Eu vou perder 5 pontos, mas eu vou capturar os outros 10 pontos para a vitria. Ser que a "uma maior" estratgia de dominar? No, tocando "duas superior" vai bater "uma maior" ... e "trs mais" vai bater "dois mais alto", "quatro maiores" vai bater "trs mais", e "pontos de correspondncia" bate "quatro maiores" - uma intransitivo relao. Essencialmente, o objetivo deste jogo adivinhar o que o adversrio vai jogar, e depois jogar um maior do que (ou se voc acha que o seu oponente est jogando o seu 5, jogar o seu 1 sobre isso). Como cada estratgia to bom como qualquer outro se escolher entre os cinco, voc pode pensar que isso significa que voc no pode fazer nada pior do que escolher uma dessas estratgias de forma aleatria ... exceto que, como vimos, se voc jogar aleatoriamente ", combinando os pontos" bate em voc! Por isso, provavelmente verdade que a melhor estratgia no 1:1:1:1:1, mas sim algum outro ndice. Descobrir o que . Se voc no tem certeza por onde comear, pense da seguinte maneira: para qualquer jogo dado h apenas cinco estratgias: correspondncia, uma superior, duas superior, trs superior, ou quatro maiores. Descobrir a tabela de pagamento para seguir cada estratgia em todas as cinco cartas. Voc pode mudar de estratgia de rodada para rodada, como pedra-papeltesoura, mas com nenhuma outra informao sobre a primeira rodada voc s tem cinco opes, e cada uma dessas escolhas podem ajudar ou prejudicar voc, dependendo do que seu oponente. Portanto, para o primeiro jogo pelo menos, voc poderia comear com esta tabela de pagamento (afinal, para a primeira rodada, h apenas cinco estratgias que voc pode seguir, j que voc s tem cinco cartes cada um): combinando jogo um jogo de dois match jogo 3 4 M 0 -5 3 9 13 M 1 5 0 3 -1 -7 M 2 -3 -9 -10 0 7

M 3 1 9 0 -9 -11 M 4 -3 -13 10 11 0 Referncias Aqui esto um par de referncias que eu encontrei til ao unir apresentao de hoje. "Arquitetura e Design Jogo" (Rollings & Morris), os captulos 3 e 5. Aqui onde eu ouvi pela primeira vez a idia de usar sistemas de equaes para resolver jogos intransitivos. Eu tentei levar as coisas um pouco mais hoje do que os autores fizeram neste livro, mas claro que isso significa que o livro um pouco mais simples e provavelmente mais acessvel do que o que eu fiz aqui. E l est, voc sabe, todo o resto do livro lidar com todos os tipos de outros tpicos. Eu ainda estou no meio da leitura, ento eu no posso dar-lhe um selo definitivo de aprovao pessoal, neste momento, mas tambm no posso dizer nada de ruim sobre ele, ento d uma olhada e decidir por si mesmo. "Teoria dos Jogos: um texto crtico" (Heap & Varoufakis). Eu encontrei este para ser uma introduo til e bastante acessvel a Teoria dos Jogos. Meu aviso seria que, no interesse da brevidade, os autores tendem a definir siglas e depois us-los livremente no restante do texto. Isso torna difcil para pular, como provvel que voc pular algumas definies importantes, e depois correr para sentenas que tm siglas mais do que palavras irreconhecveis reais!

Вам также может понравиться