Академический Документы
Профессиональный Документы
Культура Документы
Juegos
Introduccin, I
Juegos
Origen, 1928: John Von Newmann
Teorema fundamental de los juegos bipersonales de suma nula.
Desarrollo, 1944:
Von Newmann, J. Morgernsten, O. Theory of Ga es and co o c e a ou Games a d Economic Behaviour.
Aplicaciones
Antropologa, psicologa, economa, poltica, negocios, biologa, IA, etc.
Elementos:
Jugadores: personas, empresas, naciones, entes biolgicos, etc. C j t d estrategias: operadores o Conjunto de t t i d acciones Resultado o Valor del juego: estado/s objetivos/s Conjuntos de Pagos para cada jugador: funcin de utilidad sobre las estrategias
2
Introduccin, II
Clasificacin desde diferentes perspectivas:
C Cooperacin i
Cooperativos/no cooperativos
Nmero de jugadores
n=2 bipersonales: n=2, por naturaleza no cooperativos n>2, n-personales: Pueden ser cooperativos. Dan lugar a coaliciones li i
Beneficios
Suma nula (habituales en IA): la suma de beneficios y prdidas de los j g p jugadores debe ser 0 (puede ser constante reescalado). Suma no nula.
Duracin
Finitos: tienen final programado (n jugadas, ruinas, etc.) 3 Infinitos: sin final programado
Introduccin, III
Formas de representacin de un juego
Forma matricial
matriz de balances finales o matriz del juego: j g proporciona la utilidad de cada estrategia de cada jugador para cada accin del resto de jugadores.
J2 A B A
Forma de rbol
2 -3 0 2
J1 B
C -5 10
Pagos de J2 a J1
Juegos bipersonales, I
Los juegos bipersonales en la IA
Son problemas con contingencias E ocasiones pueden t En i d tener una ramificacin alta
por ejemplo en ajedrez, b 35
En la resolucin se utilizan:
Funciones de evaluacin
Evalan los operadores utilizados por cada jugador. Ayudan a decidir el resultado del juego y las mejores estrategias para cada jugador jugador.
Mtodos de poda
Simplificacin de la bsqueda.
Juegos bipersonales, II
Planteamiento general:
2 jugadores: MAX y MIN (MAX mueve primero): Estado inicial
Posicin del tablero e identificacin del primer jugador a mover
Funcin sucesora:
Lista de pares (movimiento, estado) indica cada movimiento legal y su estado resultante
F Funcin objetivo: i bj ti
Determina cundo se acaba el juego (en nodos objetivo o terminales)
El rbol del juego tiene que reflejar dicha contingencia, contingencia introduciendo al azar como si de un jugador ms se tratase La toma de decisiones se puede ver influenciada por la distribucin de probabilidad existente sobre las acciones del jugador azar.
Juegos bipersonales, IV
En aquellos juegos en que existe azar, es posible recoger la informacin procedente de nodos en los que interviene una distribucin de di t ib i d probabilidad para b bilid d determinar los nodos generados a partir del nodo actual. Para determinar el valor esperado de la p utilidad se procede segn la siguiente definicin:
EXPECTMINIMAX (n) = UTILITY ( n) si n es terminal i i l max si n es un nodo MAX ssuccessors ( n ) EXPECTMINIMAX ( s ) min EXPECTMINIMAX ( s ) si n es un nodo MIN ssuccessors ( n ) P(s)EXPECTMINIMAX P(s) EXPECTMINIMAX ( s ) si n es un nodo ALEATORIO ssuccessors ( n )
Ejemplo: un nodo con lanzamiento de un dado Si Equilibrado
Pi =
1 i = 1,K , 6 6
Juegos bipersonales, IV
Ejemplo: tres en raya
Inicialmente MAX puede realizar uno de entre nueve movimientos posibles
Jugadas alternas entre MAX (x) y MIN (o), hasta llegar a un estado terminal
El valor de cada nodo hoja indica el valor de la funcin utilidad desde el punto de vista de MAX (valores altos son buenos para MAX y bajos buenos para MIN)
El estado inicial y los movimiento legales de cada jugador definen el rbol del juego.
Aplicacin algoritmo:
1) Generar rbol entero hasta nodos terminales 2) Aplicar funcin u a nodos terminales 3) P Propagar h i arriba para generar nuevos hacia ib valores de u para todos los nodos minimizando para MIN maximizando para MAX 4) Eleccin jugada con mximo valor de u
MINIMAX-VALUE(n) =
UTILITY(n) Si n es un nodo terminal maxs Sucesor(n) MINIMAX-VALUE(s) Si n es un nodo MAX d mins Sucesor(n) MINIMAX-VALUE(s) Si n es un nodo MIN 10
Valores de la funcin de utilidad para MAX Valores minimax (cada nodo tiene asociado valor minimax ti i d l i i o MINIMAX-VALUE(n)) La mejor jugada de MAX es A1 porque genera el mayor valor minimax entre sus nodos sucesores: PTIMA L mejor j La j jugada entonces d MIN es A11 porque genera d t de el menor valor minimax entre sus nodos sucesores.
12
PAGOS: 1) Si MIN no ve la apuesta pierde el dinero que puso en el bote. 2) Si MIN ve la apuesta se vuelven las cartas: i) Si las cartas son diferentes gana la mejor, con el criterio: A es preferida a K ii) Si ambas cartas son iguales se reparte el bote equitativamente.
13
-3
-5
-7
1 3
-3 1
-5
-7
1 0
Ej. de pago si secuencia de jugada es [(K,A), +4, ver] Ver comparar(K,A) gana(MAX) Pago-a-MAX = 4 + 1 = 5 (4 de ver la apuesta, 1 del bote) (ojo!, el pago representa incremento de capital)
14
Funcin de evaluacin:
15
Se pueden elegir sucesivos lmites de profundidad. El lmite de profundidad se debera aplicar slo a posiciones inactivas.
Por ejemplo, en ajedrez, seran posiciones en las que es poco p obab e que e s a cap u as probable existan capturas Problema del horizonte Surge cuando el programa se enfrenta a una accin del oponente, inevitable y que p , q causa serios perjuicios. Ejemplo: en la figura anexa, pen blanco amenaza convertirse en dama. Torre negra amenaza con jaque La jaque. ventaja actual es negra y la inmediata futura es blanca (evaluacin calidad piezas).
16
Fcd-max: nmero de filas, columnas o diagonales libres para MAX Fcd-min: nmero de filas, columnas o diagonales libres para MIN
Exploracin y evaluacin:
El procedimiento de exploracin visto separa por completo el proceso de g generacin del rbol de exploracin y la p evaluacin de posiciones. Se puede reducir el esfuerzo requerido si se hace evaluacin de los nodos finales y se ll llevan h i atrs esas evaluaciones hacia t l i con la generacin el rbol
17
ver Nilsson
18
Poda
Consiste en tratar de localizar la decisin ptima minimax sin tener que explorar todos los nodos del rbol rbol. Aplicable a rboles de cualquier profundidad Puede podar subrboles enteros Principio general
El algoritmo g efecta una bsqueda en profundidad. Si durante la misma se produce que m es mejor que n para un jugador, entonces nunca se llegar a n en el juego 19
Poda
Fundamentos del algoritmo de poda
Definimos
El valor es una cota inferior para el valor obtenido por propagacin desde los sucesores de un nodo. El valor es una cota superior para el valor obtenido por propagacin desde los sucesores de un nodo. Si n es ascendente (padre) de m y se verifica alguna de las condiciones siguientes, no hace falta seguir examinando por debajo de n (se producen podas). El nodo n no afecta al resultado final (valor de la accin que lleva al nodo n) y es prescindible
Poda
[a >= b]
[a >= b]
20
Algoritmo de poda
Es similar al minimax salvo sendas lneas en las rutinas MIN-VALUE y MAX VALUE MAX-VALUE que mantienen los valores de alpha y beta
minimax
21
Ejemplos, I
Ejemplo sencillo de poda [-inf,inf] [3,inf] [-inf,3] [3,2] [3,2]
3 12
6 14 5
Estimacin en el ajedrez
Un agente puede examinar unas 1000 posiciones/segundo.
Si tenemos 150 segundos para pensar un movimiento, entonces, como b es aproximadamente 35, podemos descender 3 4 niveles en el rbol. La poda va a permitir bajar hasta ms niveles. 22
Ejemplos, II
[ ] [ ] [-] [-2] [-] [2 ] [2 ] = ! [2 2]
[-] [2 ]
[-2] [2 2]
[2 ]
=!
[-] [-2]
>!
[2 ] [2 1] [-2]
[ [-2] ] >!
[2 ] [2 ] [2 0]
[2 5]
[2 1]
>!
No mejoran = 2
23
Efectividad de la poda
La poda depende del orden en que se examinan los nodos
En el ejemplo de la p g j p pgina siguiente, no se g , producen podas por debajo del nodo n porque la rama se expande la ltima.
O(b 2 )
Por tanto, el factor de ramificacin efectivo sera en lugar de b.
Es una situacin ideal (supondra expandir los nodos para calcular el de menor f).
[1] Donald E. Knuth; Ronald W. Moore; An analysis of alpha-beta pruning. Artificial Intelligence 6(4); 293-326 (1975)
24
Efectividad de la poda
[-] [3, ] [3, [3 ] [3, 14] [3, 5] [3, 2]
[-] [-, 3]
[3, ] [3, 2]
3 12 8 2 4 6 14 5 2
Knuth y Moore demostraron tambin que si examinan l sucesores d f i los de forma aleatoria l t i para valores moderados de b, la complejidad temporal es aproximadamente:
O(b 3d/4)
25