Вы находитесь на странице: 1из 24

1.

Decisin individual
En la economa, tradicionalmente se supone que el comportamiento de un agente puede
descomponerse en una serie de acciones paralelas o secuenciales, elegidas como resultado de
un proceso de deliberacin mental. El agente aparece, as como un tomador de decisiones
autnomo que elige, consciente o implcitamente, en una situacin que puede aislarse de su
contexto, entre las diversas alternativas que se le presentan. Adems, se supone que este
proceso de toma de decisiones es racional, en virtud de dos propiedades notables. En primer
lugar, el agente es "consecuencialista" en el sentido de que elige su accin nicamente de
acuerdo con sus consecuencias (previsibles); En segundo lugar, es "utilitario" en el sentido
de que evala los efectos de su accin ponderando sus costos y ventajas. En consecuencia,
este agente se limita a un marco psicolgico mnimo, en la medida en que sus opciones se
rigen exclusivamente por tres determinantes personales de eleccin: sus oportunidades
(delimitando el espacio de sus posibles acciones), sus representaciones (lo que le permite
predecir las consecuencias de su accin) Y sus preferencias (induciendo un juicio sobre estas
consecuencias). Estos tres determinantes se combinan ms en una regla de eleccin que
caracteriza ms precisamente la racionalidad del tomador de decisiones.
En el enfoque clsico, el tomador de decisiones est animado por una racionalidad muy fuerte
que se apoya en tres suposiciones. Primero, dado sus creencias anteriores, es capaz de
perfectamente anticipar los efectos de sus acciones. En segundo lugar, juzga sus acciones
sobre la base de un nico criterio sinttico, la utilidad, que resume sus costos y ventajas. En
tercer lugar, adopta la conducta optimizadora, en el sentido de que busca la accin que
maximiza su utilidad (definida directamente sobre las acciones ms all de sus efectos) bajo
ciertas limitaciones (las que limitan el conjunto de sus posibles acciones). Estas suposiciones
se han ido debilitando progresivamente, pero slo hasta cierto punto. Al abandonar la primera
hiptesis, el tomador de decisiones slo posee informacin imperfecta sobre su entorno. La
modificacin ms compleja de la segunda suposicin nos da un tomador de decisiones que
utiliza criterios de eleccin mltiples, pero no obstante conmensurables. La tercera
suposicin se mantiene generalmente y asume que el tomador de decisiones hace su eleccin
sin tener ninguna dificultad real en calcular cul es su accin ptima.
En el enfoque evolutivo, la racionalidad del tomador de decisiones es mucho ms limitada y
se sita dentro de una perspectiva dinmica. Su informacin se reduce y deriva no tanto de
su conocimiento previo como de sus observaciones pasadas, que se acumulan y le permiten
revisar sus creencias. Su utilidad no est necesariamente predefinida, sino construida como
una funcin de su experiencia pasada en situaciones anlogas. Sobre todo, el proceso
deliberativo del encargado de la toma de decisiones est limitado por su capacidad limitada
de calcular, y esta restriccin interna debe agregarse a las restricciones externas. Sin
embargo, esta limitacin cognitiva puede ser compensada por el trabajo del tiempo, al menos
si el tomador de decisiones lleva a cabo una sucesin de opciones repetitivas. En este caso se
encuentra involucrado en un proceso de aprendizaje que puede, a largo plazo y en algunas
circunstancias, converger hacia una accin ptima, pero la trayectoria a medio plazo de este
proceso de aprendizaje es en s misma de inters para el modelador.
Este captulo explora precisamente el paso del primer enfoque al segundo. La primera
seccin revisa los principios de la teora de la decisin clsica, es decir, las reglas de eleccin
clsicamente propuestas, tanto estticas (1.1) como dinmicas (1.2), ilustradas por un
ejemplo prototpico (1.3), las justificaciones (axiomticas, operativas, evolutivas) Que se
han presentado para ello ( 1.4) y las crticas (empricas, tericas, lgicas) que se han
nivelado en ella ( 1.5). La segunda seccin define los principios del comportamiento
evolutivo, estableciendo diferentes conceptos de racionalidad ( 2.1) y luego examinando
sucesivamente los procesos de prediccin (2.2) y seleccin (2.3) llevados a cabo por el
tomador de decisiones, dando lugar a la Problema del valor de la informacin (2.4) y al
dilema exploracin-explotacin (2.5). La tercera seccin describe algunos modelos
evolutivos recientemente desarrollados, primero modelos de eleccin con racionalidad
limitada (3.1), luego procesos de aprendizaje aplicados a situaciones de decisin repetidas,
tanto estticas (3.2) como dinmicas (3.3), posiblemente simplificadas (3.4 ),
Ilustrndose estos procesos con el ejemplo prototpico anterior (3.5).
1.1 Antecedentes y problemas
1.1.1 Las reglas de eleccin en situaciones estticas
En la teora de la decisin clsica, en su forma esttica, el tomador de decisiones se encuentra
frente a un entorno llamado "naturaleza". El tomador toma las acciones y la naturaleza asume
los estados. La conjuncin instantnea de una accin y un estado produce consecuencias que
son ciertas. Estos son de diez expresados en una forma monetaria. La "forma normal" del
problema de decisin se expresa mediante una matriz que indica las consecuencias que
resultan de cada par de accin-estado. Aqu, las reglas de eleccin del tomador de decisiones
se basan en tres ingredientes que formalizan sus determinadores de eleccin (oportunidades,
representaciones, preferencias):
un conjunto predefinido de estrategias, ya se trate de acciones (definidas por sus
consecuencias seguras) o de loteras (definidas por sus consecuencias condicionales a los
estados);
una creencia acerca de la ocurrencia de estados, expresada en particular en forma de
probabilidades objetivas (proporciones o frecuencias) o subjetivas (grados de creencia);
una funcin de utilidad definida sobre las determinadas consecuencias de las acciones, que
pueden ser ordinales (slo los rdenes son significativos) o cardinales (los valores numricos
son significativos).
Se supone que la naturaleza es pasiva en el sentido de que asume sus estados mecnicamente
(no son el resultado de un proceso de decisin) y de acuerdo con una regla exgena (los
estados son insensibles a las acciones del tomador de decisiones). Dependiendo de la
incertidumbre del decisor acerca de esta regla y del estado de naturaleza realmente producido,
las situaciones de incertidumbre pueden dividirse en cuatro categoras principales:
certeza: el tomador de decisiones conoce el estado de naturaleza producido (cualquiera que
sea la regla que lo produce);
incertidumbre probabilstica: el tomador de decisiones conoce la distribucin de
probabilidad segn la cual se produce el estado de naturaleza;
incertidumbre terica del conjunto: el tomador de decisiones slo conoce la lista de estados
de la naturaleza, sin saber cul de estos estados puede ser producido;
Incertidumbre radical: el tomador de decisiones no conoce la lista de estados de naturaleza.
Por supuesto, hay situaciones intermedias, por ejemplo, una incertidumbre de segundo orden
cuando el tomador de decisiones sabe que la regla que gobierna la produccin de estados es
probabilstica, pero slo tiene informacin parcial sobre esta distribucin de probabilidad.
Toda la historia posterior de la teora de la decisin puede resumirse como una serie de
intentos de proporcionar las reglas de eleccin del tomador de decisiones en una u otra de las
principales situaciones de incertidumbre. Las reglas ms tempranas y simples de estas reglas
son:
la regla de maximizacin de la utilidad bajo certidumbre (Debreu 1954)
la regla de maximizacin de la utilidad esperada (objetiva) bajo incertidumbre probabilstica
(von Neumann-Morgenstern 1944)
la regla de maximizacin de la utilidad esperada (subjetiva) bajo la incertidumbre terica
(Savage 1954).
Ms recientemente se han propuesto reglas ms sofisticadas, generalizando las reglas
anteriores:
la regla de maximizacin de la utilidad esperada dependiente del rango bajo incertidumbre
probabilstica (introduciendo una funcin de deformacin de la distribucin de probabilidad);
la regla de maximizacin de la utilidad esperada credibilista bajo la incertidumbre terica
(introduciendo "probabilidades no aditivas").
1.1.2 Las reglas de eleccin en situaciones dinmicas
En la forma dinmica de la teora de la decisin clsica, el decisor y la naturaleza intervienen
secuencialmente. Las consecuencias conjuntas de una sucesin de acciones y estados slo se
definen al final de la secuencia. La "forma extensa" del problema de la decisin se expresa
mediante un "rbol de decisin". El tomador de decisiones y la naturaleza juegan
alternativamente en nodos sucesivos, y los vrtices emitidos desde cada nodo no terminal
representan las opciones disponibles para el agente que tiene el movimiento. Cada nodo
terminal expresa las consecuencias (generalmente en trminos monetarios) para el tomador
de decisiones de la trayectoria que conduce a este nodo. La naturaleza siempre es
independiente del que toma las decisiones. Sus movimientos sucesivos pueden ser
independientes, pero tambin pueden estar correlacionados. Especialmente, la Naturaleza
puede definir primero un estado y otros mensajes de suministro que especifican este
estado. Adems, se supone que la ley que gobierna la produccin de estados es
estacionaria. Por ltimo, en una forma extensiva de juego, una "estrategia" del tomador de
decisiones es la eleccin previa de una accin en cada nodo donde puede jugar.
Dentro de este marco, las reglas de eleccin definidas en la esttica se extienden y aparece
un nuevo principio: el "principio de induccin hacia atrs". Esto postula que el decisor
determina sus acciones partiendo del horizonte del rbol de decisin y progresivamente
retrocediendo en el tiempo a lo largo del rbol de decisin. Por ejemplo, para un problema
de decisin (secuencial) bajo incertidumbre objetiva, se mueve progresivamente hacia atrs
a lo largo de los nodos del rbol (desde los nodos terminales hasta el nodo inicial)
considerando, si el nodo corresponde a un movimiento por naturaleza, la utilidad esperadl,a
en todos los posibles estados resultantes y, si el nodo corresponde a uno de sus movimientos,
la mxima utilidad en todas sus posibles acciones. La utilidad esperada se mide con las
probabilidades atribuidas a cada estado, que estn condicionadas a la informacin ya recibida
en el pasado sobre la trayectoria considerada en el rbol.
Una representacin ligeramente ms general de un problema de decisin es proporcionada
por la "teora de la decisin estocstica" (aunque tambin puede expresarse como un rbol
de decisin). Si el decisor y la naturaleza siempre juegan secuencialmente, el sistema global
puede asumir cierto nmero de "configuraciones" finitas . El sistema puede pasar por la
misma configuracin varias veces, introduciendo as bucles en la historia del proceso. Debido
a la influencia de la Naturaleza, la transicin de una configuracin a otra configuracin ,

condicionada a una accin , es expresada por una probabilidad de transicin .
Adems, el decisor elige su accin segn la configuracin del sistema, y esto define una

estrategia = ( ). Por ltimo, una utilidad de transicin est asociada con cada
transicin de una configuracin a otra a travs de una determinada accin; Todas las
utilidades recogidas por el tomador de decisiones a lo largo de su trayectoria se agregan
finalmente en una utilidad sinttica introduciendo un factor de descuento apropiado .
Para el que toma las decisiones, conociendo tanto las probabilidades como las utilidades de
la transicin, la estrategia ptima es la que maximiza la suma descontada de las utilidades
esperadas en un horizonte infinito. Se puede demostrar que esta estrategia ptima es
determinista (la accin elegida en cada configuracin es no probabilstica), Markoviana (la
accin elegida es independiente de estados pasados) y estacionaria (la accin elegida es
independiente del tiempo). La estrategia ptima ( ) se obtiene de nuevo mediante un
procedimiento de induccin hacia atrs. El ltimo tiene que considerar la mxima utilidad
que el tomador de decisiones puede obtener al iniciar desde la configuracin y tomar la
accin y la utilidad mxima que puede obtener al iniciar desde la configuracin . Estas
utilidades coinciden con las ecuaciones de Bellman, definiendo un punto fijo:
(1.1)

=

( + )

=
( ) =

1.1.3 Un ejemplo de eleccin dinmica


Tomemos el ejemplo de la tortilla de Savage (Savage, 1954), en la cual un cocinero desea
hacer una tortilla constituida de huevos. Tiene a su disposicin un lote de huevos, un tazn
B y un platillo S. Por hiptesis, el huevo tiene un costo a y es bueno (con una probabilidad
1 ) o malo (con una probabilidad ). Para hacer su tortilla, el cocinero puede romper cada
huevo directamente en el tazn o provisionalmente en el platillo. Romper un huevo
provisionalmente en el plato tiene la ventaja de no estropear todo el contenido ya en el tazn,
pero a un costo de transferencia . Cuando el recipiente contiene huevos, la tortilla se
cocina y se vende a precio y el ciclo comienza de nuevo.
Las posibles configuraciones del sistema son las situaciones ( + 1) correspondientes al
nmero de huevos en el tazn (de 0 a ). Una estrategia del cocinero consiste en decidir, en
cada configuracin, si se rompe el siguiente huevo en el tazn o en el platillo. El problema a
resolver por el cocinero es determinar la estrategia a seguir para maximizar su beneficio.
En el caso de una tortilla con slo 2 huevos, podemos presentar el proceso (fig. 1.1.) De la
siguiente manera (los nodos del tomador de decisiones estn representados por cuadrados en
los que se observa la configuracin alcanzada y se representan los nodos de la naturaleza Por
crculos):

Fig. 1.1. Grfico de la decisin de la tortilla


La estrategia ptima se obtiene escribiendo las condiciones de Bellman en las tres posibles
configuraciones y agrupando las consecuencias comunes de las acciones alternativas:
(1.2)
U0= a+p U0 + (1-p) U1 + max (0, b)
U1= a+(1-p)U2 + max (pU0 , pU1+b)
U2= c+U0
Cuando el tazn est vaco, como b es negativo, el huevo debe ser siempre roto en el tazn,
de modo que la primera ecuacin se convierte en:
(1.3)
(1- p)U0 = a+(1-p)U1
Cuando el recipiente contiene un huevo, U1 se obtiene por la ecuacin anterior y la siguiente
ecuacin:
(1.4)
U1 = a+(1-p)(c+ U0) + max (pU0 , pU1 + b)
Hay dos estrategias ptimas dependiendo de los valores de los parmetros; Ms exactamente,
la probabilidad de que el segundo huevo sea malo admite un umbral crtico pc tal que:
si p <pc, rompa siempre el huevo en el tazn;
si p> pc, rompa siempre el huevo en el platillo.

1.1.4 Las justificaciones de las reglas de eleccin

Las reglas de eleccin esttica reciben una justificacin axiomtica, en el sentido de que son
el resultado de un conjunto de axiomas definidos sobre las preferencias globales del tomador
de decisiones en cuanto a estrategias (acciones o loteras). Por un lado, estos axiomas
permiten dar una forma particular a la regla de eleccin. Por lo tanto, todas las reglas tienen
la forma de maximizacin porque requieren que el tomador de decisiones defina un orden
completo de preferencias sobre estrategias. Commented [IEdlM1]: Los axiomas son los supuestos, y
debido a que siempre tienen la misma forma, la regla de
Por otra parte, su forma analtica depende de los axiomas adicionales que se imponen. Por lo eleccin ser la maximizacin. Por la tanto, un orden de
tanto, en el criterio de maximizacin de la utilidad esperada, las probabilidades se separan de preferencias.
las utilidades sobre las ciertas consecuencias por medio del axioma de la independencia (bajo
incertidumbre probabilstica) o del axioma seguro (bajo la incertidumbre terica del
conjunto). Adems, si el tomador de decisiones satisface los axiomas, sus creencias y
preferencias pueden, bajo ciertas condiciones, ser reveladas por sus acciones elegidas. Por
ejemplo, de acuerdo con la regla de maximizacin de la utilidad esperada, las probabilidades
subjetivas y las ciertas utilidades del tomador de decisiones pueden reconstruirse a partir de
las elecciones elementales que hace entre loteras bien seleccionadas. Las reglas de eleccin
dinmica tambin han sido objeto de justificaciones axiomticas. El principio de induccin
hacia atrs, al menos en combinacin con un criterio esttico de eleccin, puede justificarse
axiomticamente. En esencia, esto permite garantizar la "coherencia dinmica" del tomador
de decisiones, es decir, que una decisin tomada hoy para maana no ser cuestionada
maana. Commented [IEdlM2]: Lo que lo vuelve una especie de
transitividad a las preferencias.
Las reglas de eleccin, tanto estticas como dinmicas, tambin han recibido una
justificacin operativa, vinculada a las actuaciones que permiten alcanzar (en relacin con su
coste). En particular, un tomador de decisiones no poda aceptar una secuencia de elecciones
cuyo resultado necesariamente representara una prdida para l. El argumento de la bomba
de dinero se utiliza para justificar el axioma fundamental de la transitividad de las Commented [IEdlM3]: Es un argumento que muestra
preferencias. Un agente con preferencias cclicas puede proponer una serie de ciertas que una persona cuyas preferencias sobre las
probabilidades de los acontecimientos, no satisfagan los
opciones que slo pueden conducir a su ruina. El argumento del libro Dutch demuestra que postulados de la Teora de la Decisin Racional, podr tomar
las creencias del agente deben ser de una forma probabilstica. Un agente cuyas creencias no decisiones que la lleven a estar en una situacin cada vez
respetan los axiomas de Kolmogorov que gobiernan las probabilidades puede proponerse una peor
serie de apuestas que resultan en una prdida inevitable para l. Sin embargo, el alcance Commented [IEdlM4]: -La probabilidad S no es negativa
efectivo de estos argumentos es limitado, en la medida en que el agente es muy poco probable y: 0p(S)1
que se encuentre realmente confrontado con tales secuencias de eleccin artificialmente -La probabilidad del evento seguro es 1: p(S)=1
-Si E1, E2 son eventos mutuamente excluyentes entonces:
construidas. p(E1UE2U..)=p(Ei)
Por ltimo, algunas reglas de eleccin han recibido una justificacin evolutiva, a saber, que Commented [IEdlM5]: muestra una inconsistencia en la
un proceso de aprendizaje o evolucin puede empujar al tomador de decisiones a seguir la teora de la utilidad esperada notando la divergencia entre
regla en cuestin. Sin embargo, no es la regla efectiva de eleccin del tomador de decisiones los valores predichos y los observados.
la que converge hacia una regla dada, sino su estrategia que converge hacia la estrategia Primer experimento
Opcin 1A: recibir 1 milln de dlares con probabilidad
defendida por la regla. 100%.
Opcin 1B: recibir 1 milln de dlares con probabilidad
Esto quiere decir que todo sucede "como si" el tomador de decisiones estuviera usando tal 89%, o 5 millones con probabilidad 10%, o nada con
regla asintticamente. As, Friedman, siguiendo a Alchian, sostuvo la tesis de que en un probabilidad 1%.
contexto de competencia entre agentes slo sobrevivirn aquellos que adopten un Segundo experimento
comportamiento optimizador. Esta tesis ha dado lugar a estudios formalizados que exploran Opcin 2A: recibir 1 milln de dlares con probabilidad
11%, o nada con probabilidad 89%.
una situacin de interacciones repetidas, tanto en el contexto del aprendizaje por agentes (ver Opcin 2B: recibir 5 millones de dlares con
seccin 3) como en el contexto de la seleccin (biolgica) entre agentes (ver captulo 3). Esto probabilidad 10%, o nada con probabilidad 90%.
se abordar ms especficamente en relacin con la competencia entre empresas (vase el En varios estudios se hall que la mayora de la gente elige
captulo 6). Todas estas obras concluyen que la supervivencia exclusiva de los agentes las opciones 1A y 2B. Esto es inconsistente con la teora de
utilidad esperada, que indica que una persona debera elegir
optimizadores slo ocurre en condiciones muy especficas y en contextos muy 1A y 1B, o bien 2A y 2B.
particulares. De hecho, en una situacin competitiva, el desempeo relativo de los agentes
frente a otros es ms importante que su desempeo en trminos absolutos. Commented [IEdlM6]: se plantea cuando las
personas deben escoger entre dos opciones posibles y
1.1.5 Las crticas a las reglas de eleccin la mayora se decide por aquella en que la probabilidad
es conocida.
Las reglas de eleccin han sido objeto de crticas empricas, a menudo tomando la forma de Algunas personas fueron sometidas a una apuesta:
"paradojas empricas". En los primeros das de la teora de la decisin, la "paradoja de Allais", Apuesta A: Quien saque una bola roja gana una cantidad
usando el ejemplo de un decisor que eligi entre loteras inteligentemente construidas, monetaria, las amarillas y las negras pierden.
Apuesta B: Quien saque una bola amarilla gana, el resto
desafi la regla de la maximizacin de la utilidad esperada (objetiva). Del mismo modo, la
pierde.
"paradoja de Ellsberg" puso en duda el razonamiento probabilstico en la regla de La mayora de las personas optan por la A.
maximizacin de la utilidad esperada (objetiva). Siguiendo el trabajo de Kahnemann y Despus se cambian las apuestas de una manera que en
Tversky (Tversky-Kahnemann 1986), un gran movimiento se ha desarrollado a favor de una ambos casos, las bolas negras son desde ahora ganadoras:
Apuesta C: Quien saque una bola roja o negra gana, las
"teora de la decisin experimental", llevada a cabo en el laboratorio. Este enfoque amarillas pierden.
contrarresta un viejo argumento que dice que el modelo de decisin racional es tautolgico Apuesta D: Quien saque una bola amarilla o negra gana,
en la medida en que, independientemente de las acciones tomadas por el tomador de las rojas pierden.
decisiones, siempre existen creencias y preferencias que pueden explicarlas. De hecho, tan
pronto como el modelo de decisin racional est suficientemente bien especificado (contexto
preciso, regla de eleccin con una forma analtica especfica), se vuelve refutable. Este
enfoque tambin ha permitido reconocer que, si las condiciones de laboratorio no estn muy
alejadas de las condiciones de campo, los resultados obtenidos en el primero son
representativos del segundo. Por supuesto, los tomadores de decisiones que actan como
sujetos de laboratorio son eliminados de las presiones sociales que de otra manera podran
sentir, y las apuestas no son las mismas que en una situacin real, pero se considera que su
comportamiento puede razonablemente ser generalizado.
En general, cuando estos experimentos dan como resultado una regla de eleccin puesta en
duda, el axioma o los axiomas que deben ser cuestionados no pueden ser resueltos
nicamente por el razonamiento lgico (el "problema de Duhem-Quine" en la Commented [IEdlM7]: es imposible poner a prueba de
epistemologa). forma aislada una hiptesis cientfica, porque un
experimento emprico requiere asumir como ciertas una o
Sin embargo, en el caso de los experimentos de Allais, se puede demostrar que el axioma que ms hiptesis auxiliares. La hiptesis en cuestin es incapaz
por s misma de realizar predicciones.
ha sido violado es de hecho el axioma de la Independencia. Cuando una regla de eleccin es
realmente cuestionada, generalmente se considera debilitar los axiomas que se supone que
son culpables. Esto tiene el efecto de conducir a reglas de eleccin ms generalizadas,
incluyendo las reglas anteriores como casos particulares. Siguiendo los experimentos de
Allais, la consideracin del axioma debilitado de la "independencia comonotnica" ha dado Commented [IEdlM8]: (Teora de la probabilidad ) De un
como resultado una regla de eleccin generalizada, es decir, la maximizacin de la utilidad vector aleatorio, que tiene componentes que pueden
esperada dependiente del rango. representarse como funciones crecientes de una sola
variable aleatoria .
Una cuestin importante, sin embargo, cuando las reglas se debilitan, es que tambin se
vuelven menos refutable en el sentido popperiano de la palabra, ya que el nmero de Commented [IEdlM9]: Porque ya no estn intentando
circunstancias capaces de desafiarlos se reduce. Las reglas de eleccin tambin han sido resolver el problema de entender al mundo
objeto de crticas tericas mucho ms generales, centrndose en la necesidad de tener en
cuenta la cognicin del decisor. De hecho, el decisor debe elegir una estrategia al final de un
proceso de deliberacin explcita o implcita. Y, sin embargo, a excepcin de situaciones muy
simples (los "pequeos mundos" de Savage), tiene una capacidad limitada para recopilar y
procesar informacin. En consecuencia, hay que aadir restricciones cognitivas internas a las
limitaciones externas, materiales impuestas al agente por su entorno. Estas limitaciones
internas son, en particular, expresadas por los costes, ya sea el coste de la bsqueda de
informacin o el coste de procesamiento de la informacin obtenida. A medida que las reglas
de eleccin se vuelven ms complejas, estas restricciones se vuelven ms fuertes, porque los
refinamientos en las reglas usuales paradjicamente requieren capacidades cognitivas
adicionales. Esta crtica es terica si permanecemos dentro del contexto tradicional, en el cual
slo se pueden observar las acciones de los agentes. Sin embargo, los estados mentales
(creencias, preferencias) son, cada vez ms, considerados como observables a travs de la
introspeccin. Podra incluso ir ms all y argumentar que el proceso de deliberacin es
observable, en cuyo caso la crtica terica acerca de las capacidades limitadas del tomador
de decisiones se convierte en crtica emprica.
Por ltimo, las reglas de eleccin pueden ser objeto de crtica lgica, demostrando que la
racionalidad procesal da lugar a una regresin infinita sobre las opciones (Mongin-Walliser,
1989). Tomando la crtica terica anterior como punto de partida, se puede considerar que
cuando un tomador de decisiones desea optimizar, se enfrenta a un coste de optimizacin que
a menudo es bastante alto y que puede llevarlo a elegir otras reglas de eleccin menos
costosas. A continuacin se ve obligado a realizar un proceso de meta-optimizacin, en el
que elige una regla de eleccin (de un determinado conjunto) ponderando la prdida de
utilidad que representa (en comparacin con la optimizacin) frente a los costes reducidos de
clculo que implica. Sin embargo, esta meta-optimizacin en s tiene un costo, por lo que el
tomador de decisiones se encuentra enfrentado con el mismo problema, pero en un nivel
superior. La nica manera de escapar de esta regresin infinita es ponindose a un nivel
arbitrario en la jerarqua de las elecciones, optimizando a este nivel y luego descendiendo los
niveles inferiores uno a uno. Esto proporciona el precio al que se hace racional no optimizar
en estos niveles inferiores.
1.2 Principios cannicos
1.2.1 Formas de racionalidad
Dependiendo de la interpretacin epistemolgica dada a la regla de eleccin del tomador de
decisiones, Simon (1976) propuso el uso de dos conceptos de racionalidad:
"racionalidad sustantiva" significa, desde una perspectiva instrumentalista, que la
regla de eleccin slo se evala en relacin con la validez de sus predicciones en
trminos de las acciones elegidas por el tomador de decisiones;
"racionalidad procesal" significa, desde una perspectiva realista, que la regla de
eleccin debe ser juzgada por la medida de la validez emprica del proceso de decisin
realmente utilizado por el tomador de decisiones.
Friedman (1953) defendi la racionalidad sustantiva como un medio de reforzar el modelo
de optimizacin. l asumi que "todo sucede como si" el encargado de la decisin optimice
sin tener que juzgar el proceso de la deliberacin por el cual l lleg en su opcin. Cita el
ejemplo del jugador de billar que juega "como si" optimizara los rebotes de la pelota contra
los costados de la mesa, sin que esto implicara ningn clculo consciente o incluso
inconsciente por parte del jugador. El modelo de optimizacin funciona entonces como una
herramienta, cuyo nico objetivo es predecir la eleccin del tomador de decisiones. La
racionalidad procesal fue defendida por Simon (1976) para criticar este mismo modelo de
optimizacin. Simon argument que es necesario explicar el proceso de deliberacin
concreto del tomador de decisiones en trminos de la prospeccin y el clculo que realiza
para definir su eleccin. l da el ejemplo del jugador de ajedrez que utiliza varias reglas
heursticas de bsqueda y seleccin descritas en la ciencia de la Inteligencia Artificial y que
pueden, en ciertos casos, tomar la forma de algoritmos. Sin embargo, el modelo de
optimizacin es en s mismo capaz de funcionar como un modelo realista, poniendo en uso
una heurstica particular, tomando la forma de un "algoritmo de gradiente", por ejemplo.
Dependiendo de las exigencias cognitivas impuestas a la regla de eleccin de la decisin,
podemos definir una vez ms dos formas alternativas de racionalidad:
la racionalidad fuerte supone que el tomador de decisiones est dotado de capacidades
calculadoras infinitas, lo que le permite concluir con xito cualquier proceso de
deliberacin que pueda tener que realizar;
La racionalidad limitada supone que el tomador de decisiones tiene una capacidad
limitada para recopilar y procesar informacin, lo que le impide llevar a cabo
operaciones de prospeccin y clculo que son demasiado complicadas.
La racionalidad limitada del tomador de decisiones tiene fuertes lazos con la racionalidad
procesal (Laville 2000). Por un lado, la racionalidad limitada slo tiene importancia en un
contexto de racionalidad procesal, pues las capacidades limitadas del tomador de decisiones,
a menudo expresadas en forma de costos, slo son relevantes en este contexto. Por otra parte,
la racionalidad limitada del tomador de decisiones nos lleva a examinar ms de cerca la
racionalidad procesal como un medio de superar los lmites cognitivos que se le imponen. La
racionalidad fuerte es postulada por las reglas de la eleccin clsica y tiene la gran ventaja
de aparecer en una forma unvoca. La racionalidad limitada se toma en cuenta mediante
reglas de eleccin ms recientes, teniendo en cuenta que estas reglas se desarrollan en
mltiples direcciones (Conlisk 1996). Se ha desarrollado un espectro de modelos en un
intento de marcar el campo de posibilidades, pero en la actualidad no existe un modelo
cannico de racionalidad limitada que pueda sustituir al modelo de optimizacin. Adems,
los modelos de cierto tipo a menudo pueden ser reescritos como otro tipo (incluso en forma
de optimizacin).
Por ltimo, las reglas de eleccin ponen en juego dos tipos de racionalidad que intervienen
complementariamente (Walliser 1989):
La racionalidad cognitiva expresa el grado en que las creencias que el agente
construye sobre s mismo y su entorno son apropiadas a la informacin que posee;
La racionalidad instrumental expresa el grado en que los objetivos que el agente
persigue son apropiados a los medios a su disposicin, teniendo en cuenta sus
creencias.
Ambos tipos de racionalidad pueden confiar en una forma fuerte. La racionalidad cognitiva
fuerte significa que el que toma las decisiones es capaz de formar expectativas perfectas (o
racionales); Razona como un perfecto estadstico que, sobre la base de una informacin
perfecta y completa, minimiza el error de prediccin sobre la variable que espera. La fuerte
racionalidad instrumental significa que el agente es capaz de determinar una accin
optimizadora sobre la base de sus oportunidades y preferencias, dado que sus creencias
(cualesquiera que sean) son fijas. Los dos tipos de racionalidad tambin pueden confiar en
formas ms dbiles. De hecho, puesto que la racionalidad limitada refleja capacidades
cognitivas limitadas, es naturalmente de tipo cognitivo. Pero las dificultades encontradas en
su expresin pueden conducir a su formulacin como racionalidad instrumental limitada
(Vase 3.1). En trminos ms generales, uno puede verse tentado a reducir la racionalidad
cognitiva a la racionalidad instrumental considerando que el agente est haciendo el mejor
uso de la informacin disponible para l. Sera ms correcto decir que la racionalidad
instrumental puede reducirse a la racionalidad cognitiva, pues influye no slo en la manera
en que el agente considera su entorno y en sus determinantes de eleccin, sino tambin en su
capacidad para combinar estos elementos para elegir su accin.
1.2.2 Procedimientos de prediccin
El tomador de decisiones posee cierta informacin estructural, derivada de sus diversos
conocimientos adquiridos y experiencias pasadas, sobre el problema de decisin con el que
se enfrenta. Su primer problema consiste en categorizar la situacin de la decisin. Esta
operacin de categorizacin se realiza sobre la base de conceptos primitivos, a saber, las
acciones realizadas, los posibles estados de la naturaleza, las consecuencias resultantes y las
utilidades que se obtienen. En primer lugar, consiste en definir un marco general de
situaciones de eleccin, ya sea en una tipologa de situaciones posibles o en una lista de
prototipos de situacin. Por ejemplo, el tomador de decisiones puede distinguir entre acciones
de naturaleza material y aquellas de carcter informativo, entre sucesos aleatorios de
naturaleza, con carcter tcnico, conductual o social, o entre consecuencias materiales,
financieras y simblicas. En segundo lugar, esta categorizacin consiste en definir la
situacin concreta en la que se encuentra, ya sea por ubicacin dentro de un posible tipo o
por comparacin con un prototipo. Por ejemplo, el tomador de decisiones puede especificar
las configuraciones ambientales encontradas en el pasado que juzga similares a la que se est
examinando.
El tomador de decisiones puede entonces recibir informacin factual sobre las acciones y
estados, las consecuencias y utilidades relacionadas con decisiones pasadas (las suyas o las
de otros agentes) en una situacin similar. El segundo problema que enfrenta es el de la
estructuracin interna de la situacin de decisin. Esta estructuracin consiste en relacionar
los elementos de la situacin entre s para resaltar sus regularidades. Por un lado, esto implica
definir sus creencias, a saber, la ley que regula la produccin de los estados y la ley que
conecta las consecuencias con las acciones y los estados. Por ejemplo, el que toma las
decisiones construir un modelo mental que exprese las causalidades que cree que existen
entre diversos factores exgenos y los efectos de su accin. Por otro lado, implica definir sus
oportunidades y preferencias, es decir, todas las estrategias disponibles y la relacin que
conecta las consecuencias con la utilidad. Por ejemplo, el tomador de decisiones puede, a
travs de un proceso de preseleccin, considerar slo un subconjunto de estrategias diferentes
que se asumen a priori como las ms efectivas. De la misma manera, puede, a travs de un
proceso de simplificacin, considerar slo una familia de criterios de eleccin que considere
relevante, ya sea combinada en una funcin de evaluacin heurstica o separada
permanentemente.
Las creencias del tomador de decisiones, imperfecto e incompleto, han sido objeto de
formalidades en el marco de la "lgica epistmica". Se expresan en un contexto sintctico
donde el agente trabaja sobre las proposiciones y est dotado de un operador de creencias
que indica qu proposiciones conoce o en un contexto semntico donde el agente considera
posibles mundos y est dotado de una relacin de accesibilidad, que indica los mundos entre
los que es capaz de distinguir. En el contexto semntico, estas creencias pueden tomar una
forma de todo o nada, en la que el agente se contenta con saber o no saber, o una forma
probabilstica en la que atribuye probabilidades a sus afirmaciones; tambin podemos
contemplar formas jerrquicas mixtas de creencias (probabilidades no aditivas). Esta
representacin epistmica nos permite especificar qu axiomas son satisfechos por las
creencias de los agentes: omnisciencia lgica (un agente sabe todas las consecuencias de lo
que sabe), veracidad (lo que el agente sabe que es cierto), introspeccin positiva (el agente
sabe lo que sabe), y la introspeccin negativa (el agente sabe lo que no sabe). La falta de
satisfaccin de uno u otro de estos axiomas es a menudo el origen de la racionalidad limitada
de un tomador de decisiones (esto es particularmente cierto para la omnisciencia lgica, que
le otorga capacidades de clculo ilimitadas). En el marco semntico, cuando todos los
axiomas estn satisfechos, el tomador de decisiones posee una "particin de informacin"
sobre los mundos posibles, indicando la informacin privada que tiene a su disposicin; a
menudo tambin tiene a su disposicin una distribucin de probabilidad en los mundos,
expresando informacin pblica sobre sus aspectos materiales.
El tomador de decisiones predice los efectos de sus acciones sobre la base de sus creencias,
primero en trminos de consecuencias objetivas, y posteriormente en trminos de criterios de
evaluacin (o utilidad). Sin embargo, puede utilizar modelos muy crudos del funcionamiento
de su entorno, pasando por alto ciertas relaciones, para llevar a cabo sus predicciones. Es de
esta manera que construye ndices que agrupan y resumen su experiencia pasada (y
posiblemente la de otros tomadores de decisiones) y hacen posible la prediccin. Por un lado,
un ndice puede cubrir estados de naturaleza en forma de un ndice de la frecuencia pasada
de estados diferentes (o un ndice ms complejo en el cual cada estado es ponderado en
proporcin a su perodo reciente). Suponiendo que la ley que gobierna la produccin del
estado es estacionaria, el tomador de decisiones puede deducir una expectativa sobre el
estado futuro de ella mediante la traduccin de la frecuencia del pasado a la probabilidad
futura; tambin puede utilizar mtodos muy simples, extrapolados o incluso adaptativos de
prediccin. Por otro lado, el ndice puede cubrir las utilidades obtenidas en el pasado, en
forma de un ndice de la utilidad agregada asociada a cada accin (este ndice puede presentar
utilidad media, utilidad descontada o utilidad acumulada). Asumiendo aqu de nuevo que el
comportamiento observado persiste en el futuro, el tomador de decisiones puede inferir de l
una expectativa de la actuacin futura de la accin (sin pasar por los estados).
La reevaluacin de las creencias de los tomadores de decisiones tambin ha sido objeto de
formalidades en la lgica epistmica. Esto todava implica pasar de una creencia inicial y un
mensaje a una creencia final. Podemos distinguir entre dos contextos de reevaluacin: revisar
cuando el mensaje suministra informacin adicional sobre un mundo considerado como
inalterable y actualizar cuando el mensaje proporciona una indicacin de la forma en que un
mundo evolutivo ha cambiado. En ambos contextos es posible obtener reglas de cambio
expresadas en semntica (seleccin de mundos posibles) de axiomas de cambio expresados
en sintaxis (propiedades de los operadores de creencias). Estas reglas, particularmente
interesantes cuando el mensaje contradice la creencia inicial, se definen claramente tanto en
el contexto de todo o nada como en el contexto probabilstico. En particular, el principio de
Bayes, tradicionalmente utilizado por los economistas para reevaluar las probabilidades, slo
demuestra estar justificado en un contexto de revisin y con axiomas muy exigentes
(Walliser-Zwirn, 2002).
1.2.3 Procesos de seleccin
El tomador de decisiones debe elegir una accin de acuerdo a sus oportunidades y
preferencias, y de acuerdo a sus expectativas. Si una prediccin del estado futuro de la
naturaleza est disponible para l, y si sus preferencias pueden reducirse a una funcin de
utilidad sinttica, puede realizar una maximizacin de su accin. Pero puede renunciar a esta
optimizacin simplemente favoreciendo las acciones con una alta utilidad e ignorando las
otras, sin buscar exclusivamente la accin con la mxima utilidad. Si una prediccin del
estado futuro est disponible para l y si sus preferencias se expresan en trminos de criterios
mltiples, debe implementar una "regla multicriterio" entre un conjunto de tales reglas.
Tambin puede considerar un "lmite de aspiracin" sobre estos criterios parciales, y elegir
una accin cuando sus efectos exceden este lmite de aspiracin. Si no tiene una prediccin
del estado futuro a su disposicin, pero tiene un ndice de la utilidad de las acciones, se
contenta con fortalecer las acciones que han tenido un buen desempeo en el pasado e inhibir
aquellas que han tenido un desempeo pobre. Commented [IEdlM10]: El tomador de decisiones puede
no elegir la opcin que maximice su utilidad, pero s una
Como con sus creencias, el tomador de decisiones tambin puede ajustar sus oportunidades muy alta. Si tiene una prediccin del estado futuro
y preferencias con el paso del tiempo. Por un lado, puede modificar su conjunto de opciones implementara una regla multicriterio o un lmite de
aspiracin y elegir cuando los efectos de una accin estn
incorporando nuevas estrategias. En particular, puede llevar a cabo acciones relacionadas con sobre el lmite. Sino conoce el futuro, se conforma con la
las que ya ha probado con xito. Por otra parte, puede adaptar sus preferencias de acuerdo utilidad que ha demostrado la accin en el pasado
con las utilidades pasadas que ha obtenido con sus acciones y que pueden diferir de sus
expectativas. En particular, puede elevar o disminuir sus umbrales de aspiracin segn la
facilidad con que los ha alcanzado en el pasado. Por supuesto, pondr su ndice al da usando
sus observaciones ms recientes del estado producido y de la utilidad obtenida. Por ltimo,
puede modificar su propia regla de eleccin, si siente que est "encerrado" en una accin que
est funcionando mal comparada con una referencia externa (teniendo en cuenta que no sabe
cun lejos est de un posible ptimo) o si observa que el ambiente est evolucionando
significativamente.
El trmino "racionalidad adaptativa" se utiliza a veces para explicar la forma en que el
tomador de decisiones modifica sus reglas de eleccin con la ayuda de meta-reglas, durante
un proceso de aprendizaje que opera en varios niveles funcionales (una regla superior acta
sobre reglas inferiores) y varias temporales (una regla ms alta cambia ms lentamente que
una regla inferior). En la prctica, no es muy fcil distinguir entre reglas y meta-reglas, en la
medida en que las primeras ya incorporan un proceso de adaptacin al entorno, aunque sus
caractersticas estructurales, a diferencia de sus parmetros, permanezcan fijas. Por supuesto,
las meta-reglas, incluso ms que las reglas, se originan en una racionalidad que es a la vez
procesal y limitada, y son ellos mismos escogidos por imitacin de las reglas adoptadas por
otros o por refuerzo en relacin con su efectividad. Tambin plantean el problema de la
innovacin de las reglas, en la medida en que el modelador presupone siempre la
disponibilidad de un conjunto fijo de reglas, mientras que el agente no las considera todas al
mismo tiempo y se ve obligado a favorecer algunas, incluso si esto significa renovarlas.
Finalmente, el tomador de decisiones puede implementar dos tipos de acciones, posiblemente
mixtas. Si el objetivo de las acciones operativas es transformar un sistema considerado
insatisfactorio, el objetivo de las acciones informativas es recopilar informacin para
alimentar acciones operativas. La recoleccin de informacin puede realizarse por medio de
dos trayectorias extremas. El tomador de decisiones puede obtener informacin de manera
exgena y costosa de entidades especializadas (accin informativa autnoma) antes de actuar
operativamente, o puede obtenerla endgena y libre de costo, como un subproducto del curso
normal del proceso de decisin (espontneamente informacin que lleva la accin
operacional). Existe una situacin intermedia, en la que el tomador de decisiones arbitra entre
dos comportamientos diferentes en relacin con su actuacin actual. El comportamiento de
exploracin consiste en definir una accin que permita al agente obtener la mayor cantidad
posible de informacin. El comportamiento de explotacin consiste en utilizar la informacin
ya existente de la manera ms eficiente posible. En una situacin repetida, el arbitraje entre
exploracin y explotacin consiste en favorecer la exploracin al principio (probando nuevas
acciones) y la exploracin al final (utilizando las acciones ms efectivas).
1.2.4 El valor de la informacin
Considere un proceso de decisin que se puede dividir en dos perodos. En el primer perodo,
el tomador de decisiones adquiere informacin factual sobre el estado de naturaleza en forma
de un mensaje (a partir de un conjunto de posibles mensajes) considerado como verdadero.
Si el mensaje es todo o nada, se marca un subconjunto de estados para cada estado, mientras
que, si es probabilstico, se caracteriza por su probabilidad condicional para cada estado,
siendo el lmite la situacin en la que el mensaje especifica el estado (cierto mensaje). En el
segundo perodo, el tomador de decisiones modifica sus creencias como una funcin del
mensaje y elige una accin en consecuencia. El valor ex post de la informacin es
simplemente la diferencia en la utilidad obtenida por el agente, dependiendo de si la decisin
elegida se toma antes o despus de la recepcin del mensaje. El valor ex ante de la
informacin es el valor ex post esperado para todos los posibles estados (y mensajes), es
decir, calculado en promedio antes de conocer el mensaje realmente recibido. El tomador de
decisiones, en consecuencia, elige recopilar la informacin si su valor ex ante es mayor que
su costo (en la medida en que puede calcular este valor).
El valor ex post de la informacin (no cierta) puede ser positivo o negativo. El tomador de
decisiones puede recibir un mensaje improbable que lo incita a tomar una mala decisin. Por
el contrario, un resultado fundamental afirma que el valor ex ante de la informacin es
siempre positivo si el tomador de decisiones utiliza la maximizacin de la utilidad esperada
como su regla de eleccin. Esto significa que el tomador de decisiones, habiendo recibido
una informacin (verdadera), no puede encontrarse en una situacin peor que la que estaba
antes de recibirla. Sin embargo, este resultado se invalida si el tomador de decisiones utiliza
una regla de seleccin distinta de la maximizacin de la utilidad esperada. Tambin se
invalida si el mensaje toma una forma distinta a la descrita (mensaje todo o nada no
desagregado, mensaje probabilstico con probabilidades no aditivas).
Este marco puede extenderse al caso de la adquisicin endgena de informacin entre dos
acciones. En el primer perodo, un tomador de decisiones tiene la opcin entre una accin
operativa reversible y una accin irreversible. En el segundo perodo, esta accin proporciona
un mensaje sobre el estado de la naturaleza que ha ocurrido. En el tercer perodo, el tomador
de decisiones puede aprovechar este mensaje para enmendar la accin reversible, mientras
que la accin irreversible es definitiva. Si el estado es favorable, la utilidad de la accin
irreversible es mayor que la de la accin reversible, aun cuando sta sea modificada; Si el
estado es desfavorable, la accin reversible es preferible exactamente porque puede ser
adaptada. Entonces es posible demostrar que la accin reversible posee un cierto bono en
comparacin con la accin irreversible, y este bono es de hecho igual al valor de la
informacin proporcionada por el mensaje.
1.2.5. El dilema de la Exploracion-Explotacion
Considere un proceso de decisin repetido sobre un nmero infinito de perodos. En cada
perodo, la naturaleza dibuja aleatoriamente un estado segn una ley de probabilidad que
permanece idntica para todos los perodos. En cada perodo, el responsable de la toma de
decisiones implementa una accin que le proporciona simultneamente informacin sobre el
estado actual de la naturaleza y le proporciona una utilidad. El tomador de decisiones utiliza
esta informacin para hacer que la ley de produccin de estados funcione de manera ms
precisa y para mejorar sus decisiones futuras. El dilema de la explotacin exploracin se
expresa entonces mediante la perdida en utilidad en el corto plazo de no tomar la mejor
decisin (costo de oportunidad de la informacin) Y una ganancia a largo plazo en utilidad
debido a la informacin adicional obtenida (valor decisional de la informacin). Para llevar
a cabo este arbitraje, el decisor debe asegurarse de que posee informacin de segundo orden
sobre la forma de la ley que rige la produccin de los estados.
El compromiso de la exploracin-explotacin tiene una solucin ptima para tipos
particulares de proceso de decisin, ms especialmente para los bandidos k-armados
instalados en los casinos. Se supone que un brazo i proporciona una ganancia de Gik en el
estado K con una probabilidad de Pik; Los sucesivos sorteos del Estado se asumen
independientes y se realizan de acuerdo con una ley que es invariante en el tiempo pero
desconocido para el agente, que sin embargo formula una hiptesis sobre su tipo (normal,
Bernoulli, etc.). Para simplificar las cosas, consideramos un bandido armado de 2 brazos,
cada brazo i dando una ganancia de 1 con probabilidad Pi y una ganancia de 0 con
probabilidad 1 - Pi, y asumimos que el tomador de decisiones sabe la distribucin de Pi. El
tomador de decisiones debe trabajar un brazo en cada perodo sobre una longitud infinita de
tiempo, teniendo en cuenta que su regla de eleccin es la maximizacin intertemporal de la
ganancia esperada con un coeficiente de descuento .
Se ha demostrado (Gittins, 1989) que el problema es solucionable mediante la induccin
hacia atrs y su solucin es dada por la regla de Gittins, una muy elegante solucin desde el
punto de vista de la racionalidad procesal a medida que transforma un problema k-
dimensional en k problemas unidimensionales. La regla de Gittins consiste en atribuir a cada
brazo y para cada perodo un "Indice Gittins", de manera que en cada perodo el agente elige
el brazo con el indice ms alto y actualiza el ndice de este brazo segn el resultado obtenido.
Esta regla conduce con probabilidad positiva a un solo brazo siendo consistentemente elegido
despus de un cierto tiempo, es decir, la exploracin es abandonada en favor de la
explotacin. Sin embargo, como el proceso depende de la trayectoria elegida, existe una
probabilidad no nula de elegir el brazo malo. Esta probabilidad disminuye a medida que el
coeficiente de descuento del tomador de decisiones aumenta. Si el coeficiente de descuento
tiende a 1, el agente tomara un largo tiempo en explorar antes de cambiar a la explotacin
(ya que el costo de exploracin tiene poco impacto en la utilidad inter temporal).
El ndice de Gittins es calculable en funcin del tipo de distribucin de la variable aleatoria,
pero su expresin generalmente sigue siendo muy complicada. Esto conduce a que este se
aproxime asintticamente, para distribuciones de probabilidad de estados con varianza finita,
por ndices relacionados con la ley normal (En virtud de la ley de grandes nmeros). Para la
ley normal, un valor que por si mismo se aproxima al ndice del brazo i en un ejemplo
simplificado es el siguiente:
(1.5)
Vi = mi + a()si / ni
Donde mi y si son la media emprica y desviacin estndar, ni es el nmero de pruebas y a()
es una funcin asintticamente equivalente a 1/2(1 ) . Esta expresin es la suma de
dos trminos, el primero expresando un "valor de explotacin" y el segundo un "valor de
exploracin"; Este ltimo disminuye rpidamente a medida que aumenta el nmero n i de
pruebas (ms rpido que la incertidumbre) sobre la media, que es del orden de si / i, pero
aumenta rpidamente con el coeficiente de descuento ya que esto tiende a 1. Por ejemplo,
con un coeficiente de descuento de 0,98 (correspondiente a un proceso con horizonte
indefinido, de un promedio de 50 perodos), un brazo que se ha utilizado 20 veces y tiene un
resultado positivo 15 veces es equivalente a un brazo que ha sido utilizado 6 veces y ha dado
un resultado positivo 1 vez.
1.3. Algunos modelos
1.3.1 Modelos de decisin bajo racionalidad limitada
Un primer modelo de eleccin bajo la racionalidad limitada es el "modelo de satisficing" Commented [IEdlM11]: combinacin de satisfacer
propuesto por Simon (1982). En oposicin al clsico modelo de "optimizacin", el decisor y suficiente. es una estrategia de toma de decisiones o
heurstica cognitiva que implica la bsqueda a travs
juzga las acciones por medio de criterios parciales uk, a los que se atribuyen los umbrales de de las alternativas disponibles hasta que se cumpla un
aspiracin k ; EL decisor examina las acciones en un orden predefinido y elige el primero umbral de aceptabilidad.
para alcanzar el umbral de aspiracin para todos los criterios: si tal que uk (si) k . Como un
caso particular, se puede considerar un criterio nico u (como en el caso de la optimizacin),
con su umbral de aspiracin ; El decisor elige la accin si tal que u (si) . A primera
vista, el modelo de racionalidad de Radner se ajusta a esta definicin, considerando que el
decisor elige la primera accin que se aproxima a del ptimo: u (si) maxi u (si) , pero
aqu el umbral de aspiracin depende realmente de la utilidad mxima alcanzable, la cual es
generalmente desconocida por el tomador de decisiones. Se puede observar que el modelo
de satisficing admite el modelo de optimizacin como un caso limitante cuando los umbrales
de aspiracin son suficientemente altos. Sin embargo, el modelo se expresa directamente en
trminos de racionalidad instrumental limitada y no la racionalidad cognitiva limitada. Para
que esto aparezca, se debe examinar un proceso de deliberacin por parte del tomador de
decisiones que ponga en juego restricciones cognitivas de tal manera que se le lleva a buscar
una accin satisfactoria. Tal proceso, que tendra la ventaja de endogenizar los umbrales de
aspiracin del tomador de decisiones, todava no se ha propuesto.
Un segundo modelo de eleccin bajo racionalidad limitada es el "Modelo de eleccin
probabilstico "(Anderson, de Palma, Thisse, 1992). De un conjunto finito de posibles
acciones, el tomador de decisiones elige la accin i con probabilidad
Pi tal que: Pi = wi / j wj donde wi es una propensin a elegir la accin i vinculado a un
ndice de utilidad ui de la accin i. En el modelo lineal, los parmetros wi son proporcionales
al ndice de utilidad: wi = ui. En el modelo multinomial logit, los parmetros wi se escriben
en forma exponencial: wi = eUi, con la conveniente introduccin de un parmetro . Aqu
otra vez, el modelo logit converge hacia el modelo de optimizacin cuando el parmetro
tiende al infinito; El decisor en ese momento deja de actuar de una forma estocstica, sino
ms bien en una manera determinista (excepto en el caso de la indiferencia entre dos
acciones). anlogamente, el modelo logit tiende a un modelo puramente aleatorio cuando
tiende a cero. El parmetro aparece as para reflejar las limitadas capacidades cognitivas
del tomador de decisiones, pero nuevamente opera en un modelo que expresa una
racionalidad instrumental limitada. Sin embargo, dos justificaciones cognitivas de este
modelo, endogenizando el parmetro , se han presentado. En la primera, el decisor est
dotado con una funcin de utilidad aleatoria, pero sigue optimizando a tal medida que
implementa cada accin con la probabilidad de que sea optimizadora. Cuando la ley de
probabilidad de la utilidad se elige correctamente (Doblemente exponencial), se obtiene el
modelo logit. En la segunda justificacin (Mattsson-Weibull, 2002), el tomador de decisiones
elige una accin al arbitrar entre su utilidad y un coste de control en relacin con una accin
de referencia. Cuando el coste de control se elige correctamente (en forma de entropa), Se
obtiene nuevamente el modelo logit.
Otros modelos introducen directamente costes de clculo o restricciones cognitivas
sostenidas por el decisor (Binmore, 1988, Rubinstein, 1998). Un primer ejemplo es el
"modelo de eleccin bajo deliberacin costosa", que presenta opciones en n niveles
sucesivos. En el primer nivel, el decisor elige, para los diferentes procedimientos de eleccin,
la accin ms eficaz. En el segundo nivel, el decisor elige, de acuerdo con un meta
procedimiento de eleccin; un proceso de eleccin al comparar el desempeo de la accin
elegida y el costo de implementar el procedimiento. En los niveles siguientes, el decisor elige
un procedimiento de eleccin para seleccionar un procedimiento de eleccin de menor nivel.
En un nivel superior finito, elige los Procedimientos por optimizacin, ignorando el coste,
con el propsito de evitar una regresin infinita (ver 1.5). Esto supone que el tomador de
decisiones posee una lista a priori de los procedimientos de eleccin y que es capaz de evaluar
sus costes de ejecucin y, sobre todo, sus resultados sin haberlos Implementado. Un segundo
ejemplo es el "modelo finito automata". En este, el tomador de decisiones es asimilado a un
autmata cuyas capacidades de clculo son tales que slo tiene un conjunto finito de estados
internos a su disposicin. Por lo tanto, es incapaz de realizar clculos que excedan cierto
grado de complejidad.
1.3.2. Modelos de aprendizaje en situaciones estticas
El "modelo de juego ficticio" supone que el tomador de decisiones, durante un repetido
proceso de decisin, es capaz de predecir los estados futuros de la naturaleza. Adems, este
modelo expresa esencialmente el comportamiento de explotacin. El decisor observa la
frecuencia pasada de estados de naturaleza, deduce una distribucin de las probabilidades
sobre los estados futuros y elige, para cada perodo, la accin que maximiza su utilidad
esperada segn esta distribucin. El comportamiento de exploracin puede ser introducido
por desviacin voluntaria del comportamiento anterior, y esta desviacin puede tomar dos
formas. En el modelo de "juego ficticio -codicioso", el tomador de decisiones puede usar la
accin ptima con la probabilidad 1 - , o usar otra accin dibujada uniformemente al azar
con la probabilidad . En el modelo de "juego ficticio perturbado", el tomador de decisiones
utiliza la regla de eleccin logit (que ya no es optimizadora) con la utilidad esperada (como
ndice de utilidad) calculada para cada accin. Para el juego ficticio estndar, se puede
demostrar fcilmente que el proceso de decisin convergir hacia la accin ptima (en el
sentido de maximizacin de la utilidad esperada) simplemente mediante la ley de nmeros
grandes (La frecuencia de aparicin de cada estado tiende a su probabilidad). Para las
variaciones propuestas, por el contrario, esta convergencia no es segura dado que el
componente aleatorio generado por la exploracin no desaparece asintticamente.
El "modelo CPR" (Laslier-Topol-Walliser, 2000) es un modelo de refuerzo (Roth-Erev,
1995) que supone que el tomador de decisiones slo Observa la actuacin pasada de sus
acciones y ya no observa los estados de la naturaleza. Considera que el decisor adopta, como
ndice de utilidad, La utilidad acumulada obtenida para cada accin y que elije Su accin
futura con una probabilidad proporcional a este ndice. Este modelo Presenta buenas
propiedades en cuanto al dilema exploracin-explotacin. Al comienzo del proceso, dado
que los ndices a menudo se inicializan uniformemente, el tomador de decisiones realiza una
exploracin sistemtica de todas las acciones. Al final del proceso, si el ndice de una accin
se hace predominante En relacin con las dems, la explotacin se hace muy fuerte, aunque
La exploracin nunca es abandonada (cada accin posee una probabilidad residual de ser
elegida). Es ms, si uno aumenta (disminuye) el Parmetro , uno mueve el compromiso
exploracin-explotacin hacia ms explotacin (exploracin). Para = 0, hay pura
exploracin porque Todas las acciones se usan con la misma probabilidad; Para = , hay
Pura explotacin porque slo la accin con el ndice mximo de utilidad Se utiliza. Se puede
demostrar que el proceso de aprendizaje as definido Converge hacia la accin ptima
(todava en el sentido de utilidad esperada) Porque las buenas acciones se juegan ms y ms
a menudo, debido a un efecto de la utilidad acumulativa, mientras que la exploracin tiende
a cero.
El "modelo de eleccin del umbral" es una versin dinmica del modelo de satisficing, que,
como el modelo anterior, ya no requiere la observacin de los estados de naturaleza. Por un
lado, los umbrales de aspiracin se adaptan Durante el transcurso del tiempo de acuerdo con
los resultados obtenidos. Si el responsable de la toma de decisiones Ha encontrado fcilmente
una accin satisfactoria en el pasado, eleva sus umbrales, mientras que si ha tenido
dificultades para encontrar una accin satisfactoria en el pasado, l baja sus umbrales. Por
ejemplo, si el criterio de utilidad Es nico, el tomador de decisiones incrementa su umbral
por un bono constante P si la accin anterior dio un resultado mejor y viceversa:
Si ui(t) (t), entonces (t + 1) = (t) + p
Si ui(t) < (t), entonces (t + 1) = (t) - p

Por otra parte, existe una accin de referencia que es generalmente la accin pasada En
relacin con la cual se define la accin futura. De esta manera, la accin pasada ser la
primera en ser examinada para el futuro, mientras que las otras se trataran frecuentemente de
manera global. Por ejemplo, si el criterio de utilidad es nico, el decisor Puede repetir la
accin pasada si la utilidad obtenida excedi el umbral de aspiracin, de lo contrario escoger
cualquiera de las otras acciones (Con una cierta ley de probabilidad), introduciendo as el
comportamiento exploratorio. Aqu de nuevo, bajo ciertas condiciones, el proceso converge
hacia la accin ptima.
1.3.3 Modelos de aprendizaje en situaciones dinmicas
Si, al tiempo que se mantiene la hiptesis de un problema de decisin repetida, pasamos de
un problema esttico de decisin a uno dinmico, podemos prever dos tipos de modelos de
aprendizaje. En primer lugar, podemos seguir aplicando los modelos de aprendizaje antes
mencionados adaptndolos a un contexto dinmico. Una posibilidad consiste en traducir el
problema de decisin, expresado en forma extensiva, en una forma normal mediante la
introduccin de estrategias del tomador de decisiones y luego aplicar los mtodos anteriores
a las estrategias. Por lo tanto, el modelo de RCP (CPR en el texto original) es aplicable a las
estrategias del tomador de decisiones cuando se pueden observar sus desempeos. Otra
posibilidad es mantener el problema de decisin en una forma extensa, pero aplicando los
mtodos anteriores a cada nodo del rbol de decisin. Por lo tanto, el modelo de RCP (CPR
en el texto original) es aplicable al considerar que, para cada ocurrencia sucesiva en el
proceso de decisin, la utilidad obtenida por el tomador de decisiones se atribuye
simultneamente a todas las acciones que aparecen en la trayectoria seguida en el rbol de
decisin. En segundo lugar, podemos extraer directamente las reglas clsicas de eleccin
propuestas para situaciones de decisin dinmica. Esto es tanto ms necesario en tanto que
estas reglas de eleccin, basadas en el procedimiento de induccin hacia atrs, requieren
grandes capacidades para el procesamiento de la informacin (Sutton-Barto, 1998).
Un modelo de aprendizaje propuesto a principios de la Inteligencia Artificial es el "modelo
Q-learning" (Watkins, 1989), que se aplica a un proceso de decisin estocstico. Un modelo
de refuerzo, no presupone un conocimiento a priori de las caractersticas del proceso de
decisin (probabilidades y utilidades de transicin), aunque tal conocimiento ayude a acelerar
el proceso. Este modelo conduce a revisin de "utilidades locales esperadas" , acciones i
que emplea el tomador de decisin en la configuracin h, veces para encontrarse en la

configuracin k, obteniendo la utilidad .
La regla de revisin es una adaptacin de la ecuacin de Bellman y se escribe:
Donde ( ) es una funcin promedio decreciente
(a menudo a(n) =1/ n)
El proceso Q-learning converge en tanto que el nmero de pruebas aumenta, la funcin
promedio tiende a cero y reduce la correccin de las utilidades ms y ms. Sobre todo,
converge hacia el punto fijo de las ecuaciones de Bellman en condiciones que imponen pocas
restricciones. De hecho, Watkins (1989) demostr que si el proceso de decisin subyacente
es efectivamente Markoviano, si cada accin se prueba un nmero infinito de veces en cada
configuracin y si la funcin de promedio satisface () = y 2 () < ,
entonces, el proceso de Q-learning converge a una solucin ptima.
Sin embargo, el proceso Q-learning slo se define perfectamente cuando se especifica la regla
de eleccin utilizada por el tomador de decisiones de acuerdo con las utilidades locales,
adems de la regla de revisin de las utilidades locales segn la informacin adquirida.
Watkins propuso utilizar la regla logit multinomial, es decir, elegir la accin i en la
configuracin h de acuerdo con la probabilidad:

La regla logit tiene la ventaja de hacer que el tomador de decisiones pase por cada
configuracin y cada accin asociada un nmero infinito de veces y as obtener las utilidades
locales ptimas. Por otra parte, es slo al final de esta convergencia que se puede deducir la
estrategia ptima de las utilidades locales; De hecho, la accin resultante del modelo logit no
converge hacia la accin ptima (a menos que el parmetro mismo evolucione durante el
paso del tiempo y tiende al infinito). Por lo tanto, el proceso de Q-learning requiere
exploracin infinita antes de la ejecucin de la explotacin instantnea. Adems, se puede
demostrar que, para ciertas tareas de exploracin particulares, el tiempo que toma para que
el proceso Q-learning con la regla logit converja es una funcin exponencial de la
profundidad del rbol de decisin. Por supuesto, tambin podemos usar como regla de
eleccin asociada con el proceso Q-learning, la estrategia ptima asociada a cada paso en la
revisin de las utilidades locales, pero entonces ya no hay ninguna garanta de que el proceso
converja.

1.3.4 Modelos asociados


Las estrategias locales que asocian una accin i con cada configuracin h, pueden
generalizarse en forma de "reglas" o "clasificadores" (Holland, 1987). En este caso, una regla
asocia una accin (posiblemente pluridimensional) con un conjunto de configuraciones
siguiendo el principio: "si la condicin , entonces la accin ". La condicin de la regla
agrupa las configuraciones entre las cuales el tomador de decisiones no hace ninguna
distincin, ya sea debido a un error de percepcin de su parte o porque la accin en cuestin
no requiere distincin alguna. Puede considerarse como una operacin de categorizacin
realizada por el tomador de decisiones y, por tanto, expresa el grado de granularidad con que
aprehende su entorno en relacin con la accin. Una regla es activada por el tomador de
decisiones si una de las configuraciones de su condicin se produce realmente. Por supuesto,
se pueden activar varias reglas en la misma configuracin, en cuyo caso se encuentran en
competencia. Adems, se utilizarn ciertas reglas en una cadena para obtener un determinado
resultado.

A cada regla se le atribuye una utilidad o fuerza que evoluciona a lo largo del tiempo
de acuerdo a un algoritmo cercano A un algoritmo cercano a Q-learning, el algoritmo de la
"cadena de portadores". En cada configuracin h las reglas admisibles forman ofertas
y uno de ellas es elegida con una probabilidad dependiente de su oferta:

Esta regla pierde su oferta, pero recibe una recompensa de dos fuentes:
Del entorno externo (si la regla acta sobre el entorno externo a travs de la accin i
proporcionando una utilidad

Del entorno interno (si la regla acta sobre el entorno interno causando la transicin al
estado k, desencadenando as una nueva regla, de la cual la accin es j y de la cual recibe la
oferta):

As, las recompensas del entorno externo retroceden en cascada sobre toda la cadena de reglas
que han contribuido a la accin recomendada. A largo plazo, las utilidades terminan
convergiendo de acuerdo a la "fuerza" intrnseca de cada clasificador.
Los mecanismos anteriores, explotados para un determinado campo de reglas, pueden ser
complementados por mecanismos de exploracin. Para ello, las condiciones y acciones estn
codificadas, generalmente en forma binaria. Los mecanismos de exploracin se basan
entonces en "algoritmos genticos" y realizan una re-categorizacin parcial de las
configuraciones. La "mutacin" consiste en modificar un carcter en la codificacin de las
condiciones de una regla, mientras que "cruzar" consiste en mezclar las codificaciones de las
condiciones de dos reglas diferentes. A largo plazo, las nuevas normas sustituirn a las
antiguas reglas que hayan resultado peor si han adquirido suficiente fuerza. Tales procesos a
menudo convergen ms rpidamente que en ausencia de renovacin de reglas. Por encima de
todo, permiten adaptarse a un entorno evolutivo (vase el captulo 8).
1.3.5 Un ejemplo de eleccin dinmica
Volviendo al ejemplo del omelette de Savage (1954), podemos observar que la anterior
formalizacin se basa en una categorizacin muy precisa del problema de decisin. Por lo
tanto, el estado del huevo podra ser descrito con ms precisin, con la fecha de produccin,
por ejemplo, que podra influir en la eleccin del cocinero. La accin del cocinero podra ser
ms discriminante, dependiendo de si velas el huevo antes de romperlo en el tazn o el
platillo. Sobre todo, las consecuencias podran ser mucho ms precisas, como por ejemplo el
coste de manipulacin de los instrumentos o el coste ecolgico de tirar un huevo. Como de
costumbre, el problema ha sido estilizado por el modelador para construir un "mundo
pequeo" en el que es solucionable. De hecho, lo importante es la manera en que el cocinero
mismo categoriza e interpreta el problema, pues es sobre esta base que har su eleccin.
Aplicando el proceso Q-learning al omelette de dos huevos, recordando que cada una de las
tres posibles configuraciones permite dos o una accin asociada respectivamente, el cocinero
revisa una de las cinco utilidades locales en cada paso. No tiene que saber de antemano
ni la probabilidad de que el huevo sea malo, ni los costos y las ventajas en que incurre, basta
con que experimente los efectos de sus acciones durante sus sucesivos experimentos. Sin
embargo, con la regla logit de decisin, el cocinero continuar probando todas las acciones
en todas las configuraciones hasta que las utilidades locales se vuelvan estables y contrasten
lo suficiente para que elija su estrategia de acuerdo con la regla de decisin de maximizacin.
El uso de una regla de decisin de RCP CPR en el texto original) permitira que el aprendizaje
de las utilidades locales coincida con las acciones, mientras que al mismo tiempo converge
hacia la estrategia ptima (vase el captulo 3).
En un ejemplo de un omelette con siete huevos, uno puede tambin comenzar con cuatro
reglas:
R1: desde el cuarto huevo hacia adelante, el cocinero usa el platillo
R2: desde el cuarto huevo hacia adelante, el cocinero usa el tazn
R3: hasta el tercer huevo, el cocinero utiliza el platillo
R4: hasta el tercer huevo, el cocinero usa el recipiente.
Hay 8 configuraciones posibles (de 0 a 7 huevos en el tazn) y se pueden codificar en forma
binaria (de 000 a 111). Del mismo modo, hay 2 acciones posibles que pueden ser codificadas
por 0 (bol) y 1 (platillo). Si ahora introducimos el "joker" 1 como un smbolo mudo (que
expresa 0 o 1), la regla R1, que enlaza varias configuraciones con una accin nica, puede
escribirse: 11.
Si la probabilidad de tener un huevo malo es muy baja, la fuerza de las reglas R2 y R4
aumenta; si la probabilidad es muy alta, la fuerza de las reglas R1 y R3 aumentar, y para
una probabilidad intermedia, la fuerza de las reglas R1 y R4 aumentar. Adems, una
mutacin realizada en la regla R1 consiste, por ejemplo, en reemplazar el primer comodn
por 1, lo que da la nueva regla "desde el sexto huevo hacia adelante, el cocinero usa el
platillo".

1.4 Tesis y conjeturas


Contrario a la teora de la decisin intencionalista, que trabaja con pocos modelos de eleccin
bien establecidos, la teora evolutiva de la decisin propone una gama de modelos que todava
estn diversificados y carentes de principios unificadores. El proceso de deliberacin puso
de relieve el papel que desempean dos principios: el principio de prediccin (para predecir
los efectos de posibles acciones) y el principio de seleccin (para elegir una accin a
implementar). Est precedido por un tercer principio que aparece cada vez ms importante:
el principio de categorizacin (aprehender los determinantes y el entorno). Para cada
principio, de acuerdo con la racionalidad procedimental, deben establecerse "reglas"
prototpicas (posiblemente parametrizadas) para estilizar lo mejor posible el razonamiento
de los agentes y al mismo tiempo cubrir todo el campo de los razonamientos probables. Las
reglas parciales asociadas con cada principio deben entonces agruparse en un pequeo
nmero de reglas globales, respetando las condiciones de coherencia entre estas reglas
parciales.
Para un problema de decisin repetida, la teora evolutiva de la decisin ha establecido una
jerarqua de escalas temporales entrelazadas, que intervienen jerrquicamente en la
implementacin de las reglas y necesitan ser refinadas. A corto plazo, frente a su entorno
(generalmente aleatorio), el tomador de decisiones implementa una regla global
(posiblemente probabilista) para elegir una accin de acuerdo a sus observaciones
(posiblemente ruidosas). A largo plazo, el proceso puede converger hacia un atractor puntual
o cclico, y esta convergencia depende del contexto e historia, a causa de los eventos
aleatorios introducidos por el medio ambiente y por el propio tomador de decisiones (a travs
de su observacin y accin). A largo plazo, la aparicin de nuevas acciones posibles
(parecidas a mutaciones aleatorias) puede, a su vez, cambiar la posicin del estado asinttico
anterior, en particular para adaptarse a una modificacin del entorno.
Para juzgar el desempeo de un proceso de aprendizaje, sin pretender un aprendizaje ptimo,
el modelador (o incluso el que toma las decisiones) evala las reglas globales mediante
criterios mltiples y parcialmente antagnicos. Por un lado, la regla se juzga por su capacidad
de conducir asintticamente a la accin ptima, en el sentido de maximizacin de la utilidad
esperada, al menos en un entorno estacionario (encontrando un buen compromiso entre
exploracin y explotacin). Tambin se juzga por su capacidad para hacer frente a un entorno
evolutivo (manteniendo siempre una proporcin suficiente de exploracin). Por otra parte, la
regla se juzga por su costo (generalizado) de implementacin, en trminos de la informacin
que requiere, los clculos que implica y el tiempo de convergencia que implica. En particular,
se puede examinar el nivel de complejidad de la regla, concepto muy estudiado en la
Inteligencia Artificial y poco integrado por los economistas.
Adems, el modelador puede examinar el realismo emprico de las reglas, probando su
relevancia en diversas circunstancias. Puede probarlos a travs de estudios de campo, cuando
se utilizan para tomar decisiones polticas o econmicas, especialmente para opciones
financieras que impliquen altos niveles de incertidumbre. Sobre todo, puede probarlos en
condiciones de laboratorio, sometiendo al tomador de decisiones a elecciones ms o menos
abstractas, que son repetibles y de las cuales se pueden controlar ciertos factores. Estas
pruebas pueden, bajo ciertas hiptesis, permitir separar las reglas usadas por el tomador de
decisiones para la prediccin (dinmica de la creencia) de las utilizadas para la seleccin
(secuencialidad de las elecciones). Tambin ponen de manifiesto el carcter asinttico del
proceso, que, no obstante, a menudo se alcanza slo despus de un gran nmero de perodos,
o el carcter transitorio, que es de inters.
Las reglas que acabamos de presentar pueden ser influenciadas por la red social en la que
operan los tomadores de decisiones, aun cuando permanezcan en un contexto en el que cada
agente acte frente a un entorno pasivo comn a todos. Cada tomador de decisiones puede
imitar directamente la accin elegida por los dems (asumida como mejor informada) o
inspirarse en las acciones de mejor desempeo de los dems, siendo esta imitacin realizada
a menudo en un vecindario limitado de informacin. Cada tomador de decisiones tambin
puede imitar las reglas utilizadas por otros (al menos si puede observarlos o exponerlos), de
acuerdo con sus virtudes supuestas. Este tipo de imitacin sigue siendo poco estudiado. Si
los fenmenos de mimetismo conducen a una correlacin entre las acciones y los agentes, el
proceso de aprendizaje conjunto de los tomadores de decisiones depende del contexto y de
la historia y puede converger hacia acciones o reglas que permanecen heterogneas entre los
diferentes tomadores de decisiones.
Si las reglas anteriores se aplican a un proceso de eleccin individual que tiene lugar en un
entorno aleatorio y pasivo, deben adaptarse a un contexto que conlleva a un gran nmero de
tomadores de decisiones racionales. De hecho, el nmero de estrategias a su disposicin
aumenta y su entorno se vuelve ms complejo, lo que implica que se enfrentan a mayores
restricciones computacionales. Las reglas pueden aplicarse fcilmente a un contexto
paramtrico en el cual el tomador de decisiones slo reacciona a seales comunes tratadas
como exgenas (exactamente como los precios), por ejemplo, en el estudio de los mercados
elementales (vase el captulo 2). Pueden aplicarse ms sutilmente a un contexto estratgico
en el que los tomadores de decisiones escojan sus acciones de acuerdo con las acciones de
los dems (que hacen lo mismo), en particular en situaciones de juego (vase el captulo 3).
La cuestin de si la presin selectiva entonces impuesta a los tomadores de decisiones en su
entorno social conduce realmente a una accin ptima, o incluso a una regla de eleccin
ptima, puede ser explorada una vez ms (vase el captulo 7).