Вы находитесь на странице: 1из 73
ee Al aS 1B} Hai jared aN Re Probabilidad, informacion, estadistica ) Descubrir la ciencia Materia Dest pt 8211782018 mori on crge! Mogg Di Uo ayo 105, ‘Buzos Aron el esa wore co 247 ‘eanrein oslo dechos Chase iguosamant pia ‘minding wc or ane a ‘eens ye acon muta sie préstane MOS Las leyes del azar PROBABILIDAD, INFORMACION, ESTADISTICA Bartolo Luque Juan MR Parrondo CONTENIDO Introduccton ‘Como pensar el azar Ruletas yeoincidenclas {Qué es la probabilidad? gene tori de probed Como pensar sobre el azar: el problema de Monty Hall Cudntas veces ganaré? Probabilidad y entropia Lair bron l valor medio y la ley de los grandes nimeros te campane deCoue Sorpresas,casualidades, milagros y otras probabitidades I problema del cumpleaios El principio de improbabilidad Probabilidad condicionada y teorema de Bayes ‘ora del probed tin deerminor ‘nto pete gee neu i ego mal to? {La falacia del fiscal: la importancia de evaluar las probabilidades adecuadamente Lazar en movimiento: modelos Modelos y simulaciones CCaminantes aleatorios Juegos paradéicos y motores moleculares an a “4 20 21 23 30 3s 37 a7 8 47 53 53 Pregtintale a Google la importancia de Dios en la Biblia Fluctuaciones fatales Bits, palabras y adivinanzas Preguntas inteligentes Laden norman sain ura pregunta? Cdigos Heh de Hafan Correlaciones y compresién de datos Complejidad algoritmica La informacién en el lenguaje Censos, encuestas y estimaciones 7427 611.178 personas en un mundo en miniatura Bstimaci6n: contar sin contarlo todo lamedia mustolesun eimai nsegodo La varlonsa mueroer wn estinader seed ‘per poder orga. El problema de los tanques alemanes “Amor etimadareparecen robles "conc nr quedones? Intervalos de confianza De los datos alas ideas 2Qu6 es una hipétesis estadistica? Valor p Correlacién no implica causalidad ‘Amodo de epilogo: abusos estadisticos Glosario oa B B n egeag 93 oa 96 96 100 102 104 0 um ur a7 a2 126 136 us Introduccién Sn lor y fea peaiad de udarse mbarveda onelsoorma natal magn ocr (Pe te mayo de 2016) ie Nea “la proba de gu tn hobre npr ecvenze etna excentre empleo 5 del 16,4% frente al 12,6% de la mujer desempleadas, 2 24 de mayo de 2016) e Paes st acd a repr ming nun 74 proba de paecerciacer en onran ABI? ap cto) scuba tel eee shoes es come case es tlre epee» mormatre se eae les. La rtd et porto ind Cote Den bes pero aun poser manu capcad deen ‘nace demos: tanga und a es ee Facién a la que nos vamos a someter tier 99% de cal nun 99% prot, de xo precapcn somone a rb eas rmein cnbmicalprisine aes amy sos nen et totermos de ue a probilnd de at ace pe ee ‘escolar «podria disminuir» con ciertas medidas que - ‘esisten a aplicar, etc, ea ‘Tenemos una nocién intuitiva de la probabilidad como «propen- sin» a que algo ocurra yuna ligea idea de que las probabilidades cercanas al 100% son muy altas, mientras que las probabilidades en torno al $0% son indicio de una situacién completamente aleatoria. on esta imagen intuitive, y con el prestigio que otorga a cualquier informacion aderezarla con datos numéricos y con certo aroma a ‘encla posttiva,comunicadores y politicos uilizan la probablida y Ia estadistica para lanzar toda clase de mensajes contundentes Uno dels objetivos de este Ibroes precisamente servir de antidoto aesa tendencia: matizar la eredibilidad de esos mensajes y proporcionar al lector herramientas suficientes para valorar en st Justa medida cualquier afirmacin basada en la probabilidad oa estadistia. ‘Apesar de su actual popularidad, la teorla de la probabilidad es relativamente reciente. De hecho no fue consderada una rama who norable» de las matematicas hasta los afios cuarenta del silo pasa do. Su utlzacion en las ciencias positivas es también tarda Hasta el siglo xix, matematicos y pensadores analizaron situacionesazarosas blo en relacién con juegos decartasy dados. En aquellaépoca, como onsecuencia dela Revoluctén Francesa y del auge de los estados-na- ‘dn, se empezaron a apliarcAleulos probablisticos de maneraserla ‘Testadisticas, a seguros ya algunos temas curlosos como la compo- Seton de los jurados. Paralelamente, se desarrollé la estadistica para ‘nalzarobservactones y mediciones experimentalesenfisicay qu nica, En la segunda mitad del siglo x1, Jos cileulos probabilsticos ‘Comenzaron a apicarse en fsica para describir el comportamiento de las moléculas de un gs. Pero no fue hasta el siglo xx que levanela que presenta en a actualidad. A partir de ls afios sesenta tricticamente ya no bubo clencia alguna (Fisica quimica, blog ue no incorporesela probabildad como he onan soclogi-) cna ula La probed cass ead ta probabilidad adquirié la re- trumpleronen todos or sere cuanitatvos ys conieron 08 elementos inspensables ena construct de neta agen del onda, Para completa ete eearia nos af curets y= Cova det siglo el temic «ingenier lecrnico Cae Shannon seo cents de qu la inormcton que se wana ‘eros meses migenery senda poder ome Prov ra devant letra Con event as base deo de Is tnfrmacn, sna cil habia ido imposible a posterior revel in gta des teleomuniccones {ater dela probable adem eer eral ara entender simando cotemporne, er dvr, Ne a perdd evince con lsfueges de azar en micas casiones deal de manera soprem dente esta tin, acestumbrada un mun determine, Un ir sabe aa etariamente els que cbr ods enor a. Deco laesorpess ns crordades, pero tambien lr plone, Isao concep acre dl eiglcao de lprobabtdady os ‘etientosmateio ela sts cenls de earYerta ra ea que nora gua en ncn deetbr, Bel capt anazamos qué e la probelde, mostamos ela mejor forma de pes ebre aarimagiarmashar re, les repetone den enmena lets erode sow cepa biscos como valor mdi teorema cena del ie 9 i dsb gasan. cpt 2 mosra una ccton de twos carps enesperaos que ayuda entree neler a entra mundo dele probably os permiten edie aan concep rte, come las proba dependencia estadistica. ® Maton cnc te Una dea aplaclones md ponte doa \arders costae fe motlr decor pete ee ‘tuaciones: el tlempo atmosférico, la llegada de clientes oo, l trifico en una ciudad, ete Hos, précticamente cualquier pean ler proceso ‘ Lesloerdeleer oo natural, industrial, social 0 econémico se puede estudiar constru- ‘yendo un modelo que reproduzca su comportamiento, n el capitulo 3 estudiaremos algunos de estos modelos mas bésicos: caminantes alestorlas y procesos de ramificacién, con aplicaciones algo hetero- ddoxas a la jerarquia de paginas web, de palabras en la Biblia 0 a la proliferaci6n de bacterias. El capitulo 4 esté enteramente dedicado ala teorfa dea informa- clon, y el Sy el 6a la estadistica, En el capitulo $ veremos ebmo se realizan estimactones sobre poblaciones a partir de pequefias mues- ‘tras y c6mo encontrar el error de dichas estimaciones. En el 6 anal ‘zaremos cémo ir «de los datos a las ideas» es decir, como utilizar los datos estadisticos para validar o refutar modelos ehipétests. En este ‘timo capitulo analizaremos también con qué faclidad se pueden ‘encontrar correlaciones entre variables que no responden a ninguna ‘elacién entre ellas y terminaremos con algunas advertencias sobre celuso actual de a estadistica Después de este viaje, el lector tend una panorimica del papel dela probabilidad y la estadistica en las nuevas tecnologias y en la ddescripeion que la clencia hace del mundo. Esta es sin duda motive: ‘lon sufciente para emprenderlo y completarlo. Pero hemos procu: ‘ado también que cada etapa del viaje sea lo suficentemente curiosa 9 dlvertida como para que el lector distrute del trayecto Cémo pensar el azar seco cas pe tds asta edad Primo Laplce Ruletas y coincidencias ta tard dl 14 de jlo de 200 Barney Vinson, un esertor lado on jen de casino, se enemas ene lar Pane de tas Vers: En una dela rls, cuenta Vinson el dma sete elo cuatro ees egies ed sour del oa joa uo de 5s compaferes: puesto nmin de dlrs qu no ede rien La apuesta no ue aed pero el site ve a una uit very ue sea! Ala tee Vinson fc tengo de sgn Aue spin lunes sconador laut, hs egntrioen cg dos caine org deta ahora de uegore 9 de et 1959, en el Hotel San Juan de Puerto Rico, la bola cay6 seis veces ‘ Buidas en el niimero diez, = ru tzamients de lta abla puede caer en cau 19 nineror que ven el Oa36.Seuponemon qu tees es Igulmonte probate, probed de gue sgn entre eon cnr oo os 1/7 xe lel lve wn la deen ested a deprobablidad propuesta por el gran matemy de sucesos son jgualmente probables. En la ruletasustentamos es creenciaen susimetra circular; enelcaso de un dado, po ejempa ens simetea tics. Lareqlade Laplace para calcularprobabilidades se puede ptr ‘cimente a dos lanzamientos de la ruleta. Si después de un lane mento en que ha salldo el nimero siete, lanzamos labo de nuen, qu postbilidades hay de que salga otra vez el rimero siete? Sl ‘mente una. De modo que si nuestro evento A es «dos-sietes-seath | oss, l nmero de casos favorables es 1. z¥ cudntos son paste? En la primera tirada tenfamos 37 posibilidades y, puesto que eat segunda también tenemos 37, el total de casos posibles o pares t nimerose¢ 37 «37, rtamosahors en dsposicin de calulr la probabliad un némero concreto, por ejemplo el diez, salga sels veces se {Giempre que el crupier no haga ninguna trampa). Esta probabl rai €51/(87 «37 «37 «37 x37 « 37) = (1/37), aproximadament Posbldad entre 2500 milones. Observemos que, en ealidad ‘ulersecuencia de ses nimeros, como por ejemplo a 31-310: 15, tiene exactamente la misma probabilidad de salir que seis se sels dieces seguidos. Laruleta no tiene memoria. En general 4 ‘suelesuponer que a secuencia 10-10-10-10-10-10 es més InP be que a 313-10-27-7-15, porque la primera es espec™ tras que la segunda tiene un aspecto anodino, Pero imaginese que Ia segunda secuencia estéformada por las fechas de nacimlento de sus ‘dos hijos: el 31 de marzo de 2010 y el 27 de julio de 2015. Cree de verdad que la probabilidad de que aparezcan en la ruleta seis dieces seguidos es menor que la de que aparezcan de forma exacta y conse- ‘cutiva ls fechas en las que nacleron sus hijos? ‘Sin embargo, la secuencia 10-10-10-10-10-10 sf es especial en clerto sentido. Sl en ugar de preguntarnos por secuencias concretas, nos preguntamos por el nimero de veces que aparece el diez en seis tiradas,entonces dicha secuencia esa Gnicaen la que el diez aparece seis veces. E50 la hace bastante especial, Secuencia en las que el diez parece cinco veces hay muchas. Por ejemplo: 10-10-31-10-10-10 0 7-10-10-10-10-10. Para que una secuencia de seis tiradas tenga exac- {amente cinco dieces, uno cualgulera de los mimeros de la secuencia tiene que ser distinto de diez. Bs deci, ese nimero puede ser cual- ‘uiera de los 36 dstintos de diez y puede aparecer en cualquiera de las seis posiciones dela secuencia. Por tanto, el nmero de secuen- ‘as de sels nimeros con exactamente cinco dieces es 36 x 6 = 216. Se puede también calcular el nfimero de secuencias con cuatro tes, os, uno ningin diez. Est timo caso, ningin-dier, es al que le co. Fresponden mas secuencias. Hay 36¢ secuencias en las que no apare- ‘ce ningin der. Este ndmero es, aproximadamente, dos mil millones. Como todas las secuencias son eequiprobables», es dos mil millones de veces ms probable que no aparezca ningin diez en seis iradas, ‘que la aparicién de sets dieces seguldos. Pero recuerden que cada secuencia concreta tiene la misma probabllidad. Lo que hace que el vento sels-dleces sea mucho més improbable que ningtin-diez, ex ue hay dos mil millones de secuencias compatibles con el dime ‘vento y sélo una compatible com el primero. Volveremos sobre este asunto al final del capitulo. “ eo Qué es la probabilidad? Laruletatrarun dado o anzar una moneda al are son eemplos ci sicosparahablar de azary deprobabilidad. Per, .qué significa exac- tamente aA es més probable que Bro «la probabilidad de tal evento te del 4030? La regla de Laplace, ques uid durante cas un siglo como definicén de probabildad, pasa de putilas por la custén, ‘Asigna a prior probablidades por cuestiones de simetria y nos per- iit, a partir de elias, avanzar en el lula de otras probabilidades mucho mis complejas. Sin embargo, poco nos dice sobre el sini do fimo dela probabilidad de un evento, Todavia hoy, después de siglos de dscusin, ls matemsticos y lésofossiguen dbatiendo la cuestion De hecho, antes de a aparicion de! problema sobre interpreta- clin de a probabiidad, ya existia una dacusln previa sobre a dco- toma entre azar y determinismo,y también otra sobre una cuestn thucho més fundamental si realmente existe ono el azar La fea ‘sic deseribatodala realidad sia de forma determinit, sin de> Jar expacio algun al azar. Como deci el lgic George Boole en ol ipl ela probebildad es expectativa basada en un conocimiento rei Ua conocimiento perfecto de todas las rcunstancis que im Fhuyen en un evento convertira a expecatvaencerter no dara Togarn!necsidad para un tori de probabilidadess Gracias al de ‘bio de la mecinicacudntica a princpis del sgl x ha po do demostrar que Boole no estaba en lo certo; el determinismo es Incompatible con una descripcén local dela realiadfsc,es dels tot pricticamente aceptado que la naturaleza es intinsecamente aleatoria ‘ero, incluso suponiendo que el azar no sea otra cosa mis que ddesconodimiento dels detalles que rodean aun fenémeno, lite protein dela probabilida es problematla 1 matemstco JseP® 1 Doob (1910-2004) comentaba que cen 1933, para la mayoria de los matemticos la probablidad ea alas matemdtcas como el mer- «ado negro es al mercado, Desde sus primeros escarceos con los juegos en la época del Renacimient hasta comlenzos del siglo xX, la probabildad fue una fent de problemas y resultados Interesantes. Pero su falta de rigor formal y las cuestiones de indole ilosica y conceptual detrs dl termino sprobabiidads la mantuvieron como una rama no del todo aceptaa por la Matematica con mayisculas, oy lateorla de a probaildad es una construccin matemétiafor- smal perfectamente coherent. En 1933, el matemiticosovitico An- dey Kolmogorov (1903-1987) establec6 los axiomaso propledades bisicas que tienen que verificar events y probabllidates Sein Kol- mogoroy ls eventos pueden combinarse de distintas formas dando Tugar a nuevos eventos, de manera completamente anéloga a como se combina las propositones dela lie formal. Por ejemplo, de A = vealoversmafiana y B= v-a-soplar-un-fuert-viento-mafana, se pueden obtener nuevos eventos la negaién, no (mafana no love. +) la conjncion Ay B (mafiana lovers y soplard un fuerte viento) Yyladisyuncién A 0 B(matana lovers Soplard un faerte viento, ¢ ambas cosas ala ver) Laprobabilidad de un evento Aes una funcion «que asocia un nimero, (4), a dicho evento, Este nimero esté entre roy uno. Una eprobablided nla se asoca aun suceso imposible ¥ «probabllidad uno» se asocia aun suceso seguro. La probabilidad tiene que verificar ademas que dos eventos son Incompatibes, ex deck sy B= Qentonees 08) =H) +). Con esas pro. edades tan simples se puede consul. matem: taped nomena ‘iva fro plea nips ‘eon asahadetrmneqan asx Siecle Sin embargo, esta teor‘a matemética basada en axiomas no zan- {a la cuestion de como interpretar la probabilidad, es decir, de do- tar de significado al nimero p(A), puesto que no proporciona una definicién conceptual de probabilidad ni especifica su conexi6n con observaciones y experlmentos. Es necesario, por tanto, un interpre- tacién dela teoria de la probabilidad. Hoy por hoy, la interpretacion ims extendida es la llamada frecuentista. En esta interpretacién es necesario que el evento A sea uno de los posibles resultados de una ‘acci6n o un «experimentos, por ejemplo, tirar un dado o una mo- eda, Si repetimos el experimento bajo las mismas condiciones un gran nimero de veces, observaremos A en, aproximadamente, una fraccién p(A) de las ocasiones. Es decir, siN es el ndmero de repeti- ‘iones del experimento, observaremos A en N x p(A) ocasiones. £5 fcil comprobar que los axiomas de Kolmogorov son compatibles con esta interpretactén, El primer problema de la interpretaci6n frecuentista es que s6lo ces aplicablea experimentos que se pueden reproducir de forma idén- tica un gran némero de veces. Sin embargo, en oeasiones hablamos de la probabilidad de eventos (nics, como cuando decimos que es probable que la causa de Ia extincién de los dinosaurios fuera et im- ‘acto de un meteorito, O cuando el meteordlogo dice que mafiana ll ‘yerd con una probabilidad del 4096. El frecuentista puro dird que, en cl primer caso, la afirmactén se trata nicamente de una forma de hi blar: es falaz asignar una probabilidad concreta, un nimero, al even ‘to meteorito-causa-la-extincin, cuando ni siquiera podemas enume- rar todas las posibles causas que podrian hacer que los dinosaurios ‘desaparecieran de la faz de la Tlerra. En el segundo caso, segtin e! frecuentista radical, el meteorélogo quiere decir que, bajo las mis~ ‘mas circunstancias de presién, temperatura, movimiento de masts nubosas y otras varlables que definen el estado de la atmésfera hoy, la evolucién de la misma es tal que, en un 40% de las ocasiones, daré he oer ” lugar avi matin. Fo read empernento noo roprodc- biealmenosno deform prec pre ne podrmos contour condones atmos. Potemos hacer sg de etal, pero tar memes condones soars nose an repet Jamds forma esc sung ourdenos rises de todas cas valle durant soso mento read el metorlogo sf repte mir thus veel erperneto pero hace medal simula eu trdenaor de un model gue epredce bastante en ovine teas ma dey opr uae antes a et sad en ecucones ques han ie valdaas por experimen reproduce nella, Baas simulans meteoologens Suse nce facore aatrioe qu hacen que ada repetelon de'sitlacén sen dierent, Tees entances un eperent, la simulaci6n, que puede repetirse muchas veces y asi recuperar la interpreta ecm nun 0% dea epetclones de a mln nel rear da igen toy en slo que el meteorlogo puede arma ene prondr timo netmenteecnetsta nn moestn uses Por fn pina iterpetacin recuetsta es muy rzonable Nadie discute qu, sel experimento que da higar aun evento pt. ies repetise bj ls mina condones na inflad de ere, Ia frecuencia con ln que nr el vena tendetaeseare, a la probabilidad cuando se aumenta el nimero de repeticiones, Bl segundo proiema dela terpretaconrecuenta eval igen do de sj ls misma conlctones, Cuando el media oe ane ae cero tratamient tne un 95% de ato quer dear gee nia largo de muchas aplicaciones de dicho tratamiento, en 195%, ae soe cats se a obserad a cara del pacete yen a So ees tose heaprecomprasgna Peron ute ddan conse dequc adres cmon spines uneperinensho amas condones, puesto ue no hay dos nddeee eg 1. estar ‘Bn medicina se intenta precisar més este tipo de estadfsticas mi- diendo las tasas de éxito en grupos homogéneos —varones de 40 lafios, fumadores y con sobrepeso, por ejemplo—. El problema es ique, cuantas mis caractrfsticas se afaden, mas reducido es el md- ero de casos y menos fiable es la tasa de éxito que se obtiene. La solucién es afiadir s6lo las caracteristicas relevantes para el éxito ‘el fracaso del tratamiento, Pero esta no es tarea sencilla. Cudles son las caracteristicas relevantes para la eficacta de una terapia 0 ‘para el rlesgo de una operacién? Potemos decir entonces que el frecuentista traslada el problema 4e Ia interpretacion de la probabilidad al problema, no més senc to, de decidir qué caracteristicas son relevantes para que un evento cocurray cudles no, Por ello ha habido pensadores, matematicos y - sofas que han tratado de ofrecer una interpretacién de la probs: bilidad més ampliabasada en conceptos como «propensién», 0 ave hhan aceptado que se trata de un concepto subjetivo que cuantifica ‘nuestra ignorancia o nuestras expectativas ante un fenémeno alea- torlo, No obstante, en este bro nos restringiremos, en la mayoria de las ocasiones, ala interpretacion frecuentista, con la suposieién dde que, al menos de forma ideal, los experimentos se pueden repe- tir una Infinidad de veces bajo las mismas condiciones. Las ruletas, Jos dados y las monedas son buenos candidatos. Constituyen expe- ‘imentos muy sencills en los que la aplicacin de la interpretacién frecuentista esté aparentemente exenta de ls problemas que hemos rmencionado. Decimos aparentemente porque, como afirmaba George Boole el resultado del lanzamiento de una moneda puede predecise ‘i uno conece perfectamente la fuerza incial con la que se lanza, as ‘corrientes de aire, la rugosidad de la superficie sobre la que cae, et ‘Lo mismo, quizé en mayor medida, ocurre con laruleta, cuyo resulta: do puede ser manipulado por un crupler experto. En cualquier 25% jpodemos imaginar el lancamiento «ideals de una moneda como ¥™ in per te 2° Cobra erecta ats ieee Coane ee aren eee peng ea rn re eer aman an meeps aes a ccas aaa eee Peace eau error Oe eae aaa ear ere Sa SS Sa es ps as sae aT Roe rerae ae eae ST Pe ee oa a es TT Tce ee ee eioarae eee Rene aoe Sanecget areca eae Ts Saar] cintal Seubuuaaa emer eer Fae aekas es pcimpebaa Cee pear rene ene fa teniecad tn mesa e aa cli tae 10 oe gaonrer sic aaaS Sale| ect taeda aera nas 10" x (1/37) 39 wees Inclsa es posible quel wares ae ‘heaping i fewest inane ras Leste dle COrigenes de la teoria de la probabilidad Phare Sinon Laplace ecrbia en su Théoro Anavique des Prbabitde (1812 «Es un hecho destcabie que una clecia que mpaz’ anazando Jogos de azar ecabeconvnendoee eno misprint cjte dt cone ‘tena hurano» Poco tempo despubs ol matmdtentancks Smton Denis Pots (1781-1640) en sus Recherches sul Probab (1837 conretabe ‘sexe ian: eu problema eat aos jogos da azar, proouedo un ‘ust jnsorista porn hore demand, ha soe argon de cle da robebitadess. I eusoojansnita no era obo gua Baa Pascal (1625. 682) yelnamtre de mundo Aetone Gombaud, Cable de ise. En 4 igo nw el Calero de Mar, aficonado a vogo con os dad, arog et siguiente probioms o os matemsiens Saie Pascal y Pare do Fermat (10-1665): ,Que es més probabe: (8) sacar al meen Un 6 twat 4 voces un soo dado 0() sacar un 12 on 24 radas do 2 Gadox?Apesar Co ‘qe Pascal haba renunso assemias por eras Uno ‘de cle semua), opto ret. En ol wtreabio eit que mnt ‘orca Pascal y Feral para eslver eso problma efron is bares de [a tara doa proba modern, ‘Uses la probtiided complmontaria par eslvr el problema dl Ccabaar de Marb, Poa 6 avo ()tanamos gue Prsingin 6) =(516" _Ytzando ln rbebiadcomplerenti, egos Pal menos. 6)=1-(5/8) =0.51 rmervas quoonocaso . Ping 12)=(35/36) 60 nue, zane a pobabiked compen ‘Pal memos 2) =1-(5/36)" =, Sorprendentemant, era fo que soapechaba De Méré po pur experen- ‘a. Fun Chretien Hygons (1629-1696) que, rcoien y corpeando a {eabojo de Pascal Femal poser por primera vez en soiedad load ‘a probebiades on su re Oe Ratocrivs in Ludo Ale (1657), Habis ‘noc toa dela probebidad. es a ——___Seemeder Gime pensar sobre el azar: el problema de Monty al ‘A pesar de los problemas que conlleva ineludiblemente la interpre- ‘tacign frecuentista la forma més clara e ntuitiva de pensar sobre el ‘azar y las probabilidades es imaginar muchas repeticiones del fend- ‘meno cuya probabilidad se quiere conocer Un ejemplo que ustra de forma contundente esta afrmacién ese famoso problema de Monty Hall inspirado en el exitoso concurso Let's Make a Deal de los aos sesenta y setenta, presentado por Monty Hall y Carol Merril en la te- levision estadounidense, En la fase final det concurso, Monty ensefia tres cofres @ un su- {rido concursante. En uno de ellos hay un gran premio y en los otros ‘dos hay una calabaza El concursanteelige nervioso uno de los cofres. ‘Monty aparta entonces el cofre elegida y mira lenta y teatralmente nel interior de los otros dos. Cierra de nuevo uno de ellos, toma el ‘t70 con las dos manos y fo vuelca ante los ojos del concursante y el Piiblico, djando caer la calabaza que habfa en su interior. El concur- ‘ante suspiraaliviado, aunque no tiene ninguna razén para ella. Mon- ‘9, generoso, le ensefa ls dos cofres que quedan cerrados y le ofrece 'a posibilidad de reconsiderar su decisiéninicial: «Puedes ahora es- ‘coger cualquiera de ellos, amuncia con un redoble de baterta. Qué Aeberfa hacer el concursante? Mucha gente piensa que, una vez eliminado uno de los coftes, el Premio puede estar por igual en los dos que quedan. Por lo tanto, no importa el cofre que se eija:1a probabilidad de ganarel premio es det 50%, Sia eso afladimos que, en la mayorfa de las personas, modifi ‘car una decistn correcta produce una sensacién de pérdida bastante ‘mas dolorosa que mantenerse en una incorrecta, no es de extraar ‘que cast todo el mundo se niogue a cambiar de cofre. Hemos escenifi. ado juego de Monty Hall en muchas ocasiones ant pdblicos muy lente af eee ueintosy cas todos los econcursantes» han preferido quedarse con tleofteelegldo en primer ugar ‘in embargo, lo mejor que puede hacer el concursante es cambiar ‘su decisin niial. Es fill convencerse de elo si pensamos no en un solo concurso sino en un gran nimero de ellos. Supongamos que el concursante tiene oportunidad de repetir el juego 600 veces, es decir, {maginemos 600 réplicas del concurso, cada una con el premio en un ‘cofre tomado al azar. Cuando el concursante elige por primera vez tno de los tres cores, es evidente que, aproximadamente, un tercio de as veces acertardy dos terclos de las veces se equivocaré. Es decir, solamente en un tercio de las réplicas, unas 200, el premio estaré en el cofre elegido por el concursante. Monty descubre el cofre con la calabaza y quedan dos cofres cerrados. Recordemos que s6lo en un tercio de las réplicas el premio est en el cofre elegido inilalmente. En elresto de las réplicas, el premio estard en el otro cofre. Por tanto, si el concursante mantiene su decision inical,ganaré ‘untercio de las veces. Si cambia, ganard dos tercios de ls veces Este argumento se muestra en la figura 1, donde hemos dibujado s6lo 6 réplicas del juego. En términos de probabilidad, podemos decir que la probabilidad de ganar manteniendo a decsién inical es un tercio, yy la probabilidad de ganar si se cambia de cofre es de dos tercios. Los dos cofres no son equivalentes, como podria parecer a primera vista, Uno de ello ha sido tomado al azar entre tres cofres en princi- ‘io iguates (con igual probabilidad de contener el premio). El otro ha ‘sido el superviviente de la lnspeccién realizada por Monty Hall. Bs bastante difcl entender que la solucion correcta es cambiar de cofre si pensamos en una tnicarealizaci6n del concurso, mientras aque dicha solucién es cas trivial cuando se observan las réplicas del cconcurso en la figura 1, Pero el problema de Monty Hall nos ensefia ‘otro aspecto interesante acerca de la probabilidad y el azar. Al intro- ‘ucirinformacién acerca de un evento, cambian las probabilidades FG. var repet Clones dl eoncuso de Hoy Hal cote que helen nlite nears anevotra ema Column dela drecha yet {heater Monty eral goe ‘seteniasona oraroila Sieljaador comb ce eles probabiedes “etevarse el premiose ‘stn 4e otros eventos relacionados. Lateorta de la probabilidad dispo- ne de herramientas muy potentes para analizar las relaciones entre eventos aleatorios: las probabilidades condicionadas, que analtzare- ‘mos en el siguiente capitulo, eCuantas veces ganaré? Probabilidad y entropia Laren dean expen cc parte Stent de robb Alpina cope nos hea tenatoseaetp de pene ela inty hoes een algo a primera vista sorprendente la ruleta no tiene memoria y, 5 int dr rrr ian ces ee Lesh ar 2 ee pendientemente de los resultados anteriores. ;Cbmo es posible que, Gespués de muchas repeticione, la frecuencia de aparicién de cada ‘himero se acerque a la probabilidad, como afirma la interpretacién ‘reeventista? La respuesta a esta pregunta tiene mucho que ver con algunas cvestiones fundamentales no solo de la teoria dela probabi- lidad, sino también dela fisica. ‘Como vimos al principio de este primer capitulo, si nos pregunta- mos porelniimero de dieces en sels tiradas consecutivas, lo més pro- bable es que no aparezca ninguno, debido a que hay muchas secuen- as sin ningin diez, mientras que sélo hay una secuencla con seis dieces. Este ejemplo muestra claramente la diferencia entre las pro- Dabilidades de secuencias concretas y las de tipas de secuencia, es decir, conjuntos de secuencias que se ajustan a un cierto criterio. La probabilidad de cada secuencia concreta es siempre la misma, mien- tras que las probabilidades de tipos de secuencias pueden ser muy diferentes. En nuestro ejemplo, el tipo de secuenciasalir-ses-veces- tek-diez-en-selstiradas es 2000 millones de veces mas improbable aque el tipo de secuencia no-salir-l-diez-en-seis-tiradas, La probabl- Tidad de un tipo de secuencla se calcula de forma muy sencilla, Basta ‘multiplicarla probabilidad de una secuencla concreta por el nimero de secuencias de dicho tipo. sta distineién entre secuencias concretas y tipos de secuencia, ‘el modo en que se calculan las probabilidades de cada tipo, es la base de uno de los conceptos ms profundos y relevantes de la fisica mor derma: la entropia. Para analizaro en detalleutilizaremos un ejemplo rnids sencill, y mas relevante, que el de a ruleta. Supongamos que lan- ‘zamos una moneda al aire 100 veces. En esta ocasién la moneda est trucada, de modo que la probabilidad de que salga cara es p = 045 yla de que salga cruz es 1~p = 0,55. ;Cudl es la probabilidad de obte- her n caras y 100-n cruces? En este caso las secuencias concretas 1° son igualmente probables, puesto que es més probable la cruz que 8 (ep Probabilidad Nimero de tiradas Fc 2 Lacur dscomtinsoegra ele marae probabil de oe a rescauna seiencia concen ners altar 100 veer ns anodes on ‘rbsbiiad de cars O43 y ert O85 Lacara gris meta cinamera de seen Cn syste atin nce pnd de ta de see, por erp dos cares en ds tadar 045 +045. Como is poebades se mitlen por ser as Taasevrosindepenotes proba dena seen con- tea qu contengancarasy 100m cruces es Po) = OAS» 0550 Elrestado dearer curva dscontina ners dee igura 2, donde entetanos el nimero de crce nau probablidad reer calada convenientemente es decir, multiplicada por una constante— bars poder compara posteorent, ome vemos ena igure, Semicon fre ede crtsy 18 as hp deel as protabldades evan redicendo add que dng tt nimero de cracesyaumenta el nner de cars Atngue pares Ie rene sap a concen as 2-13 0” rescence liens ala de 100 cruces seguidas. = “aspostar antler ‘sin embargo, todo cambia si consideramos tipos de secuencias. ‘Secuencias cn 0 caras y 100 cruces s6lo hay una, Tenemos, sin em- ‘bargo, 100 secuencias con una cara y 99 eruces. Con das caras y 98 ceruces, hay ya 4950 posibilidades y, con SO caras y 50 cruces, hay ins de 10" posibilidades, un nimero extraordinariamente grande. fn la figura 2, también con una escala adecuada para que puedan ‘compararse todas con claridad, hemos dibujado en gris el nimero de postbilidades para cada tipo de secuencia, Finalmente la probabilidad de cada tipo es el producto de la pro- pabilidad de la secuencia y del nimero de posiilidades,yelresulta- does a curva continua negra en la figura 2. Esta curva tiene su maxl- :moen n=45,en completo acuerdo con lainterpretacinfrecuentsta: ‘puesto que la probabilidad de que salga cara es 0,45, en un ndmero {grande de tiradas deberén salir un 45% de caras y un 55% de cruces. Lo interesante es que las secuencias concretas que constan de 45: rasy 5S cruces son mucho menos probables quela secuenclacon 100 ‘eruces, como se ve en la curva discontinua negra La probabilidad de ‘cada tipo, es decir la curva continua negra, es el resultado de la com bbinacin de las otras dos curvas.y se denomina distribucién binomial (véase el recuadro «La distribucién binomial», en la pag, 28). ‘Afinales de siglo xr, el fisico austriaco Ludwig Boltzmann wtiliz6 cesta combinacion para resolver uno de os enigmas mis profundos dela {sica:concliar el comportamiento del mundo macroscépico (el mundo {que podemos observar a simple vista) con lasleyes que rigen el mundo microscépico de los étomos y las moléculas. Cada uno de estos mun ‘dos se comporta de manera diferente: en el microsc6pico el movimien- ‘tw no cesa, no hay fricci6n, la energfa no se plerde, no hay une fecha del tiempo que distinga el pasado del futuro; en el macroscbpico, los ‘cuerpos sufren fuerzas de fricién y tienden apararse, la energla se d+ sipa en forma de calor inutilizable y hay infinidad de procesos irrever~ sible, como cuando se hace aficos una copa de cristal al caer al suelo i per nr ” Boltzmann se dio cuenta de que a diferencia entre el mundo mi- «roscépico y el macroscépico era en realidad una diferencia «de mi- ada», que esa diferencia, aunque muy simple y sul, podia explicar los distintos comportamlentos de cada uno de los mundos. Cuando ‘miramos el mundo microscépico vemos el movimiento detallado de cada particula, mientras que cuando miramos el mundo macroscopi- co slo vemos los comportamientos coletvos, gual quea un politica no le interesa realmente saber laidentidad de todos y cada uno de sus votantes, sino s6lo si el nimero total le permitiré sentarse en un sill6n del parlamento. Cuando decimos «mirars, no nos referimos \Gnicamentea observar o realizar medidas en el mundo microscépico ‘© macroscépico, sino también a las descripciones tebricas que hace mos de cada uno de ellos. Estos dos tipos de «mirada» se dan también en nuestro ejemplo de las secuencias. A un jugador que apueste en cada una de las 100 Luradas le importa cbmo cae la moneda en cada una deellas,es decir, la secuencia concreta de resultados. Este seria un Jgador «microscép- 0». Por el contrario, un jugador «macroscépico» sera el que apostara al nero total de caras de toda la serie, estariasélointeresado en. ‘uintas cars salen en as 100 tradas, es decir en el tipo de secuencia. En un sistema fisico, lamamos xestados microscépicos» alas secuen- clas concreta y estados macroscbpicose a los tipos de secuencias. La probabilidad de que se dé un estado microscépico es mayor ‘cuanto menor es su energl. Pero esta es la probabilidad de un es- tado microscépico concreto, igual que la curva discontinua negra de la figura 2es la probabllidad de una secuencia concreta. Al pasar al ‘mundo macroscépico las cosas cambian radicalmente; igual que en el ejemplo de la moneda las probabilldades de los tipos de secuen- cla difieren mucho de las probabllidades de las secuencias concretas, Esto es debido a que también un estado macrosc6pico puede darse fen forma de un gran nimero de estados microscépicos. En un siste- “ i esiyesd cr La distribucién binomiat La robbie de os tpos de seovncia quo se expcan an txt 52 evoinatrbcin roma Ms coneretaner, e fa robbie) (e otaner nears y= uoes lezarNYecs una roneds ena qus a ‘babi de que saga cra spa rl dela cisrbucin inom ek: r= (") run r Syed fae eee eee Raave envaeoneereee ete ena Same Saaaae mean aeareaa ‘figuea 2, El segundo factor, pI p)"™ ences earn epee eee eres pe nape eat nega ce ae arotes ener eats ele ae ees ere eea (oleh element epee ees (Perera eatin peg saree eae era ea aa teen usta cere do seen fisico, el equivalente a la curva gris de la figura 2 es el ndmero de estados microscépicos compatibles con un estado macroscépico ‘dado, Boltzmann demostr6 que la entropfa (una magnitud que habia inp or = eee ee apeecdo a mediads del silo aaa extudar gases y moore br iicos peo cuya naturceza ers ain misrist estaba rlaclonada on ese nimero de estadosmlcoscpics compatibles En concret, Inentropia es proprcinalal logaritme de dicho nimer le impor, tanca deena relaciin matemstca esta gus se enecenagrabeda sobrelatumba del propio Boltzmann en el ementeria de Vena? Pensemor, por ejemplo, en an as conte ido en un recipient qu et dvd en dos ich ot wra peed fermen al Y como se woestra ea la igre 3, Como {ala ests apoynda en el suelo, la energfa de lar moléclas es menor en elect inferior porque #1 energia potencal gviatorae | g2@? 2 ‘menor mientras mas cerca se esté del cen- ooo eo tro de la Tierra, Por lo tanto, cada molécula | ° @ @ @ cpreferis estar en el recint inferior igual 4ue,con nuestra moneda trcad,cadatira- 6.3 ,¢hne se ei da epreferiay ser cruz en lugar de cara Sin Yer none embargo, en una obeervacién macrscop. Eusramewtc 2 no estamos interesados en el comport. imarsanars ta mlento de cada una de las moléeulas sng. tench nrg S6l en el comportaent calectvo, queen, mrad. este caso era fraccén demolteulasquees. marctsiet tar ‘tin en cada recinto. El problema del gas eg °!recintoinferior pero, emtoncesidnticoalpobema dela moneda Suet He ¥.de la misma manera que lo hicios copper marpensbe sen a5 100 tiradas, se puede demostrar que en * ave una fraccién ‘lestado macroscépico més probable habra Srna mails ‘na frac apreciable de mofculasen el mprae * Ean «rennet gtr edn dears eds de Samy ‘lcaagr cai sacra a » erie deter rrecinto superior El valor concreto de esta fracci6n es el resultado ‘dela combinacion de un factor energético y de un factor entrépico, {que son los anélogos a la curva discontinua negra y ala curva gris de la figura 2, respectivamente. Cuanto menos pesadas son las mo~ Iéculas y cuanto més callentes estén, més importante es el factor tentr6pico y, por tanto tienden a estar repartidas por igual en los dos recintos. Sino fuera por el factor entrépico, el estado més pro- bable seria aquel en el que todas las moléculas estan en el recinto Inferior, con la minima energ{a posible. De hecho, as ocurre cuando la temperatura es-273 °C, Sino fuera por la entropia, las moléculas ‘que componen el aire que respiramos se precipitarian al suelo. La centropfa también explica por qué moléculas muy ligeras, como las de hidrégeno, no pueden ser retenidas por el campo gravitatorio terrestre y formar parte de la composicién del aire. Algo que no ‘ocurre en planetas con mayor gravedad, como Japiter La Luna, con ‘su débil campo gravitatorio, apenas puede mantener ninguna mo: Idcuta gaseosa y por eso su atmésfera es pricticamente inexistente, Es sorprendente cémo la probabilidad, la entropfa y unos céleulos ‘combinatorios sencillos pueden arrojar informactén de lo que ocu- rre en las atmésferas de planetas lejanos. El valor medio y la ley de los grandes numeros Con el ejemplo anterior y la distribuct6n binomial hemos visto que la interpretacion frecuentista es consistente con el célculo de pro- babilidades. Si lanzamos muchas veces una moneda en la que la probabilidad de que salga cara es 0,45, el nimero de caras es alea~ torlo pero muy cercano al 45%, La generalizacién de este resultado constituye el llamado teorema central del limite, uno de los resulta~ ddos mas importantes de la teorta de la probabilidad y fundamento de gran parte dela estadistica, como veremos en los capitulos 5¥ & ine peter a” Para explicar el teorema central del limite, necesitamos introdu- cdr un nuevo concepto basico en la teoria de a probabilidad: el valor ‘medio de una cantidad aleatoria l valor medio se obtiene sumando todos los posibles valores que toma la cantidad multiplicados por su probabilidad respectva.s el pardmetro que nos da mas informacion, ‘acerca de una cantidad aleatoria. De hecho, en la mayoria de las oca- slones una cantidad aleatoria puede visualizarse como una variable {que fluctia en torno a su valor medio, El segundo parimetro impor- {ante para caracterizar la cantidad aleatoraes la disprsién o desvia- én tpica, que se suele denotar con a letra griega oy que nos indica la magnitud de dichas fuctuaciones. También se utiliza su cuadrado 9 que se denomina varianzao dspersién cuadrética, En probabilidad y estaistica es necesario dstingulr culdsdosa- ‘mente entre el valor medio de una cantidad aleatorlay la media de luna serie de datos. Esta dltima suele denominarse media emplrica, ara enfatizar que se calcula a partir de un conjunto de datas abte- ‘idos empiricamente. Por el contrario el valor medio de una canti- ad aleatoria es un concepto completamente te6rico quese obtiene a Partirde las probabilidades de que dicha cantidad tome valores con- ‘retos.Por ejemplo el valor medio de la puntuacin obtenida al tirar ‘un dado no sesgado es(1+2+3+4+ 5+ 6)/6=35 porque cada uno 4e los seis resultados posibles se obtiene con la misma probabilidad, 41/6. Sin embargo, si tiramos el dado diez veces, por ejemplo, pode- ‘mos obtener la secuencia: 2, 1,4 1,5, 3,3, 1, 6,5. La media de todas estas lradas es (2+1+4+1+5+3+3+1+6+5)/10=3,1, que no tiene por qué coinciir con el valor medio. Por supuesto, al aumen- ‘ar el nimero de iradas, a media de los resultados se acercaré cada ‘ver mas al valor medio 3,5 como consecuencia dela interpretacién ‘recuentista de la probabilida. En efecto, tras un gran nimero N de ‘rads, cada cara del dado habré salldo, aproximadamente, N/6 ve~ (es. La media de las tiradas ser, aproximadamente: 2 sige steer O16) 420N 10)+30N ()+4WN 164564678) 5 ——— ee Obsérvese que el niimero N se cancela ena fraccién yo que que- da es el valor medio, EI mismo argumento se puede aplicar a cual- (quiercantidad aleatoriaXque tome valores xx, con probabilided PO), pC), pC), ee. valor medio de la cantidad es a spls)+mpls) +xpt5)+ ‘Tras un gran nero N de experimentos en donde obtenemos va- lores de la eantidad aleatoria, cada posible resultado x habrsalido, aproximadamente, Np(x) veces. Para calcular la media empiricate- rnemos que dividir entre N la suma de todos los resultados; este ni- ‘mero NV se cancela, con lo cual la contribucién de cada resultado ala ‘media empirica es, aproximadamente, xp(2). Ast, volvemos a obtener ‘que la media empirica m de una serie de datos obtenida mediante N realizaciones de la cantidad aleatorla X se acercard al valor medio a tn resultado estrechamente relacionado (de hecho, equivalente) con la consistencia de la interpretacién frecuentista. Pero zcémo se acerca la media empirica al valor medio? El teorema central del imt- te responde a esta pregunta y la respuesta es sorprendente por su uuniversalidad: a media m es una cantidad aleatoria cuya istribucién ‘de probabilidad es, aproximadamente, la famosa campana de Gauss ‘La campana de Gauss, también conocida como gaussiana o distribu cién normal, es una distribucién de probabilidad que responde a una formula matemética muy concreta (véase el recuadro «La campans de Gauss», en la pig. 35). Su grfica es muy conocida: tiene la form de una campana centrada en el valor medio de la distribucion y cut anchuraes igual asu dispersién. Formulemos el teorema con mas precisin, Consideremos la suma Ved t Xena, en dne JocSy, 0nchdde sorras tdepenener'y con la misma dsvibuin de probeblida, Una pots rl para totes er ietanta el alot medio comola persia. de esa di trbucn debe de er andes faites Eterm dl gun, cuando Neem gande a dstbudn de ¥es usin con flr medio BN 1 aperia oNE sorpreent | unter del ead a Uisebucb de¥es gustan indepen denemanta de cn sean let ada Fg Pole etm pl bee 87% con prbabladp yp epectvment;o pune sel rentado de tradas dun dao; o pueden omar lores cots entre 100 100 Nata de eo Inport clando wumance muchas deen cates dependleates ered eds por una ampane de Gus Rec ana ae ioe tiie eae ieee dio ya leper de a sumadepenan de deforma freee primero es proporcional ay ln segunda properona a Vi, Esta Serena eerucial par que ater dee probable sa en Ta vida realy para fundamental nerprtecln frecventsta, Pea convenceros de ello consderemasla cated Re xek ened, ¥ due noes otra cosa que la media empirica de nuestrascantidadesalea- ‘orlas.Elteorema central del mite nos dice también quem es gaussiana, ‘uando Wes grande, pero en este caso el valor melo ser4 ty dispersién. © 11N Es decir, m es una cantidad aleatoria que fluctia en torno al va- lor medio u pero esas fctuaciones se hacen cada vez més pequefias. Pensemos, por ejemplo, en os lanzamientos de una moneda usta (60% de probabiidades de salir cara o cruz) Si X, es 1 si sale cara i erigestel or cen el primer lanzamiento y 0 si sale cruz y as{sucesivamente para 1X, Xy ete, entonces la suma Y definida més arriba seré el nimero total de caras y m la fracci6n de caras en N lanzamientos. Elteorema central del limite nos dice que dichafraccién m es una cantidad que ‘uctia en torno al 05 (que es el valor medio de X,) y que el tama~ ‘fo de esas fluctuaciones es 1/ VN aproximadamente. En la imagen siguiente vemos el resultado para N = 10, 20, 30, 40, 60 y 100 lan- ‘zamientos. Hemos marcado con puntos mis gruesos las probabil- dades comprendidas entre 0,45 y 0,55. Vemos que a medida que N az oss a" sla StH} Sl Fld LJ lou! lu Mea ee ESN aman aE OF 90 an S s i lll. | =a “ UIT ‘ alli. SEE RRO OF 30 mio" cs a i 02) BH al ul i ino pcre ane as rece la distribucién se concentra mas y més alrededor de 0,5 y et porcentaje de érea correspondiente al Intervalo (045, 0,55) se hace mis y mas grande. Si lanzdramos la moneda diez mil veces, espera mos que m se alee de su valor esperado como méximo en una canti- ad 1/-V10000 » 0,01, es decir, que se encuentre entre 0,49 y 0,51. En cambio, sila lanzamos un millén de veces, el tamafio de la luctuacién seré 1/-J1000000 «0,001 lo esperable seria que m se encontrara en- tre 0,499 y 0,501. Esto que acabamos de lustrar se conoce como la ley de los grandes nimeros,y se utiliza constantemente en estadistica para estimar el error de encuestas y experimentos cientifcos. La campana de Gauss ‘Se dud, a siren de probabited mis importante ee clrbuctin rrvmas gustina 0 de Laplce-Gavas. Fue dence y pubicsda pot psnera vz on 1733 pot Do Moire. Més tarde Gaus (an 1800) y Laplace (er 1812) ta dedujecon de oma independiente pa etna on eaves do ‘brorvaconesasrondmicas y maddasexperirariao ica y quince La detreucen ronal deseo canidedes aaatoran quo pueden tomar ‘lair valor, Indus negato, como caracores moreiicos de in vos, puntucanes de extmanes 0 valores brs. Soma mala ‘ca amecrena un ano yvene dda en trminos dw valor medio Hy Ateperion ‘209 de a tnomial, pode ueree un equivalent contin roma prea: monies easton ero, lars baa. cra eons valores. ay bdo una cistibucin oe probe ‘liad continua 2 la pobabied de que la cance soaana tone valores ‘lotro qu eatin ostarmono erie yb Un propiedad eosaro e omelesquelaprababidade quo la cniedaeatoiaerlenue a= 0 ¥ ‘ba ea slorpre de 68%. Y de qo ot cos sigras de a meds, 195%. Pr joel, i ata de una potiacén se istsbuye coro una noma con ‘media 170 cm y deswacion 10 cm. Cnoncas ef G8% deena pdlacin star oto os 180 180 em, 9 5% et oa 150 190m, Come so expen on to ta ‘ommal es undamenit en prota ad y exacts porque a toro ‘ia el nto ssogura ue el quer sua do muches canoes steatias es gsusslane. Su impor ‘anc est que el gobero alemin laid ane blo de dz mar ‘osu con a efge de aves hme pasar Sorpresas, casualidades, milagros y otras probabilidades pity omar dt epee ete ‘Sianpene enter sab planes Ree ee eee ‘Poahdata Va doe andes pie nor ea Arid Et problema del cumpleafios Como apunta Deborah J. Bennett en a cita que abre este segundo ‘capitulo, resulta extrafio que el desarrollo dela teorla dela probabl- "dad haya sido tan lento en historia de a matemstca,teniendo en ‘cuenta el uso exhaustive que hacemos diario dela misma, De hecho, atin hoy muchos consideramos que nvestro sistema educative debe- "ia dedicar més tempo y recursos ala comprensin de a probabill- dad ya estadstica, puesto qu lo largo de nuestras vidas todos nos ‘Yemes abocados, una y otra ver, tomar decisones basadas en ells. Un problema cisco que viene a Hustrar nuestra falta de intueton ‘en a estimacion de probabilidades es el lamado problema del cum- Pleafios. Dic ast: «,Cudntas personas deben estar en una ala para que ea mds probable que improbable que dos de ells tengan la misma Lents ont fecha de cumpleaios?» Obviando afos bisiestos, mucha gente suele razonar de a sigulente ego-manera: hay una posbilidad entre 365 de que una persona cualquiera en una misma sala haya nacido el mismo dia que yo y, por tanto, una probabildad 364/365 de que no. Si en la sala hay n personas, entonces la probabildad de quelas n= restates tengan fechas de cumpleatios diferentes a la mia es (364/365)" De ‘modo que la probabildad de que al menos una de elas tenga el mis ‘mo cumpleaios que yoes 1 - (364/365)! Haciendo esa probabilidad lgual a 1/2, obtenemos n = 253 personas aproximadamente El rz0- namlento es valida, pero observemos que esta noes la respuesta ala pregunta iniclal. El problema era encontrar la probabilidad de que dos personas cuolesquira en la sala coinidieran en sus curnpleafos. Esto Inluye, por supuesto la probabilidad de que alguien tenga el mismo cumpleatos que yo, que es lo ealeulado anteriormente; pero también incuye la probablida de que dos o més personas cualesquleracom- partan el mismo cumpleatos siendo diferente al mio. agémoslo bien, EIndmero de posibles distintos cumpleaios que pueden darse entre n personas es 365° —Ia primera persona puede haber nacido en cualqulera de los 365 dias del afo la segunda tam- bin etc —. Calculemos primero la probablidad de que nadie cumpla 1 mismo dia. Es puede ocurrir de 3651364x...x365~nel) maneras dlistintas —la primera persona puede haber nacido en cualquiera de Jos 365 dias, fjado ese cumpleatis, la segunda slo tiene 364 dias eats at De mess ms 365x364x...xG365=n+1) ‘P(x personas no cunplan mismo da) = =O AE yy utllizando la probabilidad complementaria: 1365x364 ..n(365 -04 ‘Pal menos 2 personas cumplan e mismo dia) = = Y ahora con tan sélo n = 23 personas esta probabilidad se hace aproximadamente de 0,507. Moraleja: mientras que es posible 4° opr ood mteyrey os pokes 2 cura agin hecho improbable los mucho menos que se dé un caso conereto. Dela mano del estadistco Robert Mathews vamos acontrastar este cca con datos reals. :Dénée poder encontrar grupos de ds personas de manera natural, pensb Matthews, Pues en los part das deftbol, donde compiten 22 jugndoressupervisados por un - blero Ena siguiente tabla aparecen dz encuentroscelabrados en la Tigainglesa el 19 de abril de 1997, donde pariiparon 220 jugadores 310 drbitros. Para cada encuentro ala derechaapareen las colnel Aencias en cumpleafis entre los 22 ugndoresy el bite: [ran cn] ge 1072 oe ST Pees (Or 2/4] y Wai 2TAY Reger en ay res 70) Wht ‘Boi 2anray en 207 tain (S017) y Wai; Seunengion a Covey Berl (SV) Wn oO Hemos calculado la probabilidad de que al menos haya una coin- ‘ldencia en un grupo de 23 personas: P= 0,507 y de que no haya ninguna: 1- 0,507 = 0,493. Con un poco mis de pericia matemati- ‘a, Robert Matthews calcula también ls probablidades de que haya ‘exactamente una coincidencia: 0,363; dos coinedencias: 0,111; tres, coineidencias: 0,018 y una triple coineldencia: 0,007, siempre para un grupo de 23 personas. En la siguiente tabla comparamos la teorfa, * nae Matos onde th are Thing Sash 20207, 5 arto eer ‘con los casos reales, lo esperado y lo observado. Para calcular el va. lor esperado nos basta con multiplicar el nimero de partidos, 10 en ‘otal, por a correspondiente probabilidad, Tenemos: po da calncencia Ala aoe zocor ana snenons [Esecer ura pe concen ‘Gu ay 8 nos Su ae congo a Spa Elajuste entre la prediccién probabllistay las colncidencias rea- les observadas es excelente. En particular, vemos apoyada la idea de {que mientras menos especifica es una coincidencia, es més probable que ocurra; como por ejemplo las 6 coincidencias en algunos cum- pleafios de algunas parejas. Sin embargo, entre 230 participantes no fencontramos ninguno que cumplaen el da especfic del partido, por ejemplo. El principio de improbabilidad Enel capftulo anterior comenzamos hablando de la «milagrosa» tarde del 14 de julio de 2000 en que el niimero 7 salié seis veces seguldas nla ruleta del casino César Palace de Las Vegas. Veamos otro famoso ‘ejemplo de como un evento aparentemente improbable es en real dad bastante probable. Un hecho que algunos autores han Vamado ‘cel principio de improbabilidad»:* Echemos un vistazo alas loterias primitivas, donde se escogen al azar 6 nimeros de 49. £16 de septien + bei and Te probaly Pee: Why oe, Mra a Rare Bs Pe? ey Dan ‘pede 2008, la loteria primitivabilgara premié ala serie de niimeros 4,5, 23, 24, 35 y 42. Cuatro das después, el 10 de septiembre, la serie premiada fue. jexactamente la misma! El emlagro» caus6 una tormenta medistica (ela primera vezen los 52 afis de historia dela Joterfan, etc) e incluso se abrié una investigacién por sospechas de fraude Pero analicemos el suceso como hicimos con los casinos: apli- cando la ley de los grandes mimeros y la explosion combinatori. Se Juegan muchas loterias primitivas en el mundo y de manera repetida ‘lo largo de muchos aios. Cualquier sere tiene las mismas posibili- dadesy hay un total de (2) «noma combinaciones posibles —grupos distint de sels nimeros no repe- tidos escogidos de un total de 49, Asi quela probabilidad de cualquier serie particular de sels nimeros es P= 1/13 983 816; que es, ni mis ‘i menos, a probabilidad de que das sorteos particulares coincidan, {Custos sorteos se necesitarfan para que a probabilidad de sacar los mismos sels nimeros en dos ocasiones fuera superior aun un me- io, es decir, para que este evento fuese ms probable que improbable? Uslizando el mismo razonamiento que usamos para el problema del ‘cumpleafios obtenemos 4404 sorteos. Si se celebran dos sorteos cada semana, 104 sorteos por aflo,alcanzamos ese valor en menos de 43 ‘ios. De modo que, pasados 43 afios, es mas probable que improbable ‘ue alguna pareja de series de sels nimeros sorteados porla méquina de la loteria coincidan exactamente. j¥ lo que parecta un milagro se ‘onvierteen lo esperable! Nos heros cefildo a una sola lotera. Si pen- ‘amos en el nimero de loterias de todo el planeta, lo milagroso es que Jas series no se repitieran, Asf que no deberiamos sorprendernos por ‘Que en La loterfa primitiva Mifal HaPayis, que se juega en Israel, se re- Pitieran los nimeros 13, 14, 26,32,33y 36,6121 de septiembre y el 16 Pal ones ctor eo LLCO ‘de octubre de 2010. ¥ que de nuevo el pblico y la prensa levantaran sospechas sobre la posibllidad de estar amafiada. ‘Semejantes milagros, sucesos extraordinarlos y coincidenciases- ‘én al orden del dfa en nuestras vidas. Por eJemplo, muchos hemos firteado alguna ves con una tabla ouija, una especie de ruleta con 26 letras distintas, que supuestamente nos pone en comunicacién con Jos espfritus de personas fallecidas. La probabilidad de que por azar salga una palabra concreta como AMOR es baja, porque se trata de un ‘contecimiento concreto, Sin embargo, la probabilided de que salga alguna palabra no concreta con sentido es extremadamente ata, por- que se trata de un acontecimiento genérico. Por este mismo motivo las predicclones de los videntes y magujos son vagas. Las prediccio- res concretas raramente se hacen realidad. Que algin televidente, 4e los millones que estan asistiendo al programa de televisin donde ‘el paranormalista de turno proyecta su energia, se le repare mila {grosamente ese relo viejo que hacfa afos que no funcionaba, es mas probable que que se lerepare concretamente a Perico de ls Palotes. La Incomprension de estos hechos tiene su rafz en nuestro ego- centrismo. Cuando es nuestro reloj el que se aregla, lo vivimos como ‘una experiencia milagrosa, Un ejemplo que causa conmocién en mu- cha gente son los suefios proféticos. Supongamos que la probabilidad de un suetio profético sea de 1/10 000. Se trata de una probabilidad realmente baja La probabilidad de que nuestro suefio no haya sido profético es abrumadora, de 9999/10 000. ;Cul es la probabilidad de tener al menos un suefto profétic al cabo de un afio? La probabl- lidad de no tener un suefio profético en 365 dias sera 0,964 4 trp «2 Yate a probable completa Polar nt en Sorrel moet potas « ——o—ii sna probabilidad baja, pero si tomamos una poblactén como la espaol, por efemplo, que es de unos 47 millones de habitantes, el ‘pov de esa cantidad tendré al menos un suefo profético a lo largo de un afio Es decir, 1,7 millones de personas habrén sofade algo que tuego ocurri6. Dependiendo dela trascendencia de ello —pensemos ‘enia muerte de un ser querido, por ejemplo— el impacto personal {dela caswalidad nos causaré una sensacién indeleble, cuando en rea- tidad lo extrafo seria que no hubiera suefios profétics, {El principio de improbabilidad nos dice que no deherfamos sor- prendernos por las coincidencias, sino mas bien por que no sucedie- ran.De hecho, deberfamos esperar que las coincidencias sucedan. La ley de los grandes nimeros nos asegura que, dadas suficientes oca- siones, deberfamos esperar que un suceso espectfico cualquiera oct rasin importar lo improbable que pueda ser en cada oportunidad. Probabilidad condicionada y teorema de Bayes Uno de os conceptos clave dela teorfa de la probabilidades la la- mada probabilidad condictonada, Simbélicamente se escribe en la forma P(4|8) y se lee eprobabilidad del evento A condicionada al ‘vento 8», ya que es la probabilidad de observar A habiendo ocurr- 40 B Desde un punto de vista frecuentst, es relativamente sench lio precisar en qué consiste esta probabilidad condicionada: repe- Limos un experimento muchas veces pero nos quedamossblo con t es una probabildad sorprendentemente baja teniendo en cuenta que ‘nuestro testigo tiene una fiabilidad del 80%, ,verdad? El azar en movimiento: modelos ne cease Modelos y simulaciones Ba os capitulos anteriores hemos visto eSmo analiza y calela la Pobabiidad de ciertos eventos ante problemas muy dvesos, mu- ‘hos de ellos de indudable interés prictico, Ademés de esos ejemplos, Podemos imaginar con faciidad multitud de situaciones en donde el ‘dleulo de probabilidades es iti: pronésticos meteorolégicos fallos “Productos o en cadenas de montaje, andlisis de datos experimen- tales ete, Sin embargo, a teorfa de la probabilidad muestra toda su poten- ‘a como herramienta para describir el mundo real cuando conside- "Bes no sélo eventos que son el resultado de un nico experimento, he también la evoluci6n azarosa de alguna porcién dela realidad. te,tt cuando estudiamos sistemas aletorios que cambian en el rae La herramienta matemética para estudiar esta evolucién te got 508 los llamadosprocesasestocdsticas, una rama amplsina "eorfa de la probabilidad. Py ase ear Los proctsos estocésticos son modelos para deseribir la evolucién de magnitudes aleatorias. Los ejemplos donde resulta Gti una des. ‘ripcién de este tipo son innumerables puesto que todo estéafecta. do de algin tipo de aleatoriedad: no solo ls precios de las acciones ‘en bolsao la ganancta de un jugador en un casino, sino también la presién atmostérica o el nivel de precipitaciones, la concentracién de una determinada proteina en una célula, el nimero de bacterias en un cultivo, el nimero de coches que atraviesan un cruce en una ciudad, ete Si disponemos de modelos mateméticos que reproducen el com- portamiento de alguna porein de la realidad, podemos hacer pre- dicciones resolviendo las ecuaciones correspondienteso, si es0 n0¢s posible, mediante simulactones en el ordenadar llamadas simulacio- nes numérica. Podemos también recrear esas porciones de la real- dad. El fuego, el oleajew otros elementos méviles que aparecen en las peliculas de Pixar, por ejemplo, son el resultado de la simulacion en tun ordenador de un modelo matematico. Un modelo aleatorio que no es otra cosa que un proceso 0 muchos procesos estocisticos de muy alta complejidad. Por supuesto existen modelos puramente determ!- nistas, pero la inclusién de aleatoriedad en la modelizacién de fend- menos naturales, sociales, econémicos, ete, aumenta enormement® su capacidad para reproducirlos con mayor fidelidad. En este tercer capitulo vamos a ver algunos ejemplos de procesos estocésticos. Son todos bastante simples, pero han dado lugar dis ciplinas matemticas y nos permitirin entender por qué los modelos probabilisticos son tan potentes y, al mismo tiempo, tan pecuiares El primero de ellos responde a una pregunta aparentemente be nal: como crece o decrece la cola en un supermercado? Lallegada de clientes a una de las caja es claramente un fenémeno aleatori. 8 rios nos pueden, aslo dl azar ———— —— como entradas. Basten también subredes en el sistema alas gue, ‘puede entrar pero no salir o con salidas pero sin entradas, que poy tan problemas semejantes.:Cémo sortear el problema? Se puaie cevitar todos estas callejones si se permite que los peregrinos seep, viertan momenténeamente en dngeles ye tele-transporten con py. babilidad 1/(n - 1) a cualquier nodo de la red. se puede demostrar matematicamente que, tras un nimer pasos de tiempo suficlentemente grande e independientemente ge la distribuctn inicial de peregrinos, el niimero de peregrinos gue entran ent nodo cualquiera coincide con el que sale, Es dec ¢ aleanza un equlbrio o situacién estacionaria y el ndmero de pee trios final nas proporcionael ranking de importancias. Ese ndmen de peregrinos en la stuacin estacionaria también puede caleulare utlzando cadena de Markov, como en los juegos paradéiicos. Sisesusttuye la palabras por paginas web y los enlaces por ve culos (hiperints), el modelo que acabamos de describir es, mésai ‘menos, el algoritmo de ranking que hizo famoso al buscador Google. Bautizado como PageRank en 1998 por sus creadores, Sergey Brit y Lawrence Page el algoritmo remedaba el comportamiento de wt ‘usuario que, estando en una pégina web, podta seguir navegando través de uno de sus vineuloso saltar a cualquler otra pi ‘Ted, igual que nuestros peregrinos saltan de palabra en palabra ®® 1 diccionario biblico. Cuando hacemos una bisqueda en Google! orden de aparicion de os resultados es producto del algoritmo PO ‘Rank que, como en el caso de nuestro diccionario, esté definido Pa" os tone ondicionado por todas las dems. Desde 89° Teeretank ha liza wn cestones tan pares tease ecto ancin de ss posclons ens Naber ed Bala expect Ase come aa especie #0 te predean a Waboscenticos en diferentes dis le Nujo de tréfico rodado. En 2011, el algorit™ Lazare movin medeen oe ope paraclasfcar la relevanca de 20 000 protfasinolucradas at elncer de pancreas revelando el pape determinant de sete que indican la agresividad del tumor y la intensidad de la imioterapia recomendada, para acaba 2cuil es finalmente el ranking biblco sein este algoritmo? ZEs «Dios» la palabra més relevant enta Biba? Pues ob- fenemas que, efectivamente, «Dios», con Importancia 00242, es la palabra mas relevante, Sepuida de «Hebreo> (00473) y ellombres {00167).Lainterpretacion teol6pca del esultadola dejamosen ma- tos delos docentes de las clases de religién. Fluctuaciones fatales dio ejemplo de proceso estocistico que cnsttuye, comola teo- ria de colasy la de caminantesaleatorios, una dscipinamatemitica ors solo, es el llamado proceso de Galcon-Watson, caso més sim- Plede los lamados procesos de ramifcacién, ‘Supongamos que disponemos de un cultivo de bacterias que crece, Por division de cada uno de los indviduos. ada la toda bacterlaie- nena probabllidad 1/5 de mori, una probablidad 3/5 de duplicarse ‘Yuna probabilidad 1/5 de seguir viva sin producirdescendencia St ‘niciatmente nuestra colonia esta formada por 1000 bacteria ePro- *imadamente 200 habrén muerto al dia siguiente, 600 se habrén de Plicado y las 200 restantes simplemente seguirinvivs.n total al dfa Suentetendremos una poblcinaproximadade-200+(2 = 600) 200 = 1200 bacterias vivas, Es decir la poblacién crece una} ‘media 20%. Esa tasa de crecimiento se mantendr constant, de modo oe ‘segundo da habré 1440 individos, el terer dla 1728 ¥ Si se ate, La poblaciéncrece exponencialmente Si nuestias S008 Clones acerca de la reproduccién y muerte se siguen ‘manteniendo. Nn mes, por ‘ejemplo, la colonia alcanzaria mas de 200 000 ind Las ge dear yen un ai habria 10°?baterlas, Los nimeros rpldamente se hace “demasiado grandes para un cultivo real. La competencia por ls re. carsos, desde los nutrientes hasta el propio espacio, Kimitard pronty tse crecimiento explosivo, Claramente, nuestro modelo simpliicads blo serd vido para poblactones pequefias y para los primeros dias de evlucién dea colonia. Aunasi,veamos cémo el analisis del model es capaz de revlarinteresantes consecuencias. FHemos visto que, en media, la poblacion de bacterias crece con tua tasaconstante. Dia tras dia a poblacion se multiplica por 1,2. La Indicacién «en media» es aqui muy relevante, «En media significa ‘que s6lo aproximadamente 1/5 de las bacterias morirén de un dia para otro y sélo aproximadamente 3/5 se reproduciran, ete. Como vimos en el capitulo 1 al hablar de la interpretacién frecuentistay del teorema central del limite, esos caproximadamente» indican que sempre habré algunas desviaciones o fluctuaciones con respecto a las fracctones 1/5 0 3/5. Vimos también en el capitulo 1 que, ene lanzamiento de una moneda, por ejemplo, las fluctuaciones se hax ‘cen menores cuanto mayor es el niimero de tiradas. En el caso de la colonia, erin menores cuanto mayor sea la poblaciOn de bacterias. Asi, si iniialmente el cultivo es de 1000 bacterias, as uctuaciones no serén muy relevantes: morirén unas 200 y se reproducirén unas 600, Las pequefias desviciones con respecto alas 200 que se espera «que mueran y as 600 que se espera que se reproduzcan no ser significativas. En general, si las poblaciones son grandes, ls valores ‘edios oesperados serin casi iguales alos valores reales. Peo, po? el contrario, en poblaciones pequefias las fluctuaciones pueden $2" de vital importancia. Por ejemplo, qué ocurre st inicialmente, disponemos de una i a bacteria? Al dia siguiente podemos encontrarnos con que nuest®? valioso y solitario individuo ha muerto con una probabilidad 1/5: ue sigue s6lo con una probabilidad 1/5 o que se ha reproducido co" Hlenr er movin modes fe ja probabilidad 3/5. S! ha muerto, la colonia se habré extinguido iMemediablemente Si se mantiene en Slitario, vaWemos a estar en iMpismo punto de partida Y si se ha reproducido, podemos man- fener la esperanza de que la colonia sign creciendo en los préximos las Ante este dltimo caso, también puede ocurrr que estos dos indl- g8e8 8s "9 ore simulcones dea eocn de pbc deacon bait on ico mimi fundado con condones de muerte reproduc et ‘ctasen lento. neo de las simsaciones colonia camtinn crcedo ven hen Ls caro estates sfeon etn. aa ampli lo pent ‘las peede erase nes dann ayer particu acon {ial pueden aprectareres por do dea colons = engueron ‘windoaaysus reves ayers caine. aries daer eee — duos a palen la siguiente Eso puede Ocurrircon Probab, 4/5 1/5=1/25. Bs evidente qu los primeros dias de esta coggs sainima son bastante crfticos. Los escasos individuos que la fo son los patriarcas de una fala que, s6lo al aleanzar un Gerto tan fo, est libre de desaparecer debido a «fluctuacionesfataesy. En, figura 9 se puede observar el resultado de nueve simlaciones que parten de una poblacién con una solitaria bacteria en las condiciones descritas. e ha dibujado el tamafio de la colonia, es decir el nimery total de individuos, en funci6n del tiempo para las nueve simulacy ‘nes, Slo en cinco la colonia prospera. Enel resto de los casos, lace. Jonia se extingue alo largo de los seis primeros dias. Observemos que estos primeros dias resultancriticos, va que cualquiera de las nueve colonas corre un gran riesgo de extinguirse. {Gua es la probabilidad de que, partiendo de un solo individ, la colonia se extinga? En otras palabras, si se repite el experiment 4e la figura 9 un gran nimero de veces, ,qué fracci6n de trayectoias acaba tocando el efe horizontal, haciéndose cero? El cAlculo de eta ‘robabilidad de extincién es un problema muy complicado a primera vista. Sien el primer dia la colonia consta de un solo individuo, ene! segundo se habré extinguido con probabilidad 1/5. La probabil de que a colonia se haya extinguido en el segundo dia requiere const derar todas las posibilldades: o bien el patriarca muere el primer dia (Grobabilidad 1/5), o bien sobrevive al primer dia pero muere ene! ‘segundo (probabilidad 1/5 x 1/5), o se reproduce el primer dfa, peF® ‘tanto 61como su hijo mueren en el segundo (probabilidad 3/5 * 3/5 * 1/5). Por lo tanto, la probabilidad P 'de que la colonia se exting# l segundo dia es: 1am movin: mde, n a donde se ha colocado entre paréntesis as probabilidades de log os que ocurren en el segundo dia, por razones que se harin ev- res dentro de un momento, ‘ete modo de calcular la probabilidad de estinion se complica consderablemente a medida que queremos levarlo hacia adelante con tres preguntas. Podemos disefiar estrategias que soit mejores Para ciertos nimeros. Por ejemplo, comenzar preguntando «es él 172» serta una estrategla excelente si el niimero pensado es el 7 per, en caso contrario, précticamente habriamos desperdiciado el turnd, Duesto que tras la pregunta s6lo se ha descartado un nimero de 108 ‘ocho posibles y la incertidumbre inicial apenas ha disminuido. Lademostracién general de quela estrategla 6ptima es hacer pre guntas con respuestas equiprobables requiere algunos conocimiet™ tos de mateméticas y se muestra en un cuadro aparte. Sin embarB®> (spate advineneas ‘5 Ja idea fundamental es fécil de entender. La clave es que el nimero de candidatos posibles se divide por dos cada vez que hacemos una de esas preguntas 6ptimas,Incialmente el nimeroelegido puede ser cualqulera de los ocho, que es 23. La primera pregunta nos reduce las posibilidades a 4 = 2 la segunda nos deja con 2 = 2! candidatos y la tercera nos sefalafinalmente el nimmero elegido, es decir, reduce el nimero de candidatos a 1= 2°, 4654,5,6 677 IG, 10 Feqvema deat Urespregutasnecsarias parsadhinaron ime: entre Oy7-Lasdos j posbles repos ca [g6s 2 6 3?|/sEs 6 6 7?) pregunta se representan Doran na nes aia ZX ax Inder (i ogra ined (10, 7) (26.37) (es) ea j01234567 Cada pregunta reduce el exponente del nimero de candidatos po- sibles en na unidad y ello sugiere que lacantidad adecuada para uantficar la incertidumbre del nimero oculto no es el mimero de candidatos, sino el exponente de dicho mmero en base 2. En mate- 'mética, este exponente se denomina lagartmo en base 2 se escribe 4g. Ast la incertidumbre en un juego en el que hay N objetos aadivi- ‘at y todos ellos pueden ser elegidos con probabilidad 1/N se define ™ediante la formula A= 103, rm) ee de aor —_—— yse mide en bits, i N =2 entonces H = 1 bit. Recuperamos asla ng, cién familar de ebiten informatica Un bits simplemente algo gy, puede tomar dos valores, 00 1, S{o NO, con igual probabilidad, ‘Ennuestro juego cada preguntareduce laincertidumbredelniime. ro oculto.Al principio (N=8)esaincertidumbrees 3 bits, porque8.«7: Y H =1og,8=3 bits. Después dela primera pregunta H « log, 4 ~ hits, ‘La segunda pregunta reduce la incertidumbre a 17 = log,2=1 bity a terceraa 11 =log,1=0 bits, Mateméticamente, podemos escribir esta reduecl6n paulatina con una férmula muy simple: Flags,” Ham ~ lpg endonde H,_., y #,,, son las incertidumbres antes y después de luna pregunta e J... €S la informacién media suministrada por di- cha pregunta, En nuestro ejemplo de adivinacién, cada respuesta su- ‘inistra 1 bit de informacién, que es precisamente la incertidumbre 4e la respuesta. La ecuacién anterior es una especie de «conserva- ‘cin de la incertidumbres: la incertidumbre antes de la pregunta es {a suma de la incertidumbre dela respuesta y de la incertidumbre del Juego después de la misma. Estos conceptos se pueden extender a situaciones mis generales. Claude Shannon encontré la forma de cuantificar la informacién de ‘cualquier cantidad aleatoria. Si en una situacién —un experimento, ‘un juego de adivinacién, ete — se pueden dar diferentes eventos, 1,2, 3 con probabilidades p,,p, p,...entonces la incertidumbre de est situacién en bits es: =-mee, =, 108 P,P, ‘También se llama entropfa de la distribucién de probabilidad p, Pe Pew La entropfa de Boltzmann (que introdujimos en el capitulo 1) 5 de hecho un caso particular de esta entropia de Shannon. Esta {6"- ‘mula, la més fundamental en la teorfa de la informacion y que 3° _cuanta informacién suministra una pregunta? ‘hay un olmpofscnant doco hacer ua toa uate pare e nociones cuaitativa y poco precisa, este es a tora de fe ‘in de Shannon. Hemos vito cio sa deine a entopiao rootorms o una cantidad eleatoriay obmo esta ncaraunve to reduce ets ene pregunta que se real. Esta reduccén ot precsamete la omasdn Sumiistrada por la pregunta. La demostracién goneral de esta afrmacin es a sine: imagine ‘mos que, en el juego de advinar un rime, a prguria es scpeenace 1 admaro que has pensado a un conjunto Ps. Entonces pene quo st ‘necesariamente la sums des probablidades deen elements de Ay 1-p {a suna de las probablidades dos clamence que na pertenacan 2A Por cra pate la probablidades después de la prognla sn as pebbles conan ca se et api pa wert, 4s nuevas probabiades son p/p ao respuesta es negates vas probabildades son p, (I~). La incertunbro media depuis do la ‘preguntas la media de las incerdumbres results sie respusta 66 Dosti y nogativa pesadas con sus respecivs probebliades: a tna 1f Beet fo-0| Bethea] La expresién se puede simplificar de forma sencila, obtenién By oi. Maas Ypioe Spy oP \tzand ls propiedad gut, enn ents an 3 YS, =1~p, oe toga ala suerte epic Fama "Spier + Pe PHt- Peso?) U6 Ha = Halper see date n ma qe largo del caltulo amaremos frmula de Shannon, es una genera, zacién del casoanterior en elquelas probabilidades on 1/¥,yaqu, tuna conocid propledad de los logaritmos es log,(1/")=-og La misma férmula sive para calcular la informactén suminstad, por una pregunta con varias respuestas posible 1,2, 3, ., si egg tna della se obtiene con probabilidadp, p. p,-..n particular ig Informacién media suministrada por una pregunta que tiene dog respuestas posibles: Sf con probabilidad p y NO con probabilidad t-pes ‘ng *~Ple, P-(I~ p)}on,(1- 7) Enla figura 11 se muestra el resultado de esta formula en funcén dela probabilidad p. Vemos con claridad que la pregunta que, de me- ‘ia, suministra més informacion es aquella en la que las dos respues- tasson gualmente probables. En ese caso lainformaci6n es 1 bit Sila ‘regunta no es de este tipo, entonces a informacién media es menaz Por ejemplo, sien nuestro juego preguntamos: ges 7 el niimero que has pensado? y la respuesta es afirmativa, la incertidumbre se hace cero, mientras que ses negativalaincertidumbre es H = log,7=28 ‘its. Como ya hemos mencionado, esta pregunta apenas reduce la in- ‘zrtidumbre incial sl elnimero secreto no es 7. Como la probebilidad de que la respuesta a nuestra pregunta sea afirmativa es s6l0 1/8 4a probabllidad de que sea negativa es 7/8, la incertidumbre media después de realizar la pregunta es 0.x: 1/84+2,8x 7/8 =2,45 bits. La infor- maclén suministrada por la pregunta es precisamente 3-2,45=0:5 bits, como se puede comprobaren la gréfica de la figura 11. La teora de Shannon nos dice ‘que no merece la pena correrel riesgo, sino que de ‘media es mucho mas efcaz realizar la Pregunta cuyas dos respuestas son igual de probables, Pero la teorfa de la informacién no slo nos dice cémo debem05 ‘acer las preguntas sino también cudntas tendremos que hacer: 51%" IG. 11.canidd de a- formacin que suminia a pepurta INO ea ‘ue una dla repuestos ‘iene una probable p \ainforasée méci, 1 bi se alana cuando as os respuesta tienen a risa probes, 3/2 os pepo en a gue una respuesta obs ‘an probabléad1/8yla ‘esconprobablda 2 roporciona una form ine OSS its. Informacién (bis) tamos ante una situacién cuya incertidumbre es H bitsy, si podemos realizar una serie de preguntas S1/NO con probabilidad 1/2 de ser respondidas afirmativamente, es decir, preguntas que suministran 1 bit de informacién, entonces el nimero medio de preguntas necesa- rias para eliminar completamente la incertidumbre ser H. Esta ob- servacién nos conduce a uno de los resultados fundamentales de la teoria: el eorema de codificacién de Shannon. Cédigos Volvamas al juego inicial de adivinaion de un mero entre 0 7 Yretomemos para ello la figura 10, que nos muestra la as Preguntas éptimas que conduce a la adivinacién en tres pasos. se imero de Ol 7 est unvocamente determina por as respusses las tres preguntas. Resultaentonces que dichasrspuess NE {uyen un afdigo, es deci, una forma de reresentar ls © ines For clemplo, el mimero 3 estariaientificado por a scien oe espuestas NO-SI-SI, y el 6 por SE-S{NO. Si en lugar des Loree aar ‘escribimos, respectivamente, unos y ceros, entonces el3 es 011 yelg {es 110, Ellector con conocimientos de matemsticas reconocers ense. ‘Buida que este cédigo no es mas que la representacién binaria estén, dar de los mimeros del 0 al 7 (en binario, del 000 al 111). ‘Veamos otro ejemplo. Supongamos que la persona que elige el nj. mero secreto tiene cierta preferencia por los niimeros altos y elige «| Gy el 7 con probabilidad 1/4, el 4 el 5 con probabilidad 1/8, y resto, e10, 1,23, con probabilidad 1/16. La incertidumbre de este Juego es, de acuerdo con la férmula de Shannon, Vie Log top 2 on? 423 1 4 ag ig ig 7a "7a ig 2,95 bis {Cuél es ahora la estrategia Sptima en el juego de adivinacién? De ‘nuevo, lo mejor es hacer preguntas con respuestas equiprobables. La figura 12 muestra una de estas estrategias éptimas, Obsérvese que todas las preguntas dividen e] conjunto de posibles candidatos en dos conjuntos que tienen la misma probabilidad. La codificacién que 0 = 0000, 1 = 0001, 2 = 0010, 3 = 0011, 4 111, 6 = 10, 7 = 11. No es casual que los eédigos de los -niimeros mas probables sean més cortos. Ocurre asi en muchos otros 6digos, como el morse, en el que la letra més frecuente en la mayoria elas lenguas indoeuropeas con alfabeto latino, la «e, se representa Por un tinico punto. Podemos ahora codificar cualquier cadena de nimeros sin ambigiedad. Por ejemplo: 77315 = 11-11-0011-011- Comprobamos ademas que, a pesar de que hay digitos con cédigos de diferente longitud, no son necesarios los guiones para decodificat Ja secuencia sila leemos de izquierda a derecha.* «sees qm ne tn hg an pie tne Protec iceereernnntaeiacerfe que codicn cas simblo prs ecodicar n mena sin ambgdada slgana Tos os Ses printer icra ros son cdlgo prea Uneemple de igo que nae pref excl age marae eal que lasen 2" 1G. 12.Boquema de laspregutas éptinas Yara dna un nero ‘ney? en donde es mero 6 sn guinea ‘eprotnbles Comoe a ‘igus poses repute a cada pregue- 1.0 NO serepresenas ‘ora echa negra Iadereh (i)0gbaa Teisleda (80) Esta codificacién parece en principio més larga que a codificacién binaria, porque los ntimeros del 0 al 3 estén representados por cade- nas de cuatro bits, Sin embargo, recordemos que el 7y el 6 aparecen mis veces que el 4 0 el 5, que el 0, el 1, e12y el 3. La longitud de la ‘adena codificada utilizando la codificacién binaria habitual es de 3 simbolos por digito, Sin embargo, con la nueva cdificaion la longtud ‘media por digito es 1 Lapa at 2.7 simbolos rxtx g 3n2x be 2eda te Ge BIS Ax ee Snde gD G | ‘Que es precisamente la incertidumbre en bits. Una nuevs raz6n para lamar bit ala unidad de informacion: la incertdumbre en bis && ital ala tongieud de cédigo 6ptimo, en media. Supongames SV A Senos que transmit mens compuesto rosin) incertidumbre de cada simbolo es Hbits,entonces con uns & ce aes Secale ruc, its eng pany i ‘sa oreo ena tranamisons mores ees j } i i El cédigo de Huffman Veonos prone de conan dl cxsgo 2m elem en a8 og Wettaes enn oman por sete sinbots A B,C. 0.E. Fy. y cada une anlereece am oterert robobaded Pare conte bdo, ontne. neice un ta doe lon smb eb a ence probate ty ‘ono m ve on ls mayen. Despude uremoe condos peas os 30s 9 probe. ‘ioc es ge y sumone donee robebcedes. En el eergo, mos lenveeta FG. con protabadades repectves 0.01 0.04, srotames a ture co ws probabaceces (0.08) on ura neve cal, a 2 Se musta ‘Sonam nomore romero | A prt e ertonces, ros Gvisemos Jo las cast int 7.7030 crederames a cesta cone me Eno pen pean {oneros de rao la don casas ohora merce probebles, quo onesie ‘so sonia Galas Econ probebicied 0.1. ya el combinacon FG, (quo 005 Law ure con soca news onclamos la uma (0.16). (Sence ene agen con o numeral romano I. Seguros procedionde do twa y cnc lo conten HV Vy, ramen, la VI que es in sume (> toe les pobabicades artroresy or tanto tne qve ver iUel at Una vez completado ol ib. ago se cee ayer la ga de der hierdie y aagnendo un 12 es frews que oon yn 0 om EA £5 oti renstarte on ruvabo oemplo we: A= 11,8 = 01. C= 101, 0 100, E001, = 0001 y= 0000, Le lngau mec do un mensaje porta et 0.312 0,252-+0,14340,14340,113+ 0,044 0,01 2.49 - ae eS ts st then a ns San ne (quelcédig est cvotedo par ve cada bt aperezza con wna probebed cee mma naan a era nin Pr eee cee ereneasa nde ater «ion 6ptima, podemos convertir un mensaje de longitud n mediante na cadena de n x H bits. ‘Encontrar un cédigo 6ptimo es por tanto completamente equiva- Jentea encontrar una estrategia Optima en un juego de preguntas St/ NO. La teoria de la informacién nos asegura que esa estrategia Opt- ima consiste en formular preguntas con respuestas equiprobables y ‘iados por ese criterio, hemos disefiado las estrategias de las igu- ras 10 y 12, Sin embargo, cuando el nimero de posibilidades es alto ‘yas probabilidades no son tan sencillas como en nuestros ejemplos anteriores, es dificil, y en ocasiones imposible, diselar preguntas ‘con respuestas equiprobables. David A. Huffman encontr6 en 1952, ‘cuando cursaba su doctorado en el MIT, un modo de diseiar cbdigos ‘éptimos que se muestra en el recuadro «E] cbdigo de Huffman» (en la pg. 82), Las preguntas que genera dicho cddigo no conducen a Tespuestas exactamente equiprobables, pero se acercan a ello todo lo posible, Corretaciones y compresién de datos Codiiar es convertir mensajes en cadenas de cers y unos ¥ une ‘odificacién éptima es aquella que, de media, consigue las cadenas 4 ry ess aoa oO ims cortas. Un buen c6igo es por tanto equlvalente aun algrion de compresin; es dec, e una forma de transformar los datos dey fichero informético para que ocupen menos memoria. El cédig ye Huffman es un ejemplo de algoritmo de compresin. Ademas rea tuna compresia sn pérddas, porque la codiiacin es reversibly permite reconstruir con toda exactitude fchero original a partir é fichero comprimido? Imaginen, por ejemplo, un fchero compuesto por los nimeros clogidos en 1000 turnos de nuestro segundo juego de adivinaci,e correspondiente ala figura 12. Supongamos que el ordenador guarde ese ichero en cdigobinario y que cada digito del O al 7 necesita tres bits para ser coificado; es decir, el tamafio de nuestro fichero es de 3000 bit Sin embargo, i utilizamos el digo generado en laura 12, cada digo necesita, de medi, slo 2.75 bits, portant, el tama- fo de fcheroserd de 2750 bits. Noes una gran reducci6n, pero algo hemos ganado. Dehecho, esl méxima compresin ala que podemas asprar puesto que el cig es éptimo. Este es uno de los resultados mas importantes de ta teora de la Snformacion:elteorema de codifcacién de Shannon, que nos dice que ¢1 tamatio minimo al que se puede comprimir un fichero es, aprox ‘madamente, su incertidumbre o entropa. La matizacin caproxina damente> es necesaria porque ls ficheros tienen un tama fini Guanto més grandes son, més precisa es la afirmacién del teorema. 2Qué significa exactamente la entropia de un fichero, de un con Junto de datos o de una cadena de simbolos? Cuando los simbolos «rales congregants gto epee {2d do cmo mia p)eingnes)Enems cn ne prs se en sprain (qe ocr) pr sda sail ne Sctninge case cpt 2 Neg wa prt gyn re dcp ua sar es {chro qu pede se 09 pind nade cay npr nner ‘entropies el eae een 300 per snc de 77505 Bi poles vans s son seatoros independents entre sl respuesta es senca Se seca formula de Shannon utlizand as probabiades de pa Fede cada simbolo (ave pueden obtenerse empiricamente a partir is fecuencias de aparicén ste fchero es grande) yemaliplca derealtad por el nimero total de imbolasen el fichera. Enel ej ‘anterior el fichero compuesto por 1000 niimeros elegidos en el Mego dela figura 12, la formula de Shannon ns a 75 bits por sim- io por tanto, la entropfa total del fichero es 2750 bits, que es el tpmaf al que se puede comprimir uilizando la codificacion 6ptima, Pero en la mayoria de los casos los simbolos no son ni aleatorios, aiindependientes. Lo primero no es un gran problema porque, sel fchero es suficientemente grande, a efectos de compresién de datos se puede considerar producido por una fuente aleatoria de simbolos ‘on ciertas propiedades estadisticas. olveremos sobre este punto en las secciones siguientes. El segundo problema es que estos simbo- las no van a ser independlentes entre si, En un fichero que contenga un texto en castellano, por ejemplo, después de la letra eq» lo mis probable es que aparezca una «us. Este tipo de ligaduras se aman genéricamente correlaciones, similares a las que existen entre dos fuentes de datos diferentes y que analizaremos en el capitulo 6. Ba éste caso la correlacién es entre un simbolo y los que le preceden. La Correlacién puede ser de corto alcance, como la ligadura entre a Ya eu», o involuerar partes de un fichero o un texto muy alejadas entre sf. Para tener en cuenta las correlaciones tenemos que aplicar la fér- ‘ula de Shannon a bloques de simbolos en lugar dea simbolos ind duals. Por ejemplo, pensemas en la entropia de la cadena de mil Aigtos que siguen la pautasigulente: (00110011001100110011001100110011.- % taste doer a Eloy 11 aparecen con la misma frecuencia, Por tanto si conside. amos smbolos individuales la entropia de cada simbolo serd 1 bity|, 4e todo el fichero seré de 1000 bits. Pero esto no es correcto. i consh

Вам также может понравиться