Вы находитесь на странице: 1из 129

Estadstica descriptiva

Imagen popular de la estadstica: "Existen medias mentiras, mentiras y estadsticas". Dos significados: (1) Coleccin de datos numricos (Una estadstica). (2) Ciencia: obtener regularidades de fenmenos de masas (La estadstica). "Ms del 75% de los americanos blancos son propietarios de su casa y menos del 50% de los hispanos y afroamericanos no son propietarios de su casa. Aqu hay un abismo, el abismo de la propiedad de la casa". George W. Bush, Cleveland, 1 de julio de 2002 1 www.bushisms.com

La estadstica surgi como una necesidad del estado: el censo y su descripcin poltica, geogrfica y econmica. En el siglo XVII y XVIII nace la probabilidad aplicada a los juegos de azar que ejerce una fuerte influencia sobre la estadstica. En el XIX empieza a aplicarse a cuestiones sociales. Y actualmente se aplica a la historia, psicologa, pedagoga, ingeniera, biologa, economa, periodismo, poltica, medicina...
2

El mundo en miniatura

Toby Ng Kwong To http://www.toby-ng.com/graphic-design/the-world-of-100/ Imagina que pudiramos reducir la poblacin de la Tierra, manteniendo proporcionalmente sus caractersticas, a tan solo 100 habitantes. Ese mundo en miniatura sera algo as...
Nota: Los datos escritos bajo los logotipos son los actualizados a 2010. En algunos casos no coinciden, por este motivo, con los que aparecen en las imgenes.

El Mundo en Miniatura (The Miniature Earth)


http://www.youtube.com/watch?v=CW5TnEc WN3Q&feature=related

If the world were a village of 100 people (Si el mundo fuera una aldea de 100 personas) en la web animada de los coreanos Hye-Bin Park y Jhoo-Young Cha (http://binsworld.com/100/).

61 Asiticos, 13 Africanos, 12 Europeos, 8 Norteamericanos, 5 Sudamericanos y Caribeos, 1 de Oceana.

50 son hombres y 50 son mujeres. 47 viven en la ciudad. 12 son discapacitados.

33 son cristianos, 21 musulmanes, 14 no son religiosos, 13 hinduistas, 6 budistas y 13 practican otras religiones.

43 viven sin sanidad bsica. 18 viven sin una fuente de agua potable.

20 personas poseen el 75% de las riquezas de todo el mundo.

14 estn hambrientos o desnutridos.

12 no saben leer.

Slo 1 tiene educacin universitaria.

Slo 12 tienen un ordenador, y de ellos, slo 8 tienen conexin a Internet.

20 personas viven con miedo de morir por bombardeos, ataques armados, minas terrestres, violacin o secuestro por grupos armados.

A pesar de las desigualdades y la pobreza, nuestros gobernantes dedican ms de 875.000.000.000 de euros en gastos militares.

Si tienes comida en un frigorfico, ropa en un armario, una cama donde dormir y un techo sobre tu cabeza, eres ms rico que el 75% de la poblacin mundial. Aprecia lo que tienes y haz todo lo que puedas para hacer de este mundo un lugar mejor.
Datos estadsticos:
http://www.miniature-earth.com/docs/ME_2010_text.pdf http://www.odt.org/pop.htm

Donella Meadows hizo pblico en 1990 su primer Informe sobre el Estado de la Aldea, que se ha actualizado varias veces desde entonces. El Mundo en Miniatura (The Miniature Earth) es su versin grfica. Pgina oficial del Proyecto The Miniature Earth es: http://www.miniature-earth.com/

Definicin de Estadstica
La Estadstica es la ciencia de la sistematizacin, recogida, ordenacin y presentacin de los datos referentes a un fenmeno que presenta variabilidad o incertidumbre para su estudio metdico, con objeto de deducir las leyes que rigen esos fenmenos

y poder hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones.
10

Pasos en un estudio estadstico


Plantear hiptesis sobre una poblacin:
Los fumadores tienen ms bajas laborales que los no fumadores. En qu sentido? Mayor nmero? Tiempo medio?

Decidir qu datos recoger (diseo de experimentos)


Qu individuos pertenecern al estudio (muestras).
Fumadores y no fumadores en edad laboral. Criterios de exclusin: Cmo se eligen? Descartamos los que padecen enfermedades crnicas?

Qu datos recoger de los mismos (variables).


Nmero de bajas. Tiempo de duracin de cada baja. Sexo? Sector laboral? Otros factores?
11

Pasos en un estudio estadstico (y 2)


Recoger los datos (muestreo):
Estratificado? Sistemticamente? Con remplazo o sin remplazo?

Describir (resumir) los datos obtenidos:


Tiempo medio de baja en fumadores y no fumadores (estadsticos) % de bajas por fumadores y sexo (frecuencias), grficos,...

Realizar una inferencia sobre la poblacin:


Los fumadores estn de baja al menos 10 das/ao ms de media que los no fumadores.

Cuantificar la confianza en la inferencia:


Nivel de confianza del 95% Significacin del contraste: p = 2%
12

Qu es una familia?

De qu estamos hablando? (Definiciones claras) Qu vol dir famlia? s tothom qui viu en una mateixa casa? O tamb sinclouen avis i vies, oncles i ties, cosins i cosines, etc. Si s la segona opci, que inclou molta ms gent, tampoc s tant sorprenent lafirmaci... Pere Grima

Los que fuman tienen algn trastorno mental?

Qu vol dir tras- torns mentals? Si la dependnciade drogues es considera un trastorn mental, gaireb tot- hom que t lhbit de fumar pateix un trastorn mental! Pere Grima
El Pas, 28 noviembre 2000

Jvenes....

Jvenes

http://www.ajemadrid.es/

Estadsticas...
Salud mental Popularidad Inteligencia Pobreza

...

http://es.wikipedia.org/wiki/Pobreza

Precisin exagerada
Segurament, el mateix dia quevan editar el fullet va deixar de ser cert. En tot cas, haurien dhaver dit la data en que la xifra dhabitants era aquesta. Per no cal, sabent que s una mica ms dun mili nhi ha prou. Pere Grima.

Esto es hilar fino...

Com saben amb tanta exactitud quan es va comenar a fer servir la soja? Don han tret la dada? Segurament s ms fcil endevinar en quin dia de la setmana es va comenar a fer servir. La probabilitat dencertar s 1 entre 7! Pere Grima.

Precisin ridcula

Puedes indicar si son ciertos los siguientes razonamientos sobre estadsticas? En este caso es Martin Gardner en su libro Aja! Paradojas que hacen pensar el que nos ha otorgado el regalito: 1) Las estadsticas muestran que casi todos los accidentes de circulacin se producen a velocidad moderada. Muy pocos ocurren a ms de 150 km por hora. Significa esto que resulta ms seguro conducir a gran velocidad? 2) Si las estadsticas mostrasen que la mortalidad por tuberculosis es mayor en Segovia que en las dems provincias, significara esto que el clima segoviano favorece el contagio por tuberculosis? 3) Un estudio psicopedaggico ha mostrado que los nios de pie grande saben leer mejor que los de pie pequeo. Permitir el tamao del pie medir la capacidad de lectura de los nios? 4) Suele decirse que casi todos los accidentes de automvil ocurren cerca de casa. Significa esto que viajar por carretera, a muchos kilmetros de nuestra ciudad, es menos peligroso que callejear por nuestro barrio? 6) Un estudio hizo ver que en cierta poblacin europea se produjo simultneamente un fuerte crecimiento de la poblacin y un notable incremento del nmero de nidos de cigeas. No es esto demostracin de que son las cigeas quienes traen a los nios al mundo? 7). Otro trabajo estadstico mostr que casi todos los grandes matemticos fueron primeros hijos. Significa esto que los nios nacidos los primeros reciben una dote de sensibilidad matemtica mayor que sus hermanos posteriores?

Poblacin y muestra
Poblacin (population) es el conjunto sobre el que estamos interesados en obtener conclusiones (hacer inferencia). Normalmente es demasiado grande para poder abarcarlo.

Muestra (sample) es un subconjunto de la poblacin al que tenemos acceso y sobre el que realmente hacemos las observaciones (mediciones) Debera ser representativo Esta formado por miembros seleccionados de la poblacin (individuos, unidades experimentales).

22

Variables
Una variable es una caracterstica observable que vara entre los diferentes individuos de una poblacin. La informacin que disponemos de cada individuo es resumida en variables.
En los individuos de la poblacin espaola, de uno a otro es variable: El grupo sanguneo
{A, B, AB, O} Var. Cualitativa

Su nivel de felicidad declarado


{Deprimido, Ni fu ni fa, Muy Feliz} Var. ordinal

El nmero de hijos
{0,1,2,3,...} Var. Numrica discreta

La altura
{1,62 ; 1,74; ...} Var. Numrica continua
23

Es buena idea codificar las variables como nmeros para poder procesarlas con facilidad en un ordenador. Es conveniente asignar etiquetas a los valores de las variables para recordar qu significan los cdigos numricos.
Sexo (Cualit: Cdigos arbitrarios)
1 = Hombre 2 = Mujer

Raza (Cualit: Cdigos arbitrarios)


1 = Blanca 2 = Negra,...

Felicidad Ordinal: Respetar un orden al codificar.


1 = Muy feliz 2 = Bastante feliz 3 = No demasiado feliz

Se pueden asignar cdigos a respuestas especiales como


0 = No sabe 99 = No contesta...

Estas situaciones debern ser tenidas en cuentas en el anlisis. Datos perdidos (missing data)

24

Los posibles valores de una variable suelen denominarse modalidades. Las modalidades pueden agruparse en clases (intervalos) Edades:
Menos de 20 aos, de 20 a 50 aos, ms de 50 aos

Hijos:
Menos de 3 hijos, De 3 a 5, 6 o ms hijos

Las modalidades/clases deben formar un sistema exhaustivo y excluyente Exhaustivo: No podemos olvidar ningn posible valor de la variable
Mal: Cul es su color del pelo: (Rubio, Moreno)? Bien: Cul es su grupo sanguneo?

Excluyente: Nadie puede presentar dos valores simultneos de la variable


Estudio sobre el ocio Mal: De los siguientes, qu le gusta: (deporte, cine) Bien: Le gusta el deporte: (S, No) Bien: Le gusta el cine: (S, No)
25

Ejemplo: En un programa para la deteccin de hipertensin en una muestra de 30 hombres en edades entre 30 y 40 aos, la distribucin de la presin diastlica (mnima) en mm Hg fue la siguiente:

70 60 80

85 75 90

85 80 95

75

65

90 95

110 90

95 70 85

90

70

120 85 90 95

100 65 80 75

110 100

La variable en estudio es

Presin diastlica (medida en mm de Hg)


una variable numrica continua.

Tablas de frecuencia
Exponen la informacin recogida en la muestra de manera inteligente:
Frecuencias absolutas: Contabilizan el nmero de individuos de cada modalidad. Frecuencias relativas (porcentajes unitarios): dem, pero dividido por el total, normalizadas. Frecuencias acumuladas absolutas y relativas: Acumulan las frecuencias absolutas y relativas. Son especialmente tiles para calcular cuantiles (como veremos ms adelante).
27

Ordenamos los datos en forma creciente:

60 65 80 80 90 95

65 85 95

70 85 95

70 70 85 85

75 75 75 90 90 90

80 90

95 100 100 110 110 120

La amplitud total A = 120 60 = 60 Nmero de clases: K = 30 = 5.48 Aprox. 6 clases Extensin del intervalo : H = A/ K = 60/6 = 10
En este caso , entonces, la tabla de frecuencias tendr aproximadamente 6 clases de amplitud 10 unidades en cada clase.

Variable

Frecuencia

Frecuencia Frecuencia normalizada absoluta

Frecuencia absoluta norm.

x
60 - 70 70 - 80 80 - 90 90 - 100 100 - 110 110 - 120 120 - 130 total

f
3 6 7 9 2 2 1 30

fr
0.1 0.2 0.23 0.3 0.07 0.07 0.03 1.0

F
3 9 16 25 27 29 30

Fr
0.1 0.3 0.53 0.83 0.90 0.97 1.00
29

Histograma de la distribucin de presin diastlica en mm de Hg segn las frecuencias absolutas:

10

60

70

80

90

100

110

120

130

mm de Hg
30

Grficos para variables cualitativas


Diagramas de barras
Alturas proporcionales a las frecuencias (abs. o rel.) Se pueden aplicar tambin a variables discretas

Diagramas de sectores (tartas, polares)


El rea de cada sector es proporcional a su frecuencia (abs. o rel.)
31

Grficos para variables cualitativas (y 2)


Pictogramas
Fciles de entender. Cada modalidad debe ser proporcional a la frecuencia.

De los dos pictogramas, cul diras que es incorrecto?


32

Grficos diferenciales para variables numricas


Son diferentes en funcin de que las variables sean discretas o continuas. Valen con frec. absolutas o relativas. Diagramas barras para v. discretas
Se deja un hueco entre barras para indicar los valores que no son posibles
Recuento

419
400

375

300

255 215
200

127
100

54 24 23 17

7 Ocho o ms

Nmero de hijos

250

200

Histogramas para v. continuas


El rea que hay bajo el histograma entre dos puntos cualesquiera indica la cantidad (porcentaje o frecuencia) de individuos en el intervalo.

Recuento

150

100

50

20

40

60

33 80

Edad del encuestado

Diagramas integrales
Cada uno de los anteriores diagramas tiene su correspondiente diagrama integral. Se realizan a partir de las frecuencias acumuladas. Indican, para cada valor de la variable, la cantidad (frecuencia) de individuos que poseen un valor inferior o igual al mismo.

34

Original, pero poco claro


0,7

0,6

El Pas, 22 de noviembre de 2005. Pgina 15

Qu?

La Vanguardia, 3 marzo 2006. Pgina 40

Impacto del eje vertical

Si quieres demostrar algo absurdo toma un montn de datos, tortralos hasta que digan lo que quieres demostrar, y a la confesin as obtenida llmalo Estadstica (Darrel Huff: How to lie with statistics)

Versin castellana en pdf.


El grfic de lesquerra dna la sensaci de que les despeses han pujat per duna manera molt suau, mentre que el de la dreta, amb les mateixes dades, per fent un zoom sobre la part de lescala on est la grfica, lincrement es veu molt ms exagerat. Pere Grima

Priorizar la esttica
Segurament aqu no hi havia mala intenci. De fet, afavoria ms al que volien transmetre haver fet la grfica b! Pere Grima.

143.449

85.990

Grfico universal
Es muy rpido. Sobre el mismo dibujo se cambian los nmeros

Sin escala
Un clssic de la publicitat: la grfica sense escala. Per en qu consisteixen aquests tests? Qu mesuren ? Com ho mesuren? Pere Grima

Sin escala

Unidad = Unidad

Que ning digui que no fan servir unitats en els eixos! Justament la unitat de mesura es la unidad. Pere Grima

Aqu tenim un exemple de llibre: Quant ms valia un dlar en lpoca dEisenhower respecte lpoca de Carter? Segurament esteu pensant que 4 o 5 vegades, per no, noms val una mica ms del doble. De fet, es pot comprovar que les longituds sn proporcionals als valors, per els bitllets tenen dos dimensions, i la sensaci de quantitat que donen s proporcional a la seva superfcie, i no a la longitud. Podem veure que la superfcie del dEisenhower s 5 vegades ms gran que laltra. Pere Grima

I en el grfic de la dreta, tret dun diari que fa una estadstica sobre les edats dels seus lectors, tenim un exemple similar. Entre 25 i 34 anys tenen un 37,5% de lectors, i de ms de 55 tenen un 12,8%. Tot i que aquests ltims sn 1/3 dels primers, en el grfic sembla que no pinten quasi b res. De fet, es pot posar un home de 12,8% a cada pota del gegant. Han fet els grfics proporcionals a les alades (el gegant s tres vegades ms alt que lhome que comprn el grup de lectors de ms de 55 anys), per la sensaci que donen s proporcional a les rees. Pere Grima

Dieta ms... lo que sea

Prens ginebra amb glaons i temborratxes, vodka amb glaons i temborratxes, whisky amb glaons i temborratxes. Conclusi: els glaons temborratxen. Pere Grima

El vodka tiene ms caloras que la cerveza.

El Pas Semanal, 15 juliol 2001

El Peridico, 13 de febrer de 2001

Descobriment sorprenent

A Catalunya les rosses no guanyen igual que les morenes


Si dividim les noies en rosses i morenes, s normal que un dels grups cobri ms que laltre. Per segurament aquesta diferncia no ser significativa. El que seria sorprenent s que els dos grups de persones cobressin exactament igual, fins al cntim deuro! Pere Grima

Encuestas interesadas?

Atencin: un 30% de los expertos no aconseja huir del excesivo consumo de grasas!

Curiosa encuesta

Howard Wainer, en su libro Visual Revelations expresa tres principios - No muestres los datos (en todo caso que sean pocos). Los que muestres, que sea de forma imprecisa. Ofusca la interpretacin de los datos. 1. 2. 3. 4. 5. 6. 7. 8. 9. Minimiza la densidad de datos (muestra pocos datos en mucho espacio). Minimiza la razn datos/tinta (poca tinta para datos y mucha para accesorios, ejes, retculos, ttulos, adornos...). Ignora la metfora visual (las magnitudes no tienen por que corresponderse con su representacin). Maximiza el factor de mentira Haz el grfico fuera de contexto (para qu ensear el trozo de grfica en que nos iba mejor...) Cambia la escala en medio del eje, normalmente nadie se dar cuenta y puedes cambiar el significado de lo que muestras a tu gusto. Enfatiza lo trivial y despista la atencin de lo que interesa. Dificulta la comparacin, al fin y al cabo lo que muestran los grficos son diferencias, por tanto, que no se noten... Ordena alfabticamente, seguramente ser ms difcil detectar patrones que si los ordenas por los valores crecientes de alguna de las variables.

10. Etiqueta lo peor que puedas, de forma ilegible, incompleta, incorrecta y ambigua, nada mejor para confundir a propios y extraos. 11. Aade informacin intil: ms decimales y ms dimensiones de lo necesario contribuyen a la confusin.

OBSERVACIONES (Nora Gatica, Universidad Nacional de San Luis Argentina)


De acuerdo al grfico se crearon 100.000 empleos en el ao 1996. 200.000 en 1998 y as siguiendo. Dice: creacin de empleo ... No se perdieron empleos en esos aos? Debera estar la palabra neto. Es empleo acumulado? El eje de la derecha representa cientos de miles de trabajos creados. cul es el nivel inicial? Manipulando el nivel inicial se pueden lograr que los cambios chicos parezcan grandes. Tampoco hay informacin de los desempleados porque si los desempleados son varios millones, no es significativa la creacin de empleo. Debera dar evidencia de la tasa de desempleo para poder establecer si baj un 10%, un 20 % etc.

Miremos al otro eje. La tasa del impuesto a las ganancias baj del 58% al 40% en cuatro aos. 58% de impuesto a las ganancias? No es la tasa del impuesto a las ganancias. Es "impuesto a las ganancias como porcentaje del impuesto federal bsico"Que significa eso? Parecera que el impuesto a las ganancias est bajando comparado con el impuesto federal. Pero acaso esto no puede deberse a que el impuesto federal estaba aumentando? El eje del grfico slo va de 40 a 60. Si el eje del grfico fuese de 0 a 100, la tendencia no parecera tan importante, quedara como una lnea bastante horizontal. Qu intentan hacer al poner dos tipos distintos de informacin en el mismo grfico con diferentes unidades? Todo lo que muestran es que una estaba bajando mientras la otra suba. Podran haber manipulado los grficos para hacer que la creacin de empleo pareciese incluso ms alta, o que el impuesto a las ganancias pareciese ms bajo adelgazando el grfico. (Nora Gatica, Universidad Nacional de San Luis Argentina)

Las visualizaciones no son neutras, dependen de nuestra eleccin y de lo que queramos mostrar a los dems y a nosotros mismos. Cultivar este sentido crtico respecto de lo que hacemos y de lo que se nos presenta es vital para evitar la confusin. Nora Gatica

http://nosomoshormigas.org/

Las 7 obsevaciones optimistas de No Somos Hormigas en TEDxLaRioja. http://www.youtu be.com/watch?feat ure=player_embed ded&v=E6Wd8SGAac#t=621s

El peor grfico de todos los tiempos?


El Pas 22.11.05 publica a dos pginas una nueva entrega de su seccin de Investigacin y Anlisis, esta vez sobre el gasto farmacutico.

Alguien puede decirme qu escala utiliza este grfico? El 4,7% de Castilla-La Mancha y el Pas Vasco, es cada una, o es entre las dos? Idem para Cantabria y Navarra y Aragn y Murcia. Alguien sabe qu inters tiene el gasto farmacutico por comunidades, si no es per cpita?

http://personales.ya.com/josumezo/2005/11/el-peor-grfico-de-todos-los-tiempos.html

Ministerio de Agricultura http://sigpac.mapa.es/fega/visor/

Cmo visualizar la complejidad del mundo?

Segn Naciones Unidas existen en estos momentos ms de 27 millones de refugiados. El mayor nmero alcanzado jams. La anchura de las flechas indica la cantidad relativa de refugiados segn las zonas.
En la web de la Agencia de la Organizacin de Naciones Unidas para los Refugiados podemos leer: La Convencin de Refugiados de 1951 que es el mandato principal del ACNUR explica que un refugiado es una persona que "debido a fundados temores de ser perseguida por motivos de raza, religin, nacionalidad, pertenencia a determinado grupo social u opiniones polticas se encuentre fuera del pas de su nacionalidad y no pueda o, a causa de dichos temores, no quiera acogerse a la proteccin de tal pas".

82

Los mtodos visuales para comunicar grandes cantidades de informacin de manera eficiente son una mezcla de arte y ciencia. Por ejemplo, cmo podemos visualizar datos a nivel mundial? Centrmonos en una cuestin particular: a pesar del indudable progreso humano, las desigualdades son ahora ms grandes que en ningn momento de la historia. Uno de los indicadores ms comunes de la calidad de vida es la esperanza de vida, la media de la cantidad de aos que vive una cierta poblacin en un cierto periodo de tiempo. Mientras en algunos lugares de la Tierra hay gente que vive en la opulencia, ms de mil millones de personas pasan hambre. As la esperanza de vida es muy distinta segn los pases. Si has nacido y vives en Espaa, tu esperanza de vida es de ms de 80 aos. Pero si perteneces a uno de los 35 pases con menor esperanza de vida, localizados todos ellos en el frica sub-sahariana, tu esperanza de vida es inferior a los 50 aos. Una desigualdad espeluznante que podemos apreciar en un vistazo en este globo terrqueo diseado por Ingo Gnther.

La esperanza de vida es la media de la cantidad de aos que vive una cierta poblacin en un cierto periodo de tiempo.

Nota: Los datos del proyecto


WorldProcessor no estn actualizados: son datos que van entre 1998 y 2005, segn el globo.

Montaas de dbito

La deuda externa de los pases, el dinero pblico y privado, que cada uno debe al extranjero, est representada en este doble globo terrqueo de forma proporcional a la altura de sus montaas. 1988 - 2006, Ingo Gnther and Worldspace Corporation

Polucin

Polucin: Los crculos rojos indican vertidos de petrleo y los de color gris sombreado contaminacin del mar y de la tierra debida a fertilizantes qumicos. En promedio, cada tres meses esta imagen se vuelve obsoleta debido a otro gran vertido de petrleo y al aumento continuo de la contaminacin.

Comprehensive Guide to the World


Es cierto que el mundo hoy es ms complicado que nunca. Aunque eso no significa que su comprensin sea necesariamente inaprensible o extremadamente difcil, como apunta Gnther en este globo terrqueo que titula con cierta sorna: "Gua completa del mundo".

Agencia de la Organizacin de Naciones Unidas para los Refugiados: http://www.acnur.org Proyecto WorldProcessor: http://www.worldprocessor.com/catalog/world/ Estadsticas mundiales desde la CIA, la Agencia Central de Inteligencia de EEUU: https://www.cia.gov/library/publications/the-world-factbook/

Redes para representar la complejidad

Mark Lombardi

Complejidad en la corrupcin:
Manipuladores del poder
Interconexiones clandestinas entre corporaciones, organizaciones polticas e instituciones internacionales. "Redes globales, porque cada una consiste en una red de lneas y apuntes, que a su vez tratan de inspirar y redactar un cuento, tipicamente sobre un evento reciente , como la cada de un gran banco internacional o una firma de inversiones. Una de mis metas es investigar las fuerzas de interaccin poltica, social y econmica en los negocios contemporneos." Mark Lombardi (1951-2000)
Artista, pintor e historiador de arte

george w. bush, harken energy, and jackson stevens c.1979-90, 5th version, 1999 graphite on paper 20 x 44 inches sold

george w. bush, harken energy, and jackson stevens c.1979-90, 5th version, (detail)

Compaas

vs.

Pases

Compaas versus pases: algunas compaas privadas tienen beneficios anuales mayores que el producto interior bruto (PIB) de algunos pases. En el globo, se renombran algunos pases siguiendo este criterio.

They Rule

w w w .theyrule.net

They Rule permite crear redes de relaciones entre las 500 compaas ms poderosas de EEUU y muchas de sus instituciones gubernamentales, educativas o fundaciones, a travs de las personas que ocupan asiento en sus consejos de administracin. Algunas de estas personas ocupan asientos en hasta 7 compaas...

Parmetros y estadsticos
Parmetro: Es una cantidad numrica calculada sobre una poblacin.
La altura media de los individuos de un pas. La idea es resumir toda la informacin que hay en la poblacin en unos pocos nmeros (parmetros).

Estadstico: dem (cambiar poblacin por muestra).


La altura media de los que estamos en este aula.
Somos una muestra (representativa?) de la poblacin.

Si un estadstico se usa para aproximar un parmetro, se le suele llamar estimador.

93

Estadsticos
Centralizacin: Indican valores con respecto a los que los datos parecen agruparse. Media, mediana y moda

Dispersin: Indican la mayor o menor concentracin de los datos con respecto a las medidas de centralizacin.
Desviacin tpica, coeficiente de variacin, rango, varianza

Posicin: Dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos. Cuantiles,
percentiles, cuartiles, deciles,...

Forma: Asimetra; apuntamiento o curtosis


94

Estadsticos de posicin
Se define el cuantil de orden como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada . Casos particulares son los percentiles, cuartiles, deciles, quintiles,...

95

Percentil de orden k = cuantil de orden k/100


La mediana es el percentil 50. El percentil de orden 15 deja por debajo al 15% de las observaciones. Por encima queda el 85%.

Cuartiles: Dividen a la muestra en 4 grupos con frecuencias similares.


Primer cuartil = Percentil 25 = Cuantil 0,25. Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana. Tercer cuartil = Percentil 75 = cuantil 0,75.
96

Ejemplos: El 5% de los recin nacidos tiene un peso demasiado bajo. Qu peso se considera demasiado bajo?
Percentil 5 o cuantil 0,05.

Qu peso es superado slo por el 25% de los individuos?


Percentil 75.

El colesterol se distribuye simtricamente en la poblacin. Se considera patolgico los valores extremos. El 90% de los individuos son normales. Entre qu valores se encuentran los individuos normales?
Entre el percentil 5 y el 95.

Entre qu valores se encuentran la mitad de los individuos ms normales de una poblacin?


Entre 1 y 3 cuartil (Q1 y Q3).
97

Niveles de Hb en 61 adultos normales


105 110 125 126 138 138 148 148 153 153 158 159 160 168 168 112 127 138 148 154 160 170 112 128 138 149 149.5 154 160 172 118 130 141 150 154 163 172 119 132 142 150 154 164 176 120 133 133.5 144 150 155 164 179 120 134 145 151 156 165 120 135 146 151 156 166

Un resumen de esta serie en 5 valores Min = 105 ; Max =179; Q1 = 133.5 ; Q3 = 159 ; Q2 = Mn = 149.5 IQR = Q3 - Q1 Recorrido intercuartlico Min Max

(Mediana de los datos superiores)

Q1

Mn

Q3 (Mediana de los datos superiores)

105

133.5

149.5 159

179
98

(Box-and-Whisker plot)

Porcentaje... De qu?
Per exemple: Si el contingut anterior dun producte era 75ml i ara s de 100ml, quant ens regalen? La resposta no s evident. Si ens referim al contingut inicial regalen el 33%, per del contingut total que estan venent ara, noms regalen el 25%. Davant dun percentatge sempre cal preguntar-se: percentatge, de qu? I descobrirem que moltes vegades no ho t clar ni el que ho ha calculat. Pere Grima

Porcentajes y puntos percentuales: Los beneficios han pasado del 2 al 4% Han aumentado 2 puntos o han aumentado un 100% ?

PVP = 100 18% de descompte = 82 Sense IVA: 82? NO! Sense IVA: 84,75 (84,75 x 1,18 = 100)

Nmeros para dar credibilidad


Els percentatges es fan servir tamb per donar un aire de rigor cientfic en alguns anuncis. s millor per aix fer ser- vir nmeros que no siguin rodons (millor 89% que no 90% Pere Grima.

Operacions amb percentatges: Cal vigilar quan es fan operacions amb percentatges! Si un producte est for- mat per 10 components i el cost de cadascun dells sincrementa un 2%, quant augmenta tot el producte? No augmenta un 20%, com alg podria pensar, sin noms un 2%. Pere Grima.

Porcentajes basados en niveles y cambios de nivel


Un vendedor vendi el ao pasado por valor de 100.000 . Su objetivo este ao era aumentar la facturacin un 6%. Ha conseguido vender por valor de 103.000 . Qu porcentaje del objetivo ha cubierto? Si volem que pinti malament: Havia daugmentar un 6% i ha augmentat un 3%. Ha assolit noms un 50% del previst. Si volem que pinti b: El seu objectiu era vendre per 106 000 . Sha quedat en 103 000 , per tant el percentatge dacompliment ha estat (103 000 / 106 000) x 100 = 97,2% Pere Grima

6%

106.000 103.000

3% 50%

97,2%

Porcentajes y puntos percentuales


Los beneficios han pasado de un 3% a un 6%... Han aumentado un 3 % (en realidad 3 puntos percentuales) Han aumentado un 100 %

La Vanguardia, 23 novembre 2003

Dos problemes en aquesta notcia. El 23% del titular no surt ni calculant-lo b ni malament! 1. El que segurament pretenia el periodista era fer 45 18, per aix dna 27%, no 23%. 2. Per s que aquest percentatge no es calcula aix. El clcul correcte seria [(45 18)/45] x 100 = 60%. Per exemple, si passem dun 5% a un 0%, no disminum un 5%, sin un 100%! Pere Grima

Operaciones con porcentajes

Noms un exemple que vaig veure fa uns mesos al diari: El 65% dels menors... per don surt aquest 65%?: del 50% dels nens i el 15% de les nenes! I si sorts del 100% dels nens i el 100% de les nenes, tindrem aleshores el 200% dels menors...? Pere Grima

El Peridico, 5 de gener de 2006. Pgina 27

Recelo de la Estadstica; un buen amigo mo muri ahogado en un ro cuya profundidad media era de 40 cm. Po Baroja
En cierta ocasin le preguntaron a un vendedor que como podia vender tan baratos sus sandwiches de conejo, a lo que respondi : Bueno, tengo que admitir que hay un poco de carne de caballo. Pero la mezcla es solo 50:50 ; uso el mismo numero de conejos que de caballos. [ Darrel Huff, "Como mentir con la estadstica".]
104

Centralizacin
Aaden unos cuantos casos particulares a las medidas de posicin. Son medidas que buscan posiciones (valores) con respecto a los que los datos muestran tendencia a agruparse. Media (mean) Es la media aritmtica (promedio) de los valores de una variable. Suma de los valores dividido por el tamao muestral. Media de {2, 2, 3, 7} es (2+2+3+7)/4 = 3,5 X= Conveniente cuando los datos se concentran simtricamente con respecto a ese valor. Muy sensible a valores extremos. Centro de gravedad de los datos. Media ponderada
Xp =

X
i =1

w x
i =1 n

i i

w
i =1

105

Otras medias
Media Armnica (H):

H G X Q

H=

n 1 i =1 x i ni
2 x i ni i =1 k

Media Cuadrtica (Q):

Q=

Media Geomtrica (G) o media logartmica:

G=

x1 x 2 x n

1 pollo + 0 pollos

El Pas, 1 de marzo de 2011

La media no necesariamente representa a todos

La Vanguardia 25 noviembre 2005. Pg. 5 (suplemento Vivir)

El Peridico 25 noviembre 2005; Pg. 45

Sueldos

El Pas, 6 de marzo de 2011, pg. 25

Confundir la media con el conjunto

La Vanguardia, 26 de Febrero de 2002. Pgina 16

Centralizacin
Mediana (median) Es un valor que divide a las observaciones en dos grupos con el mismo nmero de individuos (percentil 50). Si el nmero de datos es par, se elige la media de los dos datos centrales. Mediana de 1, 2, 4, 5, 6, 6, 8 es 5 Mediana de 1, 2, 4, 5, 6, 6, 8, 9 es (5+6)/2 = 5,5 Es conveniente cuando los datos son asimtricos. No es sensible a valores extremos.
Mediana de 1, 2, 4, 5, 6, 6, 800 es 5. La media es 117,7!

Moda (mode) Es el/los valor/es donde la distribucin de frecuencia alcanza un mximo.


111

Altura mediana

112

ndice o coeficiente de Gini


Lnea de la igualdad perfecta Curva de Lorenz

Corado Gini (1884 1965) Estadstico, demgrafo y socilogo.

Coeficiente de Gini

Lnea de la desigualdad perfecta y = 0 para x < 100 x = 100 para x = 100

Calculemos el ndice de Gini para los sueldos de los empleados de una hipottica empresa, a travs de la frmula de Brown:
Sueldos (miles de ) 20 27 36 48 60 90 120 Empleados
Xi ni ni pi Xi ni Xi ni qi pi - qi

10 12 8 5 3 1 1

20 27 36 48 60 90 120 X

10 12 8 5 3 1 1 x

10 22 30 35 38 39 40 x

25,0 55,0 75,0 87,5 95,0 97,5 100,0 x 435,0

200 324 288 240 180 90 120 x

200 524 812 1052 1232 1322 1442 x

13,8 36,3 56,3 73,0 85,4 91,7 100,0 x

11,2 18,7 18,7 14,5 9,6 5,8 0 x 78,5

G=78,5/435,0=0,18 (18%)

pi (entre 1 y n-1) =

(pi - qi) (entre 1 y n-1 )=

Sueldos (miles de ) 20 27 36 48 60 90 120

Empleados 10 10 8 5 3 0 4

G=151,9/392,5=0,39 (39%)

Asimetra o sesgo
Una distribucin es simtrica si la mitad izquierda de su distribucin es la imagen especular de su mitad derecha. En las distribuciones simtricas media y mediana coinciden. Si slo hay una moda tambin coincide. La asimetra es positiva o negativa en funcin de a qu lado se encuentra la cola de la distribucin. La media tiende a desplazarse hacia las valores extremos (colas). Las discrepancias entre las medidas de centralizacin son indicacin de asimetra.
115

Apuntamiento o curtosis (kurtosis)


La curtosis nos indica el grado de apuntamiento (aplastamiento) de una distribucin con respecto a la distribucin normal o gaussiana. Es adimensional. Platicrtica: curtosis < 0 Mesocrtica: curtosis = 0 Los grficos poseen la misma media y Leptocrtica: curtosis > 0 desviacin tpica, pero diferente grado
de apuntamiento o curtosis.
300
160

400

140

300 200

120

200
100

100
80

Frecuencia

60

Frecuencia

Frecuencia

100

0 27 37 32 41 45 49 53 57 61 65 69 73 77 81 85 89 93 99

0 3 16 27 32 37 42 47 52 57 62 67 72 77 87 92 97 108 82 116 102 138

40 45 48 51 54 57 60 63 66 69 72 75 78 81 84

Platicrtica

Mesocrtica

Leptocrtica

Medidas de dispersin
Miden el grado de dispersin (variabilidad) de los datos, independientemente de su causa. Amplitud o Rango (range): La diferencia entre las observaciones extremas.
2,1,4,3,8,4. El rango es 8-1=7 Es muy sensible a los valores extremos.

Rango intercuartlico (interquartile range):


Es la distancia entre el primer y tercer cuartil. Rango intercuartlico = P75 - P25 Parecida al rango, pero eliminando las observaciones ms extremas inferiores y superiores. No es tan sensible a valores extremos.

117

Fr 1 0.75 0.5 0.25 0 P25 Q1 P50 Q2


mediana Recorrido o rango intercuartlico

P75 Q3

x
118

Varianza S2 (Variance): Mide el promedio de las desviaciones (al cuadrado) de las observaciones con respecto a la media.

1 2 S = ( xi x ) n i
2
Es sensible a valores extremos (alejados de la media). Sus unidades son el cuadrado de las de la variable.

Desviacin tpica (standard deviation) Es la raz cuadrada de la varianza. Tiene las misma dimensionalidad (unidades) que la variable.

S= S

2
119

Coeficiente de variacin
Es la razn entre la desviacin tpica y la media.
Mide la desviacin tpica en forma de qu tamao tiene con respecto a la media Tambin se la denomina variabilidad relativa. Es frecuente mostrarla en porcentajes

S CV = x

Si la media es 80 y la desviacin tpica 20 entonces CV=20/80=0,25=25% (variabilidad relativa)

Es una cantidad adimensional. Interesante para comparar la variabilidad de diferentes variables.


Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan ms dispersin en peso que en altura.

No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente Por ejemplo 0C 0F Los ingenieros electrnicos hablan de la razn seal/ruido (su inverso). 120

Centrados en la media y a una desviacin tpica de distancia tenemos ms de la mitad de las observaciones (izq.) A dos desviaciones tpicas las tenemos a casi todas (dcha.)

121

Desigualdad de Chebyshev (1821-1894)


Si un conjunto de datos posee una varianza pequea no existirn "muchos valores" alejados de la media. Precisemos: sea el intervalo alrededor de la media:

x k < xi < x + k
1 S = ( xi x ) 2 f i n i 1 1 2 2 2 ( ) ( ) + fi S = x x f x x i i i n i dentro n i fuera del entorno del entorno
2 >0 >0
122

Demostracin:

1 S n
2 2 2

1 ( xi x ) f i n i fuera
2 del entorno

i fuera del entorno

S fi =
2

1 =k S n

i fuera del entorno

1 n

1 fi 2 k i fuera
del entorno

La frecuencia relativa de los datos que caen fuera del intervalo de centro media y radio k veces la varianza es igual o menor que 1/k2
123

7.000 millones y t

Google Public Data Explorer http://www.google.com/publicdata/home Directorio Banco Mundial Poblacin

Cada crculo es proporcional a la poblacin del pas y puedes cambiar el color en la misma aplicacin simplemente picando encima del crculo. Deberan aparecer los siguientes datos: China 1.338 millones de habitantes, India 1.171, EEUU 309, Espaa 46, Nigeria 158, Brasil 195 Datos de 2010 (Banco Mundial, Indicadores de Desarrollo).

Siete mil millones... y usted, sabe qu nmero es? http://www.bbc.co.uk/mundo/noticias/2011/10/111027_7_mil_millones_y_usted.shtml El 30 de octubre de 2011, con el nacimiento de Danica Mae Camacho en Manila, Filipinas se alcanz la cifra de 7 mil millones de habitantes. Es esta noticia una afirmacin exacta? Obviamente se trata de una noticia periodstica coloreada. Es imposible determinar quin ha sido realmente el ciudadano 7.000 millones. Las estimaciones estadsticas poblacionales de la ONU determinan el instante en que se espera el nacimiento del humano 7.000 millones. Se busca el nacimiento en un hospital a nivel mundial ms cercano a ese instante y se utiliza el dato para humanizar la informacin estadstica. Una cuestin simblica discutible.

En http://www.worldometers.info/es/ puedes acceder a un reloj de poblacin mundial y otras estadsticas mundiales a tiempo real.

Entra en http://www.bbc.co.uk/mundo/noticias/2011/10/111027_7_mil_millones_y_usted.shtml introduce tu fecha de nacimiento y determina cul es tu posicin entre los 7.000 millones de habitantes actuales de la Tierra. Prueba con las fechas de tus padres y abuelos. El crecimiento de la poblacin mundial se ha acelerado extraordinariamente a lo largo de las tres ltimas generaciones.

Tres posibles escenarios de la evolucin de la poblacin mundial hasta 2100 segn Naciones Unidas (2010). http://esa.un.org/wpp/Analytical-Figures/htm/fig_1.htm

Sobrepoblacin

Extincin

Cuando el destino nos alcance (Soylent Green, Richard Fleischer, 1973)

Hijos de los hombres (Children of Men, Alfonso Cuarn, 2006)

Ambas pelculas describen futuros distpicos: Cuando el destino nos alcance muestra un planeta Tierra superpoblado en el ao 2022, donde la energa y los alimentos son escasos. E Hijos de los hombres transcurre en 2027 con una humanidad estril abocada a la extincin. Para referencias detalladas de estas pelculas, y ciencia ficcin en general, recomendamos el portal de ciencia ficcin Alt64-wiki (http://www.alt64.org/wiki/)

Si cada persona viva tiene dos progenitores, que a su vez tuvieron dos progenitores, etc necesariamente en el pasado la poblacin era superior a la actual. Piensa que t tienes dos padres, cuatro abuelos, ocho bisabuelos De hecho mientras ms atrs vamos en el tiempo, mayor debera ser la poblacin. Es esto correcto? La falacia se produce porque contamos repetidamente la misma persona muchas veces. Piensa que si una pareja tiene tres hijos y cada uno tiene otros tres, la misma pareja son los abuelos de 9 personas distintas. Adems en todo rbol genealgico se producen cruzamientos entre parientes ms o menos lejanos.

129

Вам также может понравиться