Вы находитесь на странице: 1из 40

Probabilidad y Estadística I

20

13

10
13

17

-10
N= 28 28

ENTRADAS ADJUNTOS

Cátedra: PROBABILIDAD Y ESTADÍSTICA I

1
Probabilidad y Estadística I

ESTADISTICA DESCRIPTIVA

INTRODUCCION

La palabra estadística se ha convertido en la actualidad de uso muy común en nuestro


lenguaje cotidiano y en los medios de comunicación. Podemos escuchar o leer frases
como:
“Estadísticas alarmantes de accidentes de tránsito” ,“ Según las estadísticas …”, “La
Dirección Nacional de Estadísticas y Censos informa…”, “Las estadísticas oficiales
muestran …”, “Una investigación estadística revela que…”
También nos hablan de promedios, números, encuestas, censos, sondeos, azar,
pronósticos, estimaciones, proyecciones, variaciones, etc.
“El 95% de los salteños no usa cinturón de seguridad”, “El 97% de la gente se opone a
la pena de muerte”,”Se realiza la Encuesta Permanente de Hogares…”,”El Servicio
Meteorológico pronostica lluvias aisladas…”
Además, nos muestran gráficos y tablas que dan o complementan la información.
Los gráficos, en general, son confeccionados con datos numéricos que tratan de
explicar el comportamiento de características importantes de algún grupo de individuos,
sean éstos personas, animales o cualquier elemento observable cuyos atributos son de
interés.

Ejemplos

1.- EL TRABAJO DE LA
NIÑEZ EN EL MUNDO
El Tribuno (28/2/97)
Tenemos tres gráficos relativos al
trabajo de la niñez en el mundo.
En uno de ellos la población
mundial de niños está
discriminada según pertenezcan a
países desarrollados o a países en
vías de desarrollo. En el
diagrama circular, se observa la
cantidad de niños que trabajan en
los países en vías de desarrollo.
El tercero se refiere a los niños
que no asisten a la escuela en
distintas regiones del mundo.

2
Probabilidad y Estadística I

2.- PREVALENCIA DE BOCIO. (La Gaceta -


27/8/98)
Un gráfico de barras con ubicación espacial muestra la
prevalencia de bocio en distintos departamentos de la
provincia de Tucumán. El chequeo se realizó entre los
soldados de Regimiento 19 de Infantería en los años 63 a 65.

Prevalencia: La prevalencia se calcula como la razón entre el


número de casos nuevos o viejos que existen en un instante,
sobre la población total en ese instante por 100.

3.- PRODUCCION DE
PETROLEO Y GAS (El
Tribuno 1/2/99)
Se muestra en diagrama de
barras dobles la producción
de petróleo y gas en m3 en
el período 90-98, en Salta.
Las barras para el gas se
las representa con los
tubos de gas.

4.- PUNTUACION EN EL
CAMPEONATO
MUNDIAL DE
FORMULA 1 (El Tribuno
30/8/98)
En un gráfico de líneas se
muestra la puntuación
acumulada obtenida por los
conductores en las carreras
de fórmula 1

3
Probabilidad y Estadística I

5.- CONSUMO DE DROGAS EN ARGENTINA (El Tribuno 19/9/98)


Estadísticas elaboradas por la Secretaría de Programación para la Prevención de la
Drogadependencia y la Lucha contra el Narcotráfico (1998, con datos de 1997).

Sustancias (según porcentaje de Edades de inicio


personas que las utilizan) 5 a 9 años 0,64%
Cocaína 86,57% 10 a 14 años 32,05%
Alcohol 69,15% 15 a 19 años 40,06%
Marihuana 64,18% 20 a 24 años 10,26%
Tranquilizantes 23,88% 25 a 29 años 6,41%
LSD/Alucinógenos 9,95% 30 a 34 años 2,24%
Opiáceos 6,97% 35 a 39 años 2,24%
Anfetaminas 4,48% 40 a 44 años 0,32%
Inhalantes 2,99% 45 a 49 años 0,96%
Pasta base 1,49% 60 a 64 años 0,32%
Heroína 2,00%
Extasis 0,32%
(La suma de los porcentajes excede de
100% debido al policonsumismo).

6.- CENSO 2001 (El Tribuno 27/11/01)

Los números
Capital 471.721
San Martín 133.619
Orán 123.791
Anta 49.467
Gral. Güemes 41.959
Metán 38.958
R. de la Frontera 28.426
Rivadavia 27.374
Cerrillos 26.190
Chicoana 18.179
Cafayate 11.776
Cachi 7.243
San Carlos 7.212
La Viña 7.142
Iruya 6.344
La Caldera 5.689
Los Andes 5.642
Molinos 5.622
La Candelaria 5.285
Sta. Victoria 5.083
Guachipas 3.201
La Poma 1.715
TOTAL 1.065.291

Se muestra con un diagrama de barras, la cantidad de habitantes en la provincia en


los años que se realizaron los censos. Los datos del 2001 colocan a la provincia como el
octavo distrito más poblado del país. La población aumentó en casi todos los
departamentos salteños, excepto en Santa Victoria. La tabla muestra el número de
habitantes por departamento.

4
Probabilidad y Estadística I

En 1865, Salta fue pionera en la realización de un censo provincial, se adelantó


cuatro años al de la Nación que fuera impulsado por el presidente Domingo F.
Sarmiento. En ese entonces, la provincia era habitada por 101.104 personas distribuidas
en 19 departamentos. Había más mujeres que hombre; casi el 90 por ciento de la
población se componía de salteños nativos a los que se clasificaba según el color de
piel: "blancos" o "de color" y los indígenas eran considerados como "población salvaje".

Para adentrarnos en el mundo de la estadística, haremos una referencia histórica para


ver que desde siempre el hombre estuvo preocupado por describir las características de
su entorno y el estado de sus pertenencias.

UN POCO DE HISTORIA

Los pueblos de la antigüedad, recopilaban datos sobre el número de habitantes


disponibles para la guerra, a los fines de planificar estrategias; o el número de personas
que pagaban impuestos, llevando un control detallado de sus bienes. Tenían una gran
preocupación por conocer el capital humano y la distribución de los recursos.
Egipcios y chinos hicieron recuentos poblacionales ya en 3050 y 2200 antes de
Cristo, respectivamente.
Hacia el año 1300 \ 1200 antes de Cristo, los asirios y caldeos efectuaban recuentos
de sus ganados. Estos eran pueblos muy poderosos militarmente, vivían de las guerras.
El conocimiento que tenían de la escritura cuneiforme, permitió que elaboraran
verdaderas bibliotecas con ladrillos de arcilla blanda sobre los que escribían y muchos
de los que se encontraron, tenían cuadros estadísticos.
Los hebreos también hicieron recuentos poblaciones. En el Antiguo Testamento se
citan varios censos, como los realizados por Moisés en el libro de Los Números, cuando
los hebreos escaparon de Egipto hacia la Tierra Prometida. Posteriormente el rey David
realiza un censo de hombres y ganado (Libro de Samuel).
Durante el Imperio Romano se realizaban censos cada 5 años, lo que muestra la gran
preocupación de los romanos por el conocimiento de sus hombres aptos para la guerra y
el pago de tributo de los súbditos, dado el inmenso territorio que debían administrar.
Cuando Jesús nació, los Evangelios cuentan del censo ordenado por César Augusto,
que obligaba a todos los habitantes a regresar a su lugar de origen para empadronarse.
Los romanos establecieron la figura del "censor" o controlador y además clasificaron la
población según su patrimonio.
Con la caída del Imperio Romano, los censos dejaron de tener importancia en la
Edad Media. Pero en esa época, se realizaron distintos registros de propiedades y bienes
de habitantes (Carlomagno- año 786)
Después de la Edad Media, el interés estaba en las estadísticas vitales, el recuento
de nacimientos y muertos debido a las grandes epidemias como la peste de Inglaterra
de 1603.
John Graunt (1620-1674) y Willian Petty (1623-1687) ambos ingleses, fueron
pioneros en los estudios de censos, longevidad y mortalidad.
Se cree que uno de los primeros empleos de datos estadísticos para fines no políticos
tuvo lugar en 1691 a cargo de Gaspar Neumann, un profesor alemán que se propuso
destruir la creencia popular de que en los años terminados en 7 moría más gente que en
los otros. Miró pacientemente en los archivos parroquiales de la ciudad de Breslau en
Silesia, y luego de revisar miles de partidas de defunción pudo demostrar su teoría.

5
Probabilidad y Estadística I

Halley trabajó con los mismos archivos, y aplica sus estudios a la vida humana, sus
procedimientos dieron base a estudios para confeccionar las tablas de mortalidad.
Por otro lado el nacimiento de la teoría de la Probabilidad estuvo marcado por los
grandes matemáticos como fueron Pascal (1623-1662) y Fermat (1601-1665), y las
contribuciones de Poisson (1781-1840) Laplace (1749-1827), de Moivre (1667-1754) y
otros. Las investigaciones del matemático belga Adolphe Quetelet (1796-1874) dieron
un paso importante en la dirección de hacer confluir la Estadística y la Probabilidad.
A la simple recolección de datos, acompañó un desarrollo de la metodología
estadística. Se empezó a usar la estadística en ciencias como física, genética,
meteorología, etc.
Las figuras más importantes a fines del siglo XIX y principios del XX, fueron
Galton (1822-1911) y Pearson (1857-1936).
Galton (primo de Darwin) se interesó en herencias naturales y postuló las "Leyes de
herencia ancestral". Su contribución a la biología fue la aplicación de la metodología
estadística al análisis de la variación biológica.
Karl Pearson(1857-1936) continuó los estudios de Galton y sentó las bases para
gran parte de la estadística Descriptiva y de Correlación.
Gottfried Achenwall, profesor de Política en la Universidad de Gotinga, en 1760,
usó la palabra “Statistik” (estadística) del italiano statista (estadista) para definir la
ciencia de las cosas que pertenecen al estado.
Más remotamente, la palabra parece derivar del latín status, que significa estado o
situación, se usaba en el sentido de "estado político", de allí el uso de los censos que
ayudaban a describir el estado de las características más importantes de la población.
La estadística fue evolucionando hasta llegar a la actualidad de tal manera que su
campo de aplicación se encuentra en todas las áreas, puesto que los datos con los que
trabaja la estadística tienen una característica común: son variables, y sus variaciones
pueden ser medidas de acuerdo a criterios matemáticos muy complejos. Donde existan
factores de variación, es posible aplicar métodos estadísticos.

EJEMPLOS DE APLICACION

Biología (Revista CIENCIA HOY - Volumen 5- N°26)


La península Valdés se encuentra rodeada por una amplia plataforma continental de
menos de 200 m de profundidad, que se extiende varias centenas de Km. hacia el este
antes de alcanzar aguas profundas. Las colonias de reproducción de elefantes marinos
en general se ubican cerca de declives oceánicos que conducen rápidamente a aguas
profundas. Este no es el caso de la península Valdés, sin embargo, la agrupación de
elefantes marinos de esa costa, es la única en el mundo que se encuentra en crecimiento. Se
desconoce la causa de la disminución poblacional de otras agrupaciones importantes, pero
es posible que esté ligado a lo que sucede durante la permanencia de los animales en el
mar. El comportamiento de estos animales en el mar es entonces importante desde el
punto de vista de conservación de la especie.
Un elefante marino pasa sólo el 20% de su vida en la tierra, el 80% restante
permanece en el mar. Sofisticados aparatos permiten registrar la duración y profundidad
de los buceos de elefantes marinos, de donde los biólogos sacan conclusiones del
comportamiento del animal en el mar.
Científicos argentinos realizaron una investigación colocando aparatos registradores
de duración, profundidad y frecuencia de buceos en cinco hembras en el momento en

6
Probabilidad y Estadística I

que éstas dejaron la costa al final del verano patogénico de 1992. Esperaron
pacientemente durante 8 meses hasta el regreso de la colonia a tierra y recuperaron, con
bastante esfuerzo, cuatro de los cinco aparatos. Un resumen de la información se
muestra en la Tabla:

RESUMEN DE LOS RESULTADOS OBTENIDOS DE LOS PATRONES DE


BUCEO DE CUATRO HEMBRAS ADULTAS DEL ELEFANTE MARINO DEL
SUR

Hembr N° de Días Media Medi Max. Medi Max. Media Max. Int. %
a buceos en el buceos a Prof a Dur. Int. Superficie tiempo
mar /HR Prof. (m) Dur. (min) Superficie (min) buceo
(m) (min) (min)
1 3948 70 2.4 409 971 23.8 79 1.6 20 94
2 4137 71 2.6 402 1053 21.7 64 1.6 65 93
3 4080 63 2.7 454 1072 20.5 62 1.7 222 92
4 3671 68 2.2 460 990 25.2 62 1.5 17 93
Total 15836 272
Media 3959 68 2.5 428 1021 22.6 67 1.6 81 93
Desvío 208 3.6 0.2 197 49 7.5 8 0.6 97 1

Las hembras de la península Valdés se


alimentaron por lo menos durante los tres
primeros meses de periodo pre-
reproductivo, fuera de la plataforma
continental (observar la profundidad
media). Sobre la base de la frecuencia y
duración de los buceos y los intervalos en
superficie que separaban inmersiones
consecutivas, se estimó que pasa el 93%
del tiempo en el mar debajo del agua. El
comportamiento de buceo sugiere que los
elefantes marinos son predadores
altamente especializados para la captura
de presas que habitan en grandes
profundidades. La profundidad media de
sus buceos durante las horas de luz es
mayor que durante la noche. Esto sugiere
que persiguen presas que tienen una
migración vertical, posiblemente
acompañando los movimientos ascendentes
y descendentes del plancton, asociados a la
cantidad de luz que penetra en el mar. La
mayor parte de los buceos tienen
necesariamente que ver con la alimentación.
Pero algunos pueden tener que ver con estados de sueño o con evasión de predadores.
Queda por delante mucho más que investigar sobre estos sorprendentes animales.

7
Probabilidad y Estadística I

Sociología (El Tribuno - 17/7/98)


El alcoholismo es uno de los indicadores sobre enfermedad y muerte que tiene un
grave impacto en nuestra provincia. Un estudio fue realizado en los hospitales
capitalinos con la idea de promover jornadas de reflexión y concienciación sobre la
problemática que afecta a muchos salteños. Sobre las 612 historias clínicas de los
pacientes internados en el Hospital del Milagro durante 1996, se investigó distintas
variables que se muestran en las tablas.

Fuente: Hospital del Milagro Edades


14-33 21 10,34%
INTERNADOS
No 409 66,83% 33-53 113 55,67%
alcohólicos
Alcohólicos 203 33,17% 53-73 55 27,09%
Total-1996 612 100,00%
> 73 14 6,90%

ORGANOS AFECTADOS
Digestivo 86 42,36% Sexo
Respiratorio 65 32,36% Masculino 192 94,58%
Sistema N. Central 25 12,32%
Piel 31 15,27% Femenino 11 5,42%
Sistema N. Periférico 16 7,88%
Aparato 11 5,42%
cardiovascular Estado Civil
Génito-urinario 1 0,49% Soltero 119 58,62%

Casado 68 33,50%

Viudo 13 6,40%
Divorciado 3 1,48%

El alcoholismo es un flagelo que no sólo deteriora a la persona que lo padece sino


también a su entorno en lo social, económico, cultural. Por ejemplo es uno de los
desencadenantes en problemáticas como accidentes, maltrato, abandono familiar,
abusos y criminalidad, entre otros.

Nuestro trabajo está, entonces, interrelacionado con las otras ciencias. Pero es
necesario definir cuál es la competencia de la estadística en cada estudio. Es por eso que
ahora daremos una definición formal de la estadística como ciencia.

8
Probabilidad y Estadística I

ESTADISTICA
La estadística es la ciencia que estudia los métodos para recoger, organizar,
resumir y analizar datos, así como para sacar conclusiones válidas y tomar
decisiones razonables en situaciones de incertidumbre.

De esta definición surgen dos ramas importantes de la estadística:

Estadística Descriptiva
Tiene por objeto presentar y resumir los datos mediante cuadros, tablas y gráficos
con la finalidad de describir las características del conjunto observado. Se obtienen
conclusiones que no van más allá de ese conjunto.

Estadística Inferencial
Tiene por finalidad extender o generalizar conclusiones para un conjunto mayor que
el de los datos observados.

TRATAMIENTO DE DATOS

Los datos son la materia prima de la estadística. Cuando realizamos un estudio, o


iniciamos una investigación, tenemos un conjunto de individuos. Seleccionamos uno o
varios detalles o caracteres en esos individuos, que sean de interés para la investigación.
Vemos cómo se manifiestan esos caracteres en cada uno de los individuos y
recopilamos esa información. Esta información recopilada constituye los DATOS y su
tratamiento, organización, resumen, interpretación es el trabajo estadístico.

Tipos de datos
1- Datos de encuesta: la recopilación se realiza sin control de ninguno de los factores que
influyen en la característica de interés.
Ejemplo: El relevamiento de datos que se hace en un censo: a cada individuo del país se le
consulta sobre distintos caracteres individuales como: edad, sexo, estado civil, trabajo,
ingreso, escolaridad, etc.

2- Datos experimentales: la recopilación se realiza haciendo un control sobre uno o más


factores de influencia.
Ejemplo: Se quieren comparar dos métodos de enseñanza en base a los rendimientos
obtenidos en los alumnos. Se eligen dos grupos de estudiantes y se les implementa un
método a cada uno. Se realiza una evaluación al término de la experiencia para registrar los
puntajes obtenidos.

Por otro lado, cuando los datos de encuesta se refieren a una recopilación sobre todos
los elementos bajo estudio, esa recopilación es un CENSO. El conjunto de todos los
elementos bajo estudio se llama POBLACION.
Cuando se realiza la recopilación a una parte de la población (seleccionada
adecuadamente) se dice que es una encuesta POR MUESTREO y al conjunto
seleccionado se le llama MUESTRA.

9
Probabilidad y Estadística I

La Estadística Descriptiva trata los datos independientemente de que provengan de


una población o una muestra. Describe ese conjunto de datos y saca conclusiones. Si se
trata de una población, las conclusiones son válidas. Si es una muestra, las conclusiones
se refieren sólo a la muestra, pero dan pie para que estudios posteriores (de la
Estadística Inferencial) generalicen esas conclusiones para la población.
Para que las conclusiones sean válidas es necesario confiar en los datos con los que
estamos trabajando, o sea estar seguros que son lo más fidedignos posibles. ¿Por qué en
algunos casos tenemos una muestra y no una población? Existen muchas razones para
esto: menor costo, más rapidez, imposibilidad de tomar toda la población.
En algunos procedimientos, el mismo relevamiento hace que el individuo particular
desaparezca. Por ejemplo en el estudio del tiempo de vida de lámparas eléctricas se
toma el tiempo para cada lámpara desde que se la enciende hasta que se quema. Es decir
que para tomar el dato, la lámpara se destruye. Estamos obligados a tomar una muestra.
El modo de registrar los datos también es importante. Un método directo es la
observación. Se puede hacer entrevistas personales, telefónicas, por correo, mediciones,
etc. O en forma indirecta, se pueden tomar registros o relevamientos ya realizados por
otros. En la actualidad, el registro, o las mediciones son cada vez más precisas, con la
ayuda de las nuevas tecnologías.
Los datos son valores observados de una variable. Vamos a llamar variable a la
característica bajo estudio que puede tomar valores (o modalidades) diferentes. Esta
variable podrá ser medida o no.
Veamos algunos ejemplos:
*Un biólogo puede estar interesado en la longitud de las hojas de cierta planta.
*Un médico puede estar interesado en el nivel de colesterol en la sangre de los
pacientes del hospital.
*Un sociólogo estudia el status socioeconómico de las personas.
*Un educador estudia el nivel de escolaridad alcanzado por los habitantes de cierto
lugar.
En todos los casos tenemos variables en estudio:
*longitud de las hojas (medida en cm., mm., etc)
*nivel de colesterol en sangre (medido en mg/dl)
*status socioeconómico (alto, medio, bajo)
*escolaridad (primario, secundario, universitario)
Observemos que algunas variables tienen una característica numérica (son medibles)
otras se distinguen por modalidades (no son medibles). Esto nos sirve para realizar una
clasificación de las variables:
Cualitativas: no son susceptibles de medición. Los objetos bajo estudio se clasifican
según categorías o modalidades bien definidas, mutuamente excluyentes y exhaustivas.
Cuantitativas: tienen una característica numérica, son medibles.

10
Probabilidad y Estadística I

Nominales Las categorías se distinguen por su nombre y no


guardan ninguna relación entre ellas.Ej.: color de
ojos
Cualitativas
(categóricas)
Ordinales Las categorías guardan entre sí un orden preestablecido.
Ej.: Escolaridad

Variables Discretas Provienen casi siempre de un proceso de contar, por lo que,


en general asumen valores enteros. Ej.: Cantidad de errores
en un texto.

Cuantitativas
(numéricas) Continuas Entre dos valores dados pueden tomar cualquiera de los
valores intermedios, por lo tanto asumen valores reales.
Provienen generalmente de mediciones. Ej.: altura.

ESCALAS DE MEDICIÓN

Las mediciones tienen algo así como grados de perfección, según cumplan más o
menos todas las propiedades inherentes a los números. Son los niveles de medición.
Estos se dividen en cuatro escalas fundamentales: nominal, ordinal de intervalos y de
razón. La escala de nivel más elevado requiere normas más restrictivas, luego tiene más
perfección.

Escala nominal
Es el nivel más elemental. Divide a los objetos según sean iguales o no con respecto
a una característica y se utiliza en la clasificación de atributos. Se asignan modalidades
o categorías a los individuos.
Las clases, dadas por las categorías, son
mutuamente excluyentes. Es posible intercambiar
las categorías sin perder ninguna información. La
única relación posible es la de equivalencia. Es
decir los miembros de una clase son
"equivalentes" en la característica observada. La
relación de equivalencia es reflexiva, simétrica y
transitiva. Es posible una asignación numérica a
las clases, pero estos números sólo operan como
simples etiquetas de identificación, es una
codificación.

Ejemplo
La variable nominal "Región", según la cual fueron clasificadas las provincias
argentinas, usa para su clasificación la escala nominal. En el gráfico se observan las
categorías y sus frecuencias porcentuales.

11
Probabilidad y Estadística I

Escala ordinal
Esta escala divide a los objetos en categorías iguales o no con respecto a una
característica, donde las categorías están relacionadas Daño Neurológico
entre sí, o sea que hay un orden que puede ser parcial o
total.
Se puede realizar cualquier transformación que
mantenga el orden. Además de la relación de
equivalencia se tiene la relación de orden, que es
irreflexiva, asimétrica y transitiva.

Ejemplo
La variable ordinal "Daño neurológico" usa la escala ordinal para su clasificación.
En el gráfico vemos las categorías consideradas por el neurólogo.

Escala de intervalos
La usamos en variables cuantitativas. Está caracterizada por una unidad de medida
común y constante. Las distancias iguales, desde el punto de vista numérico,
representan distancias iguales empíricas en alguna característica de la variable bajo
estudio. La unidad de medida y el cero son arbitrarios. El cero no significa ausencia.
Todas las operaciones de la aritmética se pueden realizar. Las transformaciones deben
conservar el orden y las diferencias relativas. La medición es mucho más eficiente
porque se conocen las distancias entre dos números de la escala.

TEMPERATURAS ESTIMADAS
TEMPERATURAS

40
30
MAX EST NORTE
20
MIN EST. NORTE
10
0
1
3
5
7
9
11
13
15
17
19
21
23
25
27
29
31

DIAS DE ENERO

Ejemplo
La temperatura se mide en escala de intervalos. En el gráfico se observan las
temperaturas estimadas para los días de enero en el norte de la provincia de Salta, en el
año 1999.

Para la medición de temperatura se usan principalmente dos escalas: la Celsius y la


Farenheit. Los ceros y las unidades de medida son distintos en ambas escalas, ambas
cosas son arbitrarias. Sin embargo las dos presentan la misma información. Hay una
función lineal entre ellas:

9
ºF =
º C + 32
5
Algunos valores equivalentes en ambas temperatura se observan en la tabla:

C -17,8 0 10 30 100
F 0 32 50 86 212

12
Probabilidad y Estadística I

Observemos que las relaciones de diferencias en cada escala son iguales a la relación
de diferencias equivalentes en la otra escala:
(30 − 10) (86 − 50)
° C: =2 ° F: =2
(10 − 0) (50 − 32)

O sea que la relación de intervalos es independiente del cero y de la unidad de


medida.

Escala de razón
Es igual que la de intervalos pero tiene un cero real en su origen. La razón entre dos
puntos es independiente de la unidad de medida. Todas las operaciones aritméticas están
permitidas.

Ejemplo
Las medidas que conocemos, como peso,
longitud, volumen, etc. usan escala de razón. El
gráfico es un histograma del peso en kg. de 40
crías vacunas de pocas semanas en una granja.

ORGANIZACIÓN DE DATOS DE VARIABLES CATEGÓRICAS

Con las variables categóricas lo más sencillo es realizar una tabla de frecuencias. Se
puede representar un diagrama de tortas o de barras. En general convienen barras si la
variable es ordinal, pero todo depende de la cantidad de categorías consideradas. En los
ejemplos anteriores, la variables "Región" es categórica nominal y se representó un
diagrama de tortas para mostrar la información. La variable "Daños neurológicos", es
categórica ordinal y se representó en un diagrama de barras. Según los datos se pueden
hacer barras múltiples que facilitan la comparación de distintos grupos.
En una investigación sobre el uso de Internet, se consideró la variable "artículos
adquiridos en la red”. Esta es una variable cualitativa nominal, tiene como principal
finalidad mostrar cuales son los productos que más se compran a través de la red de
INTERNET. Se muestra la tabla y el gráfico con la información:
Artículos comprados en la

Artículo frecuencia
CD 14
Software 13
Libros 18
Electrónicos 10
Pasajes 5
Total 60

13
Probabilidad y Estadística I

Se debe observar que la información se transmite en el área de los sectores que


corresponden a cada categoría. Cuando el dibujo se hace en perspectiva y no en el plano
del dibujo, la información puede estar distorsionada. Los porcentajes podrán tener cifras
decimales sólo si es necesario de acuerdo al tipo de datos o nivel de información que se
quiere mostrar. Se puede redondear, pero este redondeo debe tener en cuenta la suma
100 en el total. Los sectores pueden ser de coronas circulares. Cualquier modificación
debe tender a brindar mejor la información y no ha complicarla.
En una encuesta a profesores de tres escuelas de enseñanza técnica, se consultó sobre
el título que poseían. La información se muestra en la tabla y el gráfico de barras:

Tipo_Título Frecuencia
Secundario 6
Terciario 117
Universitario 27

Observar de nuevo que un gráfico


sencillo en el plano del dibujo es claro y muestra una información sin distorsión. El
diagrama de barras muestra en la altura de cada barra la información de la frecuencia de
cada categoría. Se pueden realizar gráficos de barras múltiples, cuando se quiere
comparar distintos grupos. Las barras pueden además presentarse en forma horizontal.

Una variante, surgida especialmente por el uso de la computadora, es dibujar en tres


dimensiones, lo que no siempre resulta mejor. Se debe recordar que la información debe
llegar con la mayor claridad posible.

Observemos en este gráfico, la dificultad para distinguir la verdadera altura que


corresponde a cada barra.

Además, el eje vertical no comienza en el origen, lo que da una idea equivocada del
tamaño relativo de las barras.

14
Probabilidad y Estadística I

Otro problema que se presenta en las barras es cuando por razones de espacio, se
cortan las barras cuando son demasiado largas. Los cortes significan que un trozo de la
barra no está representado. Si la idea es comparar, los cortes deben ser iguales en todas
las barras. Si hay valores muy diferentes, conviene no considerar algunas variables con
valores alejados del resto.

Las barras también se usan combinadas en la pirámide de población, donde se


representa la cantidad, el sexo y la edad de la población de un país o región:

Varones Mujeres

Edad

Cantidad

Pictogramas
Otra forma de presentar la información con un gráfico descriptivo que llame más la
atención del lector, es el pictograma. Pero se debe tener cuidado de no provocar una
impresión exagerada.
Supongamos que los sueldos promedios de los empleados de dos empresas se
quieren comparar. Una empresa paga a sus empleados una suma promedio de $1200 y
la otra paga $600. Los números están en una relación de 2 a 1. Bastará hacer un
diagrama de barras con las alturas que cumplan esa relación. Pero supongamos que
presentamos el siguiente dibujo:

$ 600 $1.200

15
Probabilidad y Estadística I

Las bolsas representan dinero, y eso es válido. La información está en la altura (igual
que en las barras), pero la visualización ya no es la misma porque el hecho de que sean
bolsas da una idea de volumen y el ojo aprecia más que el doble en la bolsa más grande.
De esta manera se logra dar una impresión exagerada de la información verdadera.
El uso de pictogramas hace más atractivo el diseño de los gráficos, pero debe tenerse en
cuenta lo siguiente:
• Usar símbolos sencillos
• Repetir los símbolos para indicar mayor cantidad (no agrandarlos)
• Usarlos sobre todo para hacer comparaciones

Gráficos de líneas
Para algunos tipos de datos será conveniente la representación gráfica con una curva
simple (diagrama de líneas). Es lo que ocurre cuando tenemos una variable con
clasificación temporal (series cronológicas o series de tiempo). Es importante en este
caso la escala elegida para los ejes, ya que la impresión visual del gráfico no debe ser
exagerada en ningún sentido. Los gráficos de líneas que se muestran a continuación son
las temperaturas estimadas máxima y mínima, en enero de 1999, registrada día a día en
el norte de la provincia de Salta.
Los tres gráficos muestran la misma información, pero en los tres la impresión visual
es diferente, debido a las diferentes escalas usadas en los ejes.

1.- T E M P E R A T U R A S E S T IM A D A S

40
30 TE
M
PE
RA
TU
R
ASE
S
TIM
A
DA
S
20
10
2.-
TEMPERATURAS

0
40
1

11

13

15

17

19

21

23

25

27

29

31

40
D IA S D E E N E R O
30
30
TEMPERATURAS ESTIMADAS
3.- 20
20
TEMPERATURAS

40 10
30
10
0
20 0
10
1
3
5
7
11
9
13
15
17
19
21
23
25
27
29
31

0
1
3
5
7
9
11
13
15
17
19
21
23
25
27
29
31

El gráfico 1 dá una impresión de una zona muy estable térmicamente, en cambio el 2


muestra una región de temperaturas muy variables. El 3 da una visión más real.

16
Probabilidad y Estadística I

ORGANIZACION DE DATOS DE VARIABLES NUMÉRICAS

Distribuciones de frecuencia de variables discretas


Las variables numéricas se organizan en tablas de frecuencias. La tabla resume la
presencia de los datos registrados, indicando la frecuencia absoluta con que se presenta
cada valor. Establecemos algunas definiciones para el conjunto de datos que se tiene:

N : cantidad de datos
fi : frecuencia absoluta del dato i-ésimo. Cantidad de veces que se presenta el dato en el
lote.
f
hi: frecuencia relativa del dato i-ésimo. hi = i
N
i
Fi : frecuencia absoluta acumulada hasta el dato i-ésimo. Fi = ∑ f i
j =1
i

F
∑f
j =1
i

Hi: frecuencia relativa acumulada hasta el dato i-ésimo. H i = i =


N N

Estas frecuencias se muestran en una tabla que constituirá la distribución de


frecuencias del lote de datos.

Ejemplo:
Se estima que en Asunción del Paraguay existen alrededor de 15.000 niños que
trabajan en las calles, con ocupaciones diversas, desde la mendicidad, hasta de
carretilleros en mercados, vendedores ambulantes, etc. Con datos de encuestas
realizadas por la UNA (Universidad Nacional de Asunción – Paraguay) a un total de
206 “niños de la calle” de Asunción, se estudiaron diversas variables. Entre ellas, el nro.
de hermanos/as que tiene c/u de los encuestados,

Tabla 1.- Número de hermanos de 206 niños de la calle


Asunción. Datos de la UNA

Nº de Frecuencia Frec. Relat. Frec.


hnos. % Acum.
0 23 11,16 23
1 37 17,96 60
2 58 28,16 118
3 57 27,67 175
4 18 8,74 193
5 10 4,85 203
6 3 1,46 206
Total 206 100

La variable es discreta, por lo tanto el gráfico más conveniente es el diagrama de


bastones. La idea es la misma que en el diagrama de barras: la frecuencia se muestra en

17
Probabilidad y Estadística I

la altura del bastón, llamado así para distinguir de la barra, ya que en este caso al
tratarse de valores numéricos, se trata sólo de un segmento. El diagrama de frecuencias
acumuladas muestra una función de la cantidad de datos "menores que" para todos los
valores reales. Por lo tanto se trata de una función escalonada, con los valores indicados
en la tabla, ya que no puede haber datos intermedios entre dos valores dados. Se
muestran ambos diagramas a continuación:

Gráfico 1.- Diagrama de Gráfico 2.- Diagrama de frecuencias


bastones acumuladas
Número de hermanos Número de hermanos

Distribuciones de frecuencia de variables continuas


Si la variable es continua, no podemos ignorar que se pueden obtener valores
intermedios entre dos datos dados. Por lo tanto los diagramas serán diferentes.
Cuando tenemos variables continuas, organizamos la tabla de frecuencias definiendo
intervalos de clase. Esta tabla permite realizar un gráfico llamado histograma.

Ejemplo
Los siguientes datos son las notas de 41 alumnos de un curso de Estadística,
calificados de 0 a 100:

81 87 86 60 51 90 88 90 78
100 97 70 88 88 90 60 45 60
62 11 50 91 35 97 63 100 91
41 81 98 74 89 98 76 47 66
78 60 94 53 75

Los datos se clasifican en intervalos, llamados intervalos de clase. En cada intervalo


se representa la frecuencia correspondiente con una barra. Los intervalos deben ser
exahustivos y no solapados.
La primera pregunta que se nos presenta cuando tenemos un conjunto de datos de
variables continuas es: ¿cuántos intervalos se deben realizar?. Se recomienda no menos
de 5 ni más de 20, dependiendo de la cantidad de datos que tengamos. Otra alternativa
es usar la fórmula de Sturges que recomienda para intervalos de igual tamaño:

Nº de intervalos = 1 + 3. 33 log N

siendo N la cantidad de datos. Esta fórmula es útil cuando N es muy grande, pudiendo
usarla como una guía y a partir de allí hacer algunos cambios convenientes.

18
Probabilidad y Estadística I

Los datos se agrupan con el fin de brindar información más rápida, pero al formar los
intervalos se pierde la información puntual. Se debe cuidar no perder demasiada
información.
En el histograma, las frecuencias de clase están representadas por el área de la barra
en cada clase. Por esto la altura de cada barra, será la frecuencia dividida por la
amplitud del intervalo. Si los intervalos son de la misma amplitud, se puede realizar el
histograma usando las frecuencias como alturas, ya que en ese caso el diagrama es el
mismo, sólo sufre un cambio de escala que no modifica la información mostrada. El
área de todas las barras es N, y en el caso de usar frecuencias relativas, el área es 1.
Dentro de lo posible, es conveniente trabajar con intervalos de igual amplitud.
Sobre el histograma se dibuja el polígono de frecuencias, se obtiene uniendo los
puntos medios de la parte superior de cada barra; se suele agregar intervalos de
frecuencia cero al comienzo y al final, para comenzar y terminar el polígono en el eje.
El polígono de frecuencias muestra la misma información que el histograma, pero da
una idea de crecimiento o decrecimiento más real que las barras del histograma.
Con los datos del ejemplo dibujaremos diferentes histogramas a fin de elegir el más
conveniente. Para cada caso se muestra la tabla de distribución de frecuencias por
intervalos y el gráfico obtenido con el programa ”Asistente de Estadística” en la
computadora. Como son intervalos de igual amplitud, el eje vertical muestra
frecuencias.

Histograma 1: 20 intervalos de amplitud 4.55

19
Probabilidad y Estadística I

Para tan pocos datos es una cantidad exagerada de intervalos. No se ha perdido


demasiada información, pero no resulta fácil hacer un análisis global rápido. Veamos el

histograma:

Histograma 2: 13 intervalos de amplitud 7

20
Probabilidad y Estadística I

Son menos intervalos, pero sigue siendo un problema para el análisis a juzgar por los
bruscos cambios de dirección del polígono de frecuencias.

Histograma 3: 7 intervalos de amplitud 13

En este caso se ha usado


la sugerencia de la fórmula
de Sturges, dibujando 7
intervalos. Se ha logrado
más suavidad en la curva
(polígono), aunque todavía
hay un cambio brusco en el
quinto intervalo. Un cambio
así puede ser importante de
tener en cuenta, o también
puede ser que sólo sea
producto de la elección de
los intervalos. En este caso el inconveniente que se presenta es que los límites de
intervalos son números enteros y como consecuencia algunos datos caen justo en los
límites, cosa que no es recomendable.

Histograma 4: 7 intervalos de amplitud 14.286

Conservando la cantidad de intervalos,


hemos variado la amplitud. Logramos un
histograma que nos muestra en forma
clara y rápida el rendimiento de los
alumnos. Aunque los límites de intervalos
tienen muchos decimales, ningún dato

21
Probabilidad y Estadística I

cae en la frontera de intervalos. Además se puede redondear la amplitud en 14.3. El


aspecto del histograma sería el mismo.

Histograma 5: 5 intervalos de amplitud 8.2

De nuevo se presenta un
quiebre del polígono. Es posible
que con una pequeña traslación
se consiga suavizar la curva. Si
esto persiste se debe investigar la
causa.
Vemos cómo al ir
disminuyendo la cantidad de
intervalos, se va perdiendo más
información.

Histograma 6: 3 intervalos de amplitud 31

En este caso se ha perdido demasiada


información, no es conveniente aún si la
cantidad de datos es chica, tener menos de
cinco intervalos. Tenemos 25 alumnos en la
última clase y no sabemos cuántos estarán en
los puntajes más altos.
Cada investigación tendrá que decidir el
histograma más conveniente. El tipo de datos,
la cantidad, lo que se quiere resaltar, etc.
harán más clara la opción.

22
Probabilidad y Estadística I

Para continuar con nuestro análisis, elegiremos el histograma de 7 intervalos, pero


con amplitud 14, para tener una tabla más clara a la lectura. Cada intervalo se considera
cerrado a la izquierda y abierto a la derecha, para el caso en que algún dato caiga justo
en el límite de dos intervalos. En la distribución de frecuencias por intervalos de clase
usamos la siguiente nomenclatura:

I i : intervalo iésimo - I i = [ l i ; l i+1 )

fi : frecuencia absoluta del intervalo i-ésimo. Cantidad de datos en el intervalo.

x i´ : punto medio del intervalo iésimo.

fi
hi: frecuencia relativa del intervalo i-ésimo. hi =
N
i
Fi : frecuencia absoluta acumulada hasta el intervalo i-ésimo. Fi = ∑ f i
j =1
i

F
∑f
j =1
i

Hi: frecuencia relativa acumulada hasta el intervalo i-ésimo. H i = i =


N N

Tabla 2.- Distribución de frecuencias para las notas de 41 alumnos de Estadística:

Clases Intervalo Frecuenci Punto Frecuenci Frecuenci Frec.


I a medio a relativa a Relat.
f x´ h acumulada Acumulad
F a
H
1 10-24 1 17 0.024 1 0.024
2 24-38 1 31 0.024 2 0.048
3 38-52 5 45 0.122 7 0.170
4 52-66 7 59 0.171 14 0.341
5 66-80 7 73 0.171 21 0.512
6 80-94 13 87 0.317 34 0.829
7 94-108 7 101 0.171 41 1

Gráfico 3.- Histograma:

Notas
13
Estadística El histograma nos da
información sobre el
conjunto de datos que se
analiza. Por ejemplo nos
permitirá responder
7 preguntas como:
5
En qué rango de
valores están nuestras
notas?
1

10 24 38 52 66 80 94 108 23
Probabilidad y Estadística I

Los datos están muy concentrados? O dispersos?


En qué intervalo se tiene la mayor frecuencia?
Hay notas muy bajas?
Hay notas muy altas?
Qué se puede decir del rendimiento de estos alumnos? etc.

Gráfico 4.- Diagrama de frecuencias acumuladas:

Notas
41

34

21

14

1010 2424 3838 52


52 66
66 80
80 94
94 108
108

El diagrama de frecuencias acumuladas se obtiene dibujando las barras de cada


intervalo con una altura igual a la frecuencia acumulada. Sobre el diagrama se dibuja
una poligonal uniendo los puntos extremos superiores derechos de cada barra
acumulada. Esta curva, llamada “ojiva”, representa el crecimiento de la frecuencia
acumulada, suponiendo que los datos dentro de cada intervalo están uniformemente
distribuidos. La ojiva nos permite responder preguntas como:
¿Cómo crece la frecuencia a medida que aumentamos la nota? ¿Cuántos alumnos
tendrán notas menores que 80? ¿Cuántos tendrán notas menores que 60? ¿Qué
porcentaje supera los 90 puntos? ¿Qué notas tienen el 25% de menor puntaje? etc. Para
responder algunas preguntas será necesario interpolar en la ojiva.
El mismo diagrama, con el cambio de escala correspondiente, representará la
frecuencia acumulada porcentual y esto nos permitirá responder los mismos
interrogantes en valores porcentuales.
Si la variable es discreta se usa el diagrama de bastones. Si es continua se puede
realizar un histograma. Pero la cantidad de datos en realidad nos inclinarán por una u
otra opción, de tal manera que la información se muestre en forma sencilla se pueda
describir lo observado.

24
Probabilidad y Estadística I

ANALISIS NUMERICO

Trabajando con las variables numéricas vimos las distribuciones de frecuencias de


variables discretas y continuas y sus representaciones gráficas.
El histograma representa la frecuencia de cada intervalo en el área del rectángulo
correspondiente. Lo mismo puede decirse del polígono de frecuencias, entonces el área
bajo el polígono representa el total de los datos; si se trata del histograma de frecuencias
relativas, el polígono correspondiente encerrará in área igual a 1. Podemos ajustar el
histograma por una curva suave, que cumpla la misma propiedad. La forma de esta
curva representará la distribución particular que se esté estudiando. Según los datos, se
tendrán distintas formas, de las cuales las más importantes son las siguientes:

Formas simétricas:

Formas asimétricas:

Forma J: Forma J invertida:

Si bien estas formas serán visibles ya con el histograma, será necesario hacer un
análisis más profundo para describir distintas características. Por ejemplo, dónde se
encuentra la distribución respecto a un eje, qué tendencia central tienen los datos, cómo
se concentran, cómo medimos la simetría, etc.
Para el estudio de estas características definiremos las medidas de posición,
dispersión y asimetría.

25
Probabilidad y Estadística I

MEDIDAS DE POSICIÓN
Cuando tenemos un conjunto de N datos, decimos que tenemos un lote y lo
simbolizamos con X, la variable en estudio:
X X1 , X2 , . . . , XN
Variable Datos

Media aritmética: Se llama Media aritmética ( X ) de un lote de datos al promedio de


los valores del lote:
N

X 1 + X 2 + ...+ X N ∑X
i =1
i
X = =
N N

Si los datos están agrupados en una distribución de frecuencias podemos usar


fórmulas alternativas.
a) Caso discreto:

X f + X 2 f 2 + ...+ X N f N ∑X
i =1
fi
X= 1 1 =
f 1 + f 2 + ...+ f N N

∑f
i =1
i

Ejemplo: Usando los datos de la Tabla 7.1:

Nº de Frecuencia 206

hnos. ∑X
i =1
i i f
0 23 X= 206
=
1 37 ∑f
i =1
i
2 58
3 57 0 × 23+1× 37 + 2 × 58+ 3 × 57 + 4 ×18+ 5 ×10+ 6 × 3
= =
4 18 206
5 10 = 2.25
6 3
Total 206

b) Caso continuo:
Si los datos están agrupados en intervalos de clase, se ha perdido la información de
los valores puntuales, por tal motivo el cálculo de la media se hace aproximado. En cada
intervalo, la marca de clase, que es el punto medio del intervalo, representa cada uno de
los datos. Entonces:

∑f x
'
f x + f 2 x 2 + ...+ f n xn
' ' '

X= 1 1 =
i i

f 1 + f 2 + ...+ f n ∑f i

26
Probabilidad y Estadística I

Ejemplo: En el caso de los rendimientos de 41 alumnos:

Clases Intervalo Frecuenci Punto


I a medio
f x´
1 10-24 1 17
2 24-38 1 31
3 38-52 5 45
4 52-66 7 59
5 66-80 7 73
6 80-94 13 87
7 94-108 7 101

∑f x
'
1× 17 + 1× 31+ 5 × 45 + 7 × 59 + 7 ×73 + 13× 87 + 7 × 101
X= = = 74.02
i i

∑f i 41

Propiedades de la Media
1.- Si se aplica una traslación a un conjunto de datos, (sumamos una constante c) la
media sufre la misma traslación.
Variable Datos Media
X x1 , x2 , . . . , xN X
Y Yi = Xi + c Y = X +c

2.- Si multiplicamos por una constante, produciendo un cambio de escala, la media


sufre la misma transformación.
Variable Datos Media
X X1 , X2 , . . . , XN X
Y Yi = Xi c Y = X c

3.- La media representa a cada uno de los datos. El producto N X reproduce la suma
de todos los datos, se obtiene sumando n veces el mismo valor, la media:

N
NX= ∑X
i =1
i

∑ (X − X )= 0
N
4.- La suma de los desvíos respecto a la media es cero. i
i =1

5.- Si consideramos que la distribución en el eje


real es una distribución de pesos en una varilla de tal
forma que en cada punto el peso es igual a la
frecuencia, la media es el punto de equilibrio de esa
distribución.
Esquemáticamente:

X
27
Probabilidad y Estadística I

Además de estas propiedades, la media tiene la ventaja de que tiene un tratamiento


algebraico fácil. Pero tiene la desventaja de ser afectada fuertemente por valores
extremos. Un solo dato extremo puede hacer que la media sufra un desplazamiento
importante, dejando de ser una buena representante del conjunto.

Ejemplo: El lote 3, 4, 5, 7, 8, 9, tiene media igual a 6. El lote 3 ,4, 5, 7, 8, 26 tiene


media igual a 8.33 Ambos lotes sólo difieren en un dato:

3 4 5 7 8 9
X

3 4 5 7 8 26
X

Mediana: Se denomina Mediana (Me) al número real tal que a lo sumo el 50% de los
datos son menores que él y a lo sumo el 50% son mayores.
Si el número de datos es impar, la mediana es el valor central. Si hubiese un número
par de datos, la mediana es por convención, la media aritmética de los dos valores
centrales.
Sea el lote de datos: X1 , X2 , . . . , XN . Para indicar el orden en el lote usaremos la
notación:

X(1) , X(2) , . . . , X(N)

N impar: N par:

Me = X  N + 1  X N  + X N 
     +1 
 
Me =  2   2 
2

Ejemplos:
a) Si tenemos los siguientes datos, 11, 3, 7, 4, 8, para calcular la mediana ordenamos
los datos de menor a mayor,
3, 4, 7, 8, 11
como hay cinco datos distintos el valor central es el tercero, o sea la mediana es
Me = 7.

b) Si se agrega un 6 al lote anterior, tenemos un número par de datos:


3, 4, 6, 7, 8, 11
en este caso cualquier número del intervalo [6,7] cumple con la definición y puede
ser Mediana. Por convención se toma el punto medio del intervalo, Me = 6,5
Si los datos ya están ordenados en una tabla de distribución de frecuencias,
trabajando con las frecuencias acumuladas podremos encontrar la mediana:

a) Caso discreto: Usando de nuevo los datos de la Tabla 1:

28
Probabilidad y Estadística I

Número de hermanos de 206 niños de la calle


Asunción. Datos de la UNA
Como tenemos un número par de
Nº de hnos. Frecuencia Frec. Acum. datos, usaremos la fórmula:
0 23 23 X N  + X N 
   +1 
1 37 60 Me =  2   2 
=
2 58 118 2
3 57 175
4 18 193 X (103 ) + X (104 ) 2+2
= =2
5 10 203 2 2
6 3 206
Total 206 La columna de frecuencias
acumuladas nos permite encontrar los
valores centrales X(103) y X(104) en la
fila correspondiente al dato igual a 2.

b) Caso continuo:
Ejemplo: En el caso de los rendimientos de 41 alumnos:

Clases Intervalo Frecuenci Frecuenci


I a a El diagrama de frecuencias
f acumulada acumuladas representa las frecuencias
F acumuladas de cada intervalo. Se
1 10-24 1 1 reconoce el intervalo mediano como
2 24-38 1 2 aquel que tiene acumulada la mitad de
3 38-52 5 7 la distribución: N/2.
4 52-66 7 14
5 66-80 7 21
6 80-94 13 34
7 94-108 7 41

N 41
En este caso = = 20.5 , el intervalo mediano es el quinto intervalo.
2 2
Interpolando la curva ojiva, se encuentra la mediana en el eje de abscisas:

Notas
41

34

21
20.5

14

2
Me
1010 2424 3838 52
52 66
66 80
80 94
94 108
108

29
Probabilidad y Estadística I

Se calcula así la mediana mediante la fórmula dada por la interpolación:

N
− F j −1
2 20.5 − 14
Me = l j + c = 66 + x 14 = 79
fj 7
donde:
lj: límite inferior del intervalo j-ésimo (en este caso el intervalo mediano)
Fj-1: frecuencia acumulada hasta el intervalo anterior al j-ésimo
fj : frecuencia absoluta del j-ésimo intervalo
c: amplitud del intervalo

Ejercicio: Demuestra que la fórmula dada es la correcta, usando semejanza de


triángulos.

Propiedades de la Mediana
1.- Si se aplica una traslación a un conjunto de datos, (sumamos una constante c) no
se altera el orden, la mediana de los datos transformados será la mediana transformada
por la traslación.

Variable Datos ordenados Mediana


X X(1) , X(2) , . . . , X(N) MeX
Y Y(i) = X(i) + c MeX =MeX + c

2.- Al multiplicar por una constante positiva no se altera el orden. Si la constante es


negativa se tiene el orden inverso, pero en ambos casos la mediana sigue siendo la
mediana original multiplicada por la constante considerada.

Variable Datos ordenados Mediana


X X(1) , X(2) , . . . , X(N) MeX
Y Y(i) = X(i) c MeX =MeX c

3.- La mediana minimiza la suma de las distancias a un punto cualquiera, esta


propiedad se simboliza de la siguiente manera:
n n


i =1
xi − Me ≤ ∑
i =1
xi − a ∀a ∈ℜ

La mediana tiene la ventaja de no depender de valores alejados, sólo depende del


orden.

Ejemplo: En el lote 3, 4, 5, 7, 8, 9, la mediana es 6. El lote 3, 4, 5, 7, 8, 26 tiene la


misma mediana, a pesar del dato extremo. Como valor promedio, en este caso la
Mediana es más representativa del conjunto.

30
Probabilidad y Estadística I

3 4 5 7 8 9
Me

26
3 4 5 7 8
Me
La desventaja de la Mediana es que no tiene un tratamiento algebraico fácil.

Modo: Se llama Modo (Mo) al dato que presenta mayor frecuencia. Si tenemos una
distribución de frecuencias de datos discretos, nos fijamos la clase de mayor frecuencia.
El modo o moda es más útil para datos cualitativos que utilizan escala nominal. Es la
medida promedio de obtención más sencilla. Determinar el modo puede resultar inútil
cuando los datos se extraen de una variable continua, pues es posible que ningún dato se
repita. Pero si hay una distribución en intervalos de clase, se puede encontrar un valor
aproximado en la zona de mayor frecuencia.
Si existen dos valores que se presentan en el lote de datos mayoritariamente, la
distribución de frecuencias recibe el nombre de bimodal. Pueden existir distribuciones
multimodales.
Ejemplos
En el lote de datos 2, 3, 3, 4, 5, 5, 5, 5, 6, 7, 8 la moda es el valor 5, por que se repite
4 veces.
En un gráfico de bastones el modo corresponde al bastón más largo.
En el conjunto de datos 2, 2.1, 2.4, 2.5, 5.6, 6.7 ningún valor es moda.
Si en una clase se pregunta a los alumnos acerca de que equipo de fútbol es
simpatizante, la moda describiría con claridad las preferencias de la clase.
Si los datos están agrupados en intervalos de clase, se obtiene una buena
aproximación con el siguiente procedimiento:
En el histograma se identifica el intervalo modal (el de mayor frecuencia):

En este caso el intervalo modal es el segundo.


El modo se calcula:

f j +1
Mo = l j + c
f j −1 + f j +1

Esta fórmula se obtiene igualando las áreas rayadas en el intervalo modal, que son los
rectángulos de alturas iguales a las frecuencias de los intervalos anterior y posterior.
Con este criterio, si las frecuencias de los intervalos anterior y posterior son las mismas,
entonces el Mo será el punto medio del intervalo modal.

Otras medidas de posición muy usadas son:

Cuartiles: dividen la distribución en cuatro partes. Se denominan cuartiles a los


valores de orden cuarto de los datos cuando éstos están ordenados. Los cuartiles son tres
y el segundo es la mediana.
El cuartil inferior (primer cuartil) es menor que la mediana y el cuartil superior
(tercer cuartil) es mayor que la mediana.

31
Probabilidad y Estadística I

Primer Cuartil: Se denomina Primer cuartil ( Q1 )al número real tal que a lo sumo el
25% de los datos son menores que él y a lo sumo el 75% son mayores.
Segundo Cuartil: El segundo cuartil ( Q2 ) es la Me.
Tercer Cuartil: Se denomina Tercer cuartil ( Q3 )al número real tal que a lo sumo el
75% de los datos son menores que él y a lo sumo el 25% son mayores.

Sea el lote de datos: X1 , X2 , . . . , XN , ordenados X(1) , X(2) , . . . , X(N) La posición o


el orden del primer y tercer cuartil viene dada por:

 n + 1
 2  +1
 
2
Esta posición u orden así calculada, nos da la correspondiente al primer cuartil, si
contamos desde el primer dato. Y nos da la posición del tercer cuartil, si contamos
desde el último dato.

Ejemplo 1:
Si tenemos los siguientes datos: 2, 11, 3, 7, 4, 8, 6 para calcular los cuartiles
ordenamos los datos de menor a mayor: 2, 3, 4, 6, 7, 8, 11.
Q2 (mediana) = 6
 7 + 1
 2  + 1 5
El orden del cuartil inferior o superior es = = 2.5 . Entonces el Q1 es el
2 2
promedio del segundo y tercer dato: Q1= 3.5 y el tercer cuartil: Q3 es el promedio del
sexto y quinto dato: Q3= 7.5

Ejemplo 2: Si tenemos los siguientes datos: 2, 11, 3, 7, 4, 8, 6, 1 para calcular los


cuartiles ordenamos los datos de menor a mayor: 1, 2, 3, 4, 6, 7, 8, 11.
 8 + 1
 2  + 1 4 + 1
El orden del cuartil inferior o superior es = = 2.5 . Entonces el Q1 es el
2 2
promedio del segundo y tercer dato: Q1= 2.5 y el tercer cuartil: Q3 es el promedio del
sexto y séptimo dato: Q3= 7.5

Si la distribución está en intervalos de clase, se interpola en la ojiva, como se explicó


para la Mediana, entonces:
N
j − F j −1
Qj = l j + 4 c
fj

Con j = 1,2,3

Deciles: dividen la distribución en diez partes iguales.

Primer Decil: Se denomina Primer decil ( D1 ) al número real tal que a lo sumo el
10% de los datos son menores que él y a lo sumo el 90% son mayores.

32
Probabilidad y Estadística I

Segundo Decil: Se denomina Segundo decil ( D2 ) al número real tal que a lo sumo
el 20% de los datos son menores que él y a lo sumo el 80% son mayores.
...
k-ésimo Decil: Se denomina k-ésimo decil ( Dk ) al número real tal que a lo sumo el
10k% de los datos son menores que él y a lo sumo el (100-10k)% son mayores. El D5 =
Me

Si la distribución está en intervalos de clase, se interpola en la ojiva, como se explicó


N
j − F j −1
D j = l j + 10 c
fj
para la Mediana, entonces:
Con j = 1, 2, ..., 9.

Percentiles (P): dividen la distribución en cien partes iguales. Son 99.


A lo sumo el 1% de la distribución es menor que el primer percentil ( P1 ) y a lo
sumo el 99% es mayor.
El percentil k-ésimo es un valor real que deja a lo sumo el k % de los datos por
abajo de él.
El P50 es la Me. El P25 coincide con el Q1 , el P75 con el Q3 .

Si la distribución está en intervalos de clase, se interpola en la ojiva, como se explicó


para la Mediana, entonces:
N
j − F j −1
Pj = l j + 100 c
fj

Con j = 1, 2, ..., 99.

33
Probabilidad y Estadística I

MEDIDAS DE DISPERSIÓN o VARIABILIDAD


El informe de una medida de posición sólo es una información parcial sobre un lote
de datos o distribución. Distintos lotes de datos pueden tener medidas de posición
idénticas, pero pueden diferir en otros aspectos.
En la siguiente figura se presentan mediante diagramas de puntos 3 lotes de datos con la misma media y
la misma mediana, pero la dispersión en torno al centro difiere en los tres. Así la primera es muy variable,
en cambio la tercera presenta poca variabilidad, en cambio la segunda presenta una variabilidad
intermedia.

Las medidas de dispersión complementan el análisis numérico de un lote de datos,


debido a que determinan la mayor o menor concentración de los datos. Es decir dan una
idea del alejamiento de ellos (los datos) respecto a una medida de posición.
Las medidas de dispersión más comunes son el rango, el rango intercuartil, la
desviación media, la varianza y el desvío estándar.

Rango o amplitud
El rango o amplitud es la diferencia entre el mayor y el menor valor de la variable.
Ejemplos:
Para los lotes de datos 1 y 2 el rango es el mismo R = 70 − 30 = 40 pero presentan
aspectos diferentes. En cambio en el lote 3 los datos presentan un rango de 60 −40 =20.

Rango intercuartil
Un problema que presenta el rango es que sólo considera los valores extremos del
lote de datos, y estos pueden ser valores “extraños” (alejados) y en ese caso no nos
proporciona muy buena información acerca de la dispersión del conjunto de datos. Esto
se trata de evitar mediante el rango intercuartil. Se denomina rango intercuartil a la
diferencia entre el tercer cuartil y el primer cuartil.

Ejemplo 1: Si tenemos los siguientes datos: 2, 11, 3, 7, 4, 8, 6 para calcular los


cuartiles y el rango intercuartil ordenamos los datos de menor a mayor: 2, 3, 4, 6, 7, 8, 11.
Q2 (mediana) = 6
Orden del primer cuarto: 2.5. Entonces el Q1 es el promedio del segundo y tercer dato:
Q1= 3.5
El Q3 (tiene el mismo orden que Q1, pero en orden descendente) es el promedio del
sexto y quinto dato: Q3= 7.5

34
Probabilidad y Estadística I

Rango intercuartil = 7.5 −3.5 =4

Ejemplo 2: Los rangos intercuartiles para los lotes de datos 1, 2, y 3 son:


Para el lote de datos 1:
Orden del primer cuarto: 3. Entonces el Q1 es el tercer dato: Q1= 40
El Q3 es el sexto dato: Q3= 60
Rango intercuartil = 60 −40= 20
Para los lotes de datos 2 y 3:
Orden del cuarto calculado: 3. Entonces el Q1 es el tercer dato: Q1= 46.6
El Q3 es el sexto dato: Q3= 53.2
Rango intercuartil = 53.2 −46.6= 6.6
Es decir para los lotes 2 y 3 el 50 % central de los datos se encuentra en una distancia
de 6.6 lo que indica que ambos conjuntos de datos se encuentran más concentrados que el
lote 1.

Medidas de variabilidad que involucran la media aritmética


La media aritmética es la medida de posición que tiene en cuenta todos los valores, es
por ello que para tener una medida de la dispersión que involucre todos los valores se
definen medidas basadas en las desviaciones de los valores respecto a la media. La primera
de estas medidas es la desviación media.

Desviación media
La desviación media se define como la media aritmética de las desviaciones
absolutas de cada valor respecto de la media. En símbolos:
n

∑ x −x i

DM = i =1

n
Esta medida de dispersión es fácil de calcular y tiene en cuenta todos los datos.

Ejemplo: Los precios de la docena de naranjas en 4 fruterías de dos diferentes zonas son
los siguientes:

Zona A: 1.20, 1.30, 1.30, 1.40 Zona B: 1.00, 1.30, 1.30, 1.60
La media en ambos casos es 1.30, las desviaciones medias valen en las distintas zonas:

0 .1 + 0 + 0 + 0 .1 0 .3 + 0 + 0 + 0 .3
Zona A: = 0.05 Zona B: = 0.15
4 4
Es claro que en el caso que los datos sean más homogéneos la desviación media es
menor.

Varianza
La varianza se define como el promedio de los cuadrados de las desviaciones.
n

∑ (xi =1
i − x)2
Su fórmula es s 2 = . Para su cálculo suele utilizarse la siguiente fórmula
n
equivalente:

35
Probabilidad y Estadística I

∑x i
2

s2 = i =1
− x2;
n
En el caso que los datos estén presentados en una tabla de frecuencias, la fórmula más
m

∑ f (x
j =1
j j − x)2
adecuada para el cálculo de la varianza es: s 2 = , donde m es la cantidad de
n
datos diferentes (si es una distribución discreta) o la cantidad de intervalos (si es una
distribución en intervalos de clase).

Observaciones: tanto en la desviación media como en la varianza se usan los desvíos


respecto de la media. Como el promedio de éstos se anula, se promedia funciones de ellos.
Se ha utilizado el valor absoluto en el primer caso y se los eleva al cuadrado en el
segundo. Pero la varianza no está dada en las mismas dimensiones que los datos. Así, si el
problema trata de pesos y los datos están en kg, la media y la desviación media vienen
dadas en kg., pero la varianza se obtiene en kg 2 . Como esto no es conveniente, extraemos
la raíz cuadrada, definiendo así la desviación estándar o típica.

Desviación estándar
La desviación estándar se define como la raíz cuadrada de la varianza.
En símbolos:
n

∑ (x − x) i
2

s= i =1

n
Esta medida de dispersión es la más usada.

Ejemplos:
La varianza y el desvío estándar para los datos de los precios de la docena de naranjas
en 4 almacenes de dos diferentes zonas son:

Zona A
(1.20 − 1.30) 2 + (1.30 − 1.30) 2 + (1.30 − 1.30) 2 + (1.40 − 1.30) 2
s A2 = = 0.005
4
y el desvío estándar es s A = 0.07

Zona B
(1.00 − 1.30) 2 + (1.30 − 1.30) 2 + (1.30 − 1.30) 2 + (1.60 − 1.30) 2
sB =
2
= 0.045
4
y el desvío estándar es s B = 0.21
Para el caso de datos agrupados en intervalos, consideremos el siguiente ejemplo
referente a alturas de plantas de trigo.
Para facilitar el cálculo agregamos a la tabla de frecuencias algunas columnas más.

36
Probabilidad y Estadística I

Intervalos Frecuencias Marcas de Desvíos ( xi − x ) 2 ( x i − x ) 2 fi


Altura(cm) fi clase xi fi xi
55-60 5 57.5 287.5 -11.3 127.69 638.45
60-65 14 62.5 875.0 -6.3 39.69 555.66
65-70 21 67.5 1417.5 -1.3 1.69 35.49
70-75 9 72.5 652.5 3.7 13.69 123.21
75-80 5 77.5 387.5 8.7 75.69 378.45
80-85 3 82.5 247.5 13.7 187.69 563.07
85-90 3 87.5 262.5 18.7 349.69 1049.07
60 4130.0 3343.40
I II III IV V VI

Así de la columna VI se puede obtener el valor del desvío estándar para este conjunto de
datos, s = 3343.4 ≅ 7.5 .
60

Propiedades de las medidas de variabilidad


Se ejemplificará las propiedades para la varianza y el desvío típico, propiedades
similares son válidas para las otras medidas de variabilidad.

1.- Si se aplica una traslación a un conjunto de datos, (sumamos una constante c) la


varianza y el desvío típico no sufre ningún cambio.
Variable Datos Varianza desvío típico
X X1 , X2 , . . . , XN s2 s
Y Yi = Xi + c s2 s

2.- Si multiplicamos por una constante, produciendo un cambio de escala, la varianza


y el desvío típico sufren la siguiente transformación.
Variable Datos Varianza desvío típico
X X1 , X2 , . . . , XN s2 s
2 2
Y Yi = Xi c cs cs

Medida de variabilidad relativa


Si se quiere comparar estadísticamente dos lotes de datos diferentes se puede utilizar
el coeficiente de variación que se define como:
s
CV (coeficiente de var iación) =
x
Este coeficiente da la variación relativa de cada lote. Es evidente que el lote que
tenga un coeficiente de variación mayor es el más heterogéneo.
Así de los tres lotes 1, 2 y 3 el más homogéneo es el lote 3. Veamos sus coeficientes
de variación:
12.91 9.87 5.55
CV1 = ≈ 0.26 CV2 = ≈ 0.20 CV3 = ≈ 0.11
50 50 50
Estos ejemplos presentan la misma media o sea que basta comparar sus desvíos
estándar, la utilidad del mismo se pone de manifiesto cuando las medias de los lotes de
datos son diferentes.
¿Cómo afecta a este coeficiente un cambio de escala de los datos? ¿y un cambio de
escala?

37
Probabilidad y Estadística I

ANÁLISIS EXPLORATORIO DE DATOS

Describir un lote de datos X1 ,X2 , . . . , XN significa hacer referencia a la posición,


dispersión, asimetría, forma, que tal lote presenta para realizar un análisis y sacar
conclusiones acerca del mismo, y posibilitar, en el caso de la muestra, alguna inferencia
posterior respecto de la población a la que pertenece el lote.
El Análisis Exploratorio de Datos (AED) es una herramienta ideada por Tukey,
alrededor de la década del 70 y tiene la finalidad de detectar estructuras, sugerir
hipótesis y facilitar un posterior Análisis Confirmatorio que se encargará de evaluar las
estructuras observadas.
Tres técnicas básicas del AED son:
• Resumen numérico
• Diagrama de tallos y hojas (Stem and leaf)
• Diagrama de cajas (Box-plot)

Trataremos sólo con los diagramas de cajas. Nos servirá recordar algunas definiciones
para la construcción de estos diagramas.

Cuartiles
Los cuartiles son números reales que dividen la distribución de datos numéricos
(ordenados de menor a mayor) en cuatro partes (los cuartos) que corresponden al 25%
cada una:
25 % 25 % 25 % 25 %

Xmin Q1 Me Q3 Xmax

El primer cuartil (Q1) es el menor; el segundo cuartil (Me) es la mediana: el tercer


cuartil (Q3) es el mayor de todos. Además de la posición, los cuartiles nos dan
información respecto de la dispersión y de la simetría o asimetría de la distribución.

DIAGRAMA DE CAJAS
El diagrama consiste en una caja a lo largo del eje de la variable, donde se encuentra
el 50% central de los datos (o sea que incluye los dos cuartos centrales), y el resto
constituyen las colas de la distribución (el primer cuarto, la cola izquierda; el cuarto, la
cola derecha), representadas por segmentos a los costados de la caja. La caja, por lo
tanto, se dibuja desde el primer cuartil hasta el tercero. Las colas representan el 25% de
la distribución, a ambos lados, desde los cuartiles, a los extremos si no hay valores
alejados o muy alejados:
50%
25% 25

Xmin Q1 Me Q3 Xmax
38
Probabilidad y Estadística I

Se debe establecer algún criterio para definir cuándo un dato es alejado o muy
alejado. Un criterio razonable y muy usado es el siguiente:

Definiendo
a = Q1 – 1,5 (Q3 – Q1) b = Q3 + 1,5 (Q3 – Q1)
c = Q1 – 3 (Q3 – Q1) d = Q3 + 3 (Q3 – Q1)

son "valores alejados" aquellos datos entre c y a o entre b y d. Son "valores muy
alejados" aquellos menores que c o mayores que d.
Si hay valores muy extremos, las colas no comienzan en los extremos sino que se
destacan estos valores con una marca y la cola comienza en el dato inmediato siguiente.
Se consideran los valores muy extremos con el mismo criterio tomado en el diagrama de
tallos y hojas.

o
▫ .

b d

Como vemos, la simplicidad del dibujo hace que notemos rápidamente en él las
características importantes de un lote de datos, como:

 Valores alejados: se distinguen por las marcas especiales que lo separan del resto del
diagrama.
 Posición: el eje de la variable dará los valores de las medidas, especialmente se observa la
posición de la mediana. En algunas cajas se puede agregar la posición de la media.
 Dispersión: cajas anchas nos sugieren distribuciones muy dispersas en la parte central. Por
el contrario, cajas angostas nos muestran una gran concentración de datos (el ancho de la
caja es el rango intercuartil). La longitud de las colas por su parte nos dirán la mayor o
menor concentración de los datos en las zonas extremas.
 Asimetría: la diferencia entre la longitud de las colas, y la posición de la mediana en la
caja, nos sugiere hacia donde se presentan valores más extremos, es decir qué tipo de
asimetría tiene el lote.

Ejemplo Los siguientes datos representan el período de vida, en segundos, de 50


moscas que están sujetas a un nuevo insecticida en un experimento controlado de
laboratorio:
17 20 10 9 23 13 12 19 18 24
12 14 6 9 13 6 7 10 13 7
16 18 8 13 3 32 9 7 10 11
13 7 18 7 10 4 27 19 16 8
7 10 5 14 15 10 9 6 7 15

Luego de determinar los cuartiles, y los valores para la determinación de la existencia


de posibles valores anómalos se construye el diagrama de cajas correspondiente.

39
Probabilidad y Estadística I

Vida de moscas (seg)


Diagrama de cajas

Se observa el valor alejado (32 seg), destacado con un círculo rojo y una asimetría
positiva por el largo de la cola superior y la posición de la mediana. Observando la caja
se concluye que la parte central es casi simétrica. El rango intercuartil es casi la tercera
parte del rango total. No hay una fuerte concentración de datos en el centro. Con esta
técnica vemos entonces: valores alejados, posición, variabilidad y asimetría, es decir un
diagrama de cajas da buena información para la descripción de los datos.
Las características que se observan nos llevan a plantear hipótesis, que siempre
tendrán que validarse después.
Es importante destacar que este diagrama facilita la comparación de lotes. Si se
tienen varios lotes de datos en las mismas unidades, una representación múltiple permite
comparar sus características con la sola observación del diagrama.

Afluencia turística mensual en Tucumán


( en número de personas)

1977 1978 1979


Fuente: Tucumán en cifras - Tomo 2 - 1980

En el gráfico se muestran en conjunto los diagramas de cajas correspondientes a la


cantidad de turistas que llegaron a Tucumán en los años 1977 a 1980. Se puede entonces
observar el crecimiento a lo largo de los cuatro años registrados, la mayor dispersión y
la acentuada asimetría positiva que se presenta la distribución en todos los años. Estos
diagramas ayudan a plantearse conjeturas o sugerir hipótesis que luego podrán validarse
con otras técnicas estadísticas.

40

Вам также может понравиться