Академический Документы
Профессиональный Документы
Культура Документы
APUNTES DE ESTADISTICA Y PROBABILIDADES PROF. URCESINO GONZALEZ R. PRIMERA PARTE: ESTADISTICA DESCRIPTIVA
1.1. Introduccin
Iniciamos este captulo con la definicin de algunos conceptos elementales y bsicos, y sin embargo pilares, para una comprensin intuitiva y real de lo que es la Estadstica. Pretendemos introducir al estudiante en los primeros pasos sobre el uso y manejos de datos numricos: distinguir y clasificar las caractersticas en estudio, ensearle a organizar y tabular las medidas obtenidas mediante la construccin de tablas de frecuencia y por ltimo los mtodos para elaborar una imagen que sea capaz de mostrar grficamente unos resultados. El aserto una imagen vale ms que mil palabras se puede aplicar al mbito de la estadstica descriptiva diciendo que un grfico bien elaborado vale ms que mil tablas de frecuencias. Cada vez es ms habitual el uso de grficos o imgenes para representar la informacin obtenida. No obstante, debemos ser prudente al confeccionar o interpretar grficos, puesto que unas misma informacin se puede representar de formas muy diversas, y no todas ellas son pertinentes, correctas o vlidas. Nuestro objetivo, en este captulo, consiste en establecer los criterios y normas mnimas que deben verificarse para construir y presentar adecuadamente los grficos en el mbito de la estadstica descriptiva.
1.2. Qu es la estadstica?
Cuando coloquialmente se habla de estadstica, se suele pensar en una relacin de datos numricos presentada de forma ordenada y sistemtica. Esta idea es la consecuencia del concepto popular que existe sobre el trmino y que cada vez est ms extendido debido a la influencia de nuestro entorno, ya que hoy da es casi imposible que cualquier medio de difusin, peridico, radio, televisin, etc, no nos aborde diariamente con cualquier tipo de informacin estadstica sobre accidentes de trfico, ndices de crecimiento de poblacin, turismo, tendencias polticas, etc. Slo cuando nos adentramos en un mundo ms especfico como es el campo de la investigacin de las Ciencias Sociales: Medicina, Biologa, Psicologa, ... empezamos a percibir que la Estadstica no slo es algo ms, sino que se convierte en la nica herramienta que, hoy por hoy, permite dar luz y obtener resultados, y por tanto beneficios, en cualquier tipo de estudio, cuyos movimientos y relaciones, por su variabilidad intrnseca, no puedan ser abordadas desde la perspectiva de las leyes determinsticas. Podramos, desde un punto de vista ms amplio, definir la estadstica como la ciencia que estudia cmo
debe emplearse la informacin y cmo dar una gua de accin en situaciones prcticas que entraan incertidumbre. La Estadstica se ocupa de los mtodos y procedimientos para recoger, clasificar, resumir, hallar regularidades y analizar los datos, siempre y cuando la variabilidad e incertidumbre sea una causa intrnseca de los mismos; as como de realizar inferencias a partir de ellos, con la finalidad de ayudar a la toma de decisiones y en su caso formular predicciones. Podramos por tanto clasificar la Estadstica en Descriptiva, cuando los resultados del anlisis no pretenden ir ms all del conjunto de datos, e Inferencial cuando el objetivo del estudio es derivar las conclusiones obtenidas a un conjunto de datos ms amplio. Estadstica descriptiva: Describe, analiza y representa un grupo de datos utilizando mtodos numricos y grficos que resumen y presentan la informacin contenida en ellos. Estadstica inferencial: Apoyndose en el clculo de probabilidades y a partir de datos muestrales, efecta estimaciones, decisiones, predicciones u otras generalizaciones sobre un conjunto mayor de datos.
n
j= 1
ni
Frecuencia relativa acumulada, Fi , se calcula sobre variables cuantitativas o cuasicuantitativas, siendo el tanto por uno de los elementos de la poblacin que estn en alguna de las clases y que presentan una modalidad inferior o igual a la ci, es decir, Fi = Ni /n =( n1 + . . . + ni)/n = f1 + . . . + fi =
f
j= 1
ni
Llamaremos distribucin de frecuencias al conjunto de clases junto a las frecuencias correspondientes a cada una de ellas. Una tabla estadstica sirve para presentar de forma ordenada las distribuciones de frecuencias. Su forma general es la siguiente: Modalidad C1 Ci C1 Frec. Absoluta n1 ni nk n Frec. Relativa f1 fi fk 1 Frec. Abs. Acum. N1 Ni Nk Frec. Relat. Acum. F1 Fi Fk
1.5 CONCEPTOS FUNDAMENTALES Las tcnicas utilizadas para la descripcin de datos se dividen, bsicamente, en dos bloques: - Estadsticos de posicin o centralizacin: Son aquellos cuyo objetivo es explicar mediante un valor numrico, cual es la tendencia mayoritaria de las observaciones de la
coleccin de datos que se analizan. Dichos estadsticos sern, entre otros, la media, la mediana y la moda. - Estadsticos de dispersin: Corresponden a aquellos parmetros cuyo objetivo es detectar el grado de proximidad de los datos respecto a los valores centrales. Dichos estadsticos sern, entre otros, el rango o recorrido, la varianza y la desviacin estndar.
Usando La calculadora cientfica: 1) limpiar la memoria, 2) elegir mode SD, 3) ingresar los datos (tecla DT), 4) obtener el promedio con shift seguido de la tecla 1.
Usando Excel: =PROMEDIO(10;20;12;14;16;18;22;10;16;13;21;15;12;20;18) O bien: Insertar funcin (fx), elegir promedio, llenar ventana
Usando R: datos<- c(10, 20, 12, 14, 16, 18, 22, 10, 16, 13, 21, 15, 12, 20, 18); datos promedio<-mean(datos); promedio Mediana : Es un nmero tal que, si ordenamos los datos de forma creciente o decreciente, cumple la condicin de ser mayor que una mitad y menor que la otra. Es decir, divide a la distribucin en dos partes iguales. Si el nmero de observaciones es impar la mediana es el valor central. En caso de que el nmero de observaciones sea par la mediana ser la media de los dos valores centrales. Ejemplo: Siguiendo con el ejemplo anterior, ordenamos los datos en orden creciente: 10 10 12 12 13 14 15 16 16 16 18 20 20 21 22 Para calcular la mediana lo haremos tambin de tres formas: Manualmente: Como el nmero de observaciones es impar, la mediana ser el valor que ocupa el lugar central, en este caso, la posicin octava. Por tanto, la mediana ser 16.
Usando Excel:
Usando R: > mediana<- median(datos); mediana [1] 16 Moda : Es el valor que ms veces se repite en la distribucin. Si los datos de la distribucin estn agrupados en intervalos, la moda es el punto medio del intervalo que contiene el mayor nmero de frecuencias. Una distribucin de observaciones puede no tener moda, es decir, puede que no haya ningn valor de la distribucin que aparezca con ms frecuencia. Ejemplo: Siguiendo con el ejemplo anterior, agrupamos los datos segn su frecuencia: 10 -> 2 12 -> 2 13 -> 1 14 -> 1 15 -> 1 16 -> 3 18 -> 1 20 -> 2 21 -> 1 22 -> 1 Por tanto, observamos que la moda ser el 16 que es valor que ms veces se repite.
Usando Excel: =MODA(a3:a17) En R no conozco instruccin para obtener la moda. Cuartiles: As como la mediana divide a la distribucin en mitades, los cuartiles de una distribucin son los valores que dividen la distribucin en cuartos. El primer cuartil (Q1) deja un cuarto de las observaciones por debajo del mismo, y tres cuartos por encima. El segundo cuartil (Q2) tiene dos cuartos por debajo y dos por encima (el segundo cuartil coincide con la mediana). El tercer cuartil (Q3) tiene tres cuartos de las observaciones por debajo y un cuarto por encima. Ejemplo: Utilizamos los datos ordenados del ejemplo para calcular los cuartiles: 10 10 12 12 13 14 15 16 16 16 18 20 20 21 22 Manualmente: Partimos en dos la distribucin, la mitad superior: 10 10 12 12 13 14 15 Q1=12 Y la mitad inferior: 16 16 18 20 20 21 22 Q3=20 Para calcular los cuartiles calculamos las medianas de ambas mitades, la de la primera mitad corresponder al primer cuartil y la de la segunda corresponder al tercer cuartil. Usando Excel:
En R > datos<- c(10, 20, 12, 14, 16, 18, 22, 10, 16, 13, 21, 15, 12, 20, 18); datos
[1] 10 20 12 14 16 18 22 10 16 13 21 15 12 20 18 > q1<-quantile(datos,0.25);q1 25% 12.5 > q2<-quantile(datos,0.5);q2;# q2 es la mediana 50% 16 > q3=quantile(datos,0.75);q3 75% 19 Todas las anteriores: > summary(datos) Min. 1st Qu. Median Mean 3rd Qu. Max. 10.0 12.5 16.0 15.8 19.0 22.0 Relacin entre el valor de la media y la mediana de una distribucin Tanto la media aritmtica como la mediana miden el centro de la distribucin, pero lo hacen de formas diferentes. En el caso en que la distribucin sea simtrica ambas medidas son iguales. Si la distribucin es asimtrica, la media aritmtica se desplaza hacia la cola de la distribucin. Observar que para calcular la media aritmtica, utilizamos todos los datos, sin embargo, no ocurre as con la mediana. As, si hay valores extremos, la media se ver mucho ms afectada que la mediana.
En resumen, N es el nmero de observaciones que contiene la columna. Mean es la media de la muestra. La media es muy sensible a los valores extremos, por lo que tambin es interesante fijarse en la TrMean. Median es la mediana o cuartil segundo Q2 (aquel valor que deja a su izquierda el mismo nmero de observaciones que a su derecha). Este parmetro no se ve gravemente afectado por los valores extremos. TrMean es la media recortada: las observaciones se ordenan de menor a mayor y se descartan los valores extremos (un 5% por cada lado). De los valores restantes se calcula la media. StDev es la desviacin estndar de la muestra: SE Mean es el error estndar de la media, i.e.: N Minimum y Maximum son los valores mnimo y mximo de los datos. Q1 es el cuartil primero: aquel que deja a su izquierda un 25% de los datos. Q3 es el cuartil tercero: aquel que deja a su izquierda un 75% de los datos.
El coeficiente de variacin es muy til cuando queremos comparar dos o ms medidas de dispersin y stas estn en unidades diferentes o bien estn en las mismas unidades pero sus medias son muy distintas. Ejemplo: Pretendemos comparar la variacin entre dos pruebas (una de aptitudes mecnicas y otra de destreza mental) realizadas a un grupo de aprendices pertenecientes al cuerpo de bomberos. La media aritmtica de las puntuaciones obtenidas en la prueba de aptitudes mecnicas fue 200, con una desviacin estndar de 10. En la segunda prueba los resultados fueron de media 30 y desviacin estndar 6. Para realizar dicha comparacin calculamos el coeficiente de variacin de ambas pruebas: CV= 10/200*(100) = 5; CV= 6/30*(100) = 20 Por tanto, de los datos anteriores, deducimos que existe mayor dispersin en la prueba de destreza mental. Uso de software: Calculadora: limpiar la memoria, 2) elegir mode SD, 3) ingresar los datos (tecla DT), 4) obtener la desviacin estndar con shift seguido de la tecla 3.
La varianza es el cuadrado de la desviacin estndar. El error estndar es la desviacin estndar dividida por la raz del nmero de datos, ee =
s n
Usando Excel: = desvest(10;20;12;14;16;18;22;10;16;13;21;15;12;20;18) Varianza: = s^2; ee: = s/raiz(15) Con R: > desvest=sd(datos) > desvest [1] 3.949684 >varianza <- desvest^2 >ee=desvest/ > length(datos) [1] 15 > ee <- desvest/sqrt(length(datos)) > ee [1] 1.019804 cv <- desvest/promedio*100
The decimal point is 4 digit(s) to the right of the | 2| 3 | 023 3 | 99 4|2 The decimal point is 5 digit(s) to the right of the | 0 | 2334 2| 4| 6| 8|3
Diagramas de caja El diagrama de caja es un grfico simple donde vienen representados los anteriores 5 valores anteriores (mnimo, primer cuartil, mediana (segundo cuartil), tercer cuartil y mximo)
Usando R:
Histograma: Describe una distribucin de frecuencias usando una serie de rectngulos adyacentes, en los que la altura de cada rectngulo es proporciona la frecuencia que representa el valor de la variable. Ejemplo: Siguiendo el ejemplo anterior, construiremos dos histogramas para comparar grficamente la diferencia entre los sueldos de ambos sexos.
De ambos histogramas deducimos que, en este departamento, los sueldos de los hombres, son ligeramente ms altos que los de las mujeres. CASO PRCTICO CON SOFTWARE 1. Teniendo en cuenta la importancia que los beneficios econmicos del turismo tienen en nuestro pas, realicemos un breve anlisis acerca de cul ha sido la ocupacin hotelera durante el ao 2000. Para ello, vamos a www.ine.es y seleccionamos la opcin Espaa en cifras 2001. Posteriormente, escogemos la opcin Turismo. Comprobaremos que la informacin que obtenemos es la siguiente:
Calcular todos los parmetros estadsticos correspondientes a la ocupacin hotelera de Espaoles a lo largo del ao 2000.
Del anterior resultado, podemos observar cules son los parmetros estadsticos ms importantes, por ejemplo, la media de espaoles que residieron en algn hotel fue de 2677749, el valor central (mediana) es 2727407, as como 2202983 y 3125765 los valores de los cuartiles primero y tercero, respectivamente. b) Construir un histograma del Grado de ocupacin hotelera.
Nota.- Para introducir colores, texto, etc. en el grfico seleccionaremos la opcin de Edit Attributes, o bien, una vez realizado el grfico clicando dos veces sobre la parte del grfico que queremos modificar. Del anterior grfico podemos deducir, bsicamente, que la ocupacin hotelera se encuentra siempre por encima del 40% y ni siquiera en los meses de verano supera aproximadamente el 80%. Cabe destacar que son datos generales de todo el pas, evidentemente, la ocupacin hotelera en los meses de verano y vacaciones, los hoteles de la costa alcanzarn mayor cota de ocupacin. c) Dibujar los diagramas de cajas (Boxplot) correspondientes a la ocupacin hotelera de Espaoles y de Extranjeros, comentando las diferencias bsicas entre ellos. Del anterior grfico cabe destacar que el valor de la mediana de turistas espaoles es ligeramente superior a la de extranjeros, as como el resto de valores. Observamos que, por ejemplo, el valor del tercer cuartil de Extranjeros se acerca al valor del tercer cuartil de Espaoles. Observemos tambin que en ninguna de las dos observaciones aparecen valores extremos (outliers), si fuera as, apareceran con un asterisco en la posicin adecuada. d) Calcular nicamente la media y la mediana correspondientes a la Estancia media en das de la columna Espaoles. Por tanto, deducimos que el nmero medio de estancia en das anual de turistas espaoles es de aproximadamente 2.54, valor que difiere ligeramente de la mediana cuyo valor es 2.41. 2. Un tema de interesante anlisis es la investigacin en el rea de educacin en nuestro pas, veamos cul fue la cantidad de dinero invertida en el ao 1999 en Espaa y, comparativamente, en una determinada Comunidad Autnoma, por ejemplo, la de Valencia. Para ello, vamos a la pgina web del Instituto Valenciano de Estadstica: http://ive.infocentre.gva.es/ . En el margen izquierdo de la pgina encontraremos un
men, del cual seleccionaremos la opcin Informacin Estadstica y Temas. Ahora escogemos la opcin Educacin e investigacin y seleccionamos Investigacin. Por ltimo, elegimos Indicadores econmicos de la actividad de investigacin
a) Calcula los estadsticos descriptivos correspondientes a la variable Investigadores en cada uno de los mbitos, tanto en la Comunidad Valenciana como en Espaa, y comenta los resultados. Cabe destacar la mnima inversin tanto en la Comunidad Valenciana como en Espaa, se produce en Instituciones privadas sin lucro, correspondiendo la mxima inversin a las Enseanzas superiores. b) Como sabemos, el sesgo de una distribucin depende de la simetra de sta. Razona, si la distribucin correspondiente a Tcnicos en I+D, tanto en la Comunidad Valenciana como en Espaa, es positivamente sesgada o negativamente sesgada. Recuerda que, para ello, tendrs que calcular la media y la mediana de ambas distribuciones. Por tanto, como la media aritmtica es superior a la mediana, podramos afirmar que en la distribucin correspondiente a la variable Tcnicos en I+D de la Comunidad Valenciana es positivamente sesgada.
Por tanto, en Espaa, la distribucin correspondiente a la variable Tcnicos en I+D tambin es positivamente sesgada. Desde la misma pgina web que estamos trabajando, y siguiendo los pasos anteriores hasta la opcin Educacin e investigacin, seleccionamos esta vez la opcin Enseanzas universitarias pblicas y Profesores universitarios, obteniendo el siguiente resultado:
c) Representa en un diagrama de cajas, el nmero de profesores universitarios en cada una de las distintas universidades, correspondientes a los aos 1997/98 y 2000/01. En los anteriores diagramas, podemos observar que la mediana del ao 2000-01 es bastante superior a la del 1997-98, as como el mximo de ambas distribuciones. Adems, cabe destacar que ambas distribuciones estarn claramente sesgadas hacia la derecha ya que la lnea superior es bastante ms larga que la inferior. En la segunda variable, prcticamente coinciden el primer cuartil y el valor mnimo. Finalmente, comentar que los valores mnimos tanto en una variable como otra se dan en la Universitad Miguel Hernndez y los mximos en la Universidad de Valencia. d) Calcula el coeficiente de variacin para los Profesores de la universidad Jaume I. Por tanto, como CV =
s 100% = 0.086, lo cual indica que existe una dispersin de los x
datos de aproximadamente el 9%. http://www.mste.uiuc.edu/hill/dstat/dstat.html: Introduction to Descriptive Statistics www.ine.es: Instituto Nacional de Estadstica www.fisterra.com/material/investiga/10descriptiva/10descriptiva.htm: Estadstica descriptiva