Вы находитесь на странице: 1из 16

UNIVERSIDAD DE CONCEPCION CAMPUS LOS ANGELES DPTO CIENCIAS BASICAS

APUNTES DE ESTADISTICA Y PROBABILIDADES PROF. URCESINO GONZALEZ R. PRIMERA PARTE: ESTADISTICA DESCRIPTIVA

1.1. Introduccin
Iniciamos este captulo con la definicin de algunos conceptos elementales y bsicos, y sin embargo pilares, para una comprensin intuitiva y real de lo que es la Estadstica. Pretendemos introducir al estudiante en los primeros pasos sobre el uso y manejos de datos numricos: distinguir y clasificar las caractersticas en estudio, ensearle a organizar y tabular las medidas obtenidas mediante la construccin de tablas de frecuencia y por ltimo los mtodos para elaborar una imagen que sea capaz de mostrar grficamente unos resultados. El aserto una imagen vale ms que mil palabras se puede aplicar al mbito de la estadstica descriptiva diciendo que un grfico bien elaborado vale ms que mil tablas de frecuencias. Cada vez es ms habitual el uso de grficos o imgenes para representar la informacin obtenida. No obstante, debemos ser prudente al confeccionar o interpretar grficos, puesto que unas misma informacin se puede representar de formas muy diversas, y no todas ellas son pertinentes, correctas o vlidas. Nuestro objetivo, en este captulo, consiste en establecer los criterios y normas mnimas que deben verificarse para construir y presentar adecuadamente los grficos en el mbito de la estadstica descriptiva.

1.2. Qu es la estadstica?
Cuando coloquialmente se habla de estadstica, se suele pensar en una relacin de datos numricos presentada de forma ordenada y sistemtica. Esta idea es la consecuencia del concepto popular que existe sobre el trmino y que cada vez est ms extendido debido a la influencia de nuestro entorno, ya que hoy da es casi imposible que cualquier medio de difusin, peridico, radio, televisin, etc, no nos aborde diariamente con cualquier tipo de informacin estadstica sobre accidentes de trfico, ndices de crecimiento de poblacin, turismo, tendencias polticas, etc. Slo cuando nos adentramos en un mundo ms especfico como es el campo de la investigacin de las Ciencias Sociales: Medicina, Biologa, Psicologa, ... empezamos a percibir que la Estadstica no slo es algo ms, sino que se convierte en la nica herramienta que, hoy por hoy, permite dar luz y obtener resultados, y por tanto beneficios, en cualquier tipo de estudio, cuyos movimientos y relaciones, por su variabilidad intrnseca, no puedan ser abordadas desde la perspectiva de las leyes determinsticas. Podramos, desde un punto de vista ms amplio, definir la estadstica como la ciencia que estudia cmo

debe emplearse la informacin y cmo dar una gua de accin en situaciones prcticas que entraan incertidumbre. La Estadstica se ocupa de los mtodos y procedimientos para recoger, clasificar, resumir, hallar regularidades y analizar los datos, siempre y cuando la variabilidad e incertidumbre sea una causa intrnseca de los mismos; as como de realizar inferencias a partir de ellos, con la finalidad de ayudar a la toma de decisiones y en su caso formular predicciones. Podramos por tanto clasificar la Estadstica en Descriptiva, cuando los resultados del anlisis no pretenden ir ms all del conjunto de datos, e Inferencial cuando el objetivo del estudio es derivar las conclusiones obtenidas a un conjunto de datos ms amplio. Estadstica descriptiva: Describe, analiza y representa un grupo de datos utilizando mtodos numricos y grficos que resumen y presentan la informacin contenida en ellos. Estadstica inferencial: Apoyndose en el clculo de probabilidades y a partir de datos muestrales, efecta estimaciones, decisiones, predicciones u otras generalizaciones sobre un conjunto mayor de datos.

1.3. Elementos. Poblacin. Caracteres


Establecemos a continuacin algunas definiciones de conceptos bsicos y fundamentales bsicas como son: elemento, poblacin, muestra, caracteres, variables, etc., a las cuales haremos referencia continuamente a lo largo del texto Individuos o elementos: personas u objetos que contienen cierta informacin que se desea estudiar. Poblacin: conjunto de individuos o elementos que cumplen ciertas propiedades comunes. Muestra: subconjunto representativo de una poblacin. Parmetro: funcin definida sobre los valores numricos de caractersticas medibles de una poblacin. Estadstico: funcin definida sobre los valores numricos de una muestra. En relacin al tamao de la poblacin, sta puede ser: Finita, como es el caso del nmero de personas que llegan al servicio de urgencia de un hospital en un da; Infinita, si por ejemplo estudiamos el mecanismo aleatorio que describe la secuencia de caras y cruces obtenida en el lanzamiento repetido de una moneda al aire. Caracteres: propiedades, rasgos o cualidades de los elementos de la poblacin. Estos caracteres pueden dividirse en cualitativos y cuantitativos. Modalidades: diferentes situaciones posibles de un carcter. Las modalidades deben ser a la vez exhaustivas y mutuamente excluyentes cada elemento posee una y slo una de las modalidades posibles. Clases: conjunto de una o ms modalidades en el que se verifica que cada modalidad pertenece a una y slo una de las clases.

1.4. Organizacin de los datos


1.4.1. Variables estadsticas
Cuando hablemos de variable haremos referencia a un smbolo (X,Y,A,B,. . . ) que puede tomar cualquier modalidad (valor) de un conjunto determinado, que llamaremos dominio de la variable o rango. En funcin del tipo de dominio, las variables las clasificamos del siguiente modo: Variables cualitativas, cuando las modalidades posibles son de tipo nominal. Por ejemplo, el grupo sanguneo tiene por modalidades: Grupos Sanguneos posibles: A, B, AB, O Variables cuasicuantitativas u ordinales son las que, aunque sus modalidades son de tipo nominal, es posible establecer un orden entre ellas. Por ejemplo, si estudiamos el grado de recuperacin de un paciente al aplicarle un tratamiento, podemos tener como modalidades: Grado de recuperacin: Nada, Poco, Moderado, Bueno, Muy Bueno. A veces se representan este tipo de variables en escalas numricas, por ejemplo, puntuar el dolor en una escala de 1 a 5. Debemos evitar sin embargo realizar operaciones algebraicas con estas cantidades. Un dolor de intensidad 4 no duele el doble que otro de intensidad 2! Variables cuantitativas o numricas son las que tienen por modalidades cantidades numricas con las que podemos hacer operaciones aritmticas. Dentro de este tipo de variables podemos distinguir dos grupos: Discretas, cuando no admiten siempre una modalidad intermedia entre dos cualesquiera de sus modalidades. Un ejemplo es el nmero de hijos en una poblacin de familias: Nmero de hijos posibles: 0, 1, 2, 3, 4, 5, . . . Continuas, cuando admiten una modalidad intermedia entre dos cualesquiera de sus modalidades, v.g. el peso X de un nio al nacer. Ocurre a veces que una variable cuantitativa continua por naturaleza, aparece como discreta. Este es el caso en que hay limitaciones en lo que concierne a la precisin del aparato de medida de esa variable, v.g. si medimos la altura en metros de personas con una regla que ofrece dos decimales de precisin, podemos obtener Alturas medidas en cm: 1.50, 1.51, 1.52, 1.53,. . . En realidad lo que ocurre es que con cada una de esas mediciones expresamos que el verdadero valor de la misma se encuentra en un intervalo de radio 0,005. Por tanto cada una de las observaciones de X representa ms bien un intervalo que un valor concreto. Tal como hemos citado anteriormente, las modalidades son las diferentes situaciones posibles que puede presentar la variable. A veces stas son muy numerosas (v.g. cuando una variable es continua) y conviene reducir su nmero, agrupndolas en una cantidad inferior de clases. Estas clases deben ser construidas, tal como hemos citado anteriormente, de modo que sean exhaustivas y excluyentes, es decir, cada modalidad debe pertenecer a una y slo una de las clases. Variable cualitativa: Aquella cuyas modalidades son de tipo nominal. Variable cuasicualititativa: Modalidades de tipo nominal, en las que existe un orden. Variable cuantitativa discreta: Sus modalidades son valores enteros. Variable cuantitativa continua: Sus modalidades son valores reales

1.4.2. Tablas estadsticas


Consideremos una poblacin estadstica de n individuos, descrita segn un carcter o variable C cuyas modalidades han sido agrupadas en un nmero k de clases, que denotamos mediante c1 , c2 , . . . , ck. Para cada una de las clases ci , i = 1, . . . , k, introducimos las siguientes magnitudes: Frecuencia absoluta de la clase ci es el nmero ni , de observaciones que presentan una modalidad perteneciente a esa clase. Frecuencia relativa de la clase ci es el cociente fi , entre las frecuencias absolutas de dicha clase y el nmero total de observaciones, es decir fi = ni /n Obsrvese que fi es el tanto por uno de observaciones que estn en la clase ci . Multiplicado por 100% representa el porcentaje de la poblacin que comprende esa clase. Frecuencia absoluta acumulada Ni , se calcula sobre variables cuantitativas o cuasicuantitativas, y es el nmero de elementos de la poblacin cuya modalidad es inferior o equivalente a la modalidad ci: Ni = n1 + n2 + . . . + ni =

n
j= 1

ni

Frecuencia relativa acumulada, Fi , se calcula sobre variables cuantitativas o cuasicuantitativas, siendo el tanto por uno de los elementos de la poblacin que estn en alguna de las clases y que presentan una modalidad inferior o igual a la ci, es decir, Fi = Ni /n =( n1 + . . . + ni)/n = f1 + . . . + fi =

f
j= 1

ni

Llamaremos distribucin de frecuencias al conjunto de clases junto a las frecuencias correspondientes a cada una de ellas. Una tabla estadstica sirve para presentar de forma ordenada las distribuciones de frecuencias. Su forma general es la siguiente: Modalidad C1 Ci C1 Frec. Absoluta n1 ni nk n Frec. Relativa f1 fi fk 1 Frec. Abs. Acum. N1 Ni Nk Frec. Relat. Acum. F1 Fi Fk

1.5 CONCEPTOS FUNDAMENTALES Las tcnicas utilizadas para la descripcin de datos se dividen, bsicamente, en dos bloques: - Estadsticos de posicin o centralizacin: Son aquellos cuyo objetivo es explicar mediante un valor numrico, cual es la tendencia mayoritaria de las observaciones de la

coleccin de datos que se analizan. Dichos estadsticos sern, entre otros, la media, la mediana y la moda. - Estadsticos de dispersin: Corresponden a aquellos parmetros cuyo objetivo es detectar el grado de proximidad de los datos respecto a los valores centrales. Dichos estadsticos sern, entre otros, el rango o recorrido, la varianza y la desviacin estndar.

1.5.1 Medidas de centralizacin


Las medidas de centralizacin nos sirven para representar valores centrales de los datos, es decir, el valor que refleja el tamao del dato ms esperado o la posicin en la que se encuentra un valor particular despus de ordenar los datos. Las medidas de centralizacin ms utilizadas son: Media : Es la suma de un conjunto de observaciones dividido por el nmero total de observaciones realizadas. Si calculamos la media poblacional, la expresin ser la siguiente: 1 N = xi , donde N es el tamao de la poblacin y xi representa el i-simo valor de la N i =1 poblacin. En cambio, si lo que estamos calculando es la media muestral, la notacin ser la que sigue: 1 n x = xi , siendo xi cada uno de los valores de la distribucin, y n el nmero de n i =1 observaciones. Ejemplo: La biblioteca virtual de la Universidad quiere conocer el tiempo medio que tardan los usuarios en devolver los prstamos. Se ha tomado una muestra de 15 usuarios, obteniendo los siguientes tiempos, en das, de devolucin: U1 U2 U3 U4 U5 U6 U7 U8 U9 U10 U11 U12 U13 U14 U15 10 20 12 14 16 18 22 10 16 13 21 15 12 20 18 Para calcular la media aritmtica de esta distribucin, lo haremos de dos formas: Manualmente:
x= 1 (10 + 20 + 12 + 14 + 16 + 18 + 22 + 10 + 16 + 13 + 21 + 15 + 12 + 20 + 18) = 15.8 15

Usando La calculadora cientfica: 1) limpiar la memoria, 2) elegir mode SD, 3) ingresar los datos (tecla DT), 4) obtener el promedio con shift seguido de la tecla 1.

Usando Excel: =PROMEDIO(10;20;12;14;16;18;22;10;16;13;21;15;12;20;18) O bien: Insertar funcin (fx), elegir promedio, llenar ventana

Usando R: datos<- c(10, 20, 12, 14, 16, 18, 22, 10, 16, 13, 21, 15, 12, 20, 18); datos promedio<-mean(datos); promedio Mediana : Es un nmero tal que, si ordenamos los datos de forma creciente o decreciente, cumple la condicin de ser mayor que una mitad y menor que la otra. Es decir, divide a la distribucin en dos partes iguales. Si el nmero de observaciones es impar la mediana es el valor central. En caso de que el nmero de observaciones sea par la mediana ser la media de los dos valores centrales. Ejemplo: Siguiendo con el ejemplo anterior, ordenamos los datos en orden creciente: 10 10 12 12 13 14 15 16 16 16 18 20 20 21 22 Para calcular la mediana lo haremos tambin de tres formas: Manualmente: Como el nmero de observaciones es impar, la mediana ser el valor que ocupa el lugar central, en este caso, la posicin octava. Por tanto, la mediana ser 16.

Usando Excel:

Usando R: > mediana<- median(datos); mediana [1] 16 Moda : Es el valor que ms veces se repite en la distribucin. Si los datos de la distribucin estn agrupados en intervalos, la moda es el punto medio del intervalo que contiene el mayor nmero de frecuencias. Una distribucin de observaciones puede no tener moda, es decir, puede que no haya ningn valor de la distribucin que aparezca con ms frecuencia. Ejemplo: Siguiendo con el ejemplo anterior, agrupamos los datos segn su frecuencia: 10 -> 2 12 -> 2 13 -> 1 14 -> 1 15 -> 1 16 -> 3 18 -> 1 20 -> 2 21 -> 1 22 -> 1 Por tanto, observamos que la moda ser el 16 que es valor que ms veces se repite.

Usando Excel: =MODA(a3:a17) En R no conozco instruccin para obtener la moda. Cuartiles: As como la mediana divide a la distribucin en mitades, los cuartiles de una distribucin son los valores que dividen la distribucin en cuartos. El primer cuartil (Q1) deja un cuarto de las observaciones por debajo del mismo, y tres cuartos por encima. El segundo cuartil (Q2) tiene dos cuartos por debajo y dos por encima (el segundo cuartil coincide con la mediana). El tercer cuartil (Q3) tiene tres cuartos de las observaciones por debajo y un cuarto por encima. Ejemplo: Utilizamos los datos ordenados del ejemplo para calcular los cuartiles: 10 10 12 12 13 14 15 16 16 16 18 20 20 21 22 Manualmente: Partimos en dos la distribucin, la mitad superior: 10 10 12 12 13 14 15 Q1=12 Y la mitad inferior: 16 16 18 20 20 21 22 Q3=20 Para calcular los cuartiles calculamos las medianas de ambas mitades, la de la primera mitad corresponder al primer cuartil y la de la segunda corresponder al tercer cuartil. Usando Excel:

En R > datos<- c(10, 20, 12, 14, 16, 18, 22, 10, 16, 13, 21, 15, 12, 20, 18); datos

[1] 10 20 12 14 16 18 22 10 16 13 21 15 12 20 18 > q1<-quantile(datos,0.25);q1 25% 12.5 > q2<-quantile(datos,0.5);q2;# q2 es la mediana 50% 16 > q3=quantile(datos,0.75);q3 75% 19 Todas las anteriores: > summary(datos) Min. 1st Qu. Median Mean 3rd Qu. Max. 10.0 12.5 16.0 15.8 19.0 22.0 Relacin entre el valor de la media y la mediana de una distribucin Tanto la media aritmtica como la mediana miden el centro de la distribucin, pero lo hacen de formas diferentes. En el caso en que la distribucin sea simtrica ambas medidas son iguales. Si la distribucin es asimtrica, la media aritmtica se desplaza hacia la cola de la distribucin. Observar que para calcular la media aritmtica, utilizamos todos los datos, sin embargo, no ocurre as con la mediana. As, si hay valores extremos, la media se ver mucho ms afectada que la mediana.

1.5.2 Medidas de dispersin


Para conocer con detalle un conjunto de datos, no basta con conocer las medidas de tendencia central, necesitamos conocer tambin la dispersin que presentan los datos en su distribucin, con objeto de tener una visin de los mismos ms acorde con la realidad a la hora de describirlos e interpretarlos. Recorrido o amplitud: Es la diferencia entre el valor mximo de la distribucin y el valor mnimo. Ejemplo: Del ejemplo anterior, observamos que el valor mximo es 22 y el valor mnimo es 10, por tanto el recorrido de la distribucin ser 12. Varianza: Se define como la media aritmtica de las desviaciones de la media elevadas al cuadrado. En el caso de la varianza, la expresin de la varianza poblacional y la muestral difieren ligeramente. 1 N 2 2 Varianza poblacional = ( xi ) N i =1

1 n ( xi x ) 2 n 1 i =1 Desviacin Estndar: Es la raz cuadrada positiva de la varianza.


2 Varianza muestral s =

En resumen, N es el nmero de observaciones que contiene la columna. Mean es la media de la muestra. La media es muy sensible a los valores extremos, por lo que tambin es interesante fijarse en la TrMean. Median es la mediana o cuartil segundo Q2 (aquel valor que deja a su izquierda el mismo nmero de observaciones que a su derecha). Este parmetro no se ve gravemente afectado por los valores extremos. TrMean es la media recortada: las observaciones se ordenan de menor a mayor y se descartan los valores extremos (un 5% por cada lado). De los valores restantes se calcula la media. StDev es la desviacin estndar de la muestra: SE Mean es el error estndar de la media, i.e.: N Minimum y Maximum son los valores mnimo y mximo de los datos. Q1 es el cuartil primero: aquel que deja a su izquierda un 25% de los datos. Q3 es el cuartil tercero: aquel que deja a su izquierda un 75% de los datos.

Coeficiente de variacin: Es la relacin entre la desviacin estndar y la media.


s CV = 100% x

El coeficiente de variacin es muy til cuando queremos comparar dos o ms medidas de dispersin y stas estn en unidades diferentes o bien estn en las mismas unidades pero sus medias son muy distintas. Ejemplo: Pretendemos comparar la variacin entre dos pruebas (una de aptitudes mecnicas y otra de destreza mental) realizadas a un grupo de aprendices pertenecientes al cuerpo de bomberos. La media aritmtica de las puntuaciones obtenidas en la prueba de aptitudes mecnicas fue 200, con una desviacin estndar de 10. En la segunda prueba los resultados fueron de media 30 y desviacin estndar 6. Para realizar dicha comparacin calculamos el coeficiente de variacin de ambas pruebas: CV= 10/200*(100) = 5; CV= 6/30*(100) = 20 Por tanto, de los datos anteriores, deducimos que existe mayor dispersin en la prueba de destreza mental. Uso de software: Calculadora: limpiar la memoria, 2) elegir mode SD, 3) ingresar los datos (tecla DT), 4) obtener la desviacin estndar con shift seguido de la tecla 3.

La varianza es el cuadrado de la desviacin estndar. El error estndar es la desviacin estndar dividida por la raz del nmero de datos, ee =
s n

Usando Excel: = desvest(10;20;12;14;16;18;22;10;16;13;21;15;12;20;18) Varianza: = s^2; ee: = s/raiz(15) Con R: > desvest=sd(datos) > desvest [1] 3.949684 >varianza <- desvest^2 >ee=desvest/ > length(datos) [1] 15 > ee <- desvest/sqrt(length(datos)) > ee [1] 1.019804 cv <- desvest/promedio*100

1.5.3 Representacin grfica


Dos de las tcnicas estadsticas ms importantes para representar un conjunto de datos son las siguientes: Diagrama de tallo y hojas: Cada valor numrico se divide en dos partes. Los dgitos principales forman el tallo y los dgitos secundarios las hojas. Los tallos estn colocados a lo largo del eje vertical, y las hojas de cada observacin a lo largo del eje horizontal. Ejemplo: A continuacin, se muestran los salarios anuales (en ) de los 11 trabajadores del departamento de marketing de una empresa de material informtico: Sueldos H Sueldos M 38985 28938 29548 32920 41889 24749 31528 39828 38791 28985 32782 Construir un diagrama de tallo y hojas para cada variable. Usando R: > sueldH<-c(38985,29548,41889,31528,38791,32782) > sueldM<- c(28938,32929,24749,39828,28985) > stmH <- stem(sueldH); stmM <- stem(sueldM);

The decimal point is 4 digit(s) to the right of the | 2| 3 | 023 3 | 99 4|2 The decimal point is 5 digit(s) to the right of the | 0 | 2334 2| 4| 6| 8|3
Diagramas de caja El diagrama de caja es un grfico simple donde vienen representados los anteriores 5 valores anteriores (mnimo, primer cuartil, mediana (segundo cuartil), tercer cuartil y mximo)

Usando R:

Histograma: Describe una distribucin de frecuencias usando una serie de rectngulos adyacentes, en los que la altura de cada rectngulo es proporciona la frecuencia que representa el valor de la variable. Ejemplo: Siguiendo el ejemplo anterior, construiremos dos histogramas para comparar grficamente la diferencia entre los sueldos de ambos sexos.

De ambos histogramas deducimos que, en este departamento, los sueldos de los hombres, son ligeramente ms altos que los de las mujeres. CASO PRCTICO CON SOFTWARE 1. Teniendo en cuenta la importancia que los beneficios econmicos del turismo tienen en nuestro pas, realicemos un breve anlisis acerca de cul ha sido la ocupacin hotelera durante el ao 2000. Para ello, vamos a www.ine.es y seleccionamos la opcin Espaa en cifras 2001. Posteriormente, escogemos la opcin Turismo. Comprobaremos que la informacin que obtenemos es la siguiente:

Calcular todos los parmetros estadsticos correspondientes a la ocupacin hotelera de Espaoles a lo largo del ao 2000.

Del anterior resultado, podemos observar cules son los parmetros estadsticos ms importantes, por ejemplo, la media de espaoles que residieron en algn hotel fue de 2677749, el valor central (mediana) es 2727407, as como 2202983 y 3125765 los valores de los cuartiles primero y tercero, respectivamente. b) Construir un histograma del Grado de ocupacin hotelera.

Nota.- Para introducir colores, texto, etc. en el grfico seleccionaremos la opcin de Edit Attributes, o bien, una vez realizado el grfico clicando dos veces sobre la parte del grfico que queremos modificar. Del anterior grfico podemos deducir, bsicamente, que la ocupacin hotelera se encuentra siempre por encima del 40% y ni siquiera en los meses de verano supera aproximadamente el 80%. Cabe destacar que son datos generales de todo el pas, evidentemente, la ocupacin hotelera en los meses de verano y vacaciones, los hoteles de la costa alcanzarn mayor cota de ocupacin. c) Dibujar los diagramas de cajas (Boxplot) correspondientes a la ocupacin hotelera de Espaoles y de Extranjeros, comentando las diferencias bsicas entre ellos. Del anterior grfico cabe destacar que el valor de la mediana de turistas espaoles es ligeramente superior a la de extranjeros, as como el resto de valores. Observamos que, por ejemplo, el valor del tercer cuartil de Extranjeros se acerca al valor del tercer cuartil de Espaoles. Observemos tambin que en ninguna de las dos observaciones aparecen valores extremos (outliers), si fuera as, apareceran con un asterisco en la posicin adecuada. d) Calcular nicamente la media y la mediana correspondientes a la Estancia media en das de la columna Espaoles. Por tanto, deducimos que el nmero medio de estancia en das anual de turistas espaoles es de aproximadamente 2.54, valor que difiere ligeramente de la mediana cuyo valor es 2.41. 2. Un tema de interesante anlisis es la investigacin en el rea de educacin en nuestro pas, veamos cul fue la cantidad de dinero invertida en el ao 1999 en Espaa y, comparativamente, en una determinada Comunidad Autnoma, por ejemplo, la de Valencia. Para ello, vamos a la pgina web del Instituto Valenciano de Estadstica: http://ive.infocentre.gva.es/ . En el margen izquierdo de la pgina encontraremos un

men, del cual seleccionaremos la opcin Informacin Estadstica y Temas. Ahora escogemos la opcin Educacin e investigacin y seleccionamos Investigacin. Por ltimo, elegimos Indicadores econmicos de la actividad de investigacin

a) Calcula los estadsticos descriptivos correspondientes a la variable Investigadores en cada uno de los mbitos, tanto en la Comunidad Valenciana como en Espaa, y comenta los resultados. Cabe destacar la mnima inversin tanto en la Comunidad Valenciana como en Espaa, se produce en Instituciones privadas sin lucro, correspondiendo la mxima inversin a las Enseanzas superiores. b) Como sabemos, el sesgo de una distribucin depende de la simetra de sta. Razona, si la distribucin correspondiente a Tcnicos en I+D, tanto en la Comunidad Valenciana como en Espaa, es positivamente sesgada o negativamente sesgada. Recuerda que, para ello, tendrs que calcular la media y la mediana de ambas distribuciones. Por tanto, como la media aritmtica es superior a la mediana, podramos afirmar que en la distribucin correspondiente a la variable Tcnicos en I+D de la Comunidad Valenciana es positivamente sesgada.

Por tanto, en Espaa, la distribucin correspondiente a la variable Tcnicos en I+D tambin es positivamente sesgada. Desde la misma pgina web que estamos trabajando, y siguiendo los pasos anteriores hasta la opcin Educacin e investigacin, seleccionamos esta vez la opcin Enseanzas universitarias pblicas y Profesores universitarios, obteniendo el siguiente resultado:

c) Representa en un diagrama de cajas, el nmero de profesores universitarios en cada una de las distintas universidades, correspondientes a los aos 1997/98 y 2000/01. En los anteriores diagramas, podemos observar que la mediana del ao 2000-01 es bastante superior a la del 1997-98, as como el mximo de ambas distribuciones. Adems, cabe destacar que ambas distribuciones estarn claramente sesgadas hacia la derecha ya que la lnea superior es bastante ms larga que la inferior. En la segunda variable, prcticamente coinciden el primer cuartil y el valor mnimo. Finalmente, comentar que los valores mnimos tanto en una variable como otra se dan en la Universitad Miguel Hernndez y los mximos en la Universidad de Valencia. d) Calcula el coeficiente de variacin para los Profesores de la universidad Jaume I. Por tanto, como CV =
s 100% = 0.086, lo cual indica que existe una dispersin de los x

datos de aproximadamente el 9%. http://www.mste.uiuc.edu/hill/dstat/dstat.html: Introduction to Descriptive Statistics www.ine.es: Instituto Nacional de Estadstica www.fisterra.com/material/investiga/10descriptiva/10descriptiva.htm: Estadstica descriptiva

Вам также может понравиться