Antonio Velasco Muoz Profesor Asociado (Pensionado) Universidad Nacional de Colombia Departamento de Matemticas avelasom@yahoo.com
Bogot 2014
Antonio Velasco M, -2-
INTRODUCCIN
Este trabajo es la recopilacin de los conceptos fundamentales necesarios para que la enseanza y comprensin de la Estadstica en diferentes niveles sea satisfactoria los mtodos y permita elegir los procedimientos adecuados para el procesamiento de datos estadsticos en las diferentes disciplinas del conocimiento cientfico.
El texto es una aproximacin que permita comprender los conceptos sin mucho formalismo, matemtico facilitando un acercamiento de los lectores a esta parte de la ciencia.
Se presentan ejemplos desarrollados en computador para su anlisis e interpretacin. Se recomienda usar lecturas complementarias de los textos tradicionales de Estadstica con aplicaciones a las diferentes reas del conocimiento, sin perder el espritu de las ideas bsicas, comunes a todas las interpretaciones y aplicaciones.
Por ltimo se dan los elementos tericos iniciales necesarios para comprender la minera de datos aplicada a grandes volmenes de informacin.
Antonio Velasco M, -3-
CAPTULO I ESTADSTICA Y EL PROCESO INVESTIGATIVO
1.5 Terminologa bsica y sus relaciones
El diagrama de esta seccin, presenta los elementos y las relaciones que conforman el proceso estadstico aplicado a una investigacin y expone, previamente, los supuestos para que un problema pueda solucionarse mediante la utilizacin de mtodos y herramientas de la Estadstica.
Los supuestos fundamentales de una investigacin, para que se utilice la Estadstica son grosso modo los siguientes:
1) El problema a resolver debe estar claramente definido, lo cual significa que mientras no se determinen los trminos propios del problema a investigar y sus relaciones intrnsecas, as como el contexto en el cual se presenta etc. No se debe pensar en el uso de la estadstica.
b) Las cualidades, atributos, caractersticas en general variables, necesarias para conocer el problema deben estar claramente especificadas y reconocidas como necesarias para obtener la solucin del problema dado.
c) La informacin requerida para conocer el problema en general es parcial e involucra un factor de incertidumbre no controlable totalmente.
Estos supuestos caracterizan un problema solucionable mediante el uso de mtodos y herramientas de la estadstica y determinan el camino para su exploracin y obtencin de resultados vlidos y confiables en la investigacin.
No se debe esperar, por lo tanto, de la Estadstica la generacin de problemas distintos a la de su propio desarrollo, ni respuestas mgicas absolutas a los problemas, ya que en sntesis se pretende manejar, de la mejor manera, los errores que se generan en la investigacin y estudiar formas de valorarlos y minimizarlos.
Los elementos que se presentan forman un circuito, junto con las respectivas relaciones entre ellos y constituyen el proceso estadstico sistemtico en el cual se ubican los elementos estructurales de la estadstica y la relacin lgica entre ellos.
Las flechas del diagrama que se presenta a continuacin conectan los elementos y definen procedimientos estadsticos fundamentales que forman los elementos fundamentales del estudio de la Estadstica.
Cada uno de los trminos presentados se pueden profundizar en los distintos textos de Estadstica y son en general el propsito del estudio de los mtodos estadsticos.
Antonio Velasco M, -4-
1.2 Diagrama del proceso estadstico.
PROCESO ESTADSTICO EN LA INVESTIGACIN
1.2.1 Poblacin: Representa lo que se debera observar para obtener la totalidad de la informacin necesaria para resolver el problema. En general la poblacin es grande y compleja y no se puede observar totalmente, por causas que hacen no factible esta posibilidad. Por ejemplo en un examen de sangre no se puede extraer toda la sangre de un paciente para determinar si sufre o no, de anemia.
Muestreo MEDICIN OBSERVACIN T A B U L A C I O N INFERENCIA ESTADSTICA TEORA REALIDAD VS PROBABILIDAD
MATEMTICAS
LGICA
FILOSOFA
TICA Aplicacin Estadstica Descriptiva
Poblacin MUESTRA DATOS JUEZ
Antonio Velasco M, -5- 1.2.2 Muestreo: Es el procedimiento mediante el cual se observa una parte representativa de la poblacin para obtener informacin sobre las cualidades o caractersticas a investigar.
1.2.3 Muestra: Parte de la poblacin realmente observada para obtener la informacin estadstica.
1.2.4 Medicin (Observacin): Mtodo utilizado para obtener los valores observados de las cualidades, caractersticas, atributos, etc. De nuestra muestra. Dentro de este concepto no solo se aplica a caractersticas cuantitativas, estrictamente, sino tambin a cualidades o atributos necesarios como informacin.
1.2.5 Datos: Conjunto de valores observados a partir de la muestra. Constituyen la materia prima del proceso estadstico.
1.2.6 Organizacin y tabuloacin: Se refiere a la tabulacin de la informacin obtenida a partir de la muestra.
1.2.7 Estadstica Descriptiva; Resultado del proceso de tabulacin u organizacin de los datos. Describe la verdad de la muestra.
1.2.8 Inferencia Estadstica: Procedimientos mediante los cuales se construye un modelo terico de las variables en estudio en la poblacin a partir de los datos obtenidos en la muestra, del proceso de organizacin de los resultados conocidos en la Estadstica descriptiva y del conocimiento de las teoras, mtodos y principios de la Inferencia Estadstica.
1.2.9 Modelo Terico: Teora que explica el comportamiento de las variables en la poblacin respecto al alcance del problema planteado. En el se encuentran la probabilidad, las matemticas, la lgica, la filosofa y la tica. Es el conocimiento sobre el problema planteado y nos permite dar respuestas a los interrogantes planteados en la investigacin.
1.2.10 Prueba o examen de hiptesis: Procedimiento por medio del cual se valida el modelo propuesto en la teora aplicada mediante su confrontacin con la realidad, representada en la Poblacin estudiada.
1.2.11 Arbitro: Representa la decisin tomada respecto a la validez del modelo propuesto, los errores cometidos y en general el reglamento utilizado para examinar una hiptesis propuesta.
El dominio de los anteriores conceptos y las relaciones entre ellos permiten resolver problemas simples y compuestos de la realidad solucionables son modelos estadsticos. Se presentan los tipos fundamentales de modelos que se estudian 1.3 Modelo determinstico y Modelo probabilstico
Antonio Velasco M, -6- En la observacin de los fenmenos naturales y sociales encontramos cualidades y atributos de inters para obtener respuesta a problemas que enfrentamos en nuestra actividad.
Un problema en el cual los atributos observados se comportan, de acuerdo a un patrn claramente definido, corresponde a un problema matemtico ya que conocido dicho patrn podemos predecir resultados con determinadas condiciones previas. La especificacin completa del patrn se denomina en este caso modelo determinstico del problema; por ejemplo, al observar el nmero de llantas que tocan el piso en un automvil Renault 4 tenemos que son cuatro (4) lo cual constituye un modelo determinstico. Observa en un directorio telefnico los cdigos usados para las llamadas del Discado Directo Nacional e indica para cada departamento como es la asignacin de dichos indicativos. Estos cdigos son determinsticos y estn dados.
Algunos casos no determinsticos: El nmero de dgitos usados en la numeracin telefnica de una localidad tienen un patrn claramente definido y constituyen la aplicacin de un modelo determinstico. El resultado de la ltima cifra de una lotera a pesar de que es uno de los dgitos 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, no podemos definir un patrn que nos permita predecir con exactitud, el resultado de un sorteo en una fecha dada.
Estas situaciones de incertidumbre y de variabilidad corresponden a modelos de probabilidad los cuales nos permiten medir la posibilidad de un resultado con respecto a otro.
La Estadstica permite analizar esta clase de problemas, asignando algunos modelos despus de la observacin, el cual se denomina metodologa a posteriori o proponiendo modelos antes de la observacin que corresponde a la metodologa a priori.
El equilibrio en el uso de estas fases en la investigacin aumenta la eficiencia y validez de las respuestas al problema en estudio y es uno de los fines de la metodologa estadstica.
La Inferencia Estadstica establece la teora y criterios para establecer modelos de probabilidad, conocer sus elementos principales y estudiar las propiedades deseables de los procedimientos para elegir modelos, a partir de informacin de una muestra.
En la siguiente seccin se presenta un modelo sencillo para la clasificacin de variables en el contexto de la estadstica, el cual contribuye a la explicacin de la medicin y elaboracin de estadsticas descriptivas. 1.4 Modelo de clasificacin de variables
El fundamento del manejo de informacin estadstico esta basado en el manejo de variables y en la clase de las mismas. Para este fin se requiere definir el concepto de variable en forma emprica y establecer una clasificacin de las mismas que permiten presentar un modelo sencillo y presentar criterios aproximados y generales para elegir procedimientos para el tratamiento de informacin, acorde a cada clase de variable, Antonio Velasco M, -7- mediante la determinacin de mtodos en lo referente a su tabulacin, organizacin, anlisis grfico, modelo terico, etc.
1.4.1 Variable Es cualquier cualidad o atributo, no determinstico, que influya en la determinacin de la respuesta a un problema dado. La eleccin de las variables ms apropiadas y la cuantificacin de las mismas es de suma importancia en una investigacin, debe realizarla, en primera instancia, el especialista en la materia del problema y el estadstico en segunda instancia para lograr una seleccin ptima preliminar, producto de las dos formas de ver el problema.
Las variables se clasifican respecto a tres criterios a saber:
a) Segn el Objeto que representa b) Segn el Nmero de posibles valores que pueda asumir. Y c) Segn la Escala que se utiliza para asignar valores.
Al tener en cuenta el objeto que representan, las variables se clasifican en dos clases: CUANTITATIVAS (o de valor numrico) o CATEGORICAS segn represente cantidades numricas o cualidades o caractersticas no numricas.
Si consideramos el nmero de los posibles valores se tienen dos clases:
1.4.2 Variables Discretas y Variables Continuas.
Las primeras suponen pocos valores y se caracterizan porque si se conocen dos valores cualesquiera posibles de la variable, solo se admiten a lo mas, algunos valores intermedios pero no todos dentro del contexto de nmeros reales. Por ejemplo el nmero de hermanos de una persona es una variable discreta.
Las continuas, en cambio, admiten, en teora todos los valores intermedios dados dos posibles valores arbitrarios posibles. Por ejemplo, la longitud de una varilla, el calibre de una proyectil, etc.
1.4.3 Escala es un patrn o conjunto de criterios claramente definidos que permite asignar, sin ambigedades, valores a una variable. El concepto de valor incluye, adems de nmeros, letras, letras y nmeros, palabras, etc. . Se tienen tres clases de escalas a saber:
1) Nominales las cuales sirven nicamente para identificar, como el criterio para asignar el nmero de la cdula a un individuo o el cdigo para saber el color del pelo de una persona.
b) Ordinales que permiten asignar valor a una variable que sirve solo para ordenar. Ejemplo: El puesto que ocupa un ciclista o un atleta en una carrera.
c) De razn asigna un valor numrico a una variable usando una unidad determinada. En este caso estn las cantidades fsicas como peso, volumen, longitud, rea, resistencia etc.
Antonio Velasco M, -8- Cuando en una escala de razn el cero no representa, necesariamente, la ausencia absoluta de la variable, sino que se toma en referencia a un valor no nulo se tiene una escala conocida como de intervalo.
Por ejemplo en la temperatura, los grados Kelvin usan una escala de razn mientras que los grados Celsius usan una escala de intervalo, en la aeronutica la altura sobre Bogot usa una escala de intervalo, mientras que la altura sobre el nivel del mar es de razn.
En sntesis se tiene que una variable puede clasificarse segn el diagrama que se presenta a continuacin.
El anlisis descriptivo y grfico de los datos de una muestra dependen de la clase de variable que se examine lo cual constituye el propsito de la siguiente seccin.
Antonio Velasco M, -9- 1.5 Elementos iniciales de la estadstica para una variable
La clasificacin de las variables expuesta anteriormente nos permite considerar las formas ms sencillas para desarrollar el proceso de organizacin y tabulacin de la informacin estadstica.
Estableceremos criterios para elegir los procedimientos en la Estadstica Descriptiva para presentar resultados de Datos obtenidos de una muestra, en una variable, de acuerdo a la escala que se utilice y al nmero de valores posibles.
1.5.1 Escala Nominal. En este caso la variable clasifica los individuos de la muestra, asignndoles nombres que identifican cualidades o atributos, por lo tanto se deben utilizar: El nmero de veces que ocurre un valor constituye las Frecuencias Absolutas y las proporciones dentro de la muestra se conocen como las Frecuencias Relativas. Las grficas mas apropiadas son el Diagrama de Pastel y el Diagrama de barras horizontales, ordenados del valor mas frecuente al menos frecuente. Las ideas ms comunes que sintetizan la informacin de la variable, son la moda y el valor menos frecuente. No se usan medidas de homogeneidad o heterogeneidad de los datos. No se aconseja otra clase de estadsticas o grficas ya que inducen mensajes sublimados que sesgan las conclusiones de la informacin obtenida.
1.5.2 Escala de Orden. Una variable que use una de estas escala permite, adems de la nominal, establecer un orden entre los valores de la variable lo cual modifica lo enunciado para las variables de escala nominal as:
Se agregan las frecuencias absolutas y relativas acumuladas, utilizando el orden de menor a mayor segn el orden de la escala de la variable en la presentacin de los datos. Se pueden cambiar los diagramas expuestos anteriormente, por diagramas de lneas y de barras separadas verticales. Las estadsticas que sintetizan la informacin, adems de las anteriores, se complementan con los percentiles y sus derivados, mediana, cuartiles etc. Especialmente cuando la variable en su contexto es mas parecida a una variable cuantitativa.
Las medidas de homogeneidad o heterogeneidad de los datos en este caso son el Rango, (Valor mas grande menos Valor mas pequeo) Rango intercuartlico ( Percentil 75 menos percentil 25) etc. Solo en los casos en los cuales la escala de orden corresponde a una variable cuantitativa se puede usar el promedio como una estadstica de tendencia central punto de equilibrio y la desviacin standard como una medida de dispersin.
Los casos expuestos corresponden a variables discretas lo que descarta, en primera instancia, las tcnicas para la agrupacin de datos.
1.5.3 Escala de Razn. En este caso la variable que corresponde es cuantitativa discreta o continua. Si corresponde a una discreta se puede hacer todo lo relacionado para variables de orden y agregar las medidas de tendencia y dispersin y agrupar solo en el caso que se quiera obtener una clasificacin en donde el orden sea mas importante que el detalle propio de cada dato. Si la variable es continua se requiere obligatoriamente una agrupacin de datos y la aplicacin de las tcnicas respectivas de anlisis de informacin Antonio Velasco M, -10- conocidas. (Histogramas, Diagramas de ramas y hojas, Datos agrupados, clases, Marcas de clases, etc.)
En los paquetes especializados de manejo de informacin estadstica, se aplican los mejores y mas actualizados procedimientos para su organizacin y nos proporcionan ayudas grficas que mejoran su anlisis e interpretacin. Tambin se presentan facilidades para la elaboracin rpida de los dibujos y graficas, lo cual mejora la comprensin de las ideas estadsticas y ayudan a la interpretacin de resultados ya que la mecnica de los procedimientos de clculo de estadsticas nos lo facilitan las mquinas..
En el caso de varias variables se aplican los mtodos originados en los Mtodos de Regresin, el Anlisis de la Varianza, el Diseo Experimental y el Anlisis Multivariante entre otros. 1.5.4 Ejemplo Integral
A continuacin se presenta un ejemplo en el cual se han desarrollado algunos mtodos de anlisis estadstico elemental.
Este ejemplo contiene la informacin de 40 personas respecto a las variables indicadas donde la Categora corresponde al escalafn dentro de la Empresa.
Datos de 40 empleados de una compaa,
N Sexo Edad Ingresos Gastos Categora 1 FEM 19 345 337 1 2 FEM 19 340 340 1 3 FEM 24 300 296 1 4 FEM 25 350 350 1 5 MAS 19 350 346 1 6 FEM 19 365 357 1 7 MAS 25 360 360 1 8 FEM 25 370 370 1 9 MAS 23 405 367 1 10 MAS 24 400 396 1 11 MAS 37 425 363 1 12 MAS 20 500 384 2 13 MAS 28 520 432 2 14 MAS 31 530 446 2 15 MAS 33 550 458 2 16 MAS 28 500 412 2 17 MAS 26 490 394 2 18 FEM 25 480 380 2 Antonio Velasco M, -11- 19 MAS 35 570 470 2 20 MAS 24 600 516 2 21 MAS 39 610 566 2 22 FEM 30 620 440 3 23 MAS 38 700 524 3 24 FEM 34 740 580 3 25 MAS 26 750 550 3 26 FEM 36 690 494 3 27 MAS 38 710 562 3 28 FEM 37 700 548 3 29 MAS 33 700 532 3 30 FEM 35 500 220 4 31 MAS 29 950 674 4 32 FEM 45 980 960 4 33 MAS 41 1000 970 4 34 FEM 40 680 440 4 35 FEM 45 685 465 4 36 MAS 45 950 826 4 37 MAS 41 940 704 4 38 MAS 37 920 680 4 39 MAS 45 850 630 4 40 FEM 50 800 584 4
1.5.5 Proceso de estandarizacin Este procedimiento permite transformar los datos originales en otros con la propiedad de que no dependen de unidades de medida y que siempre van a tener un promedio de cero (0) y una deviacin estndar de uno (1) Lo anterior permite que dos variables se puedan comparar grficamente sin ser afectadas por las unidades de medida originales y son la base de los conceptos para medir la asociacin entre variables como la regresin, el anlisis de componentes principales, anlisis de correlaciones etc. La manera de hacer esta transformacin es la siguiente: Sean los datos originales representados as: ! ! ! ! ! ! !
Antonio Velasco M, -16- Estos datos tienen unidades especficas y un promedio y desviacin estndar que se deben calcular como sigue: ! ! ! ! ! !!! ! ! ! ! ! ! ! ! ! ! ! !!! ! ! !
Tambin se puede utilizar la desviacin estndar poblacional o sea aquella que tiene por divisor n en cambio de n-1. Ahora considera los valores estandarizados z as: ! ! ! ! ! ! !
Donde cada ! ! ! ! ! !! ! !
Para estos valores de z se tiene que su promedio es cero (0) y su desviacin estndar S(z) es igual a uno (1) Para el ejemplo anterior los valores estandarizados de cada variable son los siguientes
En los diagramas de lneas de las tres variables estandarizadas se observa que estn alrededor de la recta horizontal de cero (0) y cada unidad en el eje vertical corresponde a una Desviacin Estndar
Antonio Velasco M, -18-
Se puede apreciar que hay mas cercana en el comportamiento de las variables Zingresos y Zgastos que estas dos con la Zedad.
1.5.6 Resultados de un paquete profesional STATGRAPHICS
Esta tabla muestra los estadsticos de resumen para EDAD. Incluye medidas de tendencia central, medidas de variabilidad y medidas de forma. De particular inters aqu son el sesgo estandarizado y la curtosis estandarizada, las cuales pueden utilizarse para determinar si la muestra proviene de una distribucin normal.
Valores de estos estadsticos fuera del rango de -2 a +2 indican desviaciones significativas de la normalidad, lo que tendera a invalidar cualquier prueba estadstica con referencia a la desviacin estndar. En este caso, el valor del sesgo estandarizado se encuentra dentro del rango esperado para datos provenientes una distribucin normal. El valor de curtosis estandarizada se encuentra dentro del rango esperado para datos provenientes de una distribucin normal.
Antonio Velasco M, -19-
Resumen Estadstico para INGRESOS
Recuento 40 Promedio 605,625 Desviacin Estndar 206,823 Coeficiente de Variacin 34,1504% Mnimo 300,0 Mximo 1000,0 Rango 700,0 Cuartil Inferior 415,0 Cuartil Superior 725,0 Sesgo Estandarizado 0,98667 Curtosis Estandarizada -1,17714
Esta tabla muestra los estadsticos de resumen para INGRESOS. Incluye medidas de tendencia central, medidas de variabilidad y medidas de forma. De particular inters aqu son el sesgo estandarizado y la curtosis estandarizada, las cuales pueden utilizarse para determinar si la muestra proviene de una distribucin normal. Valores de estos estadsticos fuera del rango de -2 a +2 indican desviaciones significativas de la Grfico de Caja y Bigotes 19 29 39 49 59 EDAD Antonio Velasco M, -20- normalidad, lo que tendera a invalidar cualquier prueba estadstica con referencia a la desviacin estndar. En este caso, el valor del sesgo estandarizado se encuentra dentro del rango esperado para datos provenientes una distribucin normal. El valor de curtosis estandarizada se encuentra dentro del rango esperado para datos provenientes de una distribucin normal.
Esta tabla muestra los estadsticos de resumen para GASTOS Grfico de Caja y Bigotes 300 500 700 900 1100 INGRESOS Antonio Velasco M, -21- De particular inters aqu son el sesgo estandarizado y la curtosis estandarizada, las cuales pueden utilizarse para determinar si la muestra proviene de una distribucin normal.
Valores de estos estadsticos fuera del rango de -2 a +2 indican desviaciones significativas de la normalidad, lo que tendera a invalidar cualquier prueba estadstica con referencia a la desviacin estndar. En este caso, el valor del sesgo estandarizado no se encuentra dentro del rango esperado para datos provenientes de una distribucin normal. El valor de curtosis estandarizada tampoco se encuentra dentro del rango esperado para datos provenientes de una distribucin normal.
Tabla de Medias para GASTOS por CATEGORIA Con intervalos de confianza del 95,0%
CATEGORIA Casos Media Error Est. (s agrupada) Lmite Inferior Lmite Superior 1 11 352,909 37,404 299,269 406,549 2 10 445,8 39,2296 389,542 502,058 3 8 528,75 43,86 465,851 591,649 4 11 650,273 37,404 596,632 703,913 Total 40 493,075
Esta tabla muestra la media de GASTOS para cada nivel de CATEGORIA. Tambin muestra el error estndar de cada media, el cual es una medida de la variabilidad de su Grfico de Caja y Bigotes 0 200 400 600 800 1000 GASTOS Antonio Velasco M, -22- muestreo. El error estndar es el resultado de dividir la desviacin estndar mancomunada entre el nmero de observaciones en cada nivel. La tabla tambin muestra un intervalo alrededor de cada media. Los intervalos mostrados actualmente estn basados en el procedimiento de la diferencia mnima significativa (LSD) de Fisher. Estn construidos de tal manera que, si dos medias son iguales, sus intervalos se traslaparn un 95,0% de las veces.
1 2 3 4 Grfico Caja y Bigotes 0 200 400 600 800 1000 GASTOS C A T E G O R I A Antonio Velasco M, -23-
1.5.7 TALLER N 1
PARTE A
Considere las variables dadas y aplique el modelo propuesto teniendo en cuenta un contexto, Escriba dos posibles valores de cada variable coherente con la clasificacin de la variable propuesta.
1) El estado de nimo de una persona 2) El resultado de lanzar un dado, una sola vez. 3) El nmero impreso en un formulario para solicitar subsidio para vivienda de inters social 4) El nivel de la voz de una El estado de satisfaccin de un cliente 5) La calificacin en matemticas de un estudiante 6) El valor de un almuerzo 7) La placa de un auto 8) La edad de una persona 9) La profesin de una persona 10) El nmero de la cdula de un ciudadano 11) El color de los ojos de una persona 12) El ingreso mensual de una persona 13) El nmero de hermanos de una persona 14) El semestre que cursa un estudiante en la Universidad 15) El nmero del formulario con el cual se inscribi un estudiante en la Universidad
PARTE B La siguiente tabla de frecuencias corresponde a la variable nmero de clientes x i que entran a un hipermercado por minuto en la ciudad de Andes n i nmero de minutos 31 minutos observados
N clientes N Minutos
Acumulada
i x i n i fi Ni Fi i i x n 2 ) ( x x n i i ! 1 15 8 26% 8 26% 120 8(15- x ) 2
2 20 3 10% 35% 60 3 25 4 4 30 5 5 35 5 6 40 4 7 45 2 31 Antonio Velasco M, -24- Total 31 855 2993.5
Promedio x Desv. Estan. ds(x)
1) Explique la informacin de las columnas x i y n i . 2) Encuentre el valor de la MODA y escriba su interpretacin 3) Encuentre el cuartil inferior Q 25 e interprtelo 4) Encuentre el valor de la MEDIANA e interprtela 5) Interprete segn Gauss el valor de la desviacin estndar ds(x) 6) Idem a 4) pero segn Schevychev 7) Dibuje la caja de Box and Wiskers y escriba una interpretacin en no ms de 4 renglones. 8) Cul seria la diferencia entre la Moda y la Mediana. Entre la Mediana y el Promedio? 9) Que podra decir en general de los datos presentados?
PARTE C
La siguiente tabla de Estadsticas descriptivas corresponde a la variable nmero de autos nuevos que se venden por marca en los ltimos 36 meses.
Estadstica RENAULT HYUNDAI CHEVROLET N MESES 36 36 36 MNIMO 325 121 125 MXIMO 530 218 328 CUARTIL INFERIOR Q25 400.5 157 148 CUARTIL SUPERIOR Q75 456.5 168 268 MEDIANA 426 159 250 PROMEDIO 428.1 158.9 231.8 DESVIACIN ESTNDAR 43.4 14.1 26.4
1) Escriba el valor de la Mediana de la marca Renault y escriba su interpretacin 2) Escriba el valor del Cuartil inferior Q 25 para la marca Hyundai y escriba su interpretacin. 3) Escriba el valor del Promedio para la marca Chevrolet y escriba su interpretacin 4) Interprete segn Gauss el valor de la desviacin estndar para la marca Renault 5) Dibuje la caja de Box and Wiskers para la marca Hyundai y escriba una interpretacin en no ms de 4 renglones. 6) Escriba un anlisis estadstico elemental personal de la informacin presentada para las tres marcas..
PARTE D Antonio Velasco M, -25-
Los resultados siguientes corresponden a 92 AUTOMOVILES respecto al nmero de cilindros del motor versus la potencia en Caballos de Fuerza Interprete y analice la informacin suministrada Explique las grficas dadas
Esta tabla muestra diferentes estadsticos de Horsepower para cada uno de los 5 niveles de Cilindros La intencin principal del anlisis de varianza de un factor es la de comparar las medias de los diferentes niveles, enlistados aqu bajo la columna de Promedio. ADVERTENCIA: Hay una diferencia de ms de 3 a 1 entre la desviacin estndar ms pequea y la ms grande. Esto puede causar problemas puesto que el anlisis de varianza asume que las desviaciones estndar de todos los niveles es igual.
ADVERTENCIA: El sesgo estandarizado y/o la curtosis estandarizada se encuentran fuera del rango de -2 a +2 para los 2 niveles de Cylinders. Esto indica algo de no normalidad significativa en los datos, lo cual viola el supuesto de que los datos provienen de distribuciones normales
Antonio Velasco M, -26-
Con los mismos datos del caso anterior ahora se compara el Peso en Kilos vs el nmero de cilindros para los mismos 92 autos.
Cilindros Curtosis Estandarizada 3 4 1,17597 3 4 5 6 8 Grfico Caja y Bigotes 0 50 100 150 200 250 300 Horsepower C y l i n d e r s Antonio Velasco M, -27- 5 6 1,74313 8 0,531903 Total -1,70863
Esta tabla muestra diferentes estadsticos de la variable Peso para cada uno de los 5 niveles de Cilindros. La intencin principal del anlisis de varianza de un factor es la de comparar las medias de los diferentes niveles, enlistados aqu bajo la columna de Promedio. .
Antonio Velasco M, -28- 1.6. Ejercicios
1) En cada caso clasifique las variables presentadas describiendo: un contexto posible y enuncie unos valores posibles de cada de ellas que sean coherentes con la clasificacin establecida.
a) El barrio donde vive un estudiante b) El tiempo que demora un camin para llegar a la planta de despacho desde la casa del chofer. c) El puesto que ocupa dentro de la familia como hijo. d) La clase de vivienda en donde vive una familia. e) El saldo de una cuenta de ahorros en un banco f) El estado del tiempo en un da dado g) La opinin de una persona sobre un programa de Televisin dado. h) El resultado de lanzar una vez un dado i) La carta de un naipe al extraer una de ellas de una baraja. j) El estado de una tarjeta de crdito k) El aprecio que se tiene por una persona especfica. l) La cantidad de cerveza que consume una persona en un fin de semana. m) La tasa de inters ofrecida por un CDT. n) La carta de un naipe
En cada caso establezca un contexto para poder clasificar cada una de las variables.
Escriba algunos valores posibles para cada variable que estn de acuerdo con el contexto establecido anteriormente.
2) Los 25 datos siguientes corresponden a la variable nmero de fallas diarias de una empacadora de botellas.
2,3,4,3,2,4,5,6,7,8,7,6,7,8,5,4,6,4,3,0,3,4,5,6,5
Haga un anlisis estadstico bsico
3) Una oficina de seleccin de personal desarrollo dos programas de capacitacin a empleados hasta lograr un desempeo satisfactorio. Los resultados sintetizados se presentan en la siguiente tabla:
PROGRAMA Promedio horas Desviacin standard Nmero empleados A 22.11 8.65 20 B 19.75 8.20 20
a) Interprete los resultados presentados b) Calcule los coeficientes de variacin de cada programa y establezca cual tuvo mayor variabilidad relativa.
Antonio Velasco M, -29- 4) Una fbrica elabora piezas redondas elaboradas con torno metlico, como repuesto de bombas de agua. Los dimetros en pulgadas de una muestra al azar de 20 de esas piezas se presenta a continuacin.
Calcule e interprete las siguientes estadsticas: Q 95 Q 90 Q 50 Q 25 Q 75 La media Cv(x) Ds(x)
5) Un administrador de un hospital recolect informacin sobre 200 pacientes, escogidos al azar, para elaborar estadsticas del tiempo de permanencia despus de someterse a una operacin quirrgica. Los datos se presentaron en forma agrupada de la siguiente manera:
Permanencia en das Intervalos Marca de clase x i
Frecuencias Absolutas n i
De 1 a 3 das 2 24 De 4 a 6 das 5 83 De 7 a 9 das 8 52 De 10 a 12 das 11 22 De 13 a 15 das 14 11 De 16 a 18 das 17 5 De 19 a 21 das 20 2 De 22 a 24 das 23 1
Calcule la media aritmtica y la mediana e interprtelas Calcule la desviacin estndar e interprtela bajo la distribucin normal o de Gauss Aplique el teorema de Chebychev para 2 desviaciones alrededor de la media.
6) Un estudio sobre el coeficiente intelectual CI se presenta en la siguiente tabla
a) Interpreta la desviacin Standard para cada categora y para el TOTAL b) Si un nio tiene un Coeficiente de Inteligencia CI de 106 Cul es su calificacin estandarizada en su categora? Cul con respecto al puntaje TOTAL? c) Si un joven tiene un CI de 80 Cul es su calificacin estandarizada en su categora? Cul en el TOTAL? d) Si un anciano tiene un CI de 70 Cul es su calificacin estandarizada en su categora? Cul con respecto al TOTAL? Antonio Velasco M, -30- e) Si una persona tiene un CI superior al promedio ms tres desviaciones estndar se llama superdotada. Cules son los lmites mnimos para que una persona de las distintas categoras sea calificada como superdotada. Cul su calificacin estandarizada para cada una de las categoras? Cul respecto al TOTAL?
7) Una empresa de auditoria desea analizar el salario de sus nuevos pensionados afiliados para lo cual selecciona las primeras veinte carpetas obteniendo la siguiente informacin:
a) Calcule la media aritmtica, la mediana e interprtelas b) Calcule el rango intercuartlico y la desviacin standard de la muestra e interprtelas c) Construya el diagrama de Box y Whisker e interprtelo d) Calcule Q 80 e interprtelo.
8) El peso en kilos de basura recogidas en una oficina durante 40 das se presentan en la siguiente tabla: