Вы находитесь на странице: 1из 30

Antonio Velasco M, -1-

UNI VERSI DAD DE LA SABANA






ELEMENTOS
DE
ESTADSTICA APLICADA


Antonio Velasco Muoz
Profesor Asociado (Pensionado)
Universidad Nacional de Colombia
Departamento de Matemticas
avelasom@yahoo.com



Bogot 2014


Antonio Velasco M, -2-







INTRODUCCIN



Este trabajo es la recopilacin de los conceptos fundamentales necesarios para que la enseanza y
comprensin de la Estadstica en diferentes niveles sea satisfactoria los mtodos y permita elegir los
procedimientos adecuados para el procesamiento de datos estadsticos en las diferentes disciplinas
del conocimiento cientfico.

El texto es una aproximacin que permita comprender los conceptos sin mucho formalismo,
matemtico facilitando un acercamiento de los lectores a esta parte de la ciencia.


Se presentan ejemplos desarrollados en computador para su anlisis e interpretacin. Se recomienda
usar lecturas complementarias de los textos tradicionales de Estadstica con aplicaciones a las
diferentes reas del conocimiento, sin perder el espritu de las ideas bsicas, comunes a todas las
interpretaciones y aplicaciones.

Por ltimo se dan los elementos tericos iniciales necesarios para comprender la minera de datos
aplicada a grandes volmenes de informacin.







Antonio Velasco M, -3-

CAPTULO I
ESTADSTICA Y EL PROCESO INVESTIGATIVO

1.5 Terminologa bsica y sus relaciones

El diagrama de esta seccin, presenta los elementos y las relaciones que conforman el
proceso estadstico aplicado a una investigacin y expone, previamente, los supuestos
para que un problema pueda solucionarse mediante la utilizacin de mtodos y
herramientas de la Estadstica.

Los supuestos fundamentales de una investigacin, para que se utilice la Estadstica son
grosso modo los siguientes:

1) El problema a resolver debe estar claramente definido, lo cual significa que
mientras no se determinen los trminos propios del problema a investigar y sus
relaciones intrnsecas, as como el contexto en el cual se presenta etc. No se debe
pensar en el uso de la estadstica.

b) Las cualidades, atributos, caractersticas en general variables, necesarias para
conocer el problema deben estar claramente especificadas y reconocidas como
necesarias para obtener la solucin del problema dado.

c) La informacin requerida para conocer el problema en general es parcial e involucra un
factor de incertidumbre no controlable totalmente.

Estos supuestos caracterizan un problema solucionable mediante el uso de mtodos y
herramientas de la estadstica y determinan el camino para su exploracin y obtencin de
resultados vlidos y confiables en la investigacin.

No se debe esperar, por lo tanto, de la Estadstica la generacin de problemas distintos a
la de su propio desarrollo, ni respuestas mgicas absolutas a los problemas, ya que en
sntesis se pretende manejar, de la mejor manera, los errores que se generan en la
investigacin y estudiar formas de valorarlos y minimizarlos.

Los elementos que se presentan forman un circuito, junto con las respectivas relaciones
entre ellos y constituyen el proceso estadstico sistemtico en el cual se ubican los
elementos estructurales de la estadstica y la relacin lgica entre ellos.

Las flechas del diagrama que se presenta a continuacin conectan los elementos y
definen procedimientos estadsticos fundamentales que forman los elementos
fundamentales del estudio de la Estadstica.

Cada uno de los trminos presentados se pueden profundizar en los distintos textos de
Estadstica y son en general el propsito del estudio de los mtodos estadsticos.



Antonio Velasco M, -4-




1.2 Diagrama del proceso estadstico.

PROCESO ESTADSTICO EN LA INVESTIGACIN




















1.2.1 Poblacin: Representa lo que se debera observar para obtener la totalidad de la
informacin necesaria para resolver el problema. En general la poblacin es grande y
compleja y no se puede observar totalmente, por causas que hacen no factible esta
posibilidad. Por ejemplo en un examen de sangre no se puede extraer toda la sangre de
un paciente para determinar si sufre o no, de anemia.

Muestreo MEDICIN
OBSERVACIN
T
A
B
U
L
A
C
I
O
N
INFERENCIA
ESTADSTICA
TEORA
REALIDAD
VS
PROBABILIDAD

MATEMTICAS

LGICA

FILOSOFA

TICA
Aplicacin
Estadstica
Descriptiva

Poblacin
MUESTRA
DATOS
JUEZ

Antonio Velasco M, -5-
1.2.2 Muestreo: Es el procedimiento mediante el cual se observa una parte
representativa de la poblacin para obtener informacin sobre las cualidades o
caractersticas a investigar.

1.2.3 Muestra: Parte de la poblacin realmente observada para obtener la informacin
estadstica.

1.2.4 Medicin (Observacin): Mtodo utilizado para obtener los valores observados
de las cualidades, caractersticas, atributos, etc. De nuestra muestra. Dentro de este
concepto no solo se aplica a caractersticas cuantitativas, estrictamente, sino tambin a
cualidades o atributos necesarios como informacin.

1.2.5 Datos: Conjunto de valores observados a partir de la muestra. Constituyen la
materia prima del proceso estadstico.

1.2.6 Organizacin y tabuloacin: Se refiere a la tabulacin de la informacin
obtenida a partir de la muestra.

1.2.7 Estadstica Descriptiva; Resultado del proceso de tabulacin u organizacin de
los datos. Describe la verdad de la muestra.

1.2.8 Inferencia Estadstica: Procedimientos mediante los cuales se construye un
modelo terico de las variables en estudio en la poblacin a partir de los datos obtenidos
en la muestra, del proceso de organizacin de los resultados conocidos en la Estadstica
descriptiva y del conocimiento de las teoras, mtodos y principios de la Inferencia
Estadstica.

1.2.9 Modelo Terico: Teora que explica el comportamiento de las variables en la
poblacin respecto al alcance del problema planteado. En el se encuentran la
probabilidad, las matemticas, la lgica, la filosofa y la tica. Es el conocimiento sobre el
problema planteado y nos permite dar respuestas a los interrogantes planteados en la
investigacin.

1.2.10 Prueba o examen de hiptesis: Procedimiento por medio del cual se valida el
modelo propuesto en la teora aplicada mediante su confrontacin con la realidad,
representada en la Poblacin estudiada.

1.2.11 Arbitro: Representa la decisin tomada respecto a la validez del modelo
propuesto, los errores cometidos y en general el reglamento utilizado para examinar una
hiptesis propuesta.

El dominio de los anteriores conceptos y las relaciones entre ellos permiten resolver
problemas simples y compuestos de la realidad solucionables son modelos estadsticos.
Se presentan los tipos fundamentales de modelos que se estudian
1.3 Modelo determinstico y Modelo probabilstico

Antonio Velasco M, -6-
En la observacin de los fenmenos naturales y sociales encontramos cualidades y
atributos de inters para obtener respuesta a problemas que enfrentamos en nuestra
actividad.

Un problema en el cual los atributos observados se comportan, de acuerdo a un patrn
claramente definido, corresponde a un problema matemtico ya que conocido dicho
patrn podemos predecir resultados con determinadas condiciones previas. La
especificacin completa del patrn se denomina en este caso modelo determinstico del
problema; por ejemplo, al observar el nmero de llantas que tocan el piso en un automvil
Renault 4 tenemos que son cuatro (4) lo cual constituye un modelo determinstico.
Observa en un directorio telefnico los cdigos usados para las llamadas del Discado
Directo Nacional e indica para cada departamento como es la asignacin de dichos
indicativos. Estos cdigos son determinsticos y estn dados.


Algunos casos no determinsticos:
El nmero de dgitos usados en la numeracin telefnica de una localidad tienen
un patrn claramente definido y constituyen la aplicacin de un modelo
determinstico.
El resultado de la ltima cifra de una lotera a pesar de que es uno de los dgitos 0,
1, 2, 3, 4, 5, 6, 7, 8, 9, no podemos definir un patrn que nos permita predecir con
exactitud, el resultado de un sorteo en una fecha dada.

Estas situaciones de incertidumbre y de variabilidad corresponden a modelos de
probabilidad los cuales nos permiten medir la posibilidad de un resultado con respecto a
otro.

La Estadstica permite analizar esta clase de problemas, asignando algunos modelos
despus de la observacin, el cual se denomina metodologa a posteriori o proponiendo
modelos antes de la observacin que corresponde a la metodologa a priori.

El equilibrio en el uso de estas fases en la investigacin aumenta la eficiencia y validez de
las respuestas al problema en estudio y es uno de los fines de la metodologa
estadstica.

La Inferencia Estadstica establece la teora y criterios para establecer modelos de
probabilidad, conocer sus elementos principales y estudiar las propiedades deseables de
los procedimientos para elegir modelos, a partir de informacin de una muestra.

En la siguiente seccin se presenta un modelo sencillo para la clasificacin de variables
en el contexto de la estadstica, el cual contribuye a la explicacin de la medicin y
elaboracin de estadsticas descriptivas.
1.4 Modelo de clasificacin de variables

El fundamento del manejo de informacin estadstico esta basado en el manejo de
variables y en la clase de las mismas. Para este fin se requiere definir el concepto de
variable en forma emprica y establecer una clasificacin de las mismas que permiten
presentar un modelo sencillo y presentar criterios aproximados y generales para elegir
procedimientos para el tratamiento de informacin, acorde a cada clase de variable,
Antonio Velasco M, -7-
mediante la determinacin de mtodos en lo referente a su tabulacin, organizacin,
anlisis grfico, modelo terico, etc.

1.4.1 Variable Es cualquier cualidad o atributo, no determinstico, que influya en la
determinacin de la respuesta a un problema dado. La eleccin de las variables ms
apropiadas y la cuantificacin de las mismas es de suma importancia en una
investigacin, debe realizarla, en primera instancia, el especialista en la materia del
problema y el estadstico en segunda instancia para lograr una seleccin ptima
preliminar, producto de las dos formas de ver el problema.

Las variables se clasifican respecto a tres criterios a saber:

a) Segn el Objeto que representa
b) Segn el Nmero de posibles valores que pueda asumir. Y
c) Segn la Escala que se utiliza para asignar valores.

Al tener en cuenta el objeto que representan, las variables se clasifican en dos clases:
CUANTITATIVAS (o de valor numrico) o CATEGORICAS segn represente cantidades
numricas o cualidades o caractersticas no numricas.

Si consideramos el nmero de los posibles valores se tienen dos clases:

1.4.2 Variables Discretas y Variables Continuas.

Las primeras suponen pocos valores y se caracterizan porque si se conocen dos valores
cualesquiera posibles de la variable, solo se admiten a lo mas, algunos valores
intermedios pero no todos dentro del contexto de nmeros reales. Por ejemplo el nmero
de hermanos de una persona es una variable discreta.

Las continuas, en cambio, admiten, en teora todos los valores intermedios dados dos
posibles valores arbitrarios posibles. Por ejemplo, la longitud de una varilla, el calibre de
una proyectil, etc.

1.4.3 Escala es un patrn o conjunto de criterios claramente definidos que permite
asignar, sin ambigedades, valores a una variable. El concepto de valor incluye, adems
de nmeros, letras, letras y nmeros, palabras, etc.
.
Se tienen tres clases de escalas a saber:

1) Nominales las cuales sirven nicamente para identificar, como el criterio para
asignar el nmero de la cdula a un individuo o el cdigo para saber el color del
pelo de una persona.

b) Ordinales que permiten asignar valor a una variable que sirve solo para ordenar.
Ejemplo: El puesto que ocupa un ciclista o un atleta en una carrera.

c) De razn asigna un valor numrico a una variable usando una unidad determinada.
En este caso estn las cantidades fsicas como peso, volumen, longitud, rea, resistencia
etc.

Antonio Velasco M, -8-
Cuando en una escala de razn el cero no representa, necesariamente, la ausencia
absoluta de la variable, sino que se toma en referencia a un valor no nulo se tiene una
escala conocida como de intervalo.

Por ejemplo en la temperatura, los grados Kelvin usan una escala de razn mientras que
los grados Celsius usan una escala de intervalo, en la aeronutica la altura sobre Bogot
usa una escala de intervalo, mientras que la altura sobre el nivel del mar es de razn.

En sntesis se tiene que una variable puede clasificarse segn el diagrama que se
presenta a continuacin.



El anlisis descriptivo y grfico de los datos de una muestra dependen de la clase de
variable que se examine lo cual constituye el propsito de la siguiente seccin.

Antonio Velasco M, -9-
1.5 Elementos iniciales de la estadstica para una variable


La clasificacin de las variables expuesta anteriormente nos permite considerar las formas
ms sencillas para desarrollar el proceso de organizacin y tabulacin de la informacin
estadstica.

Estableceremos criterios para elegir los procedimientos en la Estadstica Descriptiva para
presentar resultados de Datos obtenidos de una muestra, en una variable, de acuerdo a la
escala que se utilice y al nmero de valores posibles.

1.5.1 Escala Nominal. En este caso la variable clasifica los individuos de la muestra,
asignndoles nombres que identifican cualidades o atributos, por lo tanto se deben
utilizar: El nmero de veces que ocurre un valor constituye las Frecuencias Absolutas y
las proporciones dentro de la muestra se conocen como las Frecuencias Relativas. Las
grficas mas apropiadas son el Diagrama de Pastel y el Diagrama de barras horizontales,
ordenados del valor mas frecuente al menos frecuente. Las ideas ms comunes que
sintetizan la informacin de la variable, son la moda y el valor menos frecuente. No se
usan medidas de homogeneidad o heterogeneidad de los datos. No se aconseja otra
clase de estadsticas o grficas ya que inducen mensajes sublimados que sesgan las
conclusiones de la informacin obtenida.

1.5.2 Escala de Orden. Una variable que use una de estas escala permite, adems de la
nominal, establecer un orden entre los valores de la variable lo cual modifica lo enunciado
para las variables de escala nominal as:

Se agregan las frecuencias absolutas y relativas acumuladas, utilizando el orden de
menor a mayor segn el orden de la escala de la variable en la presentacin de los datos.
Se pueden cambiar los diagramas expuestos anteriormente, por diagramas de lneas y de
barras separadas verticales. Las estadsticas que sintetizan la informacin, adems de las
anteriores, se complementan con los percentiles y sus derivados, mediana, cuartiles etc.
Especialmente cuando la variable en su contexto es mas parecida a una variable
cuantitativa.

Las medidas de homogeneidad o heterogeneidad de los datos en este caso son el
Rango, (Valor mas grande menos Valor mas pequeo) Rango intercuartlico ( Percentil
75 menos percentil 25) etc. Solo en los casos en los cuales la escala de orden
corresponde a una variable cuantitativa se puede usar el promedio como una estadstica
de tendencia central punto de equilibrio y la desviacin standard como una medida de
dispersin.

Los casos expuestos corresponden a variables discretas lo que descarta, en primera
instancia, las tcnicas para la agrupacin de datos.

1.5.3 Escala de Razn. En este caso la variable que corresponde es cuantitativa discreta
o continua. Si corresponde a una discreta se puede hacer todo lo relacionado para
variables de orden y agregar las medidas de tendencia y dispersin y agrupar solo en el
caso que se quiera obtener una clasificacin en donde el orden sea mas importante que el
detalle propio de cada dato. Si la variable es continua se requiere obligatoriamente una
agrupacin de datos y la aplicacin de las tcnicas respectivas de anlisis de informacin
Antonio Velasco M, -10-
conocidas. (Histogramas, Diagramas de ramas y hojas, Datos agrupados, clases, Marcas
de clases, etc.)

En los paquetes especializados de manejo de informacin estadstica, se aplican los
mejores y mas actualizados procedimientos para su organizacin y nos proporcionan
ayudas grficas que mejoran su anlisis e interpretacin. Tambin se presentan
facilidades para la elaboracin rpida de los dibujos y graficas, lo cual mejora la
comprensin de las ideas estadsticas y ayudan a la interpretacin de resultados ya que la
mecnica de los procedimientos de clculo de estadsticas nos lo facilitan las mquinas..

En el caso de varias variables se aplican los mtodos originados en los Mtodos de
Regresin, el Anlisis de la Varianza, el Diseo Experimental y el Anlisis Multivariante
entre otros.
1.5.4 Ejemplo Integral

A continuacin se presenta un ejemplo en el cual se han desarrollado algunos mtodos de
anlisis estadstico elemental.

Este ejemplo contiene la informacin de 40 personas respecto a las variables indicadas
donde la Categora corresponde al escalafn dentro de la Empresa.

Datos de 40 empleados de una compaa,

N Sexo Edad Ingresos Gastos Categora
1 FEM 19 345 337 1
2 FEM 19 340 340 1
3 FEM 24 300 296 1
4 FEM 25 350 350 1
5 MAS 19 350 346 1
6 FEM 19 365 357 1
7 MAS 25 360 360 1
8 FEM 25 370 370 1
9 MAS 23 405 367 1
10 MAS 24 400 396 1
11 MAS 37 425 363 1
12 MAS 20 500 384 2
13 MAS 28 520 432 2
14 MAS 31 530 446 2
15 MAS 33 550 458 2
16 MAS 28 500 412 2
17 MAS 26 490 394 2
18 FEM 25 480 380 2
Antonio Velasco M, -11-
19 MAS 35 570 470 2
20 MAS 24 600 516 2
21 MAS 39 610 566 2
22 FEM 30 620 440 3
23 MAS 38 700 524 3
24 FEM 34 740 580 3
25 MAS 26 750 550 3
26 FEM 36 690 494 3
27 MAS 38 710 562 3
28 FEM 37 700 548 3
29 MAS 33 700 532 3
30 FEM 35 500 220 4
31 MAS 29 950 674 4
32 FEM 45 980 960 4
33 MAS 41 1000 970 4
34 FEM 40 680 440 4
35 FEM 45 685 465 4
36 MAS 45 950 826 4
37 MAS 41 940 704 4
38 MAS 37 920 680 4
39 MAS 45 850 630 4
40 FEM 50 800 584 4


Estadsticas Edad Ingresos Gastos
Promedio 31,83 605,63 493,08
Mediana 32 585 452
Cuartil 25 !" $%& '()*)"
Cuartil 75 38,00 732,50 565,00
Desviacin 8,47 204,22 163,90
Mnimo 19 300 220
Mximo 50 1000 970

Sexo N %
FEM 16 40%
MAS 24 60%
Total 40 100%


Antonio Velasco M, -12-

Categora N %
1 11 28%
2 10 25%
3 8 20%
4 11 28%
Total 40 100%





TABLA DE FRECUENCIAS PARA LA EDAD

Frecuencias Frecuencias
Clases Frecuencias Frecuencias Acumuladas Acumuladas
Edad absolutas relativas absolutas relativas
20 5 13% 5 13%
25 8 20% 13 33%
30 6 15% 19 48%
35 6 15% 25 63%
40 8 20% 33 83%
45 6 15% 39 98%
50 1 3% 40 100%
Suma 40 100%


TABLA DE FRECUENCIAS PARA INGRESOS

Frecuencias Frecuencias
Clases Frecuencias Frecuencias Acumuladas Acumuladas
absolutas relativas absolutas relativas
300 1 3% 1 3%
400 8 20% 9 23%
500 7 18% 16 40%
600 5 13% 21 53%
700 8 20% 29 73%
800 4 10% 33 83%
900 1 3% 34 85%
1000 6 15% 40 100%
SUMA 40


Antonio Velasco M, -13-

TABLA DE FRECUENCIAS PARA GASTOS

Frecuencias Frecuencias
Clases Frecuencias Frecuencias Acumuladas Acumuladas
absolutas relativas absolutas relativas
300 2 5% 2 5%
400 13 33% 15 38%
500 9 23% 24 60%
600 9 23% 33 83%
700 3 8% 36 90%
800 1 3% 37 93%
900 1 3% 38 95%
1000 2 5% 40 100%
SUMA 40 100%

Unas grficas producidas en Excel

Antonio Velasco M, -14-








Antonio Velasco M, -15-








1.5.5 Proceso de estandarizacin
Este procedimiento permite transformar los datos originales en otros con la propiedad de
que no dependen de unidades de medida y que siempre van a tener un promedio de cero
(0) y una deviacin estndar de uno (1)
Lo anterior permite que dos variables se puedan comparar grficamente sin ser afectadas
por las unidades de medida originales y son la base de los conceptos para medir la
asociacin entre variables como la regresin, el anlisis de componentes principales,
anlisis de correlaciones etc.
La manera de hacer esta transformacin es la siguiente:
Sean los datos originales representados as:
!
!
!
!
! !
!

Antonio Velasco M, -16-
Estos datos tienen unidades especficas y un promedio y desviacin estndar que se
deben calcular como sigue:
! !
!
!
!
!!!
!
! ! ! !
!
!
! !
! !
!!!
! ! !

Tambin se puede utilizar la desviacin estndar poblacional o sea aquella que tiene por
divisor n en cambio de n-1.
Ahora considera los valores estandarizados z as:
!
!
!
!
! !
!

Donde cada !
!
!
!
!
!!
! !

Para estos valores de z se tiene que su promedio es cero (0) y su desviacin estndar
S(z) es igual a uno (1)
Para el ejemplo anterior los valores estandarizados de cada variable son los siguientes

ZEdad Zingresos Zgastos
+%*"%" +%*!)( +&*,"!
+%*"%" +%*'&% +&*,'$
+&*,!$ +%*$,) +%*!&!
+&*-&( +%*!"! +&*-)'
+%*"%" +%*!"! +&*-,)
+%*"%" +%*%)- +&*-'&
+&*-&( +%*!&' +&*-%!
+&*-&( +%*%"$ +&*)"%
+%*&$! +&*,-! +&*)(,
+&*,!$ +%*&&) +&*",!
&*(%% +&*--$ +&*),$
+%*',) +&*"%) +&*(((
+&*$"! +&*$%, +&*')'
+&*&,) +&*')& +&*!-)
&*%', +&*!)! +&*!%$
+&*$"! +&*"%) +&*$,"
+&*(-- +&*"(( +&*(&$
+&*-&( +&*(%" +&*(,&
&*')" +&*%)$ +&*%$%
Antonio Velasco M, -17-
+&*,!$ +&*&!- &*%$&
&*-$) &*&!% &*$$"
+&*!%( &*&)& +&*'!$
&*)!, &*$(! &*%-,
&*!") &*("- &*"'&
+&*(-- &*)&) &*'$)
&*$,' &*$%' &*&&(
&*)!, &*"%% &*$!%
&*(%% &*$(! &*''"
&*%', &*$(! &*!')
&*')" +&*"%) +%*(((
+&*''$ %*(-( %*%&$
%*""( %*-'' !*-$,
%*&-$ %*,'% !*,%&
&*,(" &*'($ +&*'!$
%*""( &*'-, +&*%)%
%*""( %*(-( !*&'%
%*&-$ %*(') %*!-)
&*(%% %*"', %*%$%
%*""( %*%,) &*-'"
!*%$) &*,"! &*"""

En los diagramas de lneas de las tres variables estandarizadas se observa que
estn alrededor de la recta horizontal de cero (0) y cada unidad en el eje vertical
corresponde a una Desviacin Estndar

Antonio Velasco M, -18-

Se puede apreciar que hay mas cercana en el comportamiento de las variables
Zingresos y Zgastos que estas dos con la Zedad.

1.5.6 Resultados de un paquete profesional STATGRAPHICS

Resumen Estadstico para EDAD

Recuento 40
Promedio 31,825
Desviacin Estndar 8,57512
Coeficiente de Variacin 26,9446%
Mnimo 19,0
Mximo 50,0
Rango 31,0
Sesgo Estandarizado 0,511138
Curtosis Estandarizada -1,23992

Esta tabla muestra los estadsticos de resumen para EDAD. Incluye medidas de
tendencia central, medidas de variabilidad y medidas de forma. De particular inters aqu
son el sesgo estandarizado y la curtosis estandarizada, las cuales pueden utilizarse
para determinar si la muestra proviene de una distribucin normal.

Valores de estos estadsticos fuera del rango de -2 a +2 indican desviaciones
significativas de la normalidad, lo que tendera a invalidar cualquier prueba estadstica con
referencia a la desviacin estndar. En este caso, el valor del sesgo estandarizado se
encuentra dentro del rango esperado para datos provenientes una distribucin normal. El
valor de curtosis estandarizada se encuentra dentro del rango esperado para datos
provenientes de una distribucin normal.

Antonio Velasco M, -19-



Resumen Estadstico para INGRESOS

Recuento 40
Promedio 605,625
Desviacin Estndar 206,823
Coeficiente de Variacin 34,1504%
Mnimo 300,0
Mximo 1000,0
Rango 700,0
Cuartil Inferior 415,0
Cuartil Superior 725,0
Sesgo Estandarizado 0,98667
Curtosis Estandarizada -1,17714


Esta tabla muestra los estadsticos de resumen para INGRESOS. Incluye medidas de
tendencia central, medidas de variabilidad y medidas de forma. De particular inters aqu
son el sesgo estandarizado y la curtosis estandarizada, las cuales pueden utilizarse
para determinar si la muestra proviene de una distribucin normal. Valores de estos
estadsticos fuera del rango de -2 a +2 indican desviaciones significativas de la
Grfico de Caja y Bigotes
19 29 39 49 59
EDAD
Antonio Velasco M, -20-
normalidad, lo que tendera a invalidar cualquier prueba estadstica con referencia a la
desviacin estndar.
En este caso, el valor del sesgo estandarizado se encuentra dentro del rango esperado
para datos provenientes una distribucin normal. El valor de curtosis estandarizada se
encuentra dentro del rango esperado para datos provenientes de una distribucin normal.



Resumen Estadstico para GASTOS

Recuento 40
Promedio 493,075
Desviacin Estndar 165,985
Coeficiente de Variacin 33,6633%
Mnimo 220,0
Mximo 970,0
Rango 750,0
Sesgo Estandarizado 3,28898
Curtosis Estandarizada 2,29439


Esta tabla muestra los estadsticos de resumen para GASTOS
Grfico de Caja y Bigotes
300 500 700 900 1100
INGRESOS
Antonio Velasco M, -21-
De particular inters aqu son el sesgo estandarizado y la curtosis estandarizada, las
cuales pueden utilizarse para determinar si la muestra proviene de una distribucin
normal.

Valores de estos estadsticos fuera del rango de -2 a +2 indican desviaciones
significativas de la normalidad, lo que tendera a invalidar cualquier prueba estadstica con
referencia a la desviacin estndar. En este caso, el valor del sesgo estandarizado no
se encuentra dentro del rango esperado para datos provenientes de una distribucin
normal. El valor de curtosis estandarizada tampoco se encuentra dentro del rango
esperado para datos provenientes de una distribucin normal.


Tabla de Medias para GASTOS por CATEGORIA
Con intervalos de confianza del 95,0%

CATEGORIA Casos Media Error Est.
(s agrupada)
Lmite Inferior Lmite Superior
1 11 352,909 37,404 299,269 406,549
2 10 445,8 39,2296 389,542 502,058
3 8 528,75 43,86 465,851 591,649
4 11 650,273 37,404 596,632 703,913
Total 40 493,075

Esta tabla muestra la media de GASTOS para cada nivel de CATEGORIA. Tambin
muestra el error estndar de cada media, el cual es una medida de la variabilidad de su
Grfico de Caja y Bigotes
0 200 400 600 800 1000
GASTOS
Antonio Velasco M, -22-
muestreo. El error estndar es el resultado de dividir la desviacin estndar
mancomunada entre el nmero de observaciones en cada nivel. La tabla tambin
muestra un intervalo alrededor de cada media. Los intervalos mostrados actualmente
estn basados en el procedimiento de la diferencia mnima significativa (LSD) de Fisher.
Estn construidos de tal manera que, si dos medias son iguales, sus intervalos se
traslaparn un 95,0% de las veces.










1
2
3
4
Grfico Caja y Bigotes
0 200 400 600 800 1000
GASTOS
C
A
T
E
G
O
R
I
A
Antonio Velasco M, -23-





1.5.7 TALLER N 1

PARTE A

Considere las variables dadas y aplique el modelo propuesto teniendo en cuenta un
contexto, Escriba dos posibles valores de cada variable coherente con la clasificacin de
la variable propuesta.

1) El estado de nimo de una persona
2) El resultado de lanzar un dado, una sola vez.
3) El nmero impreso en un formulario para solicitar subsidio para vivienda de inters
social
4) El nivel de la voz de una El estado de satisfaccin de un cliente
5) La calificacin en matemticas de un estudiante
6) El valor de un almuerzo
7) La placa de un auto
8) La edad de una persona
9) La profesin de una persona
10) El nmero de la cdula de un ciudadano
11) El color de los ojos de una persona
12) El ingreso mensual de una persona
13) El nmero de hermanos de una persona
14) El semestre que cursa un estudiante en la Universidad
15) El nmero del formulario con el cual se inscribi un estudiante en la Universidad

PARTE B
La siguiente tabla de frecuencias corresponde a la variable nmero de clientes x
i
que
entran a un hipermercado por minuto en la ciudad de Andes
n
i
nmero de minutos 31 minutos observados


N clientes
N
Minutos

Acumulada

i x
i
n
i
fi Ni Fi
i i
x n
2
) ( x x n
i i
!
1 15 8 26% 8 26% 120 8(15- x )
2

2 20 3 10% 35% 60
3 25 4
4 30 5
5 35 5
6 40 4
7 45 2 31
Antonio Velasco M, -24-
Total 31 855 2993.5

Promedio
x
Desv.
Estan.
ds(x)

1) Explique la informacin de las columnas x
i
y n
i
.
2) Encuentre el valor de la MODA y escriba su interpretacin
3) Encuentre el cuartil inferior Q
25
e interprtelo
4) Encuentre el valor de la MEDIANA e interprtela
5) Interprete segn Gauss el valor de la desviacin estndar ds(x)
6) Idem a 4) pero segn Schevychev
7) Dibuje la caja de Box and Wiskers y escriba una interpretacin en no ms
de 4 renglones.
8) Cul seria la diferencia entre la Moda y la Mediana. Entre la Mediana y el
Promedio?
9) Que podra decir en general de los datos presentados?

PARTE C

La siguiente tabla de Estadsticas descriptivas corresponde a la variable nmero de
autos nuevos que se venden por marca en los ltimos 36 meses.

Estadstica RENAULT HYUNDAI CHEVROLET
N MESES 36 36 36
MNIMO 325 121 125
MXIMO 530 218 328
CUARTIL INFERIOR
Q25
400.5 157 148
CUARTIL SUPERIOR
Q75
456.5 168 268
MEDIANA 426 159 250
PROMEDIO 428.1 158.9 231.8
DESVIACIN
ESTNDAR
43.4 14.1 26.4

1) Escriba el valor de la Mediana de la marca Renault y escriba su
interpretacin
2) Escriba el valor del Cuartil inferior Q
25
para la marca Hyundai y escriba su
interpretacin.
3) Escriba el valor del Promedio para la marca Chevrolet y escriba su
interpretacin
4) Interprete segn Gauss el valor de la desviacin estndar para la marca
Renault
5) Dibuje la caja de Box and Wiskers para la marca Hyundai y escriba una
interpretacin en no ms de 4 renglones.
6) Escriba un anlisis estadstico elemental personal de la informacin
presentada para las tres marcas..

PARTE D
Antonio Velasco M, -25-

Los resultados siguientes corresponden a 92 AUTOMOVILES respecto al nmero
de cilindros del motor versus la potencia en Caballos de Fuerza Interprete y analice
la informacin suministrada
Explique las grficas dadas





Resumen Estadstico para Horsepower

Cilindros Nmero
autos
Promedio Desviacin
Estndar
Coeficiente de
Variacin
Mnimo Mximo Rango
3 3 66,0 9,64365 14,6116% 55,0 73,0 18,0
4 49 113,469 27,5659 24,2937% 63,0 208,0 145,0
5 2 138,5 41,7193 30,1222% 109,0 168,0 59,0
6 31 175,581 32,3334 18,4152% 140,0 300,0 160,0
8 7 234,714 54,4264 23,1884% 170,0 300,0 130,0
Total 92 142,62 51,3413 35,9988% 55,0 300,0 245,0

Cilindros Sesgo
Estandarizado
Curtosis
Estandarizada
3 -1,09276
4 2,61175 2,1371
5
6 4,76944 7,18858
8 0,251861 -1,24337
Total 3,83682 2,63784


Esta tabla muestra diferentes estadsticos de Horsepower para cada uno de los 5 niveles
de Cilindros La intencin principal del anlisis de varianza de un factor es la de comparar
las medias de los diferentes niveles, enlistados aqu bajo la columna de Promedio.
ADVERTENCIA: Hay una diferencia de ms de 3 a 1 entre la desviacin estndar ms
pequea y la ms grande. Esto puede causar problemas puesto que el anlisis de
varianza asume que las desviaciones estndar de todos los niveles es igual.

ADVERTENCIA: El sesgo estandarizado y/o la curtosis estandarizada se encuentran
fuera del rango de -2 a +2 para los 2 niveles de Cylinders. Esto indica algo de no
normalidad significativa en los datos, lo cual viola el supuesto de que los datos provienen
de distribuciones normales

Antonio Velasco M, -26-

Con los mismos datos del caso anterior ahora se compara el Peso en Kilos vs el nmero
de cilindros para los mismos 92 autos.

Resumen Estadstico para Peso

Cilindros Recuento Promedio Mediana Desviacin
Estndar
Coeficiente de
Variacin
Mnimo
3 3 1901,67 1965,0 183,394 9,64385% 1695,0
4 49 2710,0 2705,0 372,588 13,7486% 1845,0
5 2 3602,5 3602,5 505,581 14,0342% 3245,0
6 31 3559,19 3515,0 264,871 7,44189% 2810,0
8 7 3835,71 3935,0 244,173 6,36577% 3380,0
Total 92 3074,84 3045,0 592,832 19,2801% 1695,0
Cilindros Mximo Rango Cuartil
Inferior
Cuartil
Superior
Sesgo
Estandarizado
3 2045,0 350,0 1695,0 2045,0 -0,967816
4 3785,0 1940,0 2450,0 2970,0 1,10957
5 3960,0 715,0 3245,0 3960,0
6 4105,0 1295,0 3450,0 3715,0 -0,404177
8 4055,0 675,0 3620,0 4000,0 -1,50304
Total 4105,0 2410,0 2597,5 3542,5 -0,598465

Cilindros Curtosis
Estandarizada
3
4 1,17597
3
4
5
6
8
Grfico Caja y Bigotes
0 50 100 150 200 250 300
Horsepower
C
y
l
i
n
d
e
r
s
Antonio Velasco M, -27-
5
6 1,74313
8 0,531903
Total -1,70863

Esta tabla muestra diferentes estadsticos de la variable Peso para cada uno de los 5
niveles de Cilindros. La intencin principal del anlisis de varianza de un factor es la de
comparar las medias de los diferentes niveles, enlistados aqu bajo la columna de
Promedio.
.



Antonio Velasco M, -28-
1.6. Ejercicios

1) En cada caso clasifique las variables presentadas describiendo: un contexto posible y
enuncie unos valores posibles de cada de ellas que sean coherentes con la
clasificacin establecida.

a) El barrio donde vive un estudiante
b) El tiempo que demora un camin para llegar a la planta de despacho desde la casa
del chofer.
c) El puesto que ocupa dentro de la familia como hijo.
d) La clase de vivienda en donde vive una familia.
e) El saldo de una cuenta de ahorros en un banco
f) El estado del tiempo en un da dado
g) La opinin de una persona sobre un programa de Televisin dado.
h) El resultado de lanzar una vez un dado
i) La carta de un naipe al extraer una de ellas de una baraja.
j) El estado de una tarjeta de crdito
k) El aprecio que se tiene por una persona especfica.
l) La cantidad de cerveza que consume una persona en un fin de semana.
m) La tasa de inters ofrecida por un CDT.
n) La carta de un naipe

En cada caso establezca un contexto para poder clasificar cada una de las variables.

Escriba algunos valores posibles para cada variable que estn de acuerdo con el contexto
establecido anteriormente.

2) Los 25 datos siguientes corresponden a la variable nmero de fallas diarias de una
empacadora de botellas.

2,3,4,3,2,4,5,6,7,8,7,6,7,8,5,4,6,4,3,0,3,4,5,6,5

Haga un anlisis estadstico bsico

3) Una oficina de seleccin de personal desarrollo dos programas de capacitacin a
empleados hasta lograr un desempeo satisfactorio.
Los resultados sintetizados se presentan en la siguiente tabla:


PROGRAMA Promedio
horas
Desviacin
standard
Nmero
empleados
A 22.11 8.65 20
B 19.75 8.20 20


a) Interprete los resultados presentados
b) Calcule los coeficientes de variacin de cada programa y establezca cual tuvo
mayor variabilidad relativa.

Antonio Velasco M, -29-
4) Una fbrica elabora piezas redondas elaboradas con torno metlico, como repuesto de
bombas de agua. Los dimetros en pulgadas de una muestra al azar de 20 de esas
piezas se presenta a continuacin.

4,01 4,01 4,00 4,02 4,03 4,00 3,98 3,99 3,99 3,95
3,99 4,01 4,00 4,02 4,01 4,02 4,00 3,97 3,98 4,01

Calcule e interprete las siguientes estadsticas:
Q
95
Q
90
Q
50
Q
25
Q
75
La media Cv(x) Ds(x)

5) Un administrador de un hospital recolect informacin sobre 200 pacientes, escogidos
al azar, para elaborar estadsticas del tiempo de permanencia despus de someterse a
una operacin quirrgica. Los datos se presentaron en forma agrupada de la siguiente
manera:

Permanencia en
das
Intervalos
Marca de
clase
x
i

Frecuencias
Absolutas
n
i

De 1 a 3 das 2 24
De 4 a 6 das 5 83
De 7 a 9 das 8 52
De 10 a 12 das 11 22
De 13 a 15 das 14 11
De 16 a 18 das 17 5
De 19 a 21 das 20 2
De 22 a 24 das 23 1

Calcule la media aritmtica y la mediana e interprtelas
Calcule la desviacin estndar e interprtela bajo la distribucin normal o de Gauss
Aplique el teorema de Chebychev para 2 desviaciones alrededor de la media.

6) Un estudio sobre el coeficiente intelectual CI se presenta en la siguiente tabla

Categora Promedio Desv.standard No. casos
Nio 110 8,1 30
Jvenes 90 6,4 45
Adultos 95 4,9 50
Ancianos 90 12,1 25
TOTAL 95.67 7,506 150


a) Interpreta la desviacin Standard para cada categora y para el TOTAL
b) Si un nio tiene un Coeficiente de Inteligencia CI de 106 Cul es su calificacin
estandarizada en su categora? Cul con respecto al puntaje TOTAL?
c) Si un joven tiene un CI de 80 Cul es su calificacin estandarizada en su
categora? Cul en el TOTAL?
d) Si un anciano tiene un CI de 70 Cul es su calificacin estandarizada en su
categora? Cul con respecto al TOTAL?
Antonio Velasco M, -30-
e) Si una persona tiene un CI superior al promedio ms tres desviaciones estndar se
llama superdotada. Cules son los lmites mnimos para que una persona de las
distintas categoras sea calificada como superdotada.
Cul su calificacin estandarizada para cada una de las categoras? Cul respecto al
TOTAL?

7) Una empresa de auditoria desea analizar el salario de sus nuevos pensionados
afiliados para lo cual selecciona las primeras veinte carpetas obteniendo la siguiente
informacin:

500 560 550 490 520 570 560 570 560 590
540 550 610 600 510 590 620 520 540 490

a) Calcule la media aritmtica, la mediana e interprtelas
b) Calcule el rango intercuartlico y la desviacin standard de la muestra e interprtelas
c) Construya el diagrama de Box y Whisker e interprtelo
d) Calcule Q
80
e interprtelo.

8) El peso en kilos de basura recogidas en una oficina durante 40 das se presentan en la
siguiente tabla:

16.2 15.8 15.5 15.3 15.0 14.9 14.9 14.8
14.6 14.5 14.5 14.4 14.3 14.0 13.9 13.9
13.5 13.2 13.0 12.9 12.7 12.4 12.2 12.0
11.8 11.5 11.4 11.1 11.0 10.9 10.9 10.0
14.7 13.8 12.0 9.5 14.6 13.7 11.9 9.1


a) Calcule las siguientes estadsticas e interprtelas

Q
10
Q
25
Q
50
Q
75
Q
80
Q
90
Q
95
e interprtelos

b) Calcule la media aritmtica y la desviacin Standard e interprtelas.

Вам также может понравиться