Вы находитесь на странице: 1из 24

Universidad Michoacana de San Nicols de Hidalgo Facultad de Ingeniera Elctrica

Apuntes para la materia de

Cuarto grado, Primera Seccin Profesor: M. C. Jos Juan Rincn Pasaye

Septiembre de 2001

Estadstica

Captulo 1.- Estadstica d stica c Captulo 1.- Estad


1.1.- Introduccin Aunque la palabra estadstica proviene del latn status o estado, esta palabra slo describe en parte su significado real, es decir, solo describe la funcin de la estadstica de llevar registros ordenados de datos para describir el estado de las cosas. Sin embargo, la estadstica va ms all de esta simple funcin. En forma ms general, la estadstica es la ciencia que se ocupa de la coleccin, clasificacin, organizacin, anlisis, sntesis e interpretacin de datos. En palabras sencillas podramos decir que la estadstica es la ciencia de los datos En trminos generales la estadstica aborda dos tipos de problemas: Resumir, describir y explorar datos. Utilizar datos de una muestra para inferir la naturaleza del conjunto del cual se escogi la muestra. As, la estadstica se divide en dos partes ntimamente relacionadas: Estadstica Descriptiva.- Esta es la parte de la estadstica que se dedica a la organizacin, sntesis y descripcin de conjuntos de datos. Esta es importante, ya que antes de que la mente humana pueda interpretar (hacer inferencias es interpretar) un conjunto de datos, especialmente cuando estos son demasiados, es necesario resumirlos o representarlos de manera clara, simplificada o reducida. Estadstica Inferencial.- Esta rama de la estadstica trata el problema de inferir la naturaleza de un conjunto de datos a partir de una muestra de dichos datos. El conjunto de datos que se desea describir de denomina la poblacin, mientras que una muestra es un subconjunto de datos seleccionados de la poblacin. Observacin: Una muestra vlida no es cualquier muestra. La seleccin de una muestra de una poblacin debe hacerse siguiendo un procedimiento que garantice que la muestra realmente es representativa, esto tiene que ver con el concepto de aleatoriedad que se discutir en el siguiente captulo. Ejemplo: Al efectuar un estudio de las corrientes de carga de los sistemas de alimentacin de computadoras en 146 instalaciones de los Estados Unidos (IEEE Transactions on
-1-

Estadstica

Industry App. Julio/Agosto 1990) se detect que menos del 10% de estas instalaciones tenia una corriente elevada del neutro respecto a la corriente nominal. a) Cual es la poblacin de inters? b) Cual es la muestra? c) Hacer una inferencia sobre la poblacin basada en la muestra. Tipos de datos. Los datos pueden ser de tipo Cuantitativo o bien pueden ser Cualitativos (o categricos) estos ltimos no tienen interpretacin de cantidad, solo pueden clasificarse en base a criterios. Son ejemplos de datos cualitativos: Ocupaciones de los egresados de Ingeniera Elctrica, Empresas dedicadas a la comercializacin de circuitos Integrados,- Materiales usados en la construccin, etc.

1.2 Distribuciones de Frecuencia. Toma de datos.- Como ya se mencion, los datos con que cuenta la estadstica son datos tomados de una muestra, no de la poblacin total, si se tomaran datos de la poblacin total no habra necesidad de hacer inferencias, ya que se contara con toda la informacin de la poblacin y en lugar de inferir bastara con consultar el dato correspondiente. Sin embargo, en una poblacin muy numerosa es imprctico y costoso tomar datos de toda la poblacin, por ello es necesario seleccionar muestras y a partir de los datos de la muestra hacer inferencias. En la medida de los posible es recomendable manejar datos cuantitativos, ya que estos permiten una representacin ms adecuada para extraer informacin visual. Ejemplo. La siguiente es una muestra de las calificaciones de 20 alumnos, obtenidas en la Materia de Electrnica III en el ciclo 1997/1998: 3.6 7.0 2.4 8.0 5.5 7.0 6.5 5.7 6.4 2.7 6.5 7.6 6.5 8.6 6.6 5.5 7.4 7.8 6.3 7.2

Una manera simple de representarlos de manera grfica seria como sigue:

-2-

Estadstica

10 9 8 7 6 5 4 3 2 1 0

Calificacin

Jo rg Pa e b Ja lo im e

Alumno

Ordenacin de datos. En el ejemplo anterior es evidente que no hay manera de ordenar las "categoras" elegidas para el eje horizontal ya que no son datos cuantitativos. En cambio, si ponemos en el eje horizontal el valor de la calificaciones obtenidas. Ordenando los datos del 0 al 10 como sigue: 2.4 6.5 2.7 6.5 3.6 7.0 5.5 7.0 5.5 7.2 5.7 7.4 6.0 7.6 6.3 7.8 6.4 8.0 6.5 8.6

La grfica se transforma como se muestra a continuacin:


4

No. De alumnos

3 2 1 0 2.4 2.7 3.6 5.5 5.7 6 6.3 6.4 6.5 7 7.2 7.4 7.6 7.8 8 8.6

Calificacin
Evidentemente la grfica anterior nos proporciona una mayor informacin a simple vista; por ejemplo, es fcil advertir de la grfica que: - La mayor parte de alumnos obtuvieron calificaciones entre 5.5 y 8 - Nadie obtuvo calificaciones menores de 2.4 ni mayores de 8.6.

-3-

C ar lo s

Pe dr o

Estadstica

La misma informacin puede ser representada en una Tabla de Frecuencias la cual se presenta a continuacin para el mismo ejemplo:
Calificacin Frecuencia Frecuencia Frecuencia Frec. Rel. xi fi Acumulada Relativa Acumulada 2.4 1 1 0.05 0.05 2.7 1 2 0.05 0.10 3.6 1 3 0.05 0.15 5.5 2 5 0.10 0.25 5.7 1 6 0,05 0.3 6.0 1 7 0.05 0.35 6.3 1 8 0.05 0.4 6.4 1 9 0.05 0.45 6.5 3 12 0.15 0.6 7.0 2 14 0.10 0.7 7.2 1 15 0.05 0.75 7.4 1 16 0.05 0.8 7.6 1 17 0.05 0.85 7.8 1 18 0.05 0.9 8.0 1 19 0.05 0.95 8.6 1 20 0.05 1.0

Como puede verse en la tabla anterior, la frecuencia es simplemente el nmero de veces que aparece un dato. La frecuencia relativa es el cociente de la frecuencia al nmero total de datos. As, si el dato xi se repite fi veces en una muestra de n datos: - Su frecuencia ser fi - Su frecuencia relativa ser fi/n La frecuencia acumulada de un dato ser la suma de todas las frecuencias de los datos menores o iguales a l. Agrupamiento Especialmente cuando las muestras de datos son muy grandes, la representacin anterior puede ser muy complicada o hasta confusa. Se pueden eliminar detalles innecesarios eligiendo primeramente un intervalo (I) que contenga todos los datos y luego dividiendo este intervalo en subintervalos llamados Intervalos de Clase o Celdas, a los puntos medios de estos intervalos se les llama Marcas de clase. El nmero de datos de una clase se le llama Frecuencia de clase y a su cociente entre n (tamao de la muestra) se le llama Frecuencia relativa de clase

-4-

Estadstica

Ejemplo: Para el ejemplo de las calificaciones podemos elegir el intervalo total como I=[2,9]. Adems, usando 5 intervalos de clase, la tabla de frecuencias para los datos agrupados quedar como sigue:

Intervalo de Marca de clase Clase x 2.0 - 3.4 2.7 3.4 - 4.8 4.1 4.8 - 6.2 5.5 6.2 - 7.6 6.9 7.6 - 9.0 8.3

Frecuencia de clase 2 1 4 9.5 3.5

Frecuencia Relativa f(x) 0.1 0.05 0.2 0.475 0.175

Frec. Rel. Acumulada F(x) 0.1 0.15 0.35 0.815 1.0

Esta informacin se puede representar en la siguiente grfica denominada Histograma de los datos agrupados
0.5 0.45 0.4 Frecuencia Relativa 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0
2.0 2.7 3.4 4.1 4.8 5.5 6.2 6.9 7.6 8.3 9.0 Polgono de frecuencias

Clases

A la lnea roja que une las alturas de los rectngulos sobre las marcas de clase se le denomina polgono de frecuencias Y si gratificamos el rea bajo la curva del histograma (considerando el ancho de los intervalos de valor unitario), obtenemos el diagrama de frecuencia acumulada que suele llamarse la curva de distribucin (o Curva de de Frecuencia Acumulada). Lmites y lmites reales de clase En el ejemplo anterior los lmites de clase son compartidos por clases consecutivas, por lo cual ha sido necesario dividir los datos que caen en un lmite por mitad. Algunos

-5-

Estadstica

autores acostumbran indicar los intervalos de clase mediante nmeros adyacentes, de manera que nunca se compartan los lmites entre clases consecutivas, por ejemplo: Clase 1 : de 2.00 a 3.35 Clase 2 : de 3.45 a 4.75 Clase 3 : de 4.85 a 6.15 Clase 4 : de 6.25 a 7.55 Clase 5 : de 7.65 a 8.95 En estos casos los lmites reales estn a la mitad entre las fronteras de una clase y la siguiente, es este caso, los intervalos reales seran los que se tomaron inicialmente, es decir, 1.95 a 3.4, 3.4 a 4.8, 4.8 a 6.2, 6.2 a 7.6 y 7.6 a 9.0 Medidas descriptivas de una distribucin de datos. Una vez que hemos presentado las generalidades sobre la representacin de datos mediante un histograma, es importante tener algunas medidas que nos permitan dar una descripcin rpida sobre la forma que tiene el histograma y que lo hace diferente o parecido a otros histogramas. Para ello se han definido medidas que nos dan informacin de manera sinttica sobre si el histograma es simtrico, si es muy plano o muy puntiagudo, sobre donde est su centro, etc. Estas medidas se denominan medidas descriptivas numricas y son cantidades calculadas a partir de un conjunto de datos que nos ayudan a crear una imagen mental de su histograma de frecuencia relativa. Estas medidas son de tres tipos: Medidas de tendencia central.- Nos ayudan a ubicar el centro del histograma. Medidas de dispersin.- Nos ayudan a medir que tan disperso esta el histograma respecto a su centro. Medidas de posicin relativa.- Describen la ubicacin de una observacin dentro del conjunto de datos (un dato dentro de la muestra).

A estas medidas tambin se les llama estadsticas y su caracterstica fundamental es que son medidas descriptivas y numricas calculadas a partir de la muestra. En forma similar, un parmetro.- Es una medida descriptiva numrica de una poblacin. Es decir, se supone que los parmetros son las cantidades que describen a la poblacin y normalmente no se conocen, slo se pueden inferir a partir de las estadsticas. 1.2.- Medidas de Tendencia Central La Media Aritmtica o Media ( X ).- Nos da una indicacin del tamao promedio de los valores de la muestra.
-6-

Estadstica

As, para N datos (X1,X2 ,..., XN), la media se calcula como sigue X= Es decir, X=
1 N 1 N

(X 1 + X 2 + ... + X N )

X
i =1

Ejemplo. Para el caso delas calificaciones: X= 6.21 Un caso ms general que la media aritmtica es la media ponderada que se calcula como X=
1 N

a X
i =1 i

Donde los coeficientes ai son los "pesos" o ponderaciones que se les da a los diferentes datos xi. * Obviamente en el caso particular en que a1=a2=......= aN=1 se obtiene la media aritmtica. ~ La Mediana ( X ).- Es el nmero (no necesariamente un dato) para el cual el 50% de los datos son menores o iguales que l. Ejemplo: Para el caso de estudio. ~ X = 6.5

En general la mediana se puede calcular como sigue:


+X X N / 2 2 1+ N / 2 para N par ~ = X X ( N +1) / 2 para N impar

As, para el ejemplo N=20 (par)


X10 +X11 ~ X= 2

= 6.5+6.5 = 6.5 2

Media y Mediana de Datos Agrupados Evidentemente las ecuaciones anteriores solo sirven para los datos no agrupados. En el caso de que los datos ya estn agrupados y sea necesario calcular la media y la mediana, ya no es posible hacerlo de manera exacta, sin embargo, una buena aproximacin se puede obtener de la siguiente manera media
-7-

Estadstica

X=

1 Nc

X f
i =1

Nc

i i

Donde: Nc = nmero de clases Xi = marca de la clase i-esima fi = frecuencia relativa de la clase i-esima Para el ejemplo de las calificaciones: X =2.7*0.1+4.1*0.05+5.5*0.2+6.9*0.475+8.3*0.175=6.305 Mediana ~ X = (lim. Inf. del IM) + [N/2- (frec. acumulada antes del IM)/2]*(Amplitud del IM.) Donde: IM = Intervalo mediano = Intervalo de clase en el que cae la mediana el valor que est a la mitad de los datos. As, para el ejemplo, el Intervalo mediano es (6.2,7.6), entonces ~ X = 6.2 + (10-7/9.5)*(1.4) = 6.642 La moda.- Se le llama moda simplemente al dato que ms se repite en una muestra. (En datos agrupando por lo tanto corresponde a la marca de clase en la que ocurre el mximo del histograma) Para el ejemplo la moda de los datos sin agrupar es: moda=6.5, sin embargo, si consideramos datos agrupados, moda = 6.9 Observacin: La moda no siempre es nica, as, podemos tener distribuciones de datos con varias modas, en tal caso se llaman multimodales. Relacin emprica entre media, mediana y moda. Si consideramos la pregunta: que tambin representan estas medidas a los datos de la muestra? Se podra decir que la que representa a ms datos de la muestra es la MODA Si tomamos la mediana para representar a los datos cometeramos el menor error, si este error es la suma de las distancias de los datos de la muestra respecto a la mediana. Si el error se define como la suma de los cuadrados de las distancias de los datos a un valor dado, el error mnimo se obtiene con la media.

-8-

Estadstica

Interpretacin geomtrica Una manera de visualizar de manera geomtrica el significado de media, mediana y moda es considerando el perfil del polgono de frecuencias como si fuera un figura plana, es decir, dibujramos el histograma sobre una lmina plana de material homogneo y lo recortramos, podemos afirmar lo siguiente: La Moda es el punto ms alto de la figura. La Mediana es el punto que divide a la figura en dos reas iguales. La Media es el punto de equilibrio (centro de masa) de la figura.

Esta idea se ilustra en la siguiente figura


Area 1 = Area 2

Equilibrio

Area 1

Area 2

Moda

Mediana Media

Otras medidas de centralizacin La media geomtrica (Mg).- Esta calcula un centro basado en la raz de orden n del producto de los datos, es decir,
n Mg= x1x2 ....xn Por ejemplo, para la ubicacin de un valor medio pesimista para la beta de un transitor.

La media armnica (MH).- Esta es el recproco de la suma de los recprocos de todos los datos, es decir,

MH =

1 + 1 +...+ X1 X1 X 2 N

Por ejemplo, el valor medio de un arreglo de resistencias en paralelo. La media RMS (MRMS o raz cuadrtica media).- Es la raz cuadrada de la suma de los cuadrados de cada dato, dividida entre el nmero de datos. M RMS =
1 N 2 (X 1 + X 2 + ... + X 2 ) 2 N

Por ejemplo, el valor medio de un voltaje de corriente alterna. Cuartiles, deciles y percentiles
-9-

Estadstica

Los cuartiles, deciles y percentiles son medidas que son utilizadas tanto para indicar dispersin como para indicar posicin relativa. El k-simo percentil de un conjunto de datos es el valor para el cual el k% de los datos ordenados son menores o iguales que l (queda a la izquierda de l) y el (100-K)% queda a la derecha. Ejemplo: En el ejemplo de las calificaciones, el alumno que obtuvo la calificacin de 7.0 esta ubicado en el 70-avo percentil de la muestra, es decir, el 70% de los datos son [ 7 y el 30 % son m 7. El cuartil inferior (QL).- de un conjunto de datos es le 25avo percentil. El cuartil superior (QU).- es el 75avo percentil. El cuartil medio.- es la Mediana, es decir, es el 50avo percentil. En forma similar, el k-simo decil simplemente es el 10*k-simo percentil. 1.3.- Medidas de dispersin o variacin. Es importante tener medidas de variabilidad de la muestra, ya que en la medida en que una muestra presenta mayor variabilidad, las medidas de centralizacin nos dan un mayor error y son menos representativas. Una muestra muy dispersa es aquella cuyos datos se encuentran en su mayora muy alejados de la media, mientras que una muestra poco dispersa (o muy concentrada), la mayora de los datos estn acumulados muy cercanos a la media. Las siguientes son algunas de las medidas ms utilizadas para medir o indicar el grado de dispersin de una muestra: El rango.- La medida mas simple para medir dispersin es la diferencia entre el mayor y el menor dato de la muestra. Ejemplo: Para el mismo ejemplo de las calificaciones: Datos no agrupados: Para los datos agrupados: Rango = 8.6-2.4 = 6.2 Rango = 9-2= 7

El Rango Intercuartlico.- Es la diferencia entre el cuartil superior y el cuartil inferior, es decir, QU-QL

- 10 -

Estadstica

Rango semi-intercuartlico. (Q).- Es la mitad del rango intercuartlico, es decir, Q=


(Q U Q L ) 2

Esta medida (Q) es ms representativa que las anteriores, ya que tiene la siguiente propiedad: En distribuciones aproximadamente simtricas el 50 % de los datos queda comprendido entre X -Q y X +Q Ejemplo: Cuantos datos quedan entre X -Q y X +Q para el ejemplo? Cuartiles: QL=5.5, QU=7.2 Q=
7.25.5 2

Rango semi-intercuartlico:

= 0.85

X -Q = 6.5 - 0.85 = 5.65, X +Q = 6.5 + 0.85 = 7.35 Entre estos dos valores hay 10 datos = 50% de los datos. El rango Q90 - Q10.- Es la diferencia entre el Percentil 90 y el Percentil. Esta medida tiene la propiedad de que entre X -(Q90-Q10) y X -(Q90-Q10), caen aproximadamente el 80% de los datos. Observaciones: Las medidas de dispersin anteriores producen cantidades mayores entre mayor es la dispersin de la muestra. Sin embargo, ninguna de ellas (en forma similar a la mediana y la moda) incluyen en su clculo a cada dato de la muestra. Por ello, una alternativa mucho ms utilizada y que toma en cuenta esto ltimo es la siguiente La varianza. Una idea para obtener una medida de dispersin que tome en cuenta todos los datos de la muestra es buscar una manera de totalizar las desviaciones de cada dato respecto al centro de la muestra, es decir, se nos podra ocurrir sumar todas las desviaciones (diferencias) de cada dato respecto a la media, de la forma Xi- X es decir;

(X
i =1

X)

Sin embargo, la sumatoria anterior resulta ser cero, ya que las desviaciones positivas cancelan a las negativas, ya que la media es el centro de la muestra.
- 11 -

Estadstica

Una manera de evitar que las desviaciones negativas se cancelen con las positivas es que en lugar de las desviaciones se pueden sumar los cuadrados de stas como sigue, 2 =
1 N 1

(X
i =1

X) 2

a esta cantidad se le llama la varianza o variancia. Otra alternativa es la de tomar los valores absolutos para obtener lo que se denomina desviacin media: desviacin media =
1 N

X
i =1

O bien, una medida ms usada que la desviacin media es la desviacin tpica o desviacin estndar y se define a partir de la varianza como sigue Desviacin estndar =

Clculo de la varianza.- Esta puede ser calculada directamente de la ecuacin anterior, sin embargo, si desarrollamos el cuadrado dentro de la sumatoria, podemos obtener
2

1 N1

(X i X ) 2 = N1 1 =
1 N1 1 N1

X2 2 Xi X + i
2

X 2 2 X N X +N X i X2 N X i
2

Finalmente:

Esta ultima expresin nos da un mtodo para calcular la varianza que puede resultar ms sencillo en ocasiones, especialmente cuando se calculan por separado la media X y la sumatoria de los cuadrados de los datos. Ejemplo. Para el ejemplo de las calificaciones se puede formar la siguiente tabla
Suma Xi X i Xi- X
2 2

2.4

2.7

3.6 13

5.5

5.5

5.7

6 36

6.3 39.7

6.4 41

6.5

6.5

6.5

7 49

7 49

7.2

7.4

7.6

7.8

8 64

8.6 74

5.76 7.29

30.3 30.3 32.5

42.3 42.3 42.3

51.8 54.8 57.8 60.8

-3.81 -3.51 -2.61 -0.71 -0.71 -0.51 -0.21 0.09 0.19 0.29 0.29 0.29 0.79 0.5 0.5

0.79 0.99 1.19 1.39 1.59 1.79 2.4 3.2 5.7

(Xi- X ) 14.5 12.3 6.81

0.26 0.04 0.01 0.04 0.08 0.08 0.08 0.62 0.62 0.98 1.42 1.93 2.53

124 824 0 52

As, a partir de la tabla, usando la frmula anterior, y recordando que X =6.21, obtenemos 1 2 = 19 (824 20 * 6.212 ) = 2.75

- 12 -

Estadstica

De la tabla tambin se puede observar que la sumatoria de todas las desviaciones es cero, como se esperaba. Finalmente, usando la frmula de la definicin para la varianza, obtenemos:
1 2 = 19 (52) = 2.75

y por lo tanto, la desviacin estndar es =1.65876 Variables normalizadas Toda muestra de datos Xi con media conocida X y varianza conocida 2 puede convertirse en una muestra Zi con, media cero y varianza 1, simplemente haciendo el cambio de variable (para cada dato Xi): As, todo conjunto de datos con media cero y una varianza uno, se dice que es un conjunto de datos normalizados.

Zi =
As, para nuestro ejemplo:

X i X

Zi =

X i 6.21 1.65876

si le aplicamos la transformacin a cada uno de los datos, obtenemos la siguiente muestra (Zi) con media cero y varianza 1:
Xi Zi
2.4 2.7 3.6 5.5 5.5 5.7 6 6.3 6.4 6.5 6.5 6.5 7 7 0.48 7.2 0.6 7.4 7.6 7.8 8 8.6 1.4

-2.3 -2.12 -1.6 -0.43 -0.4 -0.3 -0.13 0.05 0.11 0.17 0.17 0.17 0.48

0.72 0.84 0.96 1.08

Otra manera de interpretar la expresin anterior es como una medida de la distancia de un dato Xi respecto a la media en trminos o unidades de desviacin tpica . As, para el ejemplo, si Xi = 2.4 , Zi = -2.3 significara que 2.4 est a 2.3 desviaciones tpicas a la izquierda de la media. Otras medidas Asimetra o Sesgo.- En la prctica, las distribuciones de frecuencia casi nunca son simtricas, as, el grado en el cual se da esta asimetra se llama sesgo. Es muy conveniente tener una medida de dicha asimetra, dicha medida se puede calcular como sigue Sesgo =
1 N N i= 1 X iX
3 3

- 13 -

Estadstica

o bien, es decir,

Sesgo =

1 N

N i= 1

Z3 i

Sesgo = promedio de los datos normalizados Zi3

Sin embargo, el calculo anterior puede ser muy "dispendioso", un clculo aproximado ms sencillo puede hacerse como sigue: sesgo =
3 XX

Una propiedad interesante del sesgo es que si la distribucin de datos es simtrica, el sesgo vale cero. Sin embargo, no ocurre necesariamente a la inversa, es decir, el sesgo puede ser cero aunque la distribucin no sea simtrica Para ilustrar de manera geomtrica el significado del sesgo, en las siguientes figuras se muestra el caso de una distribucin con sesgo positivo y otra con sesgo negativo

Sesgo negativo Curtosis, cuartosis o picuds

Sesgo positivo

Una manera de medir el grado de "picuds" del polgono de frecuencia es mediante la curtosis, la cual se calcula como sigue Curtosis = es decir, Curtosis= O bien,
1 N N i= 1 1 N N i= 1 X iX
4 4

-3

Z4 -3 i

Curtosis = promedio de las Zi4- 3

En la siguiente figura se muestran dos distribuciones que tienen una varianza y un sesgo muy parecido pero tienen una curtosis diferente.
- 14 -

Estadstica

Observe que una distribucin que tienen extremos que se extienden mucho se les llama distribuciones Leptocurticas y aquellas que se terminan bruscamente se les llama platocurticas. Una distribucin que tenga una curtosis normal se le llama mesocurtica. Momentos de Datos Estadsticos Los momentos de datos estadsticos son una generalizacin de las medidas de varianza, sesgo y picuds. De manera concreta un momento de ensimo orden se puede calcular como momento simple o como momento central (o respecto a la media) expresa como Momento central = y el momento simple de ensimo orden Momento simple =
1 N N i=1

(X
i =1 n

X) n

n n

(X )
i =1 i

n
n

=Z se les denomina momentos de n En general, a las medidas de la forma orden n de la muestra y tienen el significado ya descrito, es decir, varianza, sesgo o picuds.
Uso de la computadora para el proceso de datos estadsticos. Existen una gran variedad de programas dedicados al manejo de datos y clculos estadsticos, algunos de los ms importantes son: SPSS STATGRAPHICS EXCEL LOTUS 123

X i X

Adems, lenguajes de uso general o de uso especfico para clculos matemticos, tales como MATLAB, MATEMTICA, MATHCAD, MAPLE, etc. Poseen un buen nmero de herramientas enfocadas al clculo de conceptos estadsticos.

- 15 -

Estadstica

Por simplicidad y uso generalizado, aqu se mencionar el uso de EXCEL (de Microsoft) y de calculadora porttil para realizar estos clculos, para ilustrar el uso de estas herramientas consideremos el siguiente ejemplo. Ejemplo.- En la siguiente tabla se muestran los datos de peso corporal (en libras) de una muestra de 252 varones de diferentes edades, desde 23 hasta 74 aos
Edad 23 22 22 26 24 24 26 25 25 23 26 27 32 30 35 35 34 32 28 33 28 28 31 32 28 27 34 31 27 29 32 29 27 41 41 49 40 50 46 50 45 44 48 41 39 43 40 39 45 47 47 peso 154.25 173.25 154 184.75 184.25 210.25 181 176 191 198.25 186.25 216 180.5 205.25 187.75 162.75 195.75 209.25 183.75 211.75 179 200.5 140.25 148.75 151.25 159.25 131.5 148 133.25 160.75 182 160.25 168 218.5 247.25 191.75 202.25 196.75 363.15 203 262.75 205 217 212 125.25 164.25 133.5 148.5 135.75 127.5 158.25 40 51 49 42 54 58 62 54 61 62 56 54 61 57 55 54 55 54 55 62 55 56 55 61 61 57 69 81 66 67 64 64 70 72 67 72 64 46 48 46 44 47 46 47 53 38 50 46 47 49 48 41 139.25 137.25 152.75 136.25 198 181.5 201.25 202.5 179.75 216 178.75 193.25 178 205.5 183.5 151.5 154.75 155.25 156.75 167.5 146.75 160.75 125 143 148.25 162.5 177.75 161.25 171.25 163.75 150.25 190.25 170.75 168 167 157.75 160 176.75 176 177 179.75 165.25 192.5 184.25 224.5 188.75 162.5 156.5 197 198.5 173.75 172.75 49 43 43 43 52 43 40 43 43 47 42 48 40 48 51 40 44 52 44 40 47 50 46 42 43 40 42 49 40 47 50 41 44 39 43 40 49 40 40 52 23 23 24 24 25 25 26 26 26 27 27 27 196.75 177 165.5 200.25 203.25 194 168.5 170.75 183.25 178.25 163 175.25 158 177.25 179 191 187.5 206.5 185.25 160.25 151.5 161 167 177.5 152.25 192.25 165.25 171.75 171.25 197 157 168.25 186 166.75 187.75 168.25 212.75 176.75 173.25 167 159.75 188.15 156 208.5 206.5 143.75 223 152.25 241.75 146 156.75 200.25 28 28 28 30 31 31 33 33 34 34 35 35 35 35 35 35 35 35 36 36 37 37 37 38 39 39 40 40 40 40 40 41 41 41 41 41 42 42 42 42 42 42 42 42 43 43 43 43 44 44 44 44 171.5 205.75 182.5 136.5 177.25 151.25 196 184.25 140 218.75 217 166.25 224.75 228.25 172.75 152.25 125.75 177.25 176.25 226.75 145.25 151 241.25 187.25 234.75 219.25 118.5 145.75 159.25 170.5 167.5 232.75 210.5 202.25 185 153 244.25 193.5 224.75 162.75 180 156.25 168 167.25 170.75 178.25 150 200.5 184 223 208.75 166 47 47 47 49 49 49 50 50 51 51 51 52 53 54 54 54 55 55 55 55 55 56 56 57 57 58 58 60 62 62 63 64 65 65 65 66 67 67 68 69 70 72 72 72 74 195 160.5 159.75 140.5 216.25 168.25 194.75 172.75 219 149.25 154.5 199.25 154.5 153.25 230 161.75 142.25 179.75 126.5 169.5 198.5 174.5 167.75 147.75 182.25 175.5 161.75 157.75 168.75 191.5 219.15 155.25 189.75 127.5 224.5 234.25 227.75 199.5 155.5 215.5 134.25 201 186.75 190.75 207.5

- 16 -

Estadstica

Introduccin de datos La mayora de las aplicaciones de la estadstica estn enfocadas al proceso de grandes cantidades de datos, por ello muchas veces en lugar de teclear dato por dato es conveniente tener un archivo de datos (que pudo haber sido generado tecleando cada dato o a partir de algn instrumento de medicin automtico). Excel permite la importacin de archivos de texto usando la opcin del men principal: Archivo/Abrir De esta manera se llega hasta el siguiente men, en donde se deber seleccionar la opcin Archivos de texto que se muestra marcada en la figura

A continuacin slo hay que especificar seleccionar el archivo a cargar y especificar el tipo de separadores utilizados para distinguir un dato del siguiente. Para hacer esto se marcar la opcin datos delimitados y se especifica el nmero de lnea a partir de la cual se importarn los datos, en el ejemplo es la 20 dado que hay 19 lneas de encabezado que no son datos en el archivo de ejemplo como se muestra en el siguiente cuadro de dilogo

- 17 -

Estadstica

Se selecciona el botn Siguiente> para finalmente especificar que el tipo de separadores son espacios (en el ejemplo este es el caso) y que varios separadores consecutivos se consideren como uno slo. En cuanto se realiza esto se muestra la manera como se separarn las columnas de datos como se ilustra en el cuadro de dilogo siguiente

Para terminar la importacin de los datos se selecciona Siguiente> y luego Finalizar. Esto termina la importacin del archivo completo de datos. En el ejemplo que se presenta este archivo posee 15 columnas de las cuales slo nos interesan la tercera y la cuarta (que son los datos de edad en aos y peso en libras). El resto simplemente se eliminarn con los comandos Bsicos de Excel. De esta manera se pueden ingresar a Excel de manera rpida grandes cantidades de datos.
- 18 -

Estadstica

Representaciones grficas en Excel Una primera representacin grfica es una simple grfica X-Y que nos permite realizar algunas primeras inferencias sobre los datos. Para ello habr que seleccionar a partir del men principal, la opcin Insertar/Grfico Despus de dos cuadros de dilogo en donde se selecciona el tipo de grfico hay que asegurarse de seleccionar las dos columnas de 252 datos a graficar que en el ejemplo aparecen a partir del segundo rengln, as, en el dilogo Rango de datos deber de especificarse (el nombre del archivo del ejemplo es datos grasa corporal) =datos grasa corporal$A$2:$B$253 Como se muestra en la figura siguiente

Despus de algunos pequeos ajustes ms obtenemos la grfica de los datos como sigue
Edad Peso

Grfica XY de las dos columnas de datos


400 350 300 250 200 150 100 50 0 100 109 118 127 136 145 154 163 172 181 190 199 208 217

226

235

- 19 -

244

10

19

28

37

46

55

64

73

82

91

Estadstica

En la grfica anterior ya se pueden hacer algunas observaciones: La edad no es una variable aleatoria y ms bien parece haber sido escogida de manera creciente El peso corporal es una variable que no parece tener que ver con la edad de la persona (al menos en esta muestra) y ms bien parece ser muy aleatorio. El rango de variacin del peso corporal es aproximadamente de 115 a 365 libras

As, para obtener una informacin ms organizada de la variable peso haremos uso de las herramientas estadsticas vistas en este captulo El Histograma Para generar un histograma mediante Excel se deben seguir en sntesis los siguientes pasos 1) Escribir una columna que defina los lmites de clase 2) En una celda vaca cualquiera introducir la funcin FRECUENCIA() 3) En la funcin FRECUENCIA, especificar el rango de la columna de datos junto con la columna de lmites de clase Para el ejemplo consideraremos lo siguiente: Los 252 datos de peso en libras estn en las celdas B2:B253 Se considerarn 25 clases y se escribirn sus lmites en las celdas C2:C26, de esta manera la informacin de lmites de clase deber quedar como sigue:
115 125 135 145 155 165 175 185 195 205 215 225 235 245 255 265 275 285 295 305 315 325 335 345 355 365

- 20 -

Estadstica

Funcin FRECUENCIA Para introducir la funcin FRECUENCIA se debe ser muy cuidadoso: 1. Primero se debe seleccionar una columna de celdas vacas (destino) para el resultado de la funcin (debe ser el mismo nmero de celdas que los lmites de clase). Para el ejemplo supongamos que estas son D2:D26 2. Luego se escribir =FRECUENCIA(rango de datos, rango de lmites de clase) Donde los rangos para el ejemplo son B2:B253 para los datos y C2:C26 para los lmites de clase. 3. Asegurarse de terminar la introduccin cerrando el parntesis y tecleando simultneamente las teclas shift-ctrl-enter 4. Si todo estuvo bien hecho, en el ejemplo aparecer en la lnea de comandos {=FRECUENCIA(B2:B253,C2:C26)} y adems se generar en las celdas D2:D26 la siguiente informacin de la Frecuencia de clase (para el ejemplo)
0 2 9 11 28 34 37 39 24 24 14 17 7 3 1 1 0 0 0 0 0 0 0 0 0 1

Finalmente, para trazar el histograma se deber seleccionar esta columna e insertar un grfico del tipo de barras verticales agregando las leyendas necesarias para el eje horizontal (se sugiere usar como leyendas en este eje los lmites de clase, o bien, las marcas de clase). Una vez seleccionado el tipo de grfico y las leyendas adecuadas se obtiene un histograma como el siguiente:

- 21 -

Estadstica

Histograma de los datos de peso corporal


45 40 35 30 25 20 15 10 5 0

Frecuencia

A partir del histograma ya se pueden hacer algunas inferencias ms claras sobre los datos, por ejemplo: Casi la totalidad de los datos se encuentra en el rango de 115 a 275 libras La mayor parte de los individuos de la muestra tienen un peso corporal entre 155 y 235 libras Hay una muestra muy dispersa y alejada de la mayora (una o pocas personas muy gordas comparadas con la casi totalidad de la muestra)

Medidas estadsticas Las observaciones anteriores basadas en la visualizacin simple del histograma se pueden completar con clculos ms precisos basados en las medidas estadsticas comentadas en este captulo. Excel tiene un amplio men de funciones estadsticas, las cuales simplemente se pueden invocar (una vez que ya se tienen los datos) escribiendo en una celda vaca - Un signo igual - El nombre de la funcin que calcula la medida deseada - Y los argumentos requeridos (que en la mayora de los casos es toda la columna de datos, es decir, para el ejemplo B2:B253). Ejemplos: =PROMEDIO(B2:B253) produce en la celda en la que se teclea:
178.924405

Que es la media aritmtica de los 252 datos. =VAR(B2:B253) produce


863.722719

Que es la varianza de los 252 datos ... etc.


- 22 -

11 5 12 5 13 5 14 5 15 5 16 5 17 5 18 5 19 5 20 5 21 5 22 5 23 5 24 5 25 5 26 5 27 5 28 5 29 5 30 5 31 5 32 5 33 5 34 5 35 5 36 5
Lmites de clase

Estadstica

La siguiente es una lista de las diferentes funciones que proporciona Excel de manera estndar (sin necesidad de instalar nada extra, ni de definirlas a mano)
Nombre de la Funcin PROMEDIO VAR DESVEST DESVPROM CURTOSIS CUARTIL Descripcin Calcula la media aritmtica de los datos Calcula la varianza Calcula la desviacin estndar Calcula la desviacin media Calcula la curtosis de un conjunto de datos (con una frmula ligeramente distinta de la comentada aqu) Si cuartil es La funcin CUARTIL devuelve 0 El valor mnimo 1 El primer cuartil (percentil 25) 2 El valor de la mediana (percentil 50) 3 El tercer cuartil (percentil 75) 4 El valor mximo Calcula el percentil k-esimo con k=0 para el percentil 0 y k=1 para el percentil 100 Ya se explic antes Calcula la media armnica Calcula la media geomtrica Calcula la mediana

PERCENTIL FRECUENCIA MEDIA.ARMO MEDIA.GEOM MEDIANA

La Funcin Histograma Una alternativa para trazar un histograma de una manera ms sencilla y con resultados ms elegantes y completos (ya que tambin genera la tabla de frecuencias y frecuencias relativas, as como la grfica de frecuencia acumulada si uno lo selecciona) es la funcin HISTOGRAMA, la cual forma parte de las Herramientas de anlisis de datos que se puede invocar desde el men principal seleccionando la opcin Herramientas/Anlisis de datos Y posteriormente seleccionar Histograma en el cuadro de dilogo que aparece como en la siguiente figura.

Sin embargo, para poder disponer de esta herramienta es necesario previamente instalarla, Si no est instalada al tratar de utilizarla por primera vez Excel pedir los disco de instalacin
- 23 -

Вам также может понравиться