Вы находитесь на странице: 1из 19

UNIVERSIDAD BLAS PASCAL

Carrera: INGENIERA EN TELECOMUNICACIONES


Asignatura: INTRODUCCIN A LA PROBABILIDAD
UNIDAD I: ESTADSTICA DESCRIPTIVA
ESTADSTICA: CONCEPTOS GENERALES
Para comenzar es conveniente enunciar algunos conceptos importantes.
Estadstica: la palabra estadstica procede del vocablo "estado" pues era funcin principal de
los gobiernos establecer registros de poblacin, nacimientos, defunciones, etc.
Por esta razn, muchas personas entienden por estadstica al conjunto de datos,
tablas, grficos, que se suelen publicar en los peridicos.
En realidad, la estadstica no es slo eso, sino que comprende una serie de
herramientas para la toma de decisiones, por lo que actualmente se la emplea en
gran parte de los estudios cientficos.
La estadstica se puede dividir en dos partes:

Estadstica descriptiva, que trata del recuento, ordenacin y clasificacin de los datos
obtenidos por las observaciones. Se construyen tablas y grficos, se calculan medidas
estadsticas que caracterizan la distribucin de los datos, etc.
Estadstica inferencial, que permite obtener conclusiones sobre una poblacin a partir de
los resultados obtenidos de una muestra. Se apoya fuertemente en el clculo de
probabilidades.

Para comprender este ltimo concepto, recordemos las siguientes definiciones:


Poblacin: conjunto de todos los individuos (personas, objetos, animales, etc.) que se desean
estudiar. Por ejemplo, si analizamos el precio de la vivienda en una ciudad, la
poblacin es el conjunto de todas las viviendas de esa ciudad. Puede ser finita o
infinita.
Poblacin finita: cuando el nmero de elementos que la forman es finito, por ejemplo el
nmero de alumnos de un centro de enseanza, o grupo clase.
Poblacin infinita: cuando el nmero de elementos que la forman es infinito, o tan grande
que pudiesen considerarse infinitos. Como por ejemplo si se realizase un estudio sobre los
productos que hay en el mercado, hay tantos y de tantas calidades que esta poblacin podra
considerarse infinita.
Un elemento cualquiera de la poblacin se denomina objeto o unidad de observacin (por
ejemplo persona). El objeto de observacin posee siempre propiedades o caracteres (por
ejemplo, edad, peso, nivel de estudios, etc) que son relevantes para el objetivo del trabajo
estadstico.
Muestra: subconjunto que seleccionamos de la poblacin. As, si se estudia el precio de la
vivienda de una ciudad, lo normal ser no recoger informacin sobre todas las
viviendas de la ciudad (sera una labor muy compleja), sino que se suele seleccionar
un subgrupo (muestra).
La muestra debe tener las siguientes propiedades:

UNIVERSIDAD BLAS PASCAL


Carrera: INGENIERA EN TELECOMUNICACIONES
Asignatura: INTRODUCCIN A LA PROBABILIDAD
o
o
o

Homogeneidad: Toda la muestra debe provenir de la misma poblacin.


Independencia: Las observaciones no deben ser condicionadas.(por ejemplo en las
encuestas individuales pueden condicionarse las respuestas)
Representatividad: Debe ser fiel reflejo de la poblacin (por ejemplo por TE o por correo
no es representativa)

A los datos que conforman una muestra se los puede clasificar en:
Cualitativos, referidos
a Atributos o a
Variables Categricas

No son numricos, expresan una cualidad. Por ejemplo:


Sexo, Nivel mximo de Estudio, Nivel socioeconmico,
Religin.

Pueden ser:
Ordinales: Aquellos que sugieren una ordenacin, por ejemplo la graduacin militar, el nivel
mximo de estudios, etc.
Nominales: Aquellos que no admiten una ordenacin natural, por ejemplo el color de pelo,
sexo, estado civil, etc.
Cuantitativos, referidos
a Variables Numricas

Son numricos. Por ejemplo: Edad, Tiempo,


Peso, Cantidades.

Pueden ser:
Discretos. Son valores enteros, es decir, aquellos que por su naturaleza no admiten un
fraccionamiento de la unidad, por ejemplo nmero de hermanos, pginas de un libro, etc.
Continuos: no son valores enteros, es decir, aquellos que por su naturaleza admiten que
entre dos valores cualesquiera sea posible medir cualquier valor intermedio, por ejemplo
peso, tiempo. etc.
Poblacin conceptual: Esta asociada a una variable numrica particular y es el conjunto de
todos los valores que puede tomar la variable de referencia del dato considerado.
Ejercicio 1
Una empresa de telfonos decide realizar una encuesta telefnica entre los abonados de una
ciudad (nicamente casas de fla.), para indagar sobre diversos aspectos del servicio. A
continuacin se listan los datos solicitados a los encuestados, indique en cada caso qu tipo de
dato es:
Cantidad de aparatos telefnicos en la casa.
Modelo del aparato telefnico.(da varias opciones)
Facturacin del ltimo mes.
Ocupacin del sostn econmico de la familia.
Nmero de integrantes del grupo familiar.
Barrio en que esta ubicada la vivienda.

UNIVERSIDAD BLAS PASCAL


Carrera: INGENIERA EN TELECOMUNICACIONES
Asignatura: INTRODUCCIN A LA PROBABILIDAD
ORGANIZACIN Y REPRESENTACIN DE DATOS
En cualquier caso, tanto si se realizan observaciones totales (poblacin) o parciales (muestra), la
mecnica para hacer el tratamiento de los datos es la misma. Para presentar un conjunto de
datos, se utilizan Tablas y Grficos.
Tablas de frecuencias
Una de los primeros pasos que se realizan en cualquier estudio estadstico es la tabulacin de
resultados, es decir, recoger la informacin de la muestra o poblacin resumida en una tabla en
la que a cada valor de la variable en estudio se le asocian determinados valores que representan
el nmero de veces que ha aparecido, su proporcin con respecto a otros valores de la variable,
etc.
Los datos estadsticos correspondientes a una variable se ordenan en una tabla, que se
denomina tabla de distribucin de frecuencias o tabla de frecuencias.
Se denomina n al nmero de unidades de observacin que componen a la poblacin o a la
muestra considerada, es decir al total de observaciones realizadas, pues se hace una
observacin por cada unidad.
La primera columna de la tabla esta formada por cada uno de los distintos valores que toma la
variable. Ordenados de menor a mayor y consignados sin repetir.
La segunda columna por la cantidad de veces que se registro cada uno de los datos obtenidos.
Recibe el nombre de frecuencia absoluta de dicho valor y se simboliza fi.
En la tercera se considera la frecuencia acumulada, que indica la frecuencia absoluta que se
acumula hasta esa fila de la tabla. Se obtiene sumando, desde el valor mnimo hasta el
considerado, las frecuencias absolutas. Se simboliza Fi.
En la cuarta columna se asientan las frecuencias relativas, cada una de ellas indica la fraccin
del total de la poblacin o muestra que corresponde a cada dato. Se simboliza fri y se calcula
f
mediante la frmula: fri = i con n nmero total de observaciones.
n
La quinta y ltima columna contiene la frecuencia relativa acumulada que se obtiene sumando
los valores de fr desde el mnimo hasta la fila correspondiente. Se simboliza Fri
Datos cuantitativos Discretos
Conforme a lo expresado anteriormente realice el siguiente ejercicio:
Ejercicio 2
Un encargado de personal cont el nmero de inasistencias que tuvo cada operario del sector de
produccin de su empresa, durante el ao prximo pasado y orden los resultados en forma
creciente:
0, 0, 0, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 4, 4, 5, 6, 6, 6, 7, 9, 10, 10, 10, 10

UNIVERSIDAD BLAS PASCAL


Carrera: INGENIERA EN TELECOMUNICACIONES
Asignatura: INTRODUCCIN A LA PROBABILIDAD
Identifique primero los siguientes elementos:
Unidad de observacin:
Definicin de la Variable:
Tipo de variable
Nmero de elementos de la poblacin:
Represente los datos en la siguiente Tabla de distribucin de frecuencias:
Valor de la
fri
Fi
fi
variable xi

Totales

f = n =

Fri

fi = 1

Los valores de xi se consignan ordenados de menor a mayor.


Datos Cuantitativos Continuos
La forma de organizacin de este tipo de datos depende del tamao de la muestra. Si la muestra
es grande se trabaja con datos agrupados y posteriormente se realiza un tratamiento similar al
de datos cuantitativos discretos. Si la muestra es chica se trabaja con la serie simple de una
manera particular. A continuacin se ejemplifican ambos tratamientos.
Tratamiento para datos agrupados
Se busca clasificar a la muestra en una cierta cantidad de intervalos, llamados intervalos de
clase y calcular luego la cantidad de datos que caen en cada uno de ellos. Los intervalos pueden
tener igual o diferente longitud, pero en la prctica se trabaja con intervalos de longitud
constante.
Realice el siguiente ejercicio:
Ejercicio 3
Se dispone de una serie ordenada con los datos de la duracin de 40 lmparas pertenecientes a
una marca particular. Se desea construir la tabla de distribucin de frecuencias correspondiente.
684
697
720
773
821
831
835
848

852
852
859
860
868
870
876
893

899
905
909
911
922
924
926
926

938
939
943
946
954
971
972
977

984
1005
1014
1016
1041
1052
1080
1093

UNIVERSIDAD BLAS PASCAL


Carrera: INGENIERA EN TELECOMUNICACIONES
Asignatura: INTRODUCCIN A LA PROBABILIDAD
En este caso se trabaja con una muestra.
Identifique primero los siguientes elementos:
Unidad de observacin:
Definicin de la Variable:
Tipo de variable:
Nmero de elementos de la muestra: n =
Como el nmero de datos es grande se agrupan los mismos. Para hacerlo primero se determina
lo que se llama:
Rango o recorrido de la variable: que es la diferencia entre el valor mayor y el valor menor de
dicha variable.
En este caso: Rango = R = 1093 684 = 409
Luego se subdivide el rango de la serie de datos en intervalos iguales, cada uno de los cuales se
denomina intervalos de clases.
El nmero de intervalos de clase (k) depende de la cantidad de datos. En este caso se toma k =
5 es decir cinco intervalos de clases.
La longitud de cada intervalo de clase se obtiene mediante la siguiente frmula:
Longitud = L = R/k
Entonces en este caso L = 409/5 = 81.80.
Como el valor L obtenido es un nmero difcil de trabajar, adoptamos el valor L = 100 que es
prximo y cmodo y adaptamos convenientemente los extremos de los intervalos.
Para determinar la frecuencia de un intervalo de clase se cuenta el nmero de veces que la
variable toma valores comprendidos en ese intervalo de clase.
Complete la siguiente tabla de distribucin de frecuencias:
Intervalo

Punto
medio
xmi
700
[650;750[
800
[750;850[
900
[850;950[
[950;1050[ 1000
[1050,1150[ 1100
Totales

fi

Fi

f =n=

fri

Fri

fi = 1

Observemos que el primer extremo de cada intervalo pertenece al mismo y que el segundo
extremo no pertenece.
Se incluye una columna que contiene el punto medio de cada intervalo.
La primera tarea a realizar para este tratamiento, que se ahorra en este ejercicio, es ordenar los
mismos con repeticin si esta ocurre.

UNIVERSIDAD BLAS PASCAL


Carrera: INGENIERA EN TELECOMUNICACIONES
Asignatura: INTRODUCCIN A LA PROBABILIDAD
La cantidad de intervalos a construir depende de la cantidad de datos. En la prctica en general
se construyen entre 5 y 15 intervalos. Entre 30 y 50 datos, conviene usar 7 u 8 intervalos. La
cantidad va aumentando muy lentamente a medida que el tamao de la muestra crece. Por
ejemplo, para una muestra de 500 datos pueden utilizarse 10 intervalos o ms. Tambin suele
utilizarse como regla usar k n , con k nmero de intervalos y n nmero de datos.
Tratamiento para serie simple
Si partimos de la serie simple x1 x2 ......xn , la forma de construir la tabla es ordenando los datos
de menor a mayor, consignando repeticiones como si se trataran de datos distintos (por ser
variable continua) si algn dato se presenta ms de una vez, y asignando luego a cada dato la
frecuencia relativa acumulada de la siguiente manera:
Fri =

i
donde i es la ubicacin del dato luego del ordenamiento y n la cantidad de datos.
n+1

Notar que la frecuencia relativa acumulada calculada de esta manera no alcanza nunca el valor
cero, ni el valor uno. Esto resulta apropiado en el caso de las variables aleatorias continuas.
Los siguientes datos corresponden al punto de ebullicin, en grados Celsius, de un compuesto de silicio.
166 - 141 - 136 - 153 - 170 - 162 - 155 - 146 183 - 157 - 148 - 132 - 160 - 175 - 150
Como la variable en estudio es continua, y son pocos los valores de la muestra, la Tabla de
Distribucin de Frecuencias es:
xi
132
136
141
146
148
150
153
155
157
160
162
166
170
175
183

i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

Fri
0.0625
0.125
0.1825
0.25
0.3125
0.375
0.4375
0.5
0.5625
0.625
0.6875
0.75
0.8125
0.875
0.9375

Grficos Estadsticos
Gran parte de la utilidad que tiene la Estadstica Descriptiva es la de proporcionar un medio para
informar basado en los datos recopilados. La eficacia con que se pueda realizar tal proceso de
informacin depender de la presentacin de los datos, siendo la forma grfica uno de los ms

UNIVERSIDAD BLAS PASCAL


Carrera: INGENIERA EN TELECOMUNICACIONES
Asignatura: INTRODUCCIN A LA PROBABILIDAD
rpidos y eficientes, aunque tambin uno de los que ms pueden ser manipulados o ser mal
interpretados si no se tienen algunas precauciones bsicas al realizar las grficas.
Existen tambin varios tipos de grficas, o representaciones grficas, utilizndose cada uno
de ellos de acuerdo al tipo de informacin que se est usando y los objetivos que se persiguen al
presentar la informacin.
Entonces, mencionaremos algunas consideraciones que conviene tomar en cuenta al momento
de realizar cualquier grfica a fin de que la informacin sea transmitida de la manera ms eficaz
posible y sin distorsiones:
1. El eje que represente a las frecuencias de las observaciones (comnmente el vertical o
de las ordenadas) debe comenzar en cero, de otra manera podra dar impresiones
errneas al comparar la altura, longitud o posicin de las columnas, barras o lneas que
representan las frecuencias.
2. La longitud de los espacios que representan a cada dato o intervalo (clase) en la grfica
deben ser iguales.
3. El tipo de grfico debe coincidir por sus caractersticas con el tipo de informacin o el
objetivo que se persigue al representarla, de otra manera la representacin grfica se
convierte en un instrumento ineficaz, que produce ms confusin que otra cosa,
innecesario o productor de malas interpretaciones.
Hay un punto que conviene remarcar: existen software que permiten la construccin rpida y
eficiente de grficas a partir de bases de datos o hojas de clculos, pero no importa cun bonita,
bien delineada, bien coloreada o bien presentada est una grfica, si no se ha tomado en cuenta
el objetivo de estas herramientas y el de la Estadstica, es decir, la transmisin eficiente de la
informacin.
Se dispone de una gran variedad de grficos estadsticos, para representar distintas situaciones,
entre ellos los siguientes:
Diagrama de barras
Los grficos de barras facilitan la visualizacin de la distribucin de frecuencias de los datos. Por
sus caractersticas se utiliza para representar distribuciones de frecuencias de atributos y de
variables cuantitativas discretas.
Un diagrama de barras se construye en un sistema de coordenadas cartesianas donde, en el eje
horizontal (eje x) se representa la variable y en el eje vertical (eje y) se representa la frecuencia
correspondiente a cada valor que toma dicha variable. Consta de una serie de barras separadas
entre s, pues representan nmeros enteros. La altura de estas barras representa la frecuencia,
puede construirse para sealar frecuencias absolutas o relativas.
Ejercicio 4
Se realiza una encuesta a un grupo de estudiantes secundarios para obtener informacin sobre
la orientacin de sus preferencias hacia el estudio. Los datos obtenidos se resumen en la
siguiente tabla:

UNIVERSIDAD BLAS PASCAL


Carrera: INGENIERA EN TELECOMUNICACIONES
Asignatura: INTRODUCCIN A LA PROBABILIDAD
orientacion
Humanidades (1)
Bienes y servicios (2)
Gestin y economa (3)
Otros (4)
Totales

fi
15
3
20
3

fri
0.3659
0.0732
0.4878
0.0732
fi =n=41 fi = 1

fpi
36.59%
7.32%
48.78%
7.32%
fpi =100

Indique el tipo de dato y realice el diagrama de barras correspondiente.


Grfico circular o de sectores
Otra forma de visualizar el comportamiento de una distribucin de variable es por medio del
grfico circular o de sectores. Se utiliza para representar cualquier tipo de variable.
Cada zona del crculo corresponde a una categora diferente. Muestra la frecuencia en
porcentajes de cada categora representadas por las reas de los sectores circulares.
Para construir un grfico de sectores hay que determinar el ngulo central correspondiente a
cada sector circular. La siguiente frmula muestra la manera de hacerlo:
ngulo central = fri . 360

donde fri es la frecuencia relativa

Ejercicio 5
El siguiente grfico de sectores surge de una encuesta de opinin realizada a 200 personas, que
presenciaron un espectculo artstico, sobre el grado de satisfaccin obtenido en el mismo:
no contesta 2%
no satisfechos 16%

muy satisfechos 44% 43%

medianamente satisfechos 38%

Conteste las siguientes preguntas que indican un posible anlisis de este tipo de grfico:
a) Cuntas personas se declararon muy satisfechas?
b) Cuntas personas expresaron estar medianamente satisfechas?
c) Qu porcentaje corresponde a las personas que obtuvieron algn grado de satisfaccin?

UNIVERSIDAD BLAS PASCAL


Carrera: INGENIERA EN TELECOMUNICACIONES
Asignatura: INTRODUCCIN A LA PROBABILIDAD
Histograma
Es similar al grfico de barras solo que esta formado por barras que se adosan unas a otras, se
utiliza para variables cuantitativas continuas con datos agrupados en intervalos.
El siguiente es el histograma correspondiente a la variable duracin de una lmpara con los
datos registrados anteriormente.

frecuencia relativa

0,6
0,5
0,4
0,3
0,2
0,1
0
700

800

900
1

1000 1100

"duracin de una lmpara"(hs)

Observemos que en este histograma se ha considerado la frecuencia relativa, aunque puede


tambin construirse un histograma de frecuencia absoluta se recomienda trabajar con
frecuencias relativas. En el eje horizontal se colocaron los puntos medios de cada intervalo de
clase.
Frecuencias Relativas Acumuladas u Ojiva.
Este grfico es adecuado para representar serie simples correspondientes a variables continuas.
Como en este caso las frecuencias absolutas, en general, son igual a 1, ya que los datos
provienen de una variable aleatoria continua, trabajamos slo con las frecuencias relativas
acumuladas calculadas como lo hicimos anteriormente.
Para el ejemplo del "Punto de ebullicin en grados Celcius de un compuesto de silicio" tenemos
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
130

140

150

160

170

180

190

UNIVERSIDAD BLAS PASCAL


Carrera: INGENIERA EN TELECOMUNICACIONES
Asignatura: INTRODUCCIN A LA PROBABILIDAD
MEDICIN DE DATOS
Las caractersticas que describen un conjunto de datos reciben el nombre de propiedades de los
datos, estas se resumen en medidas numricas que contribuyen al anlisis del conjunto de
datos.
Para cualquier conjunto de datos interesa conocer las denominadas medidas analticas que son
las siguientes: las de tendencia central o posicin, las de variabilidad o dispersin y las de forma.
Si los datos se obtuvieron de la poblacin, estas medidas reciben el nombre de parmetros; si
surgen de una muestra, las medidas se denominan estadsticos o estadgrafos.
Medidas de tendencia central
Las medidas tendencia central son valores que se calculan para una determinada distribucin
de datos y que se utilizan para describir los mismos. Lo que se pretende es que estas medidas
sean representativas de todos los valores que toma la variable, pues permiten conocer cmo se
concentran estos valores.
Se consideran tres medidas de tendencia central: la media, la mediana y la moda.
La media aritmtica o promedio es la suma de los valores del conjunto de datos dividida por el
total de observaciones. Se simboliza x .
Para calcular la media a partir del total de las observaciones se utiliza la siguiente frmula:
x =

1 n
xi
n i=1

Teniendo en cuenta que n es el nmero total de observaciones, xi los valores que toma la
variable en cada una de las observaciones (atencin: se consignan repeticiones o frecuencias
absolutas).
La mediana es una medida de posicin que aparece en el centro de una sucesin ordenada de
valores de la variable. Es decir es el valor de la variable tal que la mitad de las observaciones
son menores o iguales que ella. Se simboliza Me.
Si los datos se trabajan como serie simple, se calcula de la siguiente manera:

Si el nmero de datos es par, se toma el punto medio de los valores centrales, luego
de haberlos ordenado.
Si el nmero de datos es impar, se toma el valor del centro.

Si los datos se trabajan agrupados en una tabla de distribucin de Frecuencias, se busca el


intervalo que contiene la mediana, este es aquel cuya frecuencia relativa acumulada es la
primera en ser 0.5. En este caso se toma, como aproximacin, el punto medio del intervalo
que contiene la mediana o se utiliza una frmula de interpolacin.
El modo o moda, es el valor de la variable que se presenta ms frecuentemente. Se simboliza
Mo.. Puede haber ms de uno. Cuando los datos estn agrupados en clases se puede tomar la

10

UNIVERSIDAD BLAS PASCAL


Carrera: INGENIERA EN TELECOMUNICACIONES
Asignatura: INTRODUCCIN A LA PROBABILIDAD
marca de clase o utilizar una frmula de interpolacin para calcularlo. (No se usa para variable
continua en serie simple, pues los valores reales no se repiten).
Ejercicio 6
En una prueba con valor de 40 puntos, se obtuvieron los siguientes resultados:
39, 32, 25, 21,19, 19, 19, 18, 13, 11, 10, 8, 5, 4, 2.
Calcule x , la mediana y la moda.
Medidas de posicin no centrales
Cuartiles: dividen a la serie de datos ordenada en cuatro partes iguales. Es decir, los cuartiles
son tres. El Primer cuartil ( q1 ) es el valor para el cual el 25% de los valores son
menores o iguales. El Segundo Cuartil ( q2 ) coincide con la mediana, y el Tercer
Cuartil ( q3 ) es el valor que deja por debajo el 75% de los datos.
Si se trabaja con la serie simple, previamente ordenada, se utilizan las siguientes frmulas para
encontrar la ubicacin de cada cuartil:
n +1
para el primer cuartil.
4
n+1
q2 = 2
para el segundo cuartil (Observe que coincide con lo dicho para la mediana).
4
n+1
para el tercer cuartil.
q3 = 3
4
q1 =

Si el resultado de cualquiera de las frmulas anteriores es un nmero entero,


simplemente se toma el valor de la serie que ocupa dicho lugar.
Si el resultado no es un nmero entero y su primer cifra decimal es 5, entonces se
toma el punto medio de los valores ubicados en la posicin anterior y posterior. Por
ejemplo, si el resultado es 4.5, el cuartil buscado ser el punto medio de los valores
que estn en el cuarto y quinto lugar.
Si el resultado no es un nmero entero y su primer cifra decimal es menor a cinco,
entonces se toma el valor ubicado en la posicin anterior. Por ejemplo, si el resultado
es 4.3, tomamos el valor ubicado en cuarto lugar.
Si el resultado no es un nmero entero y su primer cifra decimal es mayor a 5,
entonces tomamos el valor posterior. Por ejemplo, si tenemos 4.8, el cuartil ser el
valor ubicado en la quinta posicin de la serie ordenada.

A partir del concepto de cuartiles, surge otro tipo de grfico: Diagrama de Caja o Box Plot. Este
diagrama permite resumir gran parte de la informacin contenida en los datos, mostrando la
forma de la distribucin (sesgos) y datos extraos, en caso de existir.
Se construye una caja (horizontal o vertical) como en el siguiente ejemplo:
Sean los siguientes datos ya ordenados: 2, 5, 6, 7, 11, 18, 28.
Estos pueden posicionarse mediante la asociacin X1, X2, X3, X4, X5, X6, X7. Entonces: n = 7 y:

11

UNIVERSIDAD BLAS PASCAL


Carrera: INGENIERA EN TELECOMUNICACIONES
Asignatura: INTRODUCCIN A LA PROBABILIDAD

q1 =

(7+1)
=2 , la posicin es 2 (entero) y el dato de posicin 2 en la muestra es
4

x q1 = x 2 = 5.

2(7+1)
= 4 , la posicin es 4 y el dato que ocupa la posicin 4 es x q = x 4 = 7.
2
4
3(7+1)
= 6 , la posicin es 6 y el dato que ocupa la posicin 6 es x q = x 6 = 18.
q3 =
3
4

q2 =

El rango intercuartil (ancho de la caja) se calcula como sigue: (x q3 x q1 ) = 18 5 = 13,


q1 q2

q3

10

15

20

25

30

Las lneas que se extienden a partir de las aristas laterales del rectngulo se denominan
bigotes.
Las observaciones que estn entre 1,5 y 3 veces el rango intercuartlico, a partir de la arista del
rectngulo ms cercana, se consideran valores atpicos. Es decir existen datos atpicos cuando
el largo de uno o de los dos bigotes es mayor a 1,5 veces el rango intercuartlico.
En el caso del ejemplo el rango intercuartlico es 13, el largo del bigote inferior es 5 2 = 3 y el
largo del bigote superior es 28 18 = 10, como el largo de ninguno de los dos bigotes supera a
1,5.13 = 19,5, no existen datos atpicos. Aqu serian atpicos los datos ubicados a una distancia
mayor a 19,5 a partir de x q1 y x q3
El diagrama de Caja para el ejemplo de Grados Celsius, construido con un software es el
siguiente:
190
185
180
175
170
165
160
155
150
145
140
135
130
125
120
N=

15

Grados

12

UNIVERSIDAD BLAS PASCAL


Carrera: INGENIERA EN TELECOMUNICACIONES
Asignatura: INTRODUCCIN A LA PROBABILIDAD
Otras medidas de posicin no centrales son los Percentiles. Estos dividen a la serie de datos
ordenada en 100 partes iguales, por lo que los percentiles son 99. Por ejemplo, el percentil 24
deja el 24% de los datos por debajo y el percentil 75 coincide con el tercer cuartil, ya que deja
75% de los datos por debajo y 25% por encima
Medidas de dispersin
Si bien el clculo de las medidas de tendencia central para un conjunto de datos es importante
para resumir la informacin, no debemos dejar de lado la relevancia que tiene saber el grado de
dispersin o variabilidad que tiene ese conjunto de datos. Esa variabilidad generalmente se toma
respecto de alguna de las medidas de tendencia central.
Las medidas de dispersin en las que nos detendremos sern las siguientes: el rango o
recorrido, la varianza, la desviacin estndar y el coeficiente de variacin.
La ms simple de las medidas de dispersin es el rango, que ya se utiliz para calcular los
intervalos de clase.
El rango o recorrido de una variable es la diferencia entre el valor mximo de la variable y el
valor mnimo de la misma. Se suele representar con la letra R. Es claro que cuanto ms grande
es el rango, mayor es la variabilidad de los datos.
Se utiliza la situacin planteada en el ejercicio 7 para calcular las otras medidas de dispersin y
para ilustrar la importancia de estas medidas en el estudio de una distribucin.
Ejercicio 7
Una empresa quiere comparar el funcionamiento de dos mquinas con las que fabrica resortes.
Para evaluarlas debe determinar la precisin de cada una en la elaboracin de las piezas. Se
toman al azar 80 resortes elaborados por la mquina I y 80 elaborados por la mquina II. Se
efectan mediciones de las piezas fabricadas y se obtiene los siguientes datos, que reflejan los
errores de ambas mquinas:
Variable:
Error (xi)
(en dcimas de mm)
-3
-2
-1
0
1
2
3
4
Totales

Mquina I
fi

Mquina I
xi.fi

0
-3 . 0 = 0
12
-2 . 12 = -24
18
-1 .18 = -18
22
0 . 22 = 0
16
1 . 16 = 16
10
2 . 10 = 20
2
3.2=6
0
4.0=0
fi =n=80 xifi = 0

13

Mquina II
fi

Mquina II
xi.fi

8
-3 . 8 = -24
12
-2 . 12 = -24
14
-1 . 14 = -14
16
0 . 16 = 0
12
1 . 12 = 12
8
2 . 8 = 16
6
3 .6 = 18
4
4 .4 = 16
fi =n=80 xifi = 0

UNIVERSIDAD BLAS PASCAL


Carrera: INGENIERA EN TELECOMUNICACIONES
Asignatura: INTRODUCCIN A LA PROBABILIDAD
Observe que la media x de errores de ambas mquinas es cero lo que hace pensar que ambas
funcionan muy bien.
a) Construya los grficos de las distribuciones.
Observe en los grficos que los errores que se cometen estn dispersos de distinta manera. En
la mquina I los valores se concentran ms alrededor de la media y en la mquina II estn ms
dispersos. Por supuesto que esto refleja un mejor funcionamiento de la mquina I.
Es posible decir entonces que para el estudio de una distribucin no es suficiente conocer las
medidas de tendencia central es necesario adems poder medir la dispersin de los valores
con respecto a la media.
Para obtener una medida de la dispersin se calcula la distancia al cuadrado entre cada valor de
la variable y la media y luego su promedio. Se elevan las diferencias al cuadrado ya que es
posible que estas distancias se contrarresten al calcular el promedio. Esta medida de la
variabilidad se llama varianza.
La varianza se define como la media aritmtica de los cuadrados de las desviaciones de la
variable con respecto a la media aritmtica.
La varianza se simboliza s2 y para calcularla se utiliza la siguiente frmula:
S2 =

1 n
(x i x)2

n i=1

b) Calcule la varianza de las distribuciones de las mquinas.


c) Diga cul es la distribucin que presenta mayor medida de variabilidad y si esto coincide con
lo observado en los grficos de las distribuciones.
La varianza presenta un inconveniente, en el ejercicio dado se refleja en el hecho de que su
valor esta expresado en centsimas de mm2. Sera deseable una medida de dispersin que se
expresara en la misma unidad que la media. Por este motivo se define otra medida de dispersin
llamada desvo estndar.
El desvo estndar es la raz cuadrada positiva de la varianza.
El desvo estndar se simboliza s y se calcula: s = s 2 con s2 igual a la varianza
El desvo estndar es la medida de dispersin que se utiliza ms habitualmente, pues esta
expresada en la misma unidad que la media.
d) Calcule el desvo en los errores de ambas mquinas.
e) Obtenga una conclusin sobre el funcionamiento de las mquinas.
Esta demostrado que para calcular la varianza muestral, es decir la varianza de datos de una
muestra y no de toda la poblacin que se desea estudiar, se obtiene una mejor estimacin de la

14

UNIVERSIDAD BLAS PASCAL


Carrera: INGENIERA EN TELECOMUNICACIONES
Asignatura: INTRODUCCIN A LA PROBABILIDAD
varianza poblacional si se utiliza, en la frmula, como denominador (n 1) en lugar de n. Por
este motivo cuando trabajemos con muestras, utilizaremos la frmula de varianza modificada:

S2 =

1 n
(x i x)2

n 1 i=1

con n tamao de la muestra

La ltima de las medidas de dispersin que consideraremos es el coeficiente de variacin.


El coeficiente de variacin indica la relacin entre la media y el desvo estndar.
Se simboliza CV y se calcula: CV =

s
( cociente entre s y x , es un nmero sin unidad )
x

Se utiliza para analizar la homogeneidad de una muestra o de una poblacin. Mientras menor
sea el coeficiente de variacin (muy prximo a cero menor a 0,3), habr mayor homogeneidad en
los datos, encontrndose stos ms concentrados en torno a la media aritmtica.
Tambin se utiliza cuando se desea comparar la dispersin de dos o ms distribuciones que
tienen medias diferentes entre s o bien que se expresan en distinta unidad de medida. En estos
casos las desviaciones estndar resultan imposibles de comparar y se debe recurrir a esta
medida de variacin relativa.
s
Si se calcula CV =
100 % se obtiene el porcentaje de la media que representa al desvo.
X
As, por ejemplo, si tenemos el peso de 5 pacientes (70, 60, 56, 83 y 79 Kg) cuya media es de
69,6 kg. y su desviacin tpica s = 10,44 y la Tensin Arterial de los mismos (150, 170, 135, 180
y 195 mmHg) cuya media es de 166 mmHg y su desviacin tpica de 21,3. La pregunta sera:
qu distribucin es ms dispersa, el peso o la tensin arterial? Si comparamos las desviaciones
tpicas observamos que la de la tensin arterial es mucho mayor; sin embargo, no podemos
comparar dos variables que tienen escalas de medidas diferentes, por lo que calculamos los
coeficientes de variacin:
El Coeficiente de Variacin del peso es:
CV =

10.44
= 15 %
69.6

El Coeficiente de Variacin de la Tensin Arterial es:


CV =

21.30
= 12.8 %
166

A partir de stos resultados observamos que la variable peso tiene mayor dispersin.
Medidas de Forma
Las medidas de forma proporcionan informacin sobre las caractersticas de la grfica de la
funcin de distribucin de la variable.

15

UNIVERSIDAD BLAS PASCAL


Carrera: INGENIERA EN TELECOMUNICACIONES
Asignatura: INTRODUCCIN A LA PROBABILIDAD
Estudiaremos el Coeficiente de Asimetra que proporciona informacin sobre el sesgo de la
distribucin. Se representa con Ca y se calcula como sigue:

1 n
3
n (xi x)

Ca = i=1 3
s
El coeficiente Ca tiene signo e indica lo siguiente:
Ca > 0 la asimetra es positiva, la grfica tiene sesgo a la derecha.
Ca = 0 la asimetra es cero por tanto la grfica es simtrica no tiene sesgo.
Ca < 0 la asimetra es negativa, la grfica tiene sesgo a la izquierda.
En la prctica para calcular Ca se usa una frmula de trabajo que es la siguiente:
Ca =

3(x Me )
s

Tambin en el mbito de la prctica el rango de Ca es el siguiente: 2,5 < Ca < 3 y si ocurre que
0,5 < Ca < 0,5 se considera que la asimetra es cero.

Ca > 0

Ca 0

Ca < 0

La ltima de las medidas de forma que veremos es el Coeficiente de Curtosis y se define


como sigue:

1 n
4
n (xi x )

Ck = i=1 4
s

El coeficiente de Curtosis Ck mide aplanamiento de la grfica, si es menor que 3 es aplanada, si


es mayor que 3 es empuntada y si es aproximadamente 3 tiene el aplanamiento de la
Distribucin Normal.

16

UNIVERSIDAD BLAS PASCAL


Carrera: INGENIERA EN TELECOMUNICACIONES
Asignatura: INTRODUCCIN A LA PROBABILIDAD
INTERPRETACIN DE LA INFORMACIN DESCRIPTIVA
Cuando se realiza un estudio descriptivo, es importante analizar tablas, grficos y medidas en
forma conjunta, para ver si las caractersticas generales de la distribucin de datos se parece a
las caractersticas de algn modelo matemtico. De ser as, uno puede proponer ese modelo
para describir el comportamiento de la variable. Es decir a travs de la observacin y anlisis de
las tablas de distribucin, los grficos estadsticos y las medidas analticas, obtenidos de una
muestra, es posible reconocer en un paso posterior la funcin de distribucin de probabilidad
que mejor describa el comportamiento o variabilidad de la poblacin conceptual subyacente
(poblacin conceptual de la cual se extrae la muestra). Una de las distribuciones que se presenta
con ms frecuencia y tiene un comportamiento deseable, para las variables implicadas en las
aplicaciones de Ingeniera, es la Distribucin Normal (Campana de Gauss). Generalmente suele
utilizarse a esta distribucin como referencia en el anlisis de la informacin descriptiva
procesada.
Para el ejemplo de la variable "punto de ebullicin en grados Celsius", si se calculan las
medidas, se observa que:

a media y la mediana son parecidas y el coeficiente de asimetra es cercano a cero, por lo


que podemos decir que la distribucin es aproximadamente simtrica. Esto puede
observarse tambin en el diagrama de caja, donde adems, no se observan datos extraos.
El coeficiente de curtosis es cercano a 3, lo que indica que el "empuntamiento" es similar al
de una distribucin Normal, solo que un poco ms bajo.
El grfico de frecuencias acumuladas u Ojiva, es similar a una "S", lo que estara indicando
que acumula probabilidades de manera similar a una Normal.

Otro ejemplo: En un estudio sobre vibraciones, ciertos componentes de un aeroplano fueron


sometidos a severas vibraciones hasta que presentaron fisuras estructurales. Los siguientes
datos corresponden a los tiempos de falla en minutos:
1.5 - 10.3 - 3.6 - 13.4 - 18.4 - 7.7 - 24.3 - 10.7 - 8.4 - 15.4 - 4.9- 2.8 - 7.9 - 11.9 - 12.0 - 16.2 - 6.8 14.7
Variable en estudio: " Tiempo de falla en minutos"
En primer lugar se realiza la tabla de distribucin de frecuencias, teniendo en cuenta que la
variable es cuantitativa continua y que se trabaja con la serie simple ya que se tienen pocos
datos.

17

UNIVERSIDAD BLAS PASCAL


Carrera: INGENIERA EN TELECOMUNICACIONES
Asignatura: INTRODUCCIN A LA PROBABILIDAD
TIEMPO
1.5
2.8
3.6
4.9
6.8
7.7
7.9
8.4
10.3
10.7
11.9
12.0
13.4
14.7
15.4
16.2
18.4
24.3

i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

FREC. RELAT. ACUM.


0.053
0.105
0.158
0.211
0.263
0.316
0.368
0.421
0.474
0.526
0.579
0.632
0.684
0.737
0.789
0.842
0.895
0.947

El grfico de la Ojiva obtenido a partir de la informacin de la tabla anterior es:


1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0

10

15

Las medidas descriptivas obtenidas con un software son:


Media = 10.60
Mediana = 10.50
Desviacin Estndar = 5.89
Varianza = 34.79
Asimetra = 0.5
Curtosis = 0.20
Rango = 22.8
Percentil 25 = 6.32
Percentil 75 = 14.87
El Diagrama de caja es:

18

20

25

UNIVERSIDAD BLAS PASCAL


Carrera: INGENIERA EN TELECOMUNICACIONES
Asignatura: INTRODUCCIN A LA PROBABILIDAD

24.3
10. 5
1.5
Tiempo
Conclusin: como la media es mayor a la mediana y el coeficiente de asimetra es positivo, se
puede decir que la distribucin de datos es sesgada a derecha. Esto puede observarse en el
diagrama de caja, donde la lnea que representa la mediana est ms cerca del primer cuartil
que del tercero, indicando mayor concentracin de datos para los valores menores.
El coeficiente de curtosis es positivo (en el software resta 3 al coeficiente definido
anteriormente), es decir el "empuntamiento" es mayor que la Normal.
Adems la Ojiva crece ms rpido al principio y luego crece ms lentamente.

19

Вам также может понравиться