Вы находитесь на странице: 1из 164

Probabilidad y estadística

Organización de los datos para reducir al


mínimo el error estadístico
• La estadística trata sobre la compresión
exacta y el control del error estadístico.

• El error estadístico son los grados conocidos


de imprecisión en los procedimientos
utilizados para reunir y procesar
información.

• Los errores estadísticos no son


equivocaciones.
Organización de los datos para reducir al
mínimo el error estadístico
• Existen dos tipos de errores estadísticos:
• El error de muestreo representa la
inexactitud en las predicciones sobre una
población que resulta del hecho que no
observamos a todos los sujetos de la población.
• El error de medición, es la inexactitud en
una investigación que deriva de instrumentos
de medición imprecisos, de las dificultades en
la clasificación de las observaciones y en la
necesidad de redondear números.
Control del error de muestreo
• Analizar algo significa escoger algo y
examinarlo con detalle de manera organizada.
Al realizar trabajo estadístico, analizamos
grupos de personas, objetos o
acontecimientos y medimos variables.
• La medición de una sola persona no
proporciona un estadístico; simplemente es una
observación.
• Determinar la edad promedio de un grupo, es
calcular un estadístico con base en un
conjunto de observaciones.
Control del error de muestreo
• El campo de la estadística implica el resumen de
cálculos de numerosas observaciones, es decir
nos enfocamos en observar muchos casos,
recabar información precisa de ellos y hacer
declaraciones concisas sobre el grupo y no de los
individuos.
• Ahora bien, el grupo de sujetos que observamos a
menudo es bastante pequeño. Nuestro propósito
es estudiar un grupo pequeño de sujetos para
obtener conclusiones sobre la población grande a
la cual esos sujetos pertenecen.
La población
• La población o universo, es un grupo grande
de personas o cosas de interés particular que
deseamos estudiar y entender.
• Por ejemplo:
1. Libros de la Biblioteca Nacional.
2. Mexicanos youtuberos
3. Películas de terror en Netflix
4. Conjunto de los 100.000 primeros números
naturales.
5. Videojuegos en la plataforma xbox
La muestra
• Una muestra es un subgrupo pequeño de
la población; la muestra se observa y se
mide y después se utiliza para obtener
conclusiones sobre la población.
Control del error de medición

• La medición es la asignación de símbolos


tanto de nombres como números, a las
diferencias que observamos en las
cualidades o cantidades de una variable.
Tipos de variables
• Las variables nominales: son aquellas
en las que los códigos solo indican una
diferencia en la categoría, clase, calidad o
tipo.
• Algunos ejemplos incluyen lugar de
nacimiento (Chicago, Atlanta, Monterrey,
etc.), sabor favorito de helado ( vainilla,
chocolate, galletas y crema, etc), marca
de automóvil (Ford, Lexus, Pontiac, etc.) y
carrera académica (parapsicología,
química, ingeniería eléctrica).
Las variables nominales
• No admiten puntuaciones numéricas
ordenadas significativamente.

• Sin embargo, a veces en las computadoras


se numeran las categorías de estas
variables mediante ciertos códigos
computacionales. Por ejemplo, a la
variable genero se le asignan los
siguientes códigos: hombre-0, mujer-1.
Las variables nominales
• Dentro de este tipo de variables nominales
podemos encontrar dos modalidades:

• Variables dicotómicas, que son aquellas


que solo tienen dos categorías. Por ejemplo,
todas aquellas variables que se miden a
partir de una pregunta “ si o no”.

• Variables multicotomicas, que son


aquellas que tienen mas de 2 categorías.
Las variables nominales
Las variables ordinales
• Las variables ordinales: designan
categorías, pero tienen la propiedad
adicional de permitir la clasificar las
categorías desde la mayor hasta la menor, de
la mejor a la peor o de la primera a la ultima.
• Las variables ordinales comunes consideran
clasificación de clase social (alta, media,
baja, indigente), nivel de clase educativa
(ultimo año, primer año, etc) y calidad de
vivienda (estándar, insuficiente, en ruinas)
Las variables ordinales
• Las variables ordinales: designan
categorías, pero tienen la propiedad
adicional de permitir la clasificar las
categorías desde la mayor hasta la menor, de
la mejor a la peor o de la primera a la ultima.
• Las variables ordinales comunes consideran
clasificación de clase social (alta, media,
baja, indigente), nivel de clase educativa
(ultimo año, primer año, etc) y calidad de
vivienda (estándar, insuficiente, en ruinas)
Las variables ordinales
Las variables ordinales
Las variables de intervalo
• Las variables de intervalo tienen las
características de las variables nominales y
ordinales, y además una unidad numérica de
medición definida. Ejemplo: temperatura,
coeficiente de inteligencia CI [0,200].
• Con las variables de intervalo, los intervalos o
distancias entre puntuaciones son las mismas entre
cualquier par de puntos entre la escala de
medición.
• Proporcionan la habilidad para sumar, restar,
multiplicar y dividir puntuaciones y calcular
promedios.
Las variables de intervalo

• El cero es arbitrario, no indica la ausencia


de atributo. Como ejemplo puede servir la
escala de tiempo que utilizamos: el cero
es arbitrario, puesto en el nacimiento de
Cristo, o la escala para medir la
temperatura en grados centígrados, en la
que el cero es también relativo
Variables de razon
• Las variables de razón tienen las
características de las variables de intervalo
y un punto cero verdadero, donde una
puntuación cero significa ninguno.
• Ejemplo: peso, altura, duración en tiempo.
Una razón es la cantidad de una
observación con respecto a otra. Por
ejemplo: la población de una ciudad “x”, es
dos veces la población de la ciudad y, 2:1.
Características de los cuatro niveles de
medición
Distinción del nivel de medida y unidad de
medida
• El nivel de medición de una variable
identifica las propiedades de medición, las
cuales determinan el tipo de operaciones
matemáticas que pueden usarse
apropiadamente con dicho nivel (nominal,
ordinal, intervalo o razón)
• Las variables también tienen una unidad
de medición, un intervalo determinado o
distancia entre las cantidades de las
variables (pulgada, centímetro, litro, etc.).
Distinción del nivel de medida y unidad de
medida
Codificación y conteo de observaciones
cualitativas
• El registro o guía de codificación, es una
descripción concisa de símbolos que describen
el significado de cada puntuación para cada
variable.
• El principio de inclusividad establece que para
una variable determinada debe haber una
puntuación o un código para cada observación
realizada.
• El principio de exclusividad sostiene que para
una variable determinada a cada observación
se asigna una y sólo una puntuación.
Codificación y conteo de observaciones
Hoja de calculo
• El siguiente paso en el manejo de datos
consiste en codificar y registrar todas las
mediciones en una hoja de cálculo o en un
archivo de datos de computadora.
• La manera mas común para recolectar los
datos es mediante una hoja de calculo, o
matriz en la que se muestran las
puntuaciones de todas las variables
organizadas en columnas; y todos los
casos, en filas
Distribuciones de frecuencias
• Una vez que tenemos todos los datos en una hoja de
calculo, el siguiente paso es organizar los datos de
cada variable en una distribución de frecuencias,
que es una lista de todas las puntuaciones observadas
de una variable y la frecuencia (f) de cada puntuación
(o categoría). En otras palabras es un resumen tabular
de datos donde se muestra el numero (o frecuencia) de
objetos en cada clase
• Utilizamos letras mayúsculas para representar una
variable.
• Si X se define como la variable género, la distribución
de frecuencias de X simplemente muestra cuántos
hombres y mujeres hay en la muestra.
Distribuciones de frecuencias
• Distribución de frecuencias con
proporciones o relativa. Lista de la
proporción de respuestas para cada
categoría o puntuación de una variable.

• Distribución de frecuencias de
porcentajes Lista del porcentaje de
respuestas para cada categoría o
puntuación de una variable.
Codificación y conteo de datos de
intervalo/razón

• Las variables con niveles de medición de


intervalo/razón se distinguen de las
variables nominales/ordinales por sus
cualidades numéricas, sobre todo por sus
unidades de medición, como millas,
kilómetros, pulgadas, segundos y
kilogramos.
Codificación y conteo de datos de
intervalo/razón
• Cuando el tamaño de muestra es menor a 30,
los datos pueden tratarse individualmente, y
en este caso se les llama Datos no agrupados.

• Sin embargo, cuando la muestra es grande


(n≥30), es laborioso hacerlo de esta forma,
por lo que se lleva a cabo algún tipo de
agrupación preliminar para realizar el
tratamiento adecuado a los datos. En este
último caso, se les llama Datos Agrupados.
Redondeo de las observaciones de
intervalo/razón
• Una medición precisa es aquella en la que el
grado de error de medición es suficientemente
pequeño para la tarea en cuestión
• La precisión depende de circunstancias
prácticas y se controla al especificar el error
de redondeo.
• La observación de una variable de
intervalo/razón tal vez no nos ofrezca la
puntuación verdadera porque sus mediciones a
menudo pueden hacerse de manera
infinitamente más precisa.
El error de redondeo
• El error de redondeo es la diferencia
entre la puntuación real o perfecta (que
quizá nunca conozcamos) y nuestra
puntuación observada y redondeada.

• El error de redondeo depende de qué


posición decimal elegimos como
nuestro nivel de precisión, nuestra unidad
de redondeo.
El error de redondeo
• El procedimiento para redondear una puntuación de una
variable de intervalo/razón es como sigue:
• l. Especifica la unidad de redondeo según su posición
decimal.
• 2. Observa el número a la derecha de la unidad &
redondeo y sigue estas reglas:
• A. Si es O, 1, 2, 3 o 4, redondea hacia el entero inferior.
• B. Si es 6, 7, 8 o 9, redondea hacia el entero superior.
• C. Si es 5, observa la siguiente posición decimal a la
derecha y, si el número es 5 o mayor, redondea hacia el
entero superior; si no existe algún número en esa siguiente
posición decimal, deja el redondeo en ese número.
Distribución de frecuencias para variables
de intervalo/razón.
• Datos no agrupados
• Si los datos están en una escala por lo menos
ordinal, lo primero que podemos hacer es
ordenarlos, en forma ascendente o
descendente. Una vez ordenados los datos de la
muestra se organizan en una tabla de
frecuencias.
• Una Tabla de Frecuencias, también llamada de
Distribución de Frecuencias, está formada por
las categorías o valores de la variable y sus
correspondientes frecuencias
Distribución de frecuencias para variables
de intervalo/razón.
• Utilicemos un ejemplo para identificar
cada elemento de una distribución de
Frecuencias.
• En un grupo de Estadística I de la NET
Ecatepec, se observó la estatura de 16
alumnos y se obtuvieron los siguientes
datos (en metros):
Distribución de frecuencias para variables
de intervalo/razón.
• La frecuencia, también llamada
frecuencia simple o absoluta, se define
como el número de veces que aparece un
dato xi, y se denota por f.
Distribución de frecuencias para variables
de intervalo/razón.
• La frecuencia relativa es el número de
veces que aparece cada valor de la
variable Xi, es decir cada dato, dividida
entre el tamaño de la muestra. Se
representa con fr, y se tiene que:
Distribución de frecuencias para variables
de intervalo/razón.
• La frecuencia acumulada de un valor xi es
la suma de las frecuencias absolutas de
todos los valores menores o iguales al
valor xi, y se representa por Fa.
• La frecuencia relativa acumulada de un
valor xi es la suma de las frecuencias
relativas de todos los valores menores o
iguales al valor xi, (o dividiendo las
frecuencias acumuladas entre el tamaño
de muestra), y se representa por Fra..
Distribución de frecuencias para variables
de intervalo/razón.
• Ahora, ya que tenemos la distribución de
frecuencias, ¿qué información podemos obtener
acerca de las estaturas de los alumnos?
• Interpretemos algunos valores de cada columna:
1. f “Tres estudiantes de 16 miden 1.64 m de estatura”
2. fr “El 12.50% de los estudiantes miden 1.66 m de
estatura”
3. Fa “8 de 16 estudiantes miden máximo 1.60 m de
estatura”
4. Far “El 87.5% de los estudiantes miden hasta 1.74
m de estatura”
Distribución de frecuencias para variables
de intervalo/razón.
• Datos Agrupados.
• Cuando la muestra es grande (n mayor
que 30) resulta conveniente organizar los
datos en intervalos de clase para
construir su distribución de frecuencias.
• Para ejemplificar esta situación,
analicemos los datos siguientes
correspondientes a la edad de 55
personas
Distribución de frecuencias para variables
de intervalo/razón.
• El número de intervalos de clase depende del
número de observaciones. Una mayor
cantidad de datos requiere un mayor número
de clases. Por lo general la distribución de
frecuencias debe tener como mínimo 5
intervalos, pero no más de 15.
• Aunque, no existe una regla formal para
determinar el número de intervalos y el
tamaño de los mismos, existen algunas reglas
empíricas que resultan útiles en esta decisión.
Distribución de frecuencias para variables
de intervalo/razón.
• En este caso seguimos los siguientes pasos:
• 1. Hallamos el Rango (R)

• R= 52-16
• 2. Denotemos con K al número de intervalos
de clase y con C su tamaño; utilizaremos la
Regla de Sturges:
• n : número de datos
• .

• .
Distribución de frecuencias para variables
de intervalo/razón.
• Como K debe ser un número entero, se
redondea y se tienen K = 5 intervalos.
• Los intervalos serán de tamaño, el cuál
se redondea hasta la precisión de nuestros
datos, es decir a enteros, por lo que C = 7.
• Tomemos el dato menor como el límite inferior
del primer intervalo, (aunque existen otros
criterios, este es el más sencillo), y
construyamos los intervalos de modo que cada
uno sea de tamaño 7, es decir, de manera en
cada uno se cuenten 7 enteros.
Distribución de frecuencias para variables
de intervalo/razón.
Distribución de frecuencias para variables
de intervalo/razón.
• Utilizaremos las calificaciones obtenidas por
25 estudiantes en un curso de estadística.

• 1. Hallamos el Rango (R)


• 2. Definir cuántas clases considerar. K es
el número de clases. Opción 1.
Distribución de frecuencias para variables
de intervalo/razón.
• Opción 2. Utilizaremos la Regla de
Sturges

• 3. Obtener la amplitud de clase.


Distribución de frecuencias para variables
de intervalo/razón
• 4.- El paso siguiente consiste en indicar el
límite inferior de la primera clase, el cual
puede ser un valor igual o ligeramente menor
al dato de valor mínimo del conjunto de
datos. Una vez hecho esto, le sumamos el
valor del ancho del intervalo para fijar el
límite superior de esta clase considerando en
ello los valores de los límites.
Distribución de frecuencias para variables
de intervalo/razón
• Los intervalos hasta aquí
construidos reciben el nombre de
intervalos de clase o intervalos
ficticios.

• Es necesario construir los límites


reales o límites verdadero de la
puntuación.
Los límites reales de puntuaciones
redondeadas
• Una vez que conocemos las puntuaciones
redondeadas, los números en la posición
decimal de la unidad de redondeo se
consideran estimaciones.
• El valor real de una puntuación podría ser
cualquiera de las puntuaciones que se
redondean para obtener la puntuación
registrada.
• Este rango de posibles valores reales de una
puntuación (ya) redondeada se llama límite
real o límite verdadero de la puntuación.
Calculo de límites reales de una puntuación
dé intervalo/razón
1. Observa la puntuación e identifica la "unidad de redondeo'',
el lugar decimal al que la puntuación se redondeó (como en
la columna B que sigue). (Para ubicaciones del lugar
decimal, revisa la figura A-1 del apéndice A.)
2. Divide entre 2 esta unidad de redondeo (como en la
columna C que sigue). Atención: no dividas el número del
lugar decimal de la unidad de redondeo entre 2.
3. Resta el número del paso 2 de la puntuación redondeada
observada, para obtener el límite real inferior (LRI, como
en la columna D que sigue).
4. Suma el resultado del paso 2 a la puntuación redondeada
observada, para obtener el límite real superior (LRI, como
en la columna E que sigue)
Ejemplos
Distribución de frecuencias para variables
de intervalo/razón
• 5. Creamos los intervalos reales
de clase

• 6. Creamos nuestra distribución


Distribución de frecuencias para variables
de intervalo/razón
Ejercicios
• Las calificaciones obtenidas por 50
alumnos en la asignatura de Sociología de
la maestría de Economía y Desarrollo de
la UNAM son las siguientes:
Ejercicios
1. Hallar el Rango (R)
2. Definir cuántas clases (K) considerar.
3. Obtener la amplitud de clase.
4. Construir intervalos de clase o
intervalos ficticios.
5. Creamos los intervalos reales de
clase.
6. Crear distribución de frecuencias
que contenga: X, f, fa, fr, far, f% y f%a
Ejercicios
• En una encuesta realizada a 350 familias por el
gobierno del Estado de México sobre el número de hijos
por familia en Chalco, se obtuvieron los siguientes
datos: 20 familias declararon tener solo un hijo, 120
familias declararon tener 2 hijos, 10 familias declararon
tener 4 hijos. A partir de los datos ofrecidos obtener:
1. Lamentablemente el investigador olvido guardar su
trabajo y perdió el numero de familias que declaro
tener 3 hijos. Cuantas familias declararon tener 3
hijos?
2. Crear distribución de frecuencias que contenga:
X, f, fa, fr, far, f% y f%a
Ejercicios
• En un taller de autos, el dueño esta por pedir un
lote nuevo de pinturas. En la ultima semana,
han llegado a su taller los autos de los
siguientes colores:
• blanco, amarillo, blanco, verde, amarillo,
blanco, verde, blanco, blanco, blanco, verde,
blanco, amarillo, verde, blanco, blanco, rojo,
rojo, amarillo, rojo, rojo, rojo, amarillo, amarillo,
blanco, amarillo, amarillo, amarillo, amarillo,
amarillo, amarillo, verde, verde, verde, verde.
• Obtener:
Ejercicios
• Crear distribución de frecuencias que
contenga: X, f, fa, fr, far, f% y f%a
• A partir de la tabla antes creada, De
cual color de pintura, el dueño,
debería de pedir en demasía?
Medidas de Tendencia Central

• Todos estamos familiarizados con el concepto


general de promedio, en situaciones tales como
una calificación promedio, un ingreso
promedio, una puntuación promedio en el
boliche o un promedio de bateo.

• Si alguien tiene un "promedio”, de alguna


manera, por ejemplo altura, peso, inteligencia,
etc .. esta persona no es atípica. Poseer un
promedio significa ser como lo mayoría de las
personas.
Medidas de Tendencia Central

• A estas puntuaciones típicas o comunes, las


medidas de Tendencia Central, las cuales
ubican el valor alrededor del cual se concentra
un conjunto de datos.
• Un estadístico de tendencia central
proporciona una estimación de la puntuación
típica, común o normal encontrada en una
distribución de puntuaciones en bruto.
• Las tres medidas de tendencia central o de
centralización más importantes son la moda, la
mediana y la media
Media
• Si los datos son numéricos (en escala intervalar o
de razón), entonces es posible calcular la media
aritmética, la cual consiste en la suma de todos
los valores dividida por el número de ellos.

• La media aritmética es lo que usualmente


conocemos como “promedio”, y se interpreta
como tal. Una característica de la media es
que resulta sensible a datos extremos, lo que
no sucede con la mediana ni con la moda.
Media
Media
• Calculo de media combinada de dos
muestras
• Dos opciones, considerar lo siguiente:
• Los grupos tienen los mismo tamaños de
muestra (n), si el caso es afirmativo, se
suman las medias y se dividen entre 2.
• En caso contrario:
Moda
• La moda se define como el dato con la
frecuencia más alta, es decir, el que más
se repite. No siempre existe una moda y
en ocasiones puede haber más de una.

• Además, es la única medida de tendencia


central que se puede calcular para
variables nominales.
Mediana
• La mediana se define como el dato central de la distribución,
es decir el dato que queda justo en el medio, cuando el
conjunto de datos se encuentra ordenado. Se denota por

• La mediana se puede utilizar con variables ordinales (además


de la moda). Si el número de datos es impar, entonces la
mediana corresponde al valor que se encuentra en el medio.

• Pero si el número de observaciones es par, entonces se toman


los dos valores que se hallan en el medio de la distribución y
se dice que la mediana se encuentra entre esos dos valores,
(en el caso de variables numéricas se suman esos valores y se
divide entre dos)
Mediana

• La mediana divide al conjunto de datos justo a la mitad por


lo que nos proporciona información del estilo: “El 50% de
los datos esta por debajo de la mediana y el otro 50% por
arriba de ella”
Ejercicios
Medidas de Tendencia Central para datos
agrupados

• Cuando la muestra es grande y los datos


se agrupan en intervalos de clase, el
cálculo de las medidas de tendencia
central varía significativamente. Se hace
necesario, además, definir algunos
conceptos nuevos, identifica cuáles.
Moda
• La moda se definió como el dato con la
mayor frecuencia, de manera similar
definimos ahora la Clase Modal, como
aquel intervalo de clase con la mayor
frecuencia.
• Ejemplo: Veamos el cálculo de la moda
con el ejemplo de la edad de 55 personas:
• Paso 1, Identificar clase modal
Moda

• LRinf = límite real inferior de la clase modal.


• Δ1 = diferencia entre la frecuencia de la
clase modal y la clase que le precede.
• Δ2 = diferencia entre la frecuencia de la
clase modal y la clase que le sigue.
• C = Tamaño de clase de la clase modal
Moda
Mediana
• La mediana se definió como el dato central
cuando el conjunto se encuentra ordenado,
ahora definimos la Clase Mediana, como
aquel intervalo de clase que cubre el 50%
de los datos. Para identificarla busquemos
el intervalo cuya frecuencia acumulada
relativa sea igual o mayor a 0.5.
• Paso 1: Identificar clase
mediana
Mediana
• Una vez que identificamos la clase mediana, se utiliza la siguiente fórmula
para calcular la mediana:

• Cada elemento utilizado en esta fórmula se describe a continuación:


• LRinf = límite real inferior de la clase mediana.
• Fa1 = frecuencia acumulada de la clase que precede a la clase
mediana.
• fmed = frecuencia simple de la clase mediana.
• C = tamaño de clase de la clase modal.
• n = tamaño de muestra
Mediana
Media

• La media igual que antes, se define como el promedio


de los datos. Vamos a necesitar el concepto de marca
de clase, el cuál es el punto medio de cada intervalo.
• No es necesario identificar ninguna clase en particular,
y la fórmula para calcular la media es:

• Los elementos en esta fórmula son:


• xi = marca de clase de cada clase
• fi = frecuencia simple de cada clase.
Media
• Veamos el cálculo de la media con nuestro
conocido ejemplo de la edad de 55
personas:
Media
Ejercicio
• Analicemos los datos siguientes
correspondientes a la edad de 55
personas:
Graficas
Lineamientos para graficar
1. Elige el diseño con base en a) el nivel de
medición de una variable, b) los objetivos del
estudio y e) el público a quien se dirige.
2. Ante todo, una buena presentación gráfica tiene
que ser clara y entendible. Debe simplificar, no
complicar.
3. Un gráfico o diagrama requiere explicarse por
sí mismo y transmitir información, sin hacer
referencia a un texto o a alguien que lo
explique. La selección cuidadosa de títulos,
descripción de la escala, subtítulos y otras
leyendas contribuyen a lograr este objetivo.
Lineamientos para graficar
• Antes de decidirte sobre el tipo de
presentación pictórica (por ejemplo,
gráfico de pastel contra gráfico de barras),
elabora bosquejos con varias opciones. Los
programas de cómputo hacen esto en
forma relativamente fácil.
• Adhiérete a los principios de inclusividad.
• Anota al pie de página cualquier excepción.
Si los datos no son tuyos, indica la fuente
de los mismos al final de la tabla.
Graficas para variables cualitativas
Gráficos de pastel
• Un estilo sencillo de presentación para datos
nominales/ordinales es el gráfico de pastel. Un
gráfico de pastel es un círculo que se divide (o
rebana) desde su punto central, donde cada
rebanada representa la frecuencia
proporcional de determinada categoría.
• La siguiente figura muestra la distribución de
la preferencia sobre “sabor de pizza” en 2000
personas. El área dentro del círculo entero
representa el 100 por ciento de los sujetos en
la muestra.
Forma de construir e interpretar una gráfica
de pastel
• El primer paso para elaborar cualquier
gráfico consiste en determinar la
distribución de frecuencias de la variable.
• Del mismo modo, con los gráficos de pastel
calculamos la frecuencia proporcional y la
frecuencia porcentual de cada categoría.
• Las frecuencias proporcionales, junto con
el conocimiento sobre las dimensiones de
un círculo, sirven para calcular el tamaño
de las rebanadas.
Forma de construir e interpretar una gráfica
de pastel
• Para construir una gráfica de pastel:
1. Elabora una tabla de distribución de frecuencia con los
siguientes encabezados:

• "Categoría" = nombre de la categoría de una variable


nominal/ordinal,
• f = frecuencia de casos (o número de casos) de una
categoría,
• p = p [del n total en una categoría] = (f de categoría)/n, con
n = tamaño muestra,
• (p )(360°) = grados para cada rebanada,
• % = porcentaje [del n total en una categoría]= (p)(100).
Forma de construir e interpretar una gráfica
de pastel
• Traza un círculo y pon un punto en su centro.
Traza una recta del punto al círculo. Pon un
transportador sobre esta recta, marca el número
de grados para la primera categoría y traza una
recta para crear la rebanada del pastel. Pon un
transportador sobre esta segunda recta, marca el
número de grados para la segunda categoría, y así
sucesivamente. Asegúrate de que haya
exactamente 360°.
• Marca con toda claridad cada rebanada e indica el
porcentaje de casos que representa. Asegúrate de
que las leyendas sean horizontales (es decir, no las
ajustes a la forma circular de la rebanada).
• Titula adecuadamente el gráfico de pastel.
Forma de construir e interpretar una gráfica
de pastel
• Para interpretar un gráfico de pastel:
1. Concéntrate en las rebanadas más
grandes del pastel. Estipula las categorías
que se presentaron con mayor frecuencia.
2. Compara entre sí Jos tamaños de
rebanadas. Si es apropiado, compara los
resultados con otras poblaciones.
3. Busca rebanadas inesperadamente
pequeñas o grandes
Ejemplo
Grafico de pastel
Estatus marital
2.00%
14.00%

51.00%

27.00%

4.00%
2.00%

Nunca estuvo casado No respondio Casado


Divorsiado Separado Viudo
Grafica de barras
• Otra manera de graficar datos
nominales/ordinales consiste en utilizar un gráfico
de barras.
• Un gráfico de barras se compone de una serie de
barras verticales u horizontales, donde la longitud
de la barra representa la frecuencia porcentual de
una categoría de una variable nominal/ordinal
• Al igual que una rebanada de un gráfico de pastel,
el área de una barra determinada por su longitud
transmite un sentido de frecuencia proporcional
de una categoría.
Grafica de barras
• Los gráficos de barras se construyen
sobre dos ejes: uno trazado
horizontalmente (el de las abscisas) y el
otro colocado en forma vertical (el de las
ordenadas).
Forma de construir e interpretar un gráfico
de barras
• Para construir un gráfico de barras:
1.Elabora una tabla de distribución de frecuencias con los
encabezados siguientes:

• Donde:
• "Categoría" = nombre de la categoría de una variable
nominal/ordinal,
• f = frecuencia de casos (o número de casos) en una
categoría,
• p = p [del n total de una categoría] = f/n,
• % = porcentaje [del n total de una categoría]= (p)(l00).
Forma de construir e interpretar un gráfico
de barras
2. Traza el eje horizontal del gráfico de barras,
con un ancho apropiado para el número de
barras.
3. Traza el eje vertical. Observa la frecuencia
más alta (f) o frecuencia porcentual de la
tabla de distribución de frecuencia y escribe
marcas en el eje que vayan desde cero hasta
un poco más de la frecuencia más alta.
4. Traza las barras ,puedes escoger el orden
de las barras de la más alta a la más baja.
Separa las barras de cada categoría. Utiliza
frecuencias (f) o frecuencias porcentuales
sobre el eje vertical como marcadores de
Forma de construir e interpretar un gráfico
de barras
• Para interpretar un gráfico de barras:
1. Observa la altura de las barras. La barra más
alta indica la categoría que tiene la frecuencia
más alta. Haz comentarios sobre el orden de
las categorías.
2. Compara las barras y comenta sobre
cualquiera que sea especialmente alta o corta.
3. Si es apropiado, compara los resultados
contra otras poblaciones. Busca barras
especialmente altas o cortas.
Grafica de barras
Grafica de barras

*Las cantidades no dan 100%


debido a casos menores
Grafica de barras

*Las cantidades no dan 100%


debido a casos menores
Grafica de barras

*Las cantidades no dan 100%


debido a casos menores
Graficas para variables cuantitativas
Histograma de frecuencias

• Un histograma de frecuencias es un
gráfico de 90° que presenta las
puntuaciones de una variable a lo largo
del eje horizontal, y la frecuencia de cada
puntuación en una columna paralela al eje
vertical. En otras palabras, se grafica X
sobre el eje horizontal y f en el vertical.
Histograma de frecuencias
• La hoja de trabajo de cálculo de la
siguiente tabla presenta la distribución de
frecuencia de evaluaciones de
rendimiento de combustible, para
conducción en la ciudad de modelos de
autos compactos de cuatro cilindros del
año 2004 (excluyendo modelos híbridos
de gasolina/eléctricos).
• Nuestro interés está en cómo se agrupan
las puntuaciones y en cómo se dispersan.
Histograma de frecuencias
Histograma de frecuencias
• Con toda facilidad podemos ver, por ejemplo, que
la evaluación mínima fue 18 MPG, y la máxima, de
38 MPG.
• Si observamos las evaluaciones de rendimiento de
combustible con alta frecuencia, podemos ver que
muchos modelos de autos compactos están
proyectados para rendir entre 22 y 26 MPG en
condiciones de conducción en ciudades. (Para
personas acostumbradas a medir el rendimiento de
combustible en unidades métricas, multiplica MPG
por 0.42 para obtener el equivalente en kilómetros
por litro de gasolina.)
Histograma de frecuencias
Forma de construir e, interpretar
histogramas
• Para construir un histograma:
1. Elabora una tabla de distribución de
frecuencias con los encabezados siguientes:

• Donde:
• Puntuación = puntuación de una variable de
intervalo/razón
• f = frecuencia de casos (o número de casos)
en una puntuación
Forma de construir e, interpretar
histogramas
1. Calcula los límites reales de cada puntuación.
(En el capítulo 2 puedes revisar los límites
reales.)
2. Traza un eje horizontal del histograma.
Observa las puntuaciones más baja y más
alta en la tabla de distribución de
frecuencias. Escribe marcas sobre el eje y
aplica de conformidad los valores de X; deja
espacio adicional en cada extremo del eje
fuera de los valores de las puntuaciones más
baja y más alta.
Forma de construir e, interpretar
histogramas
4. Traza el eje vertical. Observa la frecuencia más
alta (j) en la tabla de distribución de frecuencias y
escribe marcas en el eje que vayan desde cero
hasta un poco más de la frecuencia más alta.
5. Traza las columnas usando límites reales como
marcadores para anchos de columna y frecuencias
en como marcadores para alturas de columna.
6. Aplica un título preciso al histograma. Asegúrate
de que las leyendas de ejes sean correctas y
claras. Identifica la fuente de datos en la parte
inferior del gráfico.
Para interpretar un histograma
1. Observa la altura de las barras. La columna más
alta indica el valor de la puntuación de X que
tenga la frecuencia más alta (f).
2. Busca grupos de puntuaciones y ve si hay una
"tendencia central", un valor de puntuación de X
alrededor del que se centra la distribución.
3. Busca la simetría o equilibrio en la distribución de
las puntuaciones. ¿Las puntuaciones tienden a
ubicarse en forma homogénea alrededor de una
puntuación central, o son puntuaciones
especialmente bajas o altas (como en la figura 3-
5)?
Histograma de frecuencias
Polígonos y gráficos de líneas
• Otra técnica gráfica para representar variables de
intervalo/razón es el polígono de frecuencia o
gráfico de líneas.
• Un polígono de frecuencias es un diagrama de 90
grados con puntuaciones de intervalo/razón
señaladas en el eje horizontal o línea base, y las
frecuencias de las puntuaciones están representadas
por las alturas de puntos localizados sobre las
puntuaciones y enlazados mediante líneas rectas.
• Los ejes de un polígono se diseñan como los de un
histograma. Los valores de X están marcados en el
eje horizontal o línea base.
Polígonos y gráficos de líneas
• Las frecuencias (f) se grafican en el eje vertical, pero,
para indicar la frecuencia de la variable en una
puntuación particular, usamos puntos en lugar de
columnas y enlazamos los puntos para obtener una línea
gráfica.
• Mientras que los histogramas atraen la atención a las
columnas más altas, donde se encuentra el grueso de las
puntuaciones, los polígonos comunican un sentido de
tendencia o movimiento.
• Esto es, observamos el flujo de picos y valles en la línea
gráfica cuando comparamos las evaluaciones de
rendimiento de combustible de la más baja a la más alta
por toda la línea de base.
Polígonos y gráficos de líneas
Polígonos y gráficos de líneas
Polígonos y gráficos de líneas
• Para construir un polígono:
1. Elabora una tabla de distribución de frecuencias con
los siguientes encabezados (exactamente como la
tabla empleada para construir histogramas):

• donde
• Puntuación = puntuación de una variable de
intervalo/razón
• f = frecuencia de casos (o número de casos) para una
puntuación
Polígonos y gráficos de líneas
2. Calcula los límites reales de cada puntuación X.
3. Traza un eje horizontal o "línea de base" del
polígono. Observa las puntuaciones más baja y más
alta en la tabla de distribución de frecuencia.
Escribe marcas sobre el eje y aplica de conformidad
los valores de X; deja espacio adicional en cada
extremo del eje fuera de los valores de las
puntuaciones más baja y más alta.
4. Traza el eje vertical. Observa la frecuencia más alta
(f) en la tabla de distribución de frecuencia y
escribe marcas en el eje que vayan desde cero
hasta un poco más de la frecuencia más alta.
Polígonos y gráficos de líneas
5. A partir del valor más bajo de X y avanzando
hasta el más alto, traza puntos arriba de cada
valor de X hasta la altura de su frecuencia (f).
6. Une los puntos con líneas rectas. Atención: si un
valor de X tiene una frecuencia de cero, la línea
se prolonga por debajo de la línea de base.
7. Cierra los extremos de la línea del gráfico. Con
una línea entre su punto y su límite real más bajo,
une el valor más bajo de X a la línea de base. Con
una línea entre su punto y su límite real superior,
une el valor más alto de X a la línea de base.
8. Asigna un título apropiado al polígono. Asegúrate
de que las leyendas de los ejes sean correctas y
claras
Polígonos y gráficos de líneas
1. Busca picos. El pico más alto indica el valor de X
con la frecuencia más alta.
2. Busca una extensión de espacio bajo la línea gráfica
para ver si hay agrupaciones de puntuaciones y
para ver si hay una tendencia central.
3. Busca simetría o equilibrio en la distribución de
puntuaciones. Busca una tendencia en la forma de
la línea del gráfico. Ve si las colas del gráfico están
situadas de manera homogénea alrededor de una
puntuación central. Si no es así, observa
puntuaciones especialmente bajas o altas al
identificar cuál cola se prolonga.
Curvas de distribución de frecuencias:
relaciones entre la media, la mediana y la moda
Curvas de distribución de frecuencias:
relaciones entre la media, la mediana y la moda
• Puesto que cada uno de los tres estadísticos
de tendencia central tiene debilidades
potenciales, vale la pena observarlos como un
conjunto de estadísticos que se van a
interpretar juntos.
• Estos tres estadísticos son especialmente
útiles cuando se examinan de manera gráfica.
Una forma imaginativa de entender la relación
entre estos tres estadísticos consiste en
localizar los valores de cada uno en una curva
de distribución de frecuencias
Curva de distribución de frecuencias
• Es sustituto de un histograma o polígono de
frecuencias donde reemplazamos estos gráficos
con una curva suavizada.
• El área bajo la curva representa el número total
de sujetos en la población y es igual a una
proporción de 1.00 a un porcentaje de 1 00 por
ciento.
Curva de distribución de frecuencias

• Nuestro interés está en evaluar la forma


de una distribución y examinar las
posiciones relativas de la media, la
mediana y la moda, para estimar la forma
de una distribución de frecuencias.

• La siguiente figura presenta tres formas


muy comunes de curvas de distribución
de frecuencias de puntuaciones. Al igual
que con nuestros histogramas, el eje
horizontal de las curvas representa las
La distribución normal

• Una distribución normal es aquella donde la


media, la mediana y la moda de una variable son
iguales entre sí y la distribución de la
puntuaciones tiene forma de campana.
• También nos referimos a esto como una “curva
normal”, campana de Gauss o simétrica (es decir,
equilibrada en cada lado)
Distribuciones sesgadas
• Una distribución sesgada es aquella en la cual la
media, la mediana y la moda de una variable son
desiguales y algunos de los sujetos tienen
puntuaciones sumamente altas o bajas. Cuando
éste es el caso, la distribución se alarga hacia un
lado.
Distribuciones sesgadas
• Las posiciones de la media, la mediana y la moda
son predecibles para las curvas de distribución
sesgadas. Un sesgo a la derecha (o positivo)
tiene puntuaciones extremas en el extremo
positivo de la distribución de puntuaciones
Distribuciones sesgadas
• El sesgo a la izquierda (o negativo) tiene
puntuaciones extremas en el final bajo o
negativo de la distribución de
puntuaciones
Distribuciones sesgadas
• Ya sea con un sesgo a la izquierda o la
derecha, si la mediana no cae entre la
media y la moda esto sugiere que la
distribución está singularmente formada.
Una distribución así es una distribución
bimodal, la cual tiene dos modas o picos.
Puntos fuertes y debilidades de las medidas
de tendencia central
Los estadísticos de dispersión
La muestra
• Una muestra es un subgrupo pequeño de
la población; la muestra se observa y se
mide y después se utiliza para obtener
conclusiones sobre la población.
Representación grafica de la muestra.

Histograma de frecuencias
Dispersión
• Forma en que se dispersan las
puntuaciones de una variable de
intervalo/razón de menor a mayor y la
forma de la distribución entre éstas.
Estadísticos de dispersión
• Son estadísticos que describen cómo se
dispersan las puntuaciones de una
variable de intervalo/razón a lo largo de
su distribución.
El rango
• El rango es una expresión de cómo las
puntuaciones de una variable de intervalo/razón
se distribuyen de menor a mayor, es decir, es la
distancia entre las puntuaciones mínima y
máxima de una muestra.
• Pasos para calcular el rango
1. Identificar nuestros datos

2. Ordena las puntuaciones de la distribución de


menor a mayor.
El rango
3. Identifica las puntuaciones mínima y
máxima e Identifica el valor de la unidad
de redondeo

4. Calcula el rango:
(Opción 1) Rango = (puntuación máxima-
puntuación mínima) + valor de la unidad
de redondeo
La desviación estándar
• La desviación estándar es otra medida
sumaria de la dispersión o variación de las
puntuaciones de una distribución.
• Al concentrarse en los extremos de la
distribución, el rango se aproxima a la
dispersión desde "fuera" o desde los
extremos de la distribución.
• La desviación estándar Describe la forma
en que las puntuaciones de una variable
de intervalo/razón se dispersan por la
distribución en relación con la puntuación
La desviación estándar
La desviación estándar
Calculo de la desviación estándar
1. Identifica especificaciones: Comenzamos por
identificar la información dada.
Especificación: X=una variable de
intervalo/razón, n = tamaño muestra , y una
distribución de puntuaciones en bruto para X.
Ejemplo:
En un grupo de Estadística I del Cch Sur, se
observó la estatura de 16 alumnos y se
obtuvieron los siguientes datos (ya ordenados):
Calculo de la desviación estándar
2. Calcula el rango:

3. Calcula la media: Calculamos la media


porque la desviación estándar está
diseñada para medir la dispersión
alrededor de la media
Calculo de la desviación estándar
4. Construimos nuestra distribución de
frecuencias
Calculo de la desviación estándar
5. Calcula las puntuaciones de
desviación: A continuación
determinamos qué tan alejada está la
puntuación de cada individuo respecto a
la media. La diferencia entre una
puntuación y su media se llama
puntuación de desviación, es decir,
cuánto difiere o se "desvía" de la media
una puntuación individual:
Calculo de la desviación estándar
Calculo de la desviación estándar
6. Suma las puntuaciones de
desviación: El siguiente paso para
calcular la desviación estándar es sumar
las puntuaciones de desviación. Esta
suma siempre será igual a cero (dentro
del error de redondeo):
Calculo de la desviación estándar
7. Eleva al cuadrado las puntuaciones
de desviación y suma los cuadrados:
El siguiente paso consiste en elevar al
cuadrado cada puntuación de desviación
y después sumar los cuadrados. La suma
de las puntuaciones de desviación al
cuadrado es la variación (a menudo se
denomina suma de cuadrados), un
estadístico que resume las desviaciones
para toda la muestra
Calculo de la desviación estándar
Calculo de la desviación estándar
8. Divide la suma de cuadrados entre n-
1 para ajustar el tamaño de la
muestra. El resultado se llama varianza,
que significa la variación promedio de las
puntuaciones en una distribución (es
decir, la media de la suma de cuadrados).
y su símbolo es:

0.005776
Calculo de la desviación estándar
• Saca la raíz cuadrada de la
varianza para obtener la
desviación estándar.
Calculo de la desviación estándar
• Démosle sentido a estos números:
• R “La máxima diferencia de estaturas
entre los estudiantes es de 27 cm.”
• S “Las estaturas de los estudiantes se
desvían en promedio 8.54 cm. de su
media.” (equivalente a 0.08544 m.)
¿Por qué se llama desviación "estándar"?

• La desviación estándar recibe su nombre


por el hecho de que proporciona una
unidad de medida común (un estándar)
para comparar variables con unidades
observadas de medida muy diferentes.
¿Por qué se llama desviación "estándar"?

• Imaginen que Fernanda y Ana solicitan una


beca con base en su desempeño en los
exámenes de admisión a la universidad.
• Fernanda contestó la prueba académica de
la UdG y obtuvo 26 puntos UdG. Ana hizo lo
propio con la prueba de admisión al Flacso
y obtuvo 900 puntos Flacso.
• Estos dos resultados de las pruebas tienen
unidades de medida muy diferentes: los
puntos de la prueba UdG van de cero a 36;
y los de la prueba Flacso, de 200 a 1 600.
¿Por qué se llama desviación "estándar"?

• Las puntuaciones en bruto para las dos


pruebas no pueden compararse
directamente, pero con el uso de las
medidas y las desviaciones estándar para
ambas pruebas podemos crear una
manera para compararlas.
• Con los siguientes estadísticos,
encontramos que, en comparación con
otros aspirantes que contestan las
pruebas, Mary obtuvo la puntuación más
alta:
 X= puntuación de la prueba UdG X = 22 puntos UdG sx
¿Por qué se llama desviación "estándar"?

• La puntuación de UdG de 26 que obtuvo Fernanda


tiene una desviación estándar de 2 arriba de la
media de aquellos que toman la prueba UdG, es
decir, su puntuación está 4 puntos UdG, esto es, 2
por 2 desviaciones estándar sobre el promedio de 22.
• La puntuación de Ana es de 1 desviación estándar
abajo de la media de aquellos que contrastan la
prueba Flacso, es decir, su puntuación está 100
puntos Flacso, 1 desviación estándar abajo del
promedio de 1 000.
• Sin lugar a dudas podemos otorgarle la beca a
Fernanda.
Puntuaciones estandarizados (puntuaciones
Z)
• Primero, lo expresamos en sus unidades de
medida observadas, originales, como una
puntuación en bruto. Por ejemplo, la
puntuación en bruto X de Fernanda es 26
puntos UdG.
• Segundo, lo expresamos una desviación de la
media, es decir, la puntuación de desviación
(X- X ); la puntuación de desviación de Fer es
+4 y significa que ella obtuvo 4 puntos UdG
arriba de la media de aquellos que tomaron el
UdG.
Puntuaciones estandarizados (puntuaciones
Z)
• Tercero, expresamos su puntuación como
un número de desviaciones estándar de la
media de la puntuación UdG. Llamamos a
esto su puntuación estandarizada (o
puntuación Z), que para la variable X se
calcula como sigue:
Cálculo de puntuaciones estandarizadas
(puntuaciones Z)
Cálculo de puntuaciones estandarizadas
(puntuaciones Z)
• Aquí aparecen algunos ejemplos de una
muestra aleatoria de mujeres estudiantes
en la universidad local:
La desviación estándar y la distribución
normal
• Lo que hace que una desviación estándar sea
una herramienta estadística tan valiosa es que
es una parte matemática de la curva normal.

• Comprender el fenómeno de normalidad es un


aspecto importante de la imaginación
estadística. Muchos fenómenos que ocurren
naturalmente tienen distribuciones de
frecuencias en forma de campana como la
curva normal.
La desviación estándar y la distribución
normal
• Uno de los rasgos más sobresalientes del
fenómeno de normalidad, que ocurre
naturalmente, es que ofrece predicciones
precisas sobre cuántas puntuaciones de una
población caen dentro de cualquier rango de
puntuaciones. Ahora bien, para cualquier
variable normalmente distribuida:
La desviación estándar y la distribución
normal
1. Cincuenta por ciento de las puntuaciones caen
encima de la media; 50 por ciento, debajo. Esto se
debe al hecho de que la mediana es igual a la media.
2. Prácticamente todas las puntuaciones caen dentro de
3 desviaciones estándar a partir de la media en
ambas direcciones. Ésta es una distancia de 3
puntuaciones Z debajo de 3 puntuaciones Z arriba de
la media, una amplitud total de 6 desviaciones
estándar. La cantidad precisa es 99.7 por ciento. El
restante 0.3 por ciento de casos (es decir, 3 casos de
cada 1 000) caen fuera de 3 desviaciones estándar y,
teóricamente, la curva se extien-
La desviación estándar y la distribución
normal
3. Cerca del 95 por ciento de las puntuaciones de
una variable normalmente distribuida caen
dentro de una distancia de 2 desviaciones
estándar en ambas direcciones de la media.
Esto es más menos 2 puntuaciones Z de la
media.
4. Alrededor de 68 por ciento de las
puntuaciones de una variable normalmente
distribuida caen dentro de una distancia de 1
desviación estándar (más menos 1 puntuación
Z) en ambas direcciones de la media.
Ejercicios
Ejercicios

Вам также может понравиться