Академический Документы
Профессиональный Документы
Культура Документы
MAPA CONCEPTUAL DE
LA UNIDAD
POBLACION
MUESTRA
DATOS
MEDIDA
TABLAS
TABLAS DESCRIPTIVAS
GRAFICOS
En realidad, es
una palabra que
tiene tres
acepciones
diferentes:
Primera
Acepción (*)
No es más que
una colección de
datos ordenados
y clasificados
según un criterio
Segunda
Acepción
110
100
CAJAS (MILES)
90
80
70
60
0 2 4 6 8 10
DIA
Solución
En la figura, el jefe de producción puede identificar los
días de baja producción, así como los días de mayor
producción.-
No parecería que hubiera mucha diferencia en el numero
de cajas producidas en los seis primeros días.-
Sin embargo, en los días 7 y 8 el nivel de
producción parecería que era mas alto.- En
cambio, en los días 9 y 10 parecería que era mas
bajo.-
Basándose en estas observaciones, el equipo
intento identificar las causas por las que la
productividad era mas alta y mas baja.-
Por ejemplo, tal vez en los días 9 y 10 estuvieron
ausentes trabajadores clave o hubieran cambiado
las materias primas.- También se podrían
identificar las causas por las que aumento la
productividad en los días 7 y 8.-
Respecto a la Estadística Inferencial, diremos:
Elemento o Unidad
Se Estadística: Son las
simboliza personas, animales o cosas
con N que forman la población.-
Tamaño
DE LA VARIABLE EN
ESTUDIO
Para el análisis de datos se debe estar
familiarizado con que existen cuatro escalas
numéricas de medida de las variables que
estamos estudiando.- Cuanto más alta sea la
jerarquía o posición que ocupe el tipo de datos en
estas medidas más información contendrán.-
NOMINAL DE INTERVALOS
ORDINAL
VARIABLES VARIABLES
CATEGORICAS NUMERICAS
DE
INTERVALOS
NOMINAL
DE RAZON,
ORDINAL
COCIENTE O
PROPORCION
Nominal o de clasificación
Estas escalas tienen ciertas
propiedades básicas:
La escalas nominales o de •Entre los objetos clasificados
clasificación consisten en existe una relación de
clasificar objetos reales según equivalencia o no equivalencia.-
cierta características, tipologías
o nombres, dándoles una •Si se utilizan números, estos
denominación o símbolo, sin que solo distinguen orden de
implique ninguna relación de posiciones de determinada
orden, distancia o proporción categoría o clase, pero de
entre esos objetos.- ningún modo establecen
relación numérica entre los
objetos numerados.-
•Los objetos están clasificados
u ordenados en relación a una
igualdad o equivalencia de un
aspecto o característica.-
Escala ordinal o de orden jerárquico
Datos
longitudinales.
Datos Son los datos de
transversales. series de tiempo, se
Se reúnen al mismo coleccionan a lo
tiempo y bajo las largo de varios
mismas condiciones.- períodos de
tiempo.-
LOS DATOS SE PUEDEN OBTENER
POR DOS TIPOS DE FUENTES
SECUNDARIAS
SECUNDARIAS
PRIMARIAS
PRIMARIAS
DATOS PRIMARIOS.-
Son aquellos que se encuentran en la forma original en
que fueron registrados (datos brutos), sin haber sufrido
ningún tipo de tratamiento o elaboración posterior.
Ejemplos: una encuesta, un censo.-
DATOS SECUNDARIOS.-
Son aquellos que fueron producidos (diseñados y
recopilados) por terceros con un fin ajeno al de la
investigación y que ya han sido sometidos a alguna
forma de elaboración posterior.- En consecuencia,
estos datos siempre se originan en terceras fuentes.-
Ejemplo; los datos que publican las oficinas de
estadísticas de organismos oficiales, de empresas, etc.-
FUENTES PRIMARIAS.-
Los datos los podemos obtener
mediante dos tipos de estudios
estadísticos:
1.- EXPERIMENTALES
2.- OBSERVACIONALES O NO
EXPERIMENTALES
ESTUDIO EXPERIMENTALES.-
En un estudio experimental, primero se
identifican las variables de interés.- Luego se
identifican o controlan una o más variables, de
modo que se pueda obtener datos de cómo
influyen en la variable de interés.- Por ejemplo,
una empresa farmacéutica.-
ESTUDIO OBSERVACIONALES O NO
EXPERIMENTAL.-
En este tipo de estudios no se trata de controlar
las variables de interés, ni de influir sobre ellas.-
Quizá los tipo más común de estudios
observacionales sean:
a) Realización de un CENSO.
CON REEMPLAZO
SIN REEMPLAZO
El muestreo con reemplazo, implica que una vez
seleccionada una persona o elemento, se regresa al
marco donde tiene la misma probabilidad de ser elegida
de nuevo.- Imagine que tiene una urna con 500 tarjetas de
presentación.- Suponga que en el primer sorteo sale la
ficha de Juan Llanos.- La información pertinente se
registra y se regresa la tarjeta a la urna.- Después se
mezclan bien las tarjetas y se saca una segunda tarjeta,.
En esta segunda extracción Juan Llanos, tiene la misma
probabilidad de salir 1/N, de ser elegida de nuevo.- Se
repite el procedimiento hasta alcanzar el tamaño muestra
n deseado.- Sin embargo, suele considerarse más
adecuado tener una muestra de personas o elementos
diferentes en lugar de permitir la repetición de
mediciones de la misma persona o elemento.-
En el muestreo sin reemplazo, no se regresa la
persona o elemento al marco una vez seleccionado y por
lo tanto, no puede elegirse otra vez.- Como antes, en el
muestreo sin reemplazo la probabilidad de que algún
miembro específico de la población, por ejemplo Juan
Llanos, sea elegido en el primer intento es 1/N.- La
probabilidad de que, cualquier individuo no
seleccionado, salga elegido en el segundo intento será 1 /
N-1.- Este proceso continua hasta alcanzar el tamaño de
muestra n deseado.-
81 80 74 2 2 2 163 46 2
82 78 78 2 2 2 170 52 2
83 68 68 2 2 2 175 68 2
84 72 68 2 2 2 173 50 2
85 82 80 2 2 2 160 53 1
86 76 76 2 1 2 157 49 3
87 87 84 2 2 2 160 43 3
88 90 92 2 1 2 163 57 1
89 78 80 2 2 2 173 60 1
90 68 68 2 2 2 157 50 2
91 86 84 2 2 2 170 68 3
92 76 76 2 2 2 157 49 2
EL ANALISIS DE LA
MATRIZ DE DATOS
Aún cuando la matriz de datos constituye una
organización que facilita el acceso a los
registros, es indudable que nuestra capacidad
cognitiva no nos permite entender el
comportamiento de los datos y obtener
información a partir de ellos.- Por ejemplo, en la
matriz de datos de la encuesta realizada a 92
estudiantes, quizás con una mirada rápida a la
matriz podríamos saber el sexo predominante
entre los estudiantes, pero difícilmente
podríamos dar alguna conclusión sobre las
pulsaciones después de correr, o cual es la
altura promedio de ellos, etc, y además sería
imposible establecer si hay alguna relación entre
el peso y la altura de los estudiantes.-
Esta limitación de procesar
mentalmente tal cantidad de
información, nos obliga a recurrir
a nuevas herramientas que
permitan resumir los datos
haciendo visibles aspectos que
de otra forma permanecerían
ocultos.- Ahora bien, decidir
cuales son las herramientas más
apropiadas depende en primer
lugar de las preguntas que
intentemos responder y que,
como ya dijimos, son las que
guían todo el proceso de
análisis.- Por ejemplo:
1.- ¿Es heterogéneo el grupo en cuanto a su edad?.-
2.- ¿Hay predominio de mujeres?.-
3.- ¿La composición por sexo varía según sea si fuman
o no?
4.- ¿Hay alguna relación entre el peso y la altura de los
alumnos?
5.- ¿El pulso depende de si el alumno corrió o no?
6.- ¿Las diferencia entre el pulso antes de correr y
después son valores más o menos homogéneos?.-
7.- ¿Habrá alguna relación entre el sexo, si corrió o no
y el peso de los alumnos?.-
8.- Se trata de estudiantes que dicen tener que tipo de
actividad física, alta, baja o media?
En este sintético listado de preguntas podemos
distinguir aquellas que involucran a una sola
variable, a dos variables, y a tres o más
variables.- Para la búsqueda de respuesta a
esas preguntas será necesario utilizar
herramientas estadística diferentes según sea el
número de variables consideradas.-
Como se menciono oportunamente:
Nuestra nueva
matriz será:
Esta es la matriz muestral para empezar a
trabajar los métodos estadísticos.-
Pulso
Nª 1 Pulso2 Corrió Fuma Sexo Alto Peso Actividad
1 78 80 NO CORRIO NO FUMA MUJER 173 60 BAJA
2 78 78 NO CORRIO NO FUMA MUJER 170 52 MEDIA
3 90 88 NO CORRIO FUMA HOMBRE 170 64 MEDIA
4 80 74 NO CORRIO NO FUMA MUJER 163 46 MEDIA
5 62 58 CORRIO NO FUMA HOMBRE 183 79 ALTA
6 87 84 NO CORRIO NO FUMA MUJER 160 43 ALTA
7 58 70 CORRIO NO FUMA HOMBRE 183 66 MEDIA
8 70 66 NO CORRIO FUMA HOMBRE 191 86 MEDIA
9 66 102 CORRIO NO FUMA HOMBRE 178 59 MEDIA
10 72 68 NO CORRIO NO FUMA MUJER 173 50 MEDIA
11 70 72 CORRIO FUMA HOMBRE 185 77 ALTA
12 88 74 NO CORRIO FUMA MUJER 165 61 MEDIA
13 72 70 NO CORRIO NO FUMA HOMBRE 180 64 MEDIA
14 82 80 NO CORRIO NO FUMA MUJER 160 53 BAJA
15 70 70 NO CORRIO NO FUMA HOMBRE 178 68 MEDIA
16 66 76 NO CORRIO NO FUMA MUJER 165 52 MEDIA
17 76 76 NO CORRIO NO FUMA HOMBRE 183 98 MEDIA
18 68 68 NO CORRIO NO FUMA MUJER 175 68 MEDIA
19 70 94 CORRIO FUMA HOMBRE 191 84 MEDIA
20 68 64 NO CORRIO NO FUMA HOMBRE 177 68 ALTA
21 74 76 CORRIO NO FUMA HOMBRE 178 71 MEDIA
22 92 94 NO CORRIO FUMA HOMBRE 175 68 MEDIA
23 90 94 CORRIO FUMA HOMBRE 188 73 BAJA
24 84 80 NO CORRIO NO FUMA MUJER 165 54 BAJA
25 76 118 CORRIO NO FUMA HOMBRE 180 63 MEDIA
26 100 115 CORRIO FUMA MUJER 160 55 MEDIA
27 64 80 CORRIO NO FUMA HOMBRE 175 70 MEDIA
28 66 82 CORRIO FUMA HOMBRE 175 79 MEDIA
29 61 70 NO CORRIO NO FUMA MUJER 166 54 MEDIA
30 78 76 NO CORRIO NO FUMA HOMBRE 183 82 ALTA
31 68 72 CORRIO NO FUMA HOMBRE 188 86 MEDIA
32 70 106 CORRIO NO FUMA HOMBRE 180 77 MEDIA
33 64 62 NO CORRIO NO FUMA HOMBRE 191 73 ALTA
34 62 68 NO CORRIO FUMA HOMBRE 185 70 MEDIA
35 54 50 NO CORRIO NO FUMA HOMBRE 175 73 MEDIA
36 62 66 NO CORRIO NO FUMA MUJER 165 55 ALTA
37 60 70 NO CORRIO FUMA HOMBRE 182 74 MEDIA
38 84 84 CORRIO NO FUMA HOMBRE 183 68 ALTA
39 72 74 NO CORRIO FUMA HOMBRE 173 70 ALTA
40 74 84 CORRIO NO FUMA HOMBRE 185 75 BAJA
PRESENTACION DE DATOS
ESTADISTICOS
CUADRO
ESTADISTICO
PORCENTAJES
DEL TOTAL, DE FILAS
GRAFICOS Y DE COLUMNAS
PARTES DE UN CUADRO ESTADISTICO
TITULO
NOTA DE
CALCE
Encabezado
y
sub.-
encabezado
CUERPO
Columna
Matriz o
concepto
FUENTE
Nota al pie
1.-TITULO.- Se coloca siempre sobre el cuadro, ya que
leemos de arriba hacia abajo.- Si el titulo es muy largo,
se coloca en forma de pirámide truncada.-
Un titulo debe responder a cuatro preguntas básicas:
QUE?, que es lo que queremos mostrar.-
DONDE?, se refiere al lugar donde fueron obtenidos.-
COMO?, se refiere a como queremos mostrar los datos.-
CUANDO?, hace referencia cuando fueron obtenidos los
datos.-
2.-ENCABEZADO Y SUBENCABEZADOS.-
Son las denominaciones de las columnas y
responde al Como del titulo.- Una columna
puede tener subencabezados.-
3.-COLUMNA MATRIZ O CONCEPTO.- Son
las denominaciones de la filas.- Responde
también al Como del titulo.-
La distribución de frecuencia
para una sola variable
categórica se la suele llamar
también Tabla Resumen y
esto no es más que un
cuadro estadístico.-
Para elaborar un cuadro
estadístico debemos tener en
cuenta las partes de un
cuadro estadístico, que
hemos visto anteriormente.-
Supongamos que se ha tomado una muestra
aleatoria de 120 alumnos de la UNLAR y se
registro la siguiente información, carrera a la
que esta inscripto y sexo.-
Nº CARR SEX Nº CARR SEX Nº CARR SEX
01 MED V 10 ARQ M 19 PSICO V
02 CDOR V 11 ABOG V 20 ABOG V
03 ABOG V 12 ABOG V 21 CDOR V
04 MED V 13 CDOR V 22 CDOR M
05 CDOR M 14 ABOG V 23 ABOG V
06 CDOR V 15 MED V 24 CDOR V
07 ABOG V 16 CDOR V 25 ABOG V
08 ABOG V 17 ABOG V 26 ABOG V
09 ABOG V 18 MED V 27 CDOR V
Nº CARR SEX Nº CARR SEX Nº CARR SEX
28 MED M 42 PSICO M 56 CDOR M
29 MED V 43 SIST V 57 SIST M
30 CDOR M 44 MED V 58 MED V
31 ARQ M 45 ARQ M 59 CDOR M
32 PSICO V 46 CDOR V 60 SIST V
33 SIST M 47 SIST V 61 ARQ M
34 SIST V 48 PSICO M 62 ABOG M
35 MED V 49 MED V 63 CDOR V
36 CDOR V 50 ARQ M 64 MED M
37 CDOR V 51 ABOG M 65 PSICO M
38 SIST M 52 ABOG V 66 SIST M
39 ABOG M 53 ABOG V 67 CDOR M
40 ARQ M 54 SIST M 68 ARQ M
41 PSICO V 55 MED V 69 CDOR V
Nº CARR SEX Nº CARR SEX Nº CARR SEX
70 SIST M 84 CDOR M 98 SIST V
71 ARQ V 85 SIST V 99 SIST M
72 PSICO M 86 ARQ M 100 CDOR M
73 MED V 87 ABOG M 101 ARQ V
74 ABOG V 88 PSICO M 102 MED M
75 CDOR V 89 SIST V 103 ABOG M
76 SIST M 90 MED V 104 CDOR V
77 ARQ V 91 CDOR V 105 CDOR M
78 ABOG M 92 ABOG V 106 CDOR M
79 CDOR V 93 PSICO M 107 SIST V
80 SIST V 94 ARQ V 108 MED V
81 SIST V 95 SIST M 109 PSICO M
82 MED M 96 MED V 110 SIST M
83 ARQ M 97 CDOR M 111 SIST V
Nº CARR SEX Nº CARR SEX Nº CARR SEX
112 SIST V 115 PSICO M 118 ARQ M
113 CDOR M 116 SIST V 119 ABOG M
114 ARQ V 117 MED V 120 ABOG V
Abogacía
Arquitectura
Medicina
Sistema
Psicopedagogía
Contador
0 5 10 15 20 25 30
Matricula de la UNLAR según carreras.
Marzo 2008
20% 23%
13% 9%
16% 19%
Fuente: UNC
Si queremos explicar el cuadro, podremos mostrar lo
siguiente:
En %
Fuente: UNC
Total de alumnos matriculados en la UNC, en tres
especialidades de Administración de Empresa.-
Años 2006, 2007 y 2008
100%
90%
80%
70%
60% Contabilidad
50% Marketing
40%
Finanzas
30%
20%
10%
0%
2006 2007 2008
Fuente: UNC
Total de alumnos matriculados en la UNC, en tres
especialidades de Administración de Empresa.-
Años 2006, 2007 y 2008
FUENTE: UNC
PARA
PARA DOS
DOS
VARIABLES
VARIABLES
CATEGORICAS
CATEGORICAS
TABLA DE CONTINGENCIA.-
Arquitectura 5 10 15
Abogacía 17 7 24 Frecuencias
TOTAL 69 51 120 absolutas
marginales
RECURSO GRAFICO
Abogacía
Arquitectura
Medicina Mujeres
Sistemas Varones
Psicopedagogía
Contador
0 5 10 15 20
CARRERAS SEXO
Varón Mujer
Contador 57,0 43,0
Psicopedagogía 27,3 72,7
Sistemas 56,5 43,5
Medicina 78,9 21,1
Arquitectura 33,3 66,7
Abogacía 70,8 29,2
TOTAL 57,5 42,5
CARRERAS SEXO
Varón Mujer
Contador 23,4 23,5
Psicopedagogía 4,3 15,7
Sistemas 18,8 19,6
Medicina 21,7 7,8
Arquitectura 7,2 19,6
Abogacía 24,6 13,7
TOTAL 100.0 100.0
CARRERAS SEXO
Varón Mujer
Contador 23,4 23,5
Psicopedagogía 4,3 15,7
Sistemas 18,8 19,6
Medicina 21,7 7,8
Arquitectura 7,2 19,6
Abogacía 24,6 13,7
Total % del
Situación Alumnos Total
Fuma 12 30
No Fuma 28 70
TOTAL 40 100.0
BAJA 5 12,5
TOTAL 40 100.0
Corrió 14 1 15
No Corrió 13 12 25
Total 27 13 40
(en %)
Hombre Mujer
Corrió 51,85 7,69
No Corrió 48,15 92,31
Total 100,00 100,00
(en %)
(en %)
(en %)
HOMBRE MUJER TOTAL
FUMA 37,04 15,38 30,00
NO FUMA 62,96 84,62 70,00
TOTAL 100,00 100,00 100,00
FUENTE: ELABORACIÓN PROPIA
(EN %)
ACTIVIDAD
ACTIVIDAD
(EN %)
ACTIVIDAD
ACTIVIDAD
(EN %)
ACTIVIDAD
ACTIVIDAD
ACTIVIDAD
500
400
Datos
300
200
100
1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005
Año
Solución
En la figura de arriba, podemos ver que el monto
de ventas del Comercio A ha aumentado desde
2000 y que el máximo que alcanzo el Comercio B
en 2001 fue seguido de un continuo descenso.- El
personal de administración debe averiguar cuales
son los factores que explican ambas tendencias.-
La tabla siguiente muestra las ventas trimestrales
realizadas por una empresa durante un periodo de 6 años,
desde el 2001 al 2006.- Describa gráficamente los datos:
AÑOS TRIMESTRE
1 2 3 4
2001 271 199 240 255
2002 341 246 245 275
2003 351 283 353 292
2004 401 282 306 291
2005 370 242 281 274
2006 356 245 304 279
La figura anterior es un grafico de serie
temporales de los 24 intervalos de tiempo.-
Observamos que las ventas del primer trimestre
van seguidas sistemáticamente de una
disminución de las ventas en el segundo.- Tal vez
la estación del año sea una explicación.- En el
estudio de Series de Tiempo se ven modelos para
ajustar los datos de las series temporales con el
fin de tener en cuenta la estacionalidad, las
tendencias, la conducta cíclica o algún otro
componente irregular.-
Si solo nos interesa comparar las ventas del primer
trimestre con las del segundo, puede hacerse un grafico
de series temporales como el de la figura siguiente:
Supongamos tener los montos de ventas mensuales de un comercio durante
el año 2011
MONTO VENTAS
Enero 10500
Febrero 8300
Marzo 17500
Abril 15200
Mayo 13000
Junio 8000
Julio 10300
Agosto 12000
Septiembre 11000
Octubre 16000
Noviembre 15000
Diciembre 19000
Scatterplot of Montos de Ventas vs Meses
20000
18000
Montos de Ventas
16000
14000
12000
10000
8000
16000
Y-Data
14000
12000
10000
8000
b) Datos agrupados
(muchos) b2) Con intervalos
(continua)
a) DATOS SIN AGRUPAR.-
25 36 28 30 42 45
60 29 30 28 42 40
38 18 22 40 28 36
42 29 45 40 54 80
52 45 56 45 40 32
VENTAS DE UN COMERCIO EN MILES DE PESOS
18 27 36 45 54 63 72 81
VENTAS
Curso A
Curso B
30 40 50 60 70 80 90
Datos
EJEMPLO 3
4 5 2 6 4 6 4 4 7 6
3 7 5 3 6 5 5 6 6 7
6 4 5 4 5 6 3 8 4 8
7 6 8 2 4 5 4 5 5 5
4 5 4 7 8 7 4 8 3 6
6 3 4 3 5 5 2 5 4 7
5 6 5 4 6 3 6 7 6 6
3 6 6 6 6 6 7 5 6 5
Podemos ordenarlos en forma creciente y algo podemos decir:
2 2 2 3 3 3 3 3 3 3
3 4 4 4 4 4 4 4 4 4
4 4 4 4 4 4 5 5 5 5
5 5 5 5 5 5 5 5 5 5
5 5 5 5 6 6 6 6 6 6
6 6 6 6 6 6 6 6 6 6
6 6 6 6 6 6 7 7 7 7
7 7 7 7 7 8 8 8 8 8
Gráfica de puntos de C1
2 3 4 5 6 7 8
C1
EJEMPLO 4
Gráfica de puntos de C1
1 2 3 4 5 6 7 8
C1
b1) Datos
agrupados sin
intervalos.-
Variable discreta.-
Vamos a verlo mediante un ejemplo.- Supongamos que
el Gerente de un Supermercado esta interesado en
saber que cantidad de gente entra a el durante la siesta
(13 a 16 horas).- Tomamos una muestra de 80 días y
contamos la gente que entró en ese horario al
Supermercado.- Resultaron los siguientes valores:
4 5 2 6 4 6 4 4 7 6
3 7 5 3 6 5 5 6 6 7
6 4 5 4 5 6 3 8 4 8
7 6 8 2 4 5 4 5 5 5
4 5 4 7 8 7 4 8 3 6
6 3 4 3 5 5 2 5 4 7
5 6 5 4 6 3 6 7 6 6
3 6 6 6 6 6 7 5 6 5
Xi = cantidad de personas que entraron en ese horario.-
Xi variable discreta.-
Agrupamos en una tabla que llamamos DISTRIBUCIÓN DE
FRECUENCIA.-
Xi Conteo fi hi Fi Hi Hi%
2 III 3 0,0375 3 0.0375 3,75
3 IIIIIIII 8 0,1000 11 0.1375 13.75
4 IIIIIIIIIIIIIII 15 0,1875 26 0.3250 32,50
5 IIIIIIIIIIIIIIIIII 18 0,2250 44 0.5500 55,00
6 IIIIIIIIIIIIIIIIIIIIII 22 0,2750 66 0.8250 82,50
7 IIIIIIIII 9 0,1125 75 0.9375 93,75
8 IIIII 5 0,0625 80 1.0000 100,0
TOTAL --------- 80 1,0000 ------ --------- -------------
Días
25
20
15
10
5
0 1 2 3 4 5 6 7 8 Cantidad personas
b2) Datos
agrupados con
intervalos.-
Variable continua.-
Para agrupar los datos en una distribución de
frecuencia con intervalos, debemos pensar varias
cosas, como cuantos intervalos vamos a hacer, que
amplitud usamos, etc.- Se recomienda no usar menos
de 5 ni más de 15 intervalos.- Cuando agrupamos los
datos en intervalos, perdemos la individualidad del
dato.-
2 ≥ n
k
Donde k nos indica la cantidad de intervalos a realizar.-
b) Amplitud a utilizar:
Rx = rango o recorrido de la variable.
Rx =Xi máximo --- Xi mínimo
Ci = amplitud Ci = Rx / I
61 88 70 76 66 79 64 75 78 76
80 61 75 79 76 60 74 68 76 78
70 65 52 78 72 76 58 86 94 78
I = 5
Rx = 94 - 52 = 42
Ci = 42 / 5 = 8,4 ≈ 9
La distribución de frecuencia será:
Li - Ls Conteo fi hi Fi Hi Fi %
15
Frequency
10
0
-4 -2 0 2 4 6 8 10
X1
DISTRIBUCION SIMETRICA
Histogram of X3
18
16
14
12
Frequency
10
0
0 10 20 30 40
X3
DISTRIBUCION ASIMETRICA A
DERECHA
Histogram of HSPct
30
25
20
Frequency
15
10
0
30 40 50 60 70 80 90 100
HSPct
DISTRIBUCION ASIMETRICA A
IZQUIERDA
POLIGONO
POLIGONO DE
DE
FRECUENCIA
FRECUENCIA
30-40 35 3 5
40-50 45 5 8
50-60 55 9 6
60-70 65 15 20
70-80 75 18 16
80-90 85 10 8
90-100 95 6 5
-------- ----- 66 68
15
Datos
10
35 45 55 65 75 85 95
Índice
OJIVA O GRÁFICO DE FRECUENCIA
ACUMULADA PORCENTUAL: con este gráfico
podemos calcular alguna medidas descriptivas,
además, podemos decir que porcentaje de
observaciones son menores a cierto valor de
variable.- En el eje de abscisa se colocan los
valores de la variable, o sea los intervalos de
clase, y en la ordenada los valores de Fi %.- Se
desecha el límite inferior del primer intervalo y se
toma para cada valor de los límites superiores de
los intervalos el valor de la frecuencia absoluta
acumulada porcentual.- Se lo suele llamar grafico
en S, por su forma.- Es útil para comparar
distribuciones.- Por ejemplo:
Frecuencias absolutas acumuladas porcentuales
80
60
Datos
40
20
0
35 45 55 65 75 85 95
Índice
Veamos estos tres
gráficos en el ejemplo
que venimos viendo sobre
las ventas de un
comercio.
HISTOGRAMA
16
12
0
43 52 61 70 79 88 97 106
Montos de ventas
POLIGONO DE FRECUENCIA CON EL HISTOGRAMA
16
fre cu e n cia a b so lu ta
12
0
43 52 61 70 79 88 97 106
Montos de ventas
POLIGONO DE FRECUENCIA SIN EL HISTOGRAMA
16
fre cu e n cia a b so lu ta
12
0
43 52 61 70 79 88 97 106
Montos de ventas
OJIVA O GRÁFICO DE FRECUENCIA ACUMULADA
32
frec. abs. a cum ula da
24
16
0
43 52 61 70 79 88 97 106
Montos de ventas
ANALISIS
EXPLORATORIO
DE DATOS.-
Las técnicas del análisis exploratorio de datos consisten
en operaciones aritméticas sencillas y gráficas fáciles de
trazar, que pueden emplearse para resumir con rapidez los
datos.-
Una técnica de explorar los datos que son objeto de
nuestro estudio y que hoy trae casi todos los paquetes
estadísticos de computación es el llamado DIAGRAMA
DE TALLO Y HOJA.- La importancia de este diagrama es
que no perdemos el dato original, cosa que nos sucede
con las distribución de frecuencia con intervalos.-
El diagrama es una herramienta valiosa y versátil para
organizar un conjunto de datos y entender la distribución y
agrupación de los valores dentro del intervalo de
observaciones en el conjunto.- Generalmente el primer
dígito forma el tallo y el resto las hojas.- Veamos un
ejemplo sencillo.-
Suponga que las calificaciones en un parcial de ESTADÍSTICA de
40 alumnos fueron las siguientes:
42 46 87 34 81
2 1 9
64 87 69 75 73
3 4 7
91 70 86 67 49 4 2 6 7 9
55 74 81 75 37 5 5 7 9
21 69 29 59 69 6 9 4 0 9 5 7 9 8 6 8
60 81 77 47 68 7 5 7 3 4 0 4 5
74 65 87 97 57 8 7 1 7 1 2 6 7 1
68 66 90 82 94
9 7 1 0 4
2 1 9
3 4 7
4 2 6 7 9
5 5 7 9
6 9 4 0 9 5 7 9 8 6 8
7 5 7 3 4 0 4 5
8 7 1 7 1 2 6 7 1
9 7 1 0 4
MEDIDAS
DESCRIPTIVAS
QUE RESUMEN A LOS
DATOS
Hasta este punto, hemos analizado la
presentación de datos categóricos y
numéricos en forma tabular y gráfica.-
Aunque la presentación de datos es una
componente esencial de la estadística
descriptiva, la tarea no termina ahí.- Dentro
del manejo de la información numérica, un
buen análisis de los datos no se limita a la
presentación de datos y la observación de
lo que estos tratan de transmitir, también
abarca los cálculos y el resumen de las
características importante y el análisis de
lo que contienen.-
LAS MEDIDAS DESCRIPTIVAS ESTADISTICAS QUE
CARACTERIZAN A UNA MUESTRA O A UNA POBLACION SON:
MEDIDAS DE
TENDENCIA MEDIDAS DE
CENTRAL ORDEN
MEDIDAS DE
MEDIDAS DE FORMA
DISPERSION O DE
VARIABILIDAD
MEDIDAS
DE TENDENCIA
CENTRAL
MEDIA ARITMETICA , también llamada Media:
∑ xi
x =
n
Si estamos trabajando con la población y nos piden la
media, calculamos un PARAMETRO, por ejemplo:
Si tenemos un Comercio con seis empleados, cuyos sueldos
mensuales son 1800, 1760, 1780, 2100, 1980, 2350 y queremos
observar el sueldo promedio será:
87- 99- 160- 180- 135- 145- 105- 138- 153- 129- 119- 99- 165- 172
Observamos que, la media aritmética será:
∑ xi 1886
x = ---------- = ----------- = 134,71 135 $.-
n 14
Primera propiedad:
Esta definida en la misma unidad de medida que la
variable en estudio.-
Si estamos estudiando sueldos en $, la media me dara
un valor también en pesos.-
Por ejemplo, el sueldo promedio es 1800$.-
Segunda propiedad:
Siguiendo con la variable en estudio sueldos en pesos,
la media me dará un valor promedio que estará incluida
dentro del recorrido de la variable, por ejemplo: si los
sueldos en estudio varían entre un monto de 800 a
2500$, la media me deberá dar un valor comprendido
dentro de ese recorrido de la variable.- No me puede
dar un valor menor a 800$ ni tampoco un valor superior
a 2500$.-
Cuarta propiedad:
El promedio es una medida calculada a partir de todos y
cada uno de los datos de una serie, en consecuencia
resume apropiadamente la información del conjunto.- Sin
embargo, por esta propiedad, en ciertas situaciones de
trabajo puede perder eficacia como “representativa” del
conjunto de datos.-
Cuando en la serie de observaciones existen valores
extremos o “atípicos”, estos influirán en el valor de la
x, pudiendo llegar a distorsionarlo de tal modo que no
represente al común de los datos del conjunto.- Veamos
el siguiente ejemplo:
Si tenemos las siguientes edades 14 18 26 30 34 su
media es igual a 24,4 años.- En cambio, si el conjunto de
datos fuera 14 18 26 30 75 su media sería
igual a 37,5 años.- El valor atípico de 75 afecta a la
media alejándola de la tendencia central del conjunto
resultando esta en un valor muy diferente al de los datos
normales de la serie.- Evidentemente la media x = 38
años no es muy representativa de nuestros datos y el
valor atípico desplaza a la media a un valor cercano a el.-
Resumiendo; en un conjunto de datos en el cual los
valores atípicos tienen un peso significativo (difieren
mucho de los valores regulares), el promedio aritmético
por ser una medida que intervienen todos los datos, debe
ser analizada con cuidado.- Esto es así porque, (como en
el ejemplo anterior) puede resultar fuertemente
desplazado de la tendencia central e inducir a
interpretaciones erróneas acerca del conjunto de datos
que resume.-
Importante:
La presencia de valores extremos en una distribución se
manifiesta por formas (histogramas y polígono de
frecuencias) marcadamente asimétricas.- De ahí la
importancia de realizar una cuidadosa exploración previa
(gráfica y numérica) de los datos.-
Quinta propiedad:
Se denomina desvío o residual de un dato cualquiera de
la serie con respecto a la media aritmética de todo el
conjunto, a la diferencia entre el valor de ese dato y el
valor de la media.-
Por ejemplo, supongamos que tenemos las edades de 9
individuos; calculamos su edad promedio y nos da x =
32 años:
Datos di = xi - 32
18 -14
20 -12
25 -7
30 -2
32 0
36 4
40 8
40 8
47 15
Los residuos de un conjunto de datos, con respecto a su
media, tienen la propiedad de que la suma de todos los
desvíos o residuales es siempre igual a cero.- Es decir:
(xi - x) = di = 0
Sexta propiedad:
En ciertas ocasiones de trabajo disponemos de dos o
más promedios aritméticos, que resumen a diferentes
conjuntos de datos de una misma variable.-
Por ejemplo; por datos recogidos se sabe que el salario
mensual promedio de n1 = 200 agentes de la
administración pública varones es x1 = $1560,30,
mientras que el salario promedio de n2 = 120 empleadas
mujeres es de x2 = $1480,25.-
En estas condiciones podría resultar útil conocer el
promedio que resume a los salarios de todos los agentes
públicos, considerados como un solo conjunto de
observaciones ( n = 200 + 120 = 320).-
La media de medias o media ponderada es la medida que
resuelve situaciones como la planteada:
n1 x1 + n2 x2
n1 + n2
∑ xi Wi 285,50
Xp = ---------------- = -------------- = $ 5,49
∑ Wi 52
Se la simboliza con Me .-
La mediana me divide mis observaciones en dos partes
iguales.- La mediana es aquel valor de la variable que
un 50% de los datos es igual a ella o menor.-
Nº IMPAR DE DATOS
a) PARA DATOS
SIN AGRUPAR
Nº PAR DE DATOS
48 52 57 57 60 64 64 68
72 75 80 80 86 86 88 -----
48 52 57 57 60 64 64 68
72 75 80 80 86 86 88 94
Fi %
100.0
Valor de la
variable
50.0
que es la Me
xi
MODO
Mo = $ 1100
El monto por quincena que más se repite en mis empleados es $1100.-
CALCULO GRAFICO DEL MODO
Histograma de C1
25
20
Frecuencia
15
10
0
80 120 160 200 240
C1
xi fi Fi Hi%
0 10 10 16,7 Buscamos la menor Hi % que
me contiene al 50 %.-
1 12 22 36,7
Observamos ahora que valor
2 16 38 63,3
de variable le corresponde:
3 8 46 76,7
4 7 53 88,3 Me = 2 accidentes
5 5 58 96,7
6 2 60 100,0
Total 60 ----- -----
b2) MEDIANA PARA DATOS AGRUPADOS EN INTERVALOS.-
n
2 Fi - 1 *
Me Li
ci
fi
Li Ls fi Fi Hi % n
Fi - 1
2 *
36 44 2 2 4,0 Me Li ci
f i
44 52 12 14 28,0
52 60 15 29 58,0 25 - 14
Me = 52 + * 8 =
60 68 18 47 94,0
15
68 76 3 50 100,0
Me = 57,87 ≈ 58 puntos.-
Total 50 ----- ------ El 50% de los alumnos sacaron en el
parcial 58 puntos o menos.-
MODO PARA DATOS AGRUPADOS SIN INTERVALOS.-
Supongamos que en el relevamiento de 50 empleados de una
empresa, se les pregunto la cantidad de niños en edad escolar que
tienen.- Resulto la siguiente tabla:
xi fi
4 18
6 6
TOTAL 50
MODO PARA DATOS AGRUPADOS CON INTERVALOS.-
Supongamos que tenemos una muestra aleatoria de 72 notas de
un parcial de Estadística que se les tomo a un curso integrado por
200 alumnos.- Estas fueron las siguientes:
Li Ls fi d1
*c
Mo Li i
d1 d2
36 46 4
46 56 9
d1 = fi - fi-1 = 23 - 18 = 5
56 66 18
d2 = fi - fi+1 = 23 - 11 = 12
66 76 23
5
76 86 11
Mo = 66 + ---------------- * 10 =
86 96 7
5 + 12
TOTAL 72 = 68,94 ≈ 69 puntos.-
MEDIDAS
DE
ORDEN
CUARTILES
Y
PERCENTILES
(n + 1) * r
Qºr =
4
Si me da un valor decimal en 5, el
cuartil buscado será el promedio entre
el dato posición del entero y el
siguiente.-
(n + 1) * r %
Pºr% =
100
3 5 5 5 6 7 7 7
7 8 8 8 10 13 15 ------
75.0 Valor de la
variable
50.0 que es el
Q3
25.0
Valor de la
xi variable
que es el
Q2
Valor de la variable que el Q1
ANEXO 2
Supongamos que tenemos una distribución de frecuencia
sin intervalos, en este caso será:
xi fi Fi Hi%
El cuartil 3 nos implica el
0 4 4 6,7 75%, por lo tanto buscamos
el menor porcentaje que lo
I 9 13 21,7 cubre, y observamos el
2 12 25 41,7 valor de variable que le
corresponde, entonces:
3 18 43 71,7
Q3 = 4 niños
4 10 53 88,3
El 75% de las familias tienen
5 7 60 100,0 4 niños o menos en edad
escolar.-
Total 60 ------ ------
Cuando tenemos una variable continua que la hemos
organizado en una distribución de frecuencia con
intervalo, la fórmula para calcular los cuartiles será:
n *r
Fi - 1
Li Ls fi Fi Hi%
Q r Li 4 * ci
fi
12 16 3 3 5,8
16 20 7 10 19,2
13 - 10
20 24 12 22 42,3
Q1 = 20 + ----------------- 4 =
24 28 15 37 71,2
12
28 32 10 47 90,4
= 21 minutos
32 36 5 52 100,0
El 25% de los alumnos
TOTAL 52 ------ ----- demoran 21 minutos o menos
en responder el
cuestionario.-
Se tengo una distribución de frecuencia sin intervalos,
por ejemplo, supongamos que a una muestra de
familias se les pregunto la cantidad de hijos que tienen
en edad escolar.- Resulto la siguiente distribución:
n *r
Fi - 1
Li Ls fi Fi Hi%
P 70% Li 100 *
ci
12 16 3 3 5,8 fi
16 20 7 10 19,2
20 24 12 22 42,3 36,4 - 22
28 32 10 47 90,4 15
28 32 10 47 90,4 10 + 6
0,00
0,09
0,18
0,27
0,36
fr e c u e n c i a r e l a ti v a
0,00
0,09
0,18
0,27
0,36
Media
RANGO O RECORRIDO DE LA VARIABLE.-
Se simboliza Rx .- Se la calcula haciendo la diferencia entre el
máximo valor de la variable y el mínimo que toma.-
Como medida de dispersión se la toma poco en cuenta ya que nada
me dice de los valores intermedio de la variable.-
Un uso importante del Rango lo encontramos cuando vemos la
Estadística Descriptiva en el Control de Calidad de Procesos.-
RANGO INTERCUARTÍLICO.-
∑ ( xi - x)²
S²x =
n - 1
Si el denominador fuera n en lugar de (n – 1), se obtendría el
promedio de los cuadrados de las diferencias con respecto a la
media.- Si embargo, se utiliza (n – 1) debido a ciertas propiedades
matemáticas deseadas que tiene el estadístico S², lo cual lo hacen
muy apropiadas para hacer inferencias estadísticas.- A medida
que se aumenta el tamaño de la muestra, la diferencia entre n y (n
– 1) disminuye cada vez más.-
• La variancia como esta definida como un valor
cuadrado nunca puede ser negativa.-
• No tiene explicación por estar definida como un
valor cuadrado y nos da un resultado con unidad
de medida al cuadrado.- Por ejemplo, si estamos
trabajando datos en $, la variancia nos va dar un
resultado en $², si trabajamos empleados nos
dará empleados al cuadrado, etc.-
• Será igual a cero cuando no exista diferencia
entre los datos, es decir, todas las observaciones
en la muestra deberían ser exactamente iguales.-
En este improbable caso, el rango y rango
intercuartílico también sería igual a cero.-
Como su calculo es bastante complicado,
surge la llamada Formula de Calculo de la
Variancia, que abrevia mucho el calculo de
la misma.-
∑ x² - n x²
S ²x = para datos sin agrupar
n - 1
∑ x² fi - n x²
S²x = para datos agrupados
n - 1
Esta fórmula será para datos agrupados sin y con
intervalos.- La diferencia se da en el valor de las
observaciones xi, ya que en datos agrupados sin intervalo
serán los datos originales, y en datos agrupados con
intervalos serán los puntos medios de los intervalos.-
Como dijimos, la variancia me da un resultado en unidades
de medida de la variable al cuadrado, entonces aparece
otra medida que llamamos Desvío Estándar.-
DESVIACION ESTANDAR
sx = variancia
Notas fi xi Xi * fi x ²i X²i * fi
0 2 5 1 5 1 5
2 4 9 3 27 9 81
4 6 14 5 70 25 350
6 8 20 7 140 49 980
8 10 2 9 18 81 162
∑ ( xi - μ)²
σ²x =
N
Cantidad de niños 0 1 2 3 4 5 6
Cantidad de viviendas 6 10 18 8 6 4 2
3.- A una muestra aleatoria de 90 familias de un barrio se
pregunto los ingresos mensuales de los Jefes de
Hogares, (se tomo valores enteros, por comodidad) y
resulto la siguiente tabla:
Li Ls Jefes de Hogares
1800 2200 5
2200 2600 9
2600 3000 22
3000 3400 28
3400 3800 17
3800 4200 9
USOS DEL
DESVIO
ESTANDAR.-
Un Desvío Estándar pequeño nos indica que los datos
están o se encuentran localizados muy cerca de la media,
caso inverso significa que los datos están muy lejos de
su media.- Por supuesto más chico sea el Desvió
Estándar mejor serán nuestros datos.-
S
CVx = * 100
x
Cuando comparamos dos distribuciones de
datos en diferentes unidades de medida, y
queremos saber cual es más homogénea en sus
datos referentes a su media, no tenemos más
opción que comparar los CV, a menor CV más
homogéneos son los datos.- Por ejemplo, si
tenemos una distribución donde estudiamos
sueldos de la empresa y en la otra la antigüedad
en la empresa de esos mismos empleados, y
nos preguntamos en que son más homogéneos
esos empleados, en sueldos o en antigüedad.-
Cuando comparamos dos distribuciones de
datos en igual unidad de medida podemos
preguntarnos en cual distribución son más
homogéneos los datos respecto a su media.- En
este caso podemos comparar los desvíos
estándar solo si las medias son iguales, y el
menor desvío estándar más homogéneos son
los datos.-
COMERCIO B
Eje de simetría
Variable
X = Me = Mo
A medida que la distribución se hace más asimétrica
hacia uno u otro lado (derecha e izquierda), las medidas
de tendencia central tienden a alejarse una de otra,
siendo la media por estar afectada por los valores
extremos la que más se desplaza hacia la cola de la
distribución.-
X Me Mo Mo Me X
X - Mo 3( X - Me)
CAP = o CAP =
s
s
Comentarios
• La magnitud absoluta del coeficiente indica la
“cantidad de desvío estándar” a los que se encuentra
la media del modo.-
• Se lo puede expresar en porcentaje, multiplicando
por cien el resultado de la expresión anterior.-
• Si el coeficiente es igual a cero, estamos en una
situación de simetría perfecta.-
• En situaciones de asimetría el coeficiente puede
tomar una asimetría a derecha o a izquierda.-
Recordemos que una es positiva y la otra negativa.-
•En términos teóricos, este Coeficiente puede tomar
valores que varían entre - 3 y +3.-
CURTOSIS.-
Platicurtica Mesocurtica
Leptocurtica
COMO
INTEGRAR
LAS
MEDIDA QUE
HEMOS
VISTO
Hasta aquí he presentado una serie de valores
característico de una distribución que nos
permite señalar diferentes aspectos del
conjunto de datos que se analiza.-
Cada una de estas medidas dirige nuestra mirada
hacia algún rasgo de interés de ese conjunto
de datos y ahora buscamos como integrarlas
de tal manera que podamos dar un idea de
imagen de la distribución.-
CONSISTE EN UN RESUMEN DE
PRESENTAR: CINCO DATOS
En un resumen de cinco números se emplean
los siguientes datos
1.- Valor mínimo.-
2.- Primer cuartil.-
3.- Mediana.-
4.- Tercer cuartil.-
5.- Valor máximo.-
5000
C2
3000
2000
90
80
70
Datos
60
50
40
30
20
1º 2º 3º
VEAMOS OTRO EJEMPLO.-
90
80
Data
70
60
50
40
1º 2º 3º
La figura anterior contiene los diagramas de caja
de las puntuaciones de cada uno de estos tres
grupos.- En este ejemplo concreto, puede
apreciarse que no hay observaciones
excesivamente atípicas en ninguno de los tres
grupos.- Por eso, los bigotes de las cajas
corresponden a la menor y mayor puntuación de
cada grupo.- En el diagrama se observa que los
estudiantes de Contador consiguieron la mejor
mediana, pero sus puntuaciones tienen una
variabilidad considerablemente mayor que la de
los otros grupos.- Otro hecho que llama la
atención es la gran cantidad de puntuaciones
bajas obtenidas por los estudiantes de
Economía.-
EJERCICIO DE
MEDIDAS DESCRIPTIVAS
Y
DIAGRAMA DE CAJA
(para hacer y discutir en clase)
Con Infostat y Minitab
Supongamos que tenemos las ventas diarias de un
comercio chico durante el año 2011.- .- Se selecciona
una muestra aleatoria de 50 días y se obtuvo los
siguientes montos (por 100), fueron redondeados por
comodidad.-
60 47 82 95 88 72 67 66 68 98
90 77 86 58 64 95 74 72 88 74
77 39 90 63 68 97 70 64 70 70
58 78 89 44 55 85 82 83 72 77
72 86 50 94 92 80 91 75 76 78