Академический Документы
Профессиональный Документы
Культура Документы
Estadística I
ESTADÍSTICA
Murria R. Spiegel, (1991) dice: "La estadística estudia los métodos científicos para recoger,
organizar, resumir y analizar datos, así como para sacar conclusiones válidas y tomar decisiones
razonables basadas en tal análisis".
"La estadística es la ciencia que trata de la recolección, clasificación y presentación de los hechos
sujetos a una apreciación numérica como base a la explicación, descripción y comparación de los
fenómenos". (Yale y Kendal, 1954).
POBLACIÓN
Una población se precisa como un conjunto finito o infinito de personas u objetos que
presentan características comunes.
"Una población es un conjunto de todos los elementos que estamos estudiando, acerca de
los cuales intentamos sacar conclusiones". Levin y Rubin (1996).
Cuando la población es muy grande, es obvio que la observación de todos los elementos se
dificulte en cuanto al trabajo, tiempo y costos necesarios para hacerlo. Para solucionar este
inconveniente se utiliza una muestra estadística.
MUESTRA
"Se llama muestra a una parte de la población a estudiar que sirve para representarla".
Murria R. Spiegel (1991).
MUESTREO
Esto no es más que el procedimiento empleado para obtener una o más muestras de una
población; el muestreo es una técnica que sirve para obtener una o más muestras de
población.
Este se realiza una vez que se ha establecido un marco muestral representativo de la población, se
procede a la selección de los elementos de la muestra, aunque hay muchos diseños de la muestra.
El método del muestreo se basa en ciertas leyes que le otorgan su fundamento científico, las
cuales son:
LEY DE LA INERCIA DE LOS GRANDES NÚMEROS: Se refiere al hecho de que en la mayoría de los
fenómenos; cuando una parte varía en una dirección, es posible que una parte igual del mismo
grupo varíe en dirección opuesta.
TIPOS DE MUESTREO
MUESTREO ALEATORIO: Es cuando la muestra se obtiene al azar. La elección de los elementos para
la muestra es de forma aleatoria.
MUESTREO SISTEMÁTICO: Se selecciona a los mejores elementos. Por ejemplo, para un juego de
básquet se selecciona a los chicos con talla adecuada y un buen físico.
MUESTREO POR CÚMULOS: Se divide la población en grupos y luego se escoge al azar a los
miembros de un solo grupo y se trabaja totalmente con ese grupo.
MUESTREO POR CONVENIENCIA: Son los resultados disponibles para una causa justa ó injusta.
Ejemplo cuando el estado anuncia cambios en las escuelas y las ganancias de popularidad son
utilizadas para su conveniencia.
A
B
C
D
E
MUESTREO MIXTO: Se combina los tipos de muestreos antes mencionados con el fin de obtener
mejores resultados.
VARIABLES Y ATRIBUTOS
Las variables, también suelen ser llamados caracteres cuantitativos, son aquellos que
pueden ser expresados mediante números. Son caracteres susceptibles de medición.
Como, por ejemplo, la estatura, el peso, el salario, la edad, etc.
Los atributos también llamados caracteres cualitativos, son aquellos que no son
susceptibles de medición, es decir que no se pueden expresar mediante un número.
Una variable es un símbolo, tal como X, Y, H, x ó B, que pueden tomar un conjunto prefijado de
valores, llamado dominio de esa variable.
Las variables, también llamadas caracteres cuantitativos, son aquellas cuyas variaciones son
susceptibles de ser medidas cuantitativamente, es decir, que pueden expresar numéricamente la
magnitud de dichas variaciones.
Las variables contínuas se caracterizan por el hecho de que para todo par de valores
siempre se puede encontrar en valor intermedio, (el peso, la estatura, el tiempo empleado
para realizar un trabajo, etc.)
Una variable es contínua, cuando puede tomar infinitos valores intermedios dentro de dos
valores consecutivos. Por ejemplo, la estatura, el peso, la temperatura.
Las variables discretas serán aquellas que pueden tomar solo un número limitado de
valores separados y no contínuos; son aquellas que solo toman un determinado número
de valores, porque entre dos valores consecutivos no pueden tomar ningún otro; por
ejemplo, el número de estudiantes de una clase es una variable discreta ya que solo
tomará los valores 1, 2, 3, 4... nótese que no encontramos valor como 1,5 estudiantes.
Observación directa: es aquella donde se tienen un contacto directo con los elementos o
caracteres en los cuales se presenta el fenómeno que se pretende investigar, y los
resultados obtenidos se consideran datos estadísticos originales.
Observación Indirecta: es aquella donde la persona que investiga hace uso de datos
estadísticos ya conocidos en una investigación anterior, o de datos observados por un
tercero (persona o entidad). Con el fin de deducir otros hechos o fenómenos.
Una observación contínua: como su nombre lo indica es aquella que se lleva acabo de un
modo permanente.
Una observación periódica: es aquélla que se lleva a cabo a través de períodos de tiempo
constantes. Estos períodos de tiempos pueden ser semanas, trimestres, semestres, años,
etc. Lo que debemos destacar es que los períodos de tiempo tomados como unidad deben
tomarse constantes en lo posible.
Observación Parcial: Las poblaciones en general son grandes, la observación de todos sus
elementos se ve imposibilitada. La solución para superar este inconveniente es observar
una parte de esta población.
CENSO
Se entiende por censo aquella numeración que se efectúa a todos y cada uno de los caracteres
componentes de una población.
Si es posible listar (o enumerar) y observar cada elemento de la población, los censos se utilizan
rara vez porque a menudo su compilación es bastante difícil, consume mucho tiempo por lo que
resulta demasiado costoso.
ENCUESTA
Se entiende por ENCUESTA a las observaciones realizadas por muestreo, es decir son
observaciones parciales.
Las aplicaciones de la Estadística han crecido a tal grado que prácticamente todos los campos de
estudio se benefician de una manera u otra por el uso de los métodos estadísticos. Los fabricantes
proporcionan ahora mejores productos a un costo más bajo gracias al uso de técnicas estadísticas
de control de calidad. Las enfermedades se controlan mediante análisis diseñados para anticipar
epidemias. Especies de peces y otros animales silvestres en peligro de extinción se protegen
mediante reglamentos y leyes que reaccionan a estimaciones estadísticas de cambios en los
tamaños de las poblaciones.
ABUSOS DE LA ESTADÍSTICA
Los abusos de la Estadística no son nada nuevo. El estadista Benjamín Disraeli pronunció la famosa
frase: “Hay tres clases de mentiras: mentiras, viles mentiras y estadísticas”. También se ha dicho
que “las cifras no mienten; los mentirosos calculan cifras” y que “si torturamos los datos
suficientes, admitirán cualquier cosa”. El historiador Andrew Lang dijo que algunas personas
utilizan los datos estadísticos “como un borracho utiliza los postes de alumbrado público: como
apoyo más que como iluminación”.
Estas afirmaciones se refieren a abusos de la estadística en los que los datos se presentan de tal
manera que pueden ser engañosos. Algunos que abusan de la estadística son simplemente
ignorantes o descuidados, mientras que otros tienen objetivos personales y están dispuestos a
suprimir datos desfavorables al tiempo que destacan datos que apoyan sus fines. A continuación,
presentamos unos cuantos ejemplos de las muchas formas en que es posible distorsionar los
datos.
MUESTRAS PEQUEÑAS: Las muestras pequeñas no necesariamente son algo malo, pero los
resultados de muestras pequeñas a veces se utilizan como una forma de “mentir”
estadísticamente. Ejemplo: Las preferencias en cuanto a dentífricos de sólo 10 dentistas no deben
usarse como base para una afirmación generalizada como “el dentífrico Colgate es el
recomendado por nueve de cada diez dentistas”. Aún si una muestra es grande, ésta debe ser
representativa de la población de la cual proviene.
NÚMEROS PRECISOS: En ocasiones los números mismos pueden ser engañosos. Una cifra muy
precisa como un salario anual de $ 37,735.29 dólares, podría utilizarse para dar la impresión de
precisión e infundir un alto grado de confianza en su exactitud. La cifra $ 37,700 no comunica esa
misma sensación de precisión y exactitud. No obstante, un dato estadístico muy preciso con
muchas cifras decimales no necesariamente es exacto. Ejemplo: Oferta en un polo de $ 19.99 o
una colonia de $ 99.90.
ESTIMACIONES POR CONJETURA: Otra fuente de engaños estadísticos son las estimaciones que
en realidad son conjeturas y por consiguiente pueden tener un error sustancial. Debemos
considerar el origen de la estimación y la forma en que se obtuvo. Cuando un político hizo un mitin
en un determinado lugar, ciertos funcionarios estimaron que el tamaño de la multitud era de
20,000 personas, pero el comité de organización local estimó una cifra más exacta de 12,000
personas.
implicaría que ya no se está perdiendo equipaje, logro que todavía no ha alcanzado Continental
Airlines.
GRÁFICAS ENGAÑOSAS: Muchas ayudas visuales, como las gráficas de barras y de pastel, pueden
servir para exagerar o disfrazar la verdadera naturaleza de los datos.
6 $520.00
4 $750.00
0
Hombres Mujeres
PICTOGRAMAS: Los dibujos de objetos, llamados pictogramas, también pueden ser engañosos.
Objetos que se usan para representar datos son las bolsas de dinero, pilas de monedas, tanques
militares, vacas, barriles y casas; entre otros, los cuales los artistas pueden crear impresiones
falsas que distorsionen las diferencias.
PRESIÓN DEL ENCUESTADOR: Cuando se hacen preguntas a los sujetos de una población, éstos a
menudo proporcionan respuestas que son favorables a su autoimagen. Por ejemplo, a la pregunta
¿se lava las manos después de ir al baño? La respuesta es SIEMPRE. Aunque a veces no es así.
Estas sólo son algunas de las muchas formas en que es posible distorsionar los datos.
Llámese población a cualquier colección de unidades que puedan interesar en un estudio. Esta
colección debe estar bien definida, de tal forma que se puedan distinguir entre los miembros que
son y los que no son del grupo.
Una Inferencia estadística es una conclusión obtenida acerca de una población completa, desde
la información tomada de una muestra.
Ejemplos prácticos:
Ejemplo 1:
Al observar las mediciones obtenidas de los diámetros de tuercas (cm) en una fábrica
como se muestra a continuación en la tabla No. 1
¿Qué conclusiones podría sacar a simple vista el lector? . . . Creemos que difícilmente
habrá podido sacar al menos una información precisa.
Por lo anterior se juzga conveniente el uso de técnicas y procedimientos que nos permitan
organizar, presentar y resumir tales datos. Para ello dentro de la Estadística existen varias
de tales técnicas y procedimientos. Sin embargo, debe tomarse en cuenta que las técnicas
y procedimientos que se presentarán en este capítulo y los siguientes no dependen de la
forma como fueron obtenidos dichos datos.
ARREGLO DE DATOS:
El arreglo de datos es una de las formas más simples de presentar los datos. Se organiza la
información yendo del valor menor al mayor en orden ascendente, o del mayor al menor
en forma descendente.
1 10.3
2 11.0
3 9.8
4 11.6
5 10.3
6 10.8
7 10.3
8 10.1
9 11.6
10 9.0
Se pide organizar los datos en un arreglo de menor a mayor. Dicho arreglo quedaría como
se muestra a continuación en la tabla No.3.
Tabla No.3. Arreglo de datos de menor a mayor, de la tara de camiones que cargan
carbón mineral.
1 9.0
2 9.8
3 10.1
4 10.3
5 10.3
6 10.3
7 10.8
8 11.0
9 11.6
10 11.6
Los arreglos de datos ofrecen varias ventajas sobre los datos en bruto, como a
continuación se mencionan:
LA DISTRIBUCIÓN DE FRECUENCIAS:
Una mejor manera de simplificar los datos es usando una tabla de frecuencias o una
distribución de frecuencias. Una distribución de frecuencias es un agrupamiento de datos
en clases, que muestra el número o porcentaje de observaciones de cada una de ellas.
Una distribución de frecuencias se puede presentar tanto en forma tabular como en
forma gráfica.
Paso No. 1.
Determinar la amplitud de variación de los datos. Para este ejemplo el mayor diámetro de
las tuercas es de 5.0 y el menor es de 3.2, por lo que la amplitud es de 5.0 - 3.2 = 1.8 Esta
amplitud es denominada rango (r).
Paso No. 2.
Decidir el número de clases que se vaya a utilizar. Generalmente se recomienda usar entre
5 y 15 clases; esta elección es un balance entre el grado de resumen y la información que
se pierde. Una regla empírica es calcular la raíz cuadrada de n (número de datos) y
adaptarla, si es necesario, a los límites 5 y 15. Para nuestro ejemplo tenemos que k = 40
= 6.3245, el cual se debe redondear a 6.
Paso No. 3.
Dividir la amplitud de variación (r) entre k, que es el número de clases, para obtener una
amplitud de clase (a). Por lo regular se recomienda formar intervalos de igual amplitud
debido a que los intervalos desiguales tienden a distorsionar las comparaciones. Para
nuestro ejemplo tenemos que la amplitud de clase es a = r k = 1.8 6 = 0.3
Paso No. 4.
Establecer los intervalos preliminares. Para nuestro ejemplo empezaremos a partir del
menor valor; así la primera clase es:
La tercera va de 3.8 a 4.1, la cuarta de 4.1 a 4.4, la quinta de 4.4 a 4.7 y la sexta de 4.7 a 5.
Paso No. 5.
Una vez que se haya establecido las clases cada dato se debe asignar a la clase
correspondiente, contando las frecuencias de clase. A continuación en la tabla No.4, se
muestran las frecuencias asignadas para nuestro ejemplo:
Total 40
La misma distribución puede ser presentada en función del porcentaje de datos que caen
en cada intervalo, esto recibe el nombre de frecuencia relativa de clase y se obtiene
dividiendo para cada intervalo el número de observaciones de ese intervalo (llamado
frecuencia de clase) entre el número total de observaciones, que para nuestro ejemplo es
40; dicha frecuencia relativa de clase puede expresarse en términos de fracciones o
porcentajes como se puede observar en la tabla No.5.
3 4 4 6 5
5 6 3 5 5
3 2 6 7 4
6 7 1 3 3
7 4 3 3 6
1 5 5 2 5
4 2 3 1 4
Se puede observar que los datos constan de valores enteros que van del 1 al 7.
Puede elaborarse una distribución de frecuencias sin que haya pérdida de valores
originales, utilizando como clases números enteros que van del 1 al 7, como se muestra en
la tabla No.7.
1a. 1 3 8.57 %
2a. 2 3 8.57 %
3a. 3 8 22.86 %
4a. 4 6 17.14 %
5a. 5 7 20.00 %
6a. 6 5 14.29 %
7a. 7 3 8.57 %
Total 35 100.00 %
Se dice que no hay perdida de información ya que a partir de la tabla No.7. es evidente
que los datos originales contienen 3 días en los que se presentaron 1 accidente, tres días
en los que se presentaron 2 accidentes, 8 días en los que se presentaron 3 accidentes, 6
días en los que se presentaron 4 accidentes, etc. Por lo tanto, podría ser posible volver a
crear los datos originales a partir de la distribución de frecuencias.
100.00 %
EL HISTOGRAMA:
Se dibujará una barra (vertical) para cada clase cuyo ancho (eje horizontal) corresponderá
a los límites de dicha clase y su altura (eje vertical) corresponderá a su frecuencia.
Frecuencia
1. 1
1
6
3
10
3.2 - 3.5 3.5 - 3.8 3.8 - 4.1 4.1 - 4.4 4.4 - 4.7 4.7 - 5.0
Diámetro
Algunas aclaraciones que se pueden hacer para la construcción de un histograma son:
Por último Richard I. Levin señala las siguientes ventajas de los histogramas:
Fig.2 Histograma de los accidentes de trabajo diarios en una fábrica de plástico (datos discretos).
Frecuencia
8
1 2 3 4 5 6 7
Accidentes
POLÍGONO DE FRECUENCIAS:
El polígono de frecuencias es la gráfica formada al unir con rectas los puntos medios de los
intervalos del histograma, por lo que su construcción puede partir de la de los
histogramas. En la Fig.3 se muestra el polígono de frecuencias para tabla No. 4.
Frecuencia
14
3.2 - 3.5 3.5 - 3.8 3.8 - 4.1 4.1 - 4.4 4.4 - 4.7 4.7 - 5.0
Diámetro
Es importante aclarar que este polígono es cerrado y por ello se supone que hay una clase
“antes” de la primera y “después” de la última cuya amplitud es la misma que para las
demás clases pero con frecuencia igual a cero.
Richard I. Levin, señala que los polígonos de frecuencia poseen sus ventajas:
LA OJIVA:
Se pueden emplear dos tipos de ojivas como señala Richard I. Levin, las de “menor que” y
de las de “mayor que”, como veremos en el ejemplo siguiente.
Ejemplo 4.
Los ingenieros de una compañía constructora, realizaron una serie de pruebas para medir
el flujo de agua que pasaba por la localización propuesta para la construcción de una
represa. Los resultados de las pruebas fueron utilizados para construir la siguiente
distribución de frecuencia, que a continuación se presentan en la tabla 10.
Solución:
Tabla No. 11 Distribución de frecuencias acumuladas “mayor que”, del flujo de agua.
La ojiva para la distribución acumulada de la tabla No.10 se muestra en la fig. No. 4; los
puntos dibujados representan el flujo del agua en el río, que tienen más galones por
minuto que se muestra en el eje horizontal.
Obsérvese que el límite superior de las clases en la tabla se convierte en el límite inferior
de la distribución acumulativa de la ojiva.
250
Número acumulado de las
200
observaciones.
150
Observaciones.
100
50
0
1,001 1,099 1,197 1,295 1,393
b) De igual forma como se construyó la ojiva “mayor que”, se construye la de “menor que”
solo que en este caso en la clase uno la frecuencia acumulada es de cero y va aumentando
progresivamente en siguientes clases, como se muestra en la tabla No. 12
Tabla No. 12 Distribución de frecuencias acumuladas “menor que”, del flujo de agua.
250
Número acumulado de las
200
observasiones
150
Observaciones
100
50
0
1,05
1,001
1,099
1,148
1,197
1,246
1,295
1,344
1,393
Flujo de agua en el río
(en miles de galones por minuto)
Se construirá una ojiva del tipo “menor que”, para ilustrar este caso, para lo cual
usaremos los datos del ejemplo No. 4, como se muestra en la tabla No. 13 y en la fig. No. 6
que a continuación se presentan:
Tabla No. 13 Distribución de frecuencias acumuladas “menor que”, del flujo de agua.
Fig. No. 6 Ojiva “Menor que” de frecuencia relativa, del flujo de agua en el río.
1
0,9
Frecuencia relativa acumulada.
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
1,05
1,001
1,099
1,148
1,197
1,246
1,295
1,344
1,393
Serie1
Las gráficas de pastel se forman asignando en un círculo el área para cada clase en
proporción a su frecuencia relativa (%). Como se muestra en el ejemplo siguiente:
Tabla No.14 Estructura de los productos con justo a tiempo, en las maquiladoras mexicanas.
Solución: Una vez que se tiene la frecuencia relativa, los datos se pueden llevar al
ordenador y usar Excel para aplicar la gráfica correspondiente, como aparece en la fig. 7.
Fig. No.7 Gráfica de pastel del uso del justo a tiempo en las maquiladoras mexicanas.
32,90%
Muy bajo
52,60%
Bajo
Alto
11,40% Muy alto
3,15%
1) Para analizar el contenido de nicotina de una nueva variedad de tabaco que una fábrica desea
comercializar se extrajo una muestra de 32 bolsas de 250 gr. De la que se obtuvo los siguientes
resultados (contenido de nicotina en mg /250 gr. De tabaco)
23.1 23.9 24.3 24.4 24.7 24.9 25.1 25.5
2) Con el objeto de determinar el número de horas diarias que las amas de casa se dedican a ver
televisión, se llevó a cabo una encuesta en 35 hogares en Lima Metropolitana, obteniéndose
los siguientes resultados en horas:
3) Para realizar un estudio de la cantidad de arroz vendido por semana en una tienda, se tomó
una muestra de 40 semanas del año 2009, obteniéndose los siguientes resultados (en cientos
de kg.)
2.20 2.21 2.25 2.25 2.25 2.25 2.29 2.32 2.33 2.36
2.37 2.39 2.39 2.40 2.40 2.41 2.42 2.42 2.43 2.45
2.45 2.52 2.52 2.54 2.56 2.57 2.60 2.60 2.63 2.67
2.69 2.70 2.70 2.72 2.72 2.81 2.84 2.84 2.90 2.90
ESTADÍSTICA DESCRIPTIVA
Consiste en encontrar la curva ajustada y = a + bx, para el cual los valores asociados se
calculan mediante:
Además: 𝑎 = 𝑦̅ − 𝑏. 𝑥̅
∑𝑛
𝑖=1 𝑦𝑖 ∑𝑛
𝑖=1 𝑥𝑖
Donde: 𝑦̅ = 𝑥̅ =
𝑛 𝑛
∑𝑛
𝑖=1 𝑥𝑖 .𝑦𝑖
LA COVARIANZA: 𝐶𝑜𝑣 𝑥𝑦 = − 𝑋̅. 𝑌̅
𝑛
Mide el nivel de variabilidad (dispersión) conjunta de los datos de las variables en pareja (X,Y) con
respecto a sus medias respectivas (𝑋̅, 𝑌̅).
𝐶𝑜𝑣 𝑥𝑦
𝑟=
𝑆𝑥 . 𝑆𝑦
Si r=0, se dice que no hay una correlación entre las dos variables.
𝐶𝑜𝑣 𝑥𝑦
NOTA: En el método de los mínimos cuadrados: 𝑏=
𝑆𝑥 ²
En la variable bidimensional (X, Y): Cuando una de las variables es el tiempo (en días, meses, años)
la regresión se denomina serie de tiempo.
Recomendación: Realizar los ejercicios propuestos de las páginas 103, 108 - 113 del libro
“Estadística Descriptiva e Inferencial - Aplicaciones” de Manuel Córdova Zamora.
Pontificia Universidad Católica del Perú. (5° Edición).