Академический Документы
Профессиональный Документы
Культура Документы
gráficos, etc. En verdad no es una idea equivocada, sino más bien, una idea popular de ésta, pero no
La Estadística Descriptiva es la rama más antigua de la Estadística y tiene por objetivo, presentar
información de una manera sencilla y estética y que al mismo tiempo, sea aprehensible al ojo humano,
es decir, fácil de entender. Aunque su campo de acción se ha visto reducido, es indudable su utilidad.
Para que la Estadística Descriptiva cumpla su cometido utiliza tres métodos, Métodos Tabulares,
Supóngase ahora, que se está interesado en saber cuál es el ingreso promedio de las personas que
tienen pensión en el mercado los Pozos, de Santa de la Sierra, Bolivia. Supóngase además, que este
sector ha crecido de tal forma que se hace imposible estudiarlas en su totalidad. Por tal razón se
deduce una muestra de esta población por cualquier mecanismo aleatorio y se realiza la toma de la
información deseada y se obtiene un dato promedio cualquiera, por ejemplo, Bs 550. A través del
método de razonamiento que conduce a una extensión de este resultado a la población de interés, se
podría concluir que las personas que tiene pensiones en dicho mercado, tiene un ingreso promedio de
Bs 550.
El mismo hecho de que se está estudiando una fracción de la población, indica que se tiene una
información incompleta y que es, lo comúnmente que pasa en la realidad; pero, ¿qué pasa si el azar
proporcionó las personas con pensiones que venden más o bien que venden menos?. Si se da el primer
personas. En este momento surge una duda sobre la información que en Estadística Moderna se la
conoce generalmente como Incertidumbre y que siempre estará presente en conclusiones que se
de la información (naturaleza), es muy común que se arribe a conclusiones a través del método
inductivo, en el cual las mismas son inciertas. El conjunto de técnicas que permite realizar
Se dice que los estadísticos extraen datos de las muestras y que esta información les sirve para
hacer inferencia sobre la población que la muestra representa. Es así que, los términos, muestra y
aleatorio, es decir, todos los valores que puede tomar una característica (variable).
En palabras más sencillas se puede decir que población, es un conjunto de entes con características
propias que los diferencian de otras. Con este concepto se puede tener una población de árboles, de
sillas, de tizas, etc. Un aspecto importante a retomar es que desde el punto de vista estadístico una
población es importante cuando se requiere verificar (medir) una característica (variable) en ella.
Atributos
además, que el estudiante de la primera fila es alto, color de piel blanca, cabello castaño, ojos claros,
etc. Si a los 20 estudiantes se les considera como una población, se puede decir que los detalles
Con el ejemplo antes citado, se puede tratar de deducir un concepto de Atributo, diciendo que es
Variable
Retomando el ejemplo anterior, supóngase ahora, que se les pregunta a los cinco primeros estudiante
De hecho estas alturas corresponde a atributos de los cinco primeros estudiante. Si se observan los
datos anteriores, se puede constatar que el atributo estatura cambia de un estudiante a otro. Con
Variable es un atributo medible que cambia de un elemento a otro de la población, es decir, es toda
Supóngase ahora, que los cincos primeros estudiantes poseen la misma altura, ejemplo, 1.73. Dado
que el atributo altura en este caso no cambia, no se puede considerar como una variable, pero sí, es
un atributo. De lo anterior se puede concluir, que una variable siempre será un atributo, pero un
Las variables siempre se denotan por la letras mayúsculas del alfabeto y los valores que toman
Siempre que se desee constatar una variable en un elemento de la población de interés, ésta debe de
a.- Nombre
b.- Definición
Nombre
Cuando un investigador toma los datos correspondiente a una variable, éste tiene que saber el
nombre de ésta.
Definición
Todo investigador tiene que definir la (s) variable (s) que va a estudiar. Este nombre es cómo se
datos cuando los niños no han desayunado y sin ropa alguna. Este investigador tiene que reportar al
momento de dar a conocer la información cómo lo hizo porque quizás otro investigador lo puede
haber tomado con ropa y después de desayunar. Inclusive debe de especificar el equipo con el cual
verificó el valor de la variable en los elementos de la población estudiados dado que pueden variar en
precisión.
Esta se refiere a las categorías convencionalmente admitida por la sociedad. Por ejemplo; si en un
comportamiento sexual, por lo tanto las categorías que puede tomar son masculino ó femenino o bien
macho ó hembra.
Si la variable es edad, entonces según el estadío donde se mida puede ser días, semanas, meses,
años.
Este elemento de las variables en muchos casos es muy complejo, pero se soluciona en parte si
existe una adecuada definición de la variable que el investigador desee medir. Si se retoma el
ejemplo anterior donde se quiere medir la variable sexo en un grupo de personas. En este caso la
variable se define como sexo anatómico de cada persona que componen al grupo. Ahora bien, el hecho
de que una persona diga que es de sexo masculino no implica que no sea homosexual, pero no es la
conducta sexual la que se está midiendo, sino el sexo anatómico. Por tal razón, aunque este elemento
de la variable es complejo, con una definición clara de lo que se desea medir se resuelve.
De acuerdo a los valores que puede tomar una variable, ésta se puede clasificar en:
Variables cuantitativas: tienen valor numérico (edad, precio de un producto, ingresos anuales).
Por su parte, las variables cuantitativas se pueden clasificar atendiendo a los valores que pueden
enumerar (1, 2, 8, -4, etc.). Por ejemplo: número de hermanos (puede ser 1, 2, 3...., etc, pero, por
Continuas: pueden tomar cualquier valor real dentro de un intervalo. Por ejemplo, la velocidad de un
ESCALAS DE MEDICIÓN
Medir una variable significa constatar la observación en los elementos de la población que es objeto
de estudio, es decir, consiste en verificar que valor toma la variable en la unidad de análisis. Lo
anterior implica que para medir una variable, ésta tiene que ser observable en el mundo real,
manteniendo el principio fundamental de la construcción de una variable que consiste en que sus
a.- Escala Nominal: En esta escala lo único que puede decirse de una observación es a cuál de un
En esta escala de medición la única relación que puede establecerse entre observaciones es la de
igualdad y por lo tanto de desigualdad. Dos observaciones son iguales si están en la misma categoría
Ejemplo, supóngase que en grupo de personas se desea medir el estado de salud con respecto a una
b.- Escala Ordinal: Las observaciones medidas en esta escala pueden ordenarse de menor a mayor,
y en consecuencia no sólo se admiten las relación de igualdad, sino además la de mayor que y menor
que. Muchos de los estudios realizados en las Ciencias Sociales producen observaciones que son
medidas bajo esta escala, por lo difícil que es medir actitudes en los seres humanos.
En esta escala además de calcularse frecuencias como en la escala nominal, se puede calcular una
Coronel > Teniente > Subteniente > Sargento > Cabo > Soldado
c.- Escala de Intervalo: Con observaciones en esta escala no sólo se pueden ordenarse las
observaciones, sino que además puede definirse una unidad de distancia (puede ser arbitraria) entre
ellas. La principal diferencia de esta escala con la de Proporciones es que en la escala de Intervalo el
característica física de las unidades de medidas. Un ejemplo clásico en esta escala es la medición de
la temperatura.
Dado que los requisitos indispensables para efectuar sumas y productos son que existan ceros y una
unidad de distancia, con las observaciones medidas bajo esta escala puede calcularse medidas de
tendencia central como la media y de dispersión como la varianza. Por tal razón esta escala es más
b.- Escala de Proporción o Razón: En esta escala las observaciones pueden ordenarse y existen un
cero y una unidad de distancia que son inherentes al sistema, es decir, que no son arbitrarios.
por hectárea de una planta, etc. Esta es la escala de medición más fuerte que existe y por lo tanto
Resulta de mucha importancia en el campo de la investigación, utilizar técnicas que permitan apreciar
de una forma rápida y fácilmente aprehensible un tipo de información donde se resalten los aspectos
más importantes. Estas técnicas o métodos deberán poseer características o propiedades que
faciliten lo antes mencionado. Entre estas propiedades se pueden mencionar las siguientes:
1. Que proporcionen la máxima cantidad de información contenida en los datos en forma rápida
y fácil de visualizar.
información de forma sencilla, es decir, entendible. Para ello hace uso de tres métodos los cuales
son: Métodos Tabulares y Gráficos y Métodos Numéricos. Entre los métodos tabulares están las
Supóngase que la variable X, toma los valores de x1, x2, x3, ..., xn. Entonces, la suma de los valores xi
Con el objeto de expresar esta suma de una manera más resumida, se hace uso de la letra griega
Sigma mayúscula ( ), la cual es el símbolo utilizado en matemáticas para indicar la suma, de tal
manera que:
i=1nXi; donde:
i=1 se lee como la suma de i=1 a i=n de x, lo cual indica que la variable x toma valores para i=1, 2, 3, ...,
n, o sea:
i=1nXi=x1+x2+…xn
“i” se llama índice de suma y es una variable que toma los valores 1, 2, 3, ..., n.
La expresión i=1 indica en este caso que 1 es el valor inicial de i (no siempre el valor inicial comienza
de 1).
A xi se le llama sumando
Propiedades de la sumatoria
Sean x1, x2,..., xn y y1, y2,..., yn dos conjuntos de datos, y “b” y “c” dos constantes arbitrarias.
Entonces:
n n n n n
a. ∑ bxi = b∑xi b. ∑ (xi + yi) = ∑ xi + ∑yi
i=1 i=1 i=1 i=1 i=1
n n n
c. ∑ c = nc d. ∑ (b + cxi) = nb + c∑ xi
i=1 i=1 i=1
n
e. ∑ c = (n-m + 1)c
i=m
La demostración de cada una de estas propiedades se deja como práctica para el estudiante.
METODOS TABULARES
Como una antesala de lo que son tablas de frecuencias relativas y absolutas se menciona a
continuación las formas iniciales de presentación de información, sus ventajas y desventajas de tal
manera que el estudiante comprenda la lógica de cada uno y por qué se usa una en vez del otra.
Una de las primeras formas de presentación de información es el arreglo de los datos el cual es una
de las formas más sencillas de presentar datos. Pone los valores en orden ascendente o descendente.
Por ejemplo, a continuación se muestran las concentraciones de cloro en partes por millón (ppm) de
Una forma sencilla de arreglar estos datos es presentarlos en orden ascendente o descendente. Si
Este arreglo de datos ofrece varias ventajas sobre los datos originales o sin arreglar:
• Se pueden localizar rápidamente los valores mínimos y máximos en los datos. En el ejemplo,
toda la masa de información y por lo tanto es muy tedioso emplearla en bases datos muy grandes.
Esto quiere decir, que esta forma de presentación de información no tiene capacidad de síntesis, de
Al número de veces que se repite una observación dentro de una colección de datos se le llama
Frecuencia Absoluta (fi). La suma de éstas tiene que ser igual al tamaño de la colección de datos
(∑fi = n), en este caso 18 + 12 = 30 (total de las observaciones). A la relación de cada frecuencia
absoluta con respecto al total, se le llama Frecuencia Relativa (fr = fi/∑fi), la suma de esta tiene
que ser igual a 1 o bien a 100 si se le expresa en porcentaje. Este tipo de arreglo es importante
continuación:
xi fi fr xi fi fr
15.2 1 3.33 16.1 1 3.33
15.4 1 3.33 16.2 2 6.67
15.6 3 10.00 16.3 3 10.00
15.7 2 6.67 16.4 2 6.67
15.8 3 10.00 16.6 1 3.33
15.9 4 13.33 16.8 2 6.67
16.0 4 13.33 16.9 1 3.33
Total 18 60.00 Total 12 40.00
Hay autores que consideran la siguiente forma de presentación de cuadros de frecuencia donde
incluyen elementos que son propios de las Tablas de Frecuencias Absolutas y Relativas. Esto se
muestra a continuación
Veamos un ejemplo:
Medimos la altura de los niños de una clase con instrumental de precisión y en condiciones adecuadas,
escogiendo a todos sus componentes, 30 sujetos, y obtenemos los siguientes resultados (m):
Puesto que todas las tallas están comprendidas entre 1.20 y 1.30 m., podemos agruparlas por
centímetros formando 11 grupos indicando cuántos niños presentan cada uno de los valores. Si
siguiente:
Cuadro de frecuencia
Frecuencias
Observación
fi fia fr (%) fra
1.20 1 1 3.33 3.33
1.21 4 5 13.33 16.66
1.22 4 9 13.33 30.00
1.23 2 11 6.67 36.66
1.24 1 12 3.33 40.00
1.25 2 14 6.67 46.66
1.26 3 17 10.00 56.66
1.27 3 20 10.00 66.66
1.28 4 24 13.33 80.00
1.29 3 27 10.00 90.00
1.30 3 30 10.00 100.00
Total 30 100
Si los valores que toma la variable son muy diversos y cada uno de ellos se repite muy pocas veces,
entonces conviene agruparlos por intervalos mayores. ya que de otra manera obtendríamos una tabla
de frecuencia muy extensa que aportaría muy poco valor a efectos de síntesis.
Supongamos que ahora medimos la estatura de los habitantes de una vivienda (también 30 personas)
Los datos son menos homogéneos (más dispersos) que en el caso de los niños de un grupo escolar
obtendríamos 30 líneas (una para cada valor), cada uno de ellos con una frecuencia absoluta de 1 y con
una frecuencia relativa del 3.3%. Esta tabla nos aportaría toda la información inicial, pero sería muy
difícil de manejar si en vez de 30 personas fueran 300. 3000 o más: en definitiva, de escaso valor
práctico. Lo que quiere decir lo anterior, es que si bien es cierto que los cuadros de frecuencias
tienen más capacidad de resumir la información, esto no siempre se logra ya que depende de las
En lugar de ello, podríamos agrupar los datos por intervalos llamados también Tablas de Frecuencias
Absolutas y Relativas, con lo que la información queda más resumida (se pierde por tanto algo de
Una tabla de frecuencia absoluta y relativa no es más que la agrupación de una base de datos en
Cada intervalo de clase o clase posee dos elementos, Límite inferior y Límite superior. La semisuma
de ambos origina un elemento más en una tabla de frecuencia absoluta y relativa denominado Punto
El primer tropiezo que se afronta es decidir cuántas grupos o clasesdeberán establecerse y si éstas
tendrán la misma anchura. Es recomendable en la práctica utilizar entre 5 y 20 clases inclusive hay
autores que recomiendan hasta 25 clase, y normalmente conviene construirla de modo que todas las
clases tengan la misma anchura. La anchura de clase recibe también el nombre de Intervalo de Clase
Una manera de resolver este problema es utilizar la fórmula de Stirling (Sturge) K = 1 + 3.33*
log(n), donde k es el número de clases o intervalos que se deben construir. Para el caso en cuestión
sería:
k = 1 + 3.3*log(30) = 5.87. Como se puede recordar que número de intervalos viene a ser una variable
cuantitativa discreta, entonces tiene que tomar valores cerrados. De acuerdo a lo anterior y basado
en leyes matemáticas se redondea al inmediato superior, es decir, 6. Hay autores que sugieren
siempre esto.
Un segundo problema que se afronta se refiere a la determinación del Ancho del Intervalo de Clase.
Este problema se resuelve calculando primeramente la diferencia entre el mayor y el menor valor
numérico de los datos, llamado también Rango, Recorrido o Amplitud (A). En el caso del ejemplo es: A
= 1.98 - 1.01 = 0.97. Esto indica que la suma de las amplitudes de clase de los intervalos de clase
deberá cubrir al menos esta diferencia. Si 0.97 se divide entre 6, se obtiene un resultado de 0.16. Si
se multiplica la anchura de clase (Ac) determinada por el número de intervalos K = 6, (al resultado se
le llama Rango Ideal) se tiene el siguiente resultado: 0.16*6 = 0.96. Si se recuerda la amplitud de los
datos es de 0.97, por lo tanto esta anchura de clase (Ac) no es suficiente para cubrirla por tal
razón, algunos autores recomiendan redondearlo al inmediato superior que en este caso sería de
0.17. Repitiendo el proceso, se tiene que 0.17*6 = 1.02. Un aspecto importante de señalar es que si
bien es cierto que se pasa de 1.98 con 3 centésimas, cubre la amplitud de los datos. Por esto se dice
que Ac*k = al menos debe ser igual a la amplitud de los datos, es decir, no importa si se pasa del
valor máximo.
Un tercer aspecto que hay que resolver es por donde iniciar la construcción de los intervalos de
clases. Para el caso de variables cuantitativas continuas, se habla de una medida de desplazamiento
(MD) que es igual al Rango ideal (RI) menos la Amplitud de los datos (A), donde RI es igual Ac * k,
esto es:
Este es el desplazamiento que debe tener el valor mínimo para iniciar la construcción de los
1.01 – 0.03 = 0.98, éste es el límite inferior del primer intervalo de clase y su límite superior será
0.98 + Ac, es decir, 0.98 + 0.17 = 115, Para el caso del segundo intervalo de clase, su límite inferior
es el límite superior del primer intervalo de clase o sea 115 y el límite superior será 1.15 + 0.17 = 1.32
y así sucesivamente hasta llegar al número de intervalos definidos. Esto es continuidad, ya que no
Entonces, para este tipo de variable (cuantitativa continua), los intervalos de clases son abiertos por
Luego se determina los Puntos Medios de Clase o Marcas de Clase en la segunda columna de la tabla,
Posteriormente en una tercera columna se determinan las frecuencias absolutas, que en este caso se
define como el número de observaciones que caben dentro del intervalo de clase. Para que quepa una
observación dentro de un intervalo de clase en este tipo de variable, éste tiene que ser mayor que el
Para el caso de variables cuantitativas discretas, los intervalos de clases son cerrados por ambos
lados.
METODOS GRAFICOS
• Diagrama de puntos
• Pictogramas
• Histogramas de frecuencias
Para efecto de este texto se desarrollarán los principales como son el Diagrama de Puntos por
Diagrama de Puntos
Sirve para representar gráficamente cuadros de frecuencias en las cuales se consideran únicamente
una variable y una cantidad asociada a cada valor de la misma (frecuencias). Existen dos tipos de
• El primer tipo de diagrama de puntos se construye colocando en el eje horizontal los valores
para cada valor de la variable y cada cantidad asociada se dibuja puntos cuyas alturas
• Para construir el segundo tipo de diagrama de puntos se colocan en el eje horizontal los
valores de la variable y sobre cada valor se dibuja tantos puntos como veces aparecen éstos.
Para ejemplificar el primer caso se retomará las alturas de los 30 habitantes que han sido
mencionados anteriormente.
En este caso se puede observar que los valores de la variable altura se encuentran en el eje
horizontal y en el vertical, el número de habitantes, y el punto está compuesto por las coordenadas
Histograma
Se le llama Histograma a la gráfica de barras verticales sin espaciamiento entre ellas, construida
colocando en el eje vertical a las frecuencias absolutas ó relativas y el eje horizontal a los límites de
clase de una tabla de frecuencias. Lo anterior implica que si los intervalos de clases son iguales,
sobre cada clase se erigen rectángulos cuyas áreas son proporcionales a las frecuencias de clase. Las
• Erigir rectángulos cuya base son las clases y su altura las frecuencias que corresponde a
cada clase
Para ejemplificar este método gráfico se tomará a la tabla de frecuencia absoluta y relativa y
En este caso, dado que se utilizó la frecuencia absoluta para construir el histograma entonces el
Polígono de Frecuencia
Un polígono de frecuencia es una gráfica de líneas rectas que unen los puntos obtenidos al colocar en
el eje horizontal a los valores medios (puntos medios) de clases y en el eje vertical a las frecuencias
absolutas o relativas. Esto equivale a unir los puntos medios de la cara superior de los rectángulos de
Para cerrar el polígono se adiciona una clase tanto inferior como superior para que el polígono cierre.
En este caso al igual que el histograma, el polígono retoma el nombre de la frecuencia que se ha
Una Ojiva o Polígono de Frecuencia Acumulada es una gráfica construida con segmentos de líneas
rectas que unen los puntos obtenidos al colocar en el eje horizontal a los límites superiores de clase
Al inicio en el eje horizontal se coloca el límite inferior de la primera clase y se le asigna una
Retomando como ejemplo la misma tabla de frecuencia absoluta y relativa, se tomarán las
35
30
25
20
15
10
0
0.98 1.15 1.32 1.49 1.66 1.83 2.00
Este tipo de gráfico se utiliza para representar datos cualitativos y cuantitativos discretos. Su uso
más frecuente es con el propósito de comparar ya sea las categorías que toma una variable
Para construir este gráfico se utiliza una circunferencia, la cual se divide en sectores de tal manera
que sus medidas angulares centrales y, por ende la superficie del sector circular sean proporcionales
circunferencia y por regla de tres simple se determina el número de grados que le corresponde a
(19 x 3600)
= = 49.9 = 50
137
De la manera que quedaría de la siguiente forma una vez que se hayan realizado las operaciones
correspondiente:
presentan formas muy variadas, por lo que no es fácil de comparar dos conjuntos de datos mediante
una inspección somera de los histogramas. Por otra parte, una tabla de frecuencia con 15 a 20 clases
puede no ser una representación suficientemente concisa de los datos. Por estas razones y por su
importancia en posteriores usos es necesario contar con cantidades que describan sucintamente
(rápidamente) el conjunto de datos que se estudia. Son de interés cantidades que localicen el
las que miden la variabilidad de las observaciones se les llama "Medidas de Dispersión".
Media o promedio
Media ponderada
Media Geométrica
Media Armónica
Media Cuadrática
Mediana
Moda
Por el grado de aplicabilidad serán desarrollada la siguientes medidas de tendencia central: media
aritmética, mediana y moda y, como un caso especial de la media aritmética, la media ponderada.
Media Aritmética
por x, y se define como la suma de ellas dividida por "n". Esto es:
x= i=1nXin
Ejemplo:
Sean los siguientes datos x1=2, x2=12, x3=9, x4=10, x5=7. La media aritmética de estos datos es:
x= 2 + 12+9+10+75=8
Desde un punto de vista geométrico, la media aritmética corresponde al punto de equilibrio de los
datos.
La media aritmética es la medida descriptiva de tendencia central más usada. Tiene la ventaja de ser
fácil de calcular, además de poseer propiedades teóricas excelente desde el punto de vista de la
estadística inferencia. Su principal desventaja es que, por ser el punto de equilibrio de los datos es
muy sensible a la presencia de observaciones extremas. Por otro lado su cálculo se vuelve tedioso
cuando la base de datos es muy grande. Otra desventaja es que no se puede calcular en datos que
En muchas ocasiones se nos presenta el problema de estimar la media a partir de una tabla de
originales.
• Cuando se dispone de las observaciones originales, pero su número es tan grande que las
Se debe de recordar que cuando se tiene una tabla de frecuencias con k clases se da lo
siguiente:
i=1kfi=n
En una clase se tienen fi observaciones (frecuencia absoluta), las cuales pueden tener cualquier valor
entre el límite superior e inferior de esa clase. Para calcular de una manera aproximada la media, se
tanto, el valor medio de clase (Punto medio de clase o Marca de Clase) es un valor representativo de
esa clase.
Con esta suposición el cálculo de la suma de las observaciones se simplifica de la siguiente manera:
i=1kPMC*fi
Esta expresión representaría la suma aproximada de las observaciones; por lo tanto, la media
x= i=1kPMC*fin
Todo lo anterior es posible siempre y cuando no se tengan clases abierta en la tabla.
Ejemplo:
Para ejemplificar la media aritmética para datos tabulados se retomará la tabla de frecuencias
determinación ya que en datos lo único que se puede hacer es una estimación ya que la determinación
x= 45.2130=1.507m/persona
datos original, es de 1.513 m/persona. Siempre se observará una diferencia que es producida por el
hecho de que en una tabla de frecuencia lo que se realiza es una estimación y no una determinación.
Esta diferencia será cada vez menor si la medida de desplazamiento para construir la tabla sea
pequeña.
La media aritmética tiene muchas propiedades sin embargo, solo se expondrá una por la relevancia
Mediana
Es el valor de la serie de datos que se sitúa justamente en el centro de la muestra (un 50% de
No presentan el problema de estar influido por los valores extremos, pero en cambio no utiliza en su
cálculo toda la información de la serie de datos (no pondera cada valor por el número de veces que se
ha repetido).
La mediana (Me) de un conjunto de “n” números, ordenados de menor a mayor, es el número central
en el arreglo. Si n es un número non, sólo hay un valor central. Si n es un número par, hay dos valores
centrales, y la mediana debe tomarse como la media de estos dos valores. Ejemplo...
1.- Sean la siguiente colección de datos: 27, 3.4, 3.2, 3.3, 3.1
El primer paso para determinar la Mediana en datos sin tabular es ordenar los datos en orden
3.1, 3.2, 3.3, 3.4, 27. Dado que n es un número non o impar (n=5), entonces sólo hay un valor central
Me = 3.3
151, 152, 153, 158, 162, 167, 167, 167, 168, 173
En este caso n es par (n=10), por lo que hay dos valores centrales, que son 162 y 167. Entonces
partiendo del concepto de Mediana, la Me es la media aritmética de estos dos valores ya que antes y
Me = (162 + 167)/2 = 164.5. Entonces cuando este sea el caso la Me, se puede determinar de la
siguiente forma:
embargo, para datos no simétricos es mejor medida de tendencia central la mediana que la media.
Cuando los datos están agrupados en clases, es decir, cuando existe una tabla de distribución de
Me=a+ b-a(0.5-c)d
Donde:
Me = Mediana
misma tabla.
Como se ha verificado anteriormente, la mediana es aquella medida de tendencia central que antes y
después de ella no existe más del 50% de la información, es decir, parte en dos la base de datos. A
partir de esto es que se propuso partir la base de datos en cuatro partes y se le llamó cuartiles,
luego en 10 parte y se les llamó deciles y luego en 100 partes y se les llamó percentiles. A todo esto
revisar cualquiera de la obras citadas al final de este documento para verificar esta información.
Moda
La Moda (Mo) de un conjunto de datos es la observación o valor (si existe) que ocurre con mayor
dos o más valores con la misma frecuencia máxima se dice que la distribución es bimodal, trimodal,
10, 7, 8, 7, 9, 8, 7, 9.
En este caso la calificación que más se repite es 7 ya tiene una frecuencia fi =3, por lo tanto la Mo
es 7.
Como se puede observar en estos datos todos tienen una frecuencia absoluta igual a 1, por lo tanto
no tiene moda este conjunto de datos. Las distribuciones de este tipo se les llaman uniformes.
Aquí se puede observar que los valores numéricos con mayor e igual frecuencia son los valores 4 y 7
por lo tanto la moda de estos datos es 4 y 7, o sea que una distribución bimodal.
Cuando los datos se encuentran organizados en Cuadros de frecuencia, la Mo es el valor que tiene la
conformaron una muestra. Según el cuadro de frecuencia donde se presenta esta información,
existen 3 valores que tienen la mayor frecuencia absoluta. Estos son 1.21, 1.22 y 1.28 con fi = 4; por
lo tanto existen 3 Modas. Éstas son: 1.21, 122 y 1.28 m, por lo tanto la distribución es trimodal.
Frecuencias
Observación
fi fia fr (%) Fra
1.20 1 1 3.33 3.33
1.21 4 5 13.33 16.66
1.22 4 9 13.33 30.00
1.23 2 11 6.67 36.66
1.24 1 12 3.33 40.00
1.25 2 14 6.67 46.66
1.26 3 17 10.00 56.66
1.27 3 20 10.00 66.66
1.28 4 24 13.33 80.00
1.29 3 27 10.00 90.00
1.30 3 30 10.00 100.00
Total 30 100
Mo=Licm+Acm[ficm-ficpremficm-ficprem+(ficm-ficpostm)]
Donde:
Mo = Moda
Ejemplo:
personas.
De hecho la variable estatura es una variable cuantitativa continua, además la tabla lo demuestra ya
que entre los intervalos no existe ruptura, es decir, que el límite superior de la primera clase es el
inferior de la siguiente clase. Es por ello que se dicen que son abiertos por la izquierda y cerrados
por la derecha.
Intervalos de Clase PMC fi
(0.98 a 1.15] 1.065 2
(1.15 a 1.32] 1.235 5
(1.32 a 1.49] 1.405 8
(1.49 a 1.66] 1.575 7
(1.66 a 1.83] 1.745 4
(1.83 a 2.00] 1.915 4
En este caso la clase modal sería aquella que tiene mayor frecuencia absoluta, esta es:
Mo=Licm+Acm[ficm-ficpremficm-ficprem+(ficm-ficpostm)]
Estas son las medidas que miden como se dispersan los datos, generalmente alrededor de una medida
Rango o Amplitud
Dispersión Relativa
Generalmente las más utilizadas son: Varianza, Desviación típica y Dispersión relativa o Coeficiente
Rango
Tiene la ventaja de ser fácil su determinación, pero no es una buena medida de dispersión ya que
solo toma en cuenta dos valores de toda la colección y no idea de cómo es la variabilidad dentro de
los datos.
Varianza
población se la llama Varianza Poblacional (σ²) y si es en una muestra se le llama Varianza Muestral
(s²).
La Varianza Población o Variancia de una población finita de N elementos x1, x2, x3, ...xn; se define
como la media aritmética del cuadrado de las desviaciones de las observaciones respecto a su media
σ²= i=1N(xi-μ)² N
En caso de que sea muestral y para datos no organizados en una tabla de frecuencia absoluta y
Existe una fórmula de trabajo mucho más rápido para determinar la varianza muestral para datos no
tabulados que resulta de desarrollar en trinomio cuadrado perfecto de la ecuación. Esta fórmula es:
Ejemplo:
S= i=1kxi²- (i=1kxi)²nn-1
(37.6)²
47.1558 -
S² = 30
30-1
S² = 0.00105 m²
Dado que se determina o se estima la varianza se eleva al cuadrado las unidades originales de
medición razón por la cual no se debe comparar con la media aritmética ya que ésta es medida en
unidades lineales. Por esta razón, es que se propone una nueva medida de dispersión llamada
Desviación Típica.
Desviación Típica
No es más que la raíz cuadrada positiva de la varianza. En este sentido se puede hablar entonces
σ = √σ²
S = √S²
Este dato indica que los datos se dispersan en promedio 0.0324 m del promedio de la variable
Estatura.
Coeficiente de Variación
Todas las medidas de dispersión antes descritas son medidas de variación absoluta. Una medida de la
dispersión relativa de los datos, que toma en cuenta su magnitud, está dada por el Coeficiente de
Variación.
Coeficiente de Variación (C.V): Es una medida de dispersión relativa de un conjunto de datos, que
se obtiene dividiendo la desviación estándar del conjunto datos entre su media aritmética.
C.V=sx
Cuando se multiplica por 100 se expresa en porcentaje indicando tanto por uno que se alejan los
C.V=Sx*100
Ejemplificando con los datos anteriores se tendría:
C.V = (0.0324/1.253)*100 = 2.586%, indicando con ello que por cada valor de la media los datos se
Ejemplo.
Nótese que solo piden CV, entonces necesitamos dos insumos, la desviación típica y la media
aritmética de los mismos. Como se necesita S, entonces se necesita de S². Entonces realizando los
cálculos necesarios en la misma tabla se obtienen todos los insumos para la estimación del
Coeficiente de variación como se muestra a continuación. Note que lo que se hizo fue generar los
S= i=1kxi²- (i=1kxi)²nn-1
(45.21)²
69.9 -
S² = 30
30-1
S² = 0.0609
S = 0.0780
x= i=1kPMC*fin
x= 45.21/30 = 1.507
C.V=Sx*100
Una curva unimodal se puede deformar de dos maneras, respecto a un eje horizontal o bien respecto
a un eje vertical.
Cuando se trata de una deformación horizontal se habla de Asimetría y cuando se habla de
deformación vertical se habla de Curtosis.
Asimetría
Asimetría es el grado de deformación horizontal que presente una curva unimodal respecto al eje
horizontal. De acuerdo a ello se puede tener lo siguiente:
Asimetría Positiva: Se dice que una distribución de frecuencia unimodal presenta asimetría positiva
o a la derecha, si tiene una ramificación más extendida hacia la derecha o hacia los valores grandes
de una variable. Esto indica que la variable tiende a tomar valores mayores que su promedio y la
relación que se establece entre las principales medidas de tendencia central es la siguiente:
x>Me>Mo
Gráfica
Asimetría Negativa: Una distribución unimodal tiene asimetría negativa o hacia la izquierda, si tiene
una ramificación más extendida hacia la izquierda indicando con ello que la variable tiende a tomar
valores inferiores a su promedio. En este caso, la relación que se establece entre las principales
Coeficiente de Asimetría
La medida más usada para cuantificar la asimetría de la distribución de frecuencias de una
característica X, recibe el nombre de coeficiente de asimetría y tiene por ecuación:
n
Σ(xi – x )3
i=1 n
CAs =-------------- (para datos no tabulados)
s3
Aquí se puede observar que si existen observaciones muy grandes en relación a la media, el
coeficiente de asimetría tendrá un valor positivo. Si existen observaciones muy pequeñas (menor
que la media), el coeficiente de asimetría será negativo y, finalmente, si las observaciones están
simétricamente distribuidas alrededor de la media, el coeficiente de asimetría tendrá el valor de
cero.
Ejemplo.
Sea los siguientes datos:
6.2, 7.9, 8.1, 8.5, 8.5, 8.9, 9.1, 10.8
Determine el CAs.
_
x = 8.5
s = 1.29
s3 = 2.1388
0/8
CAs = ------- = 0.00; ∴ la distribución es simétrica
2.1388
k _
Σfi(xi - x)²
i=1
s² = ------------ = 5217.468/83.1 = 63.628
n-1
s3 = 507.542
n
Σfi(PMC – x )3/n
i=1 (81341.774)/83
CAs =-------------- = CAs = --------------- = 1.931
s3 507.542
∴: la Asimetría es Positiva
Medidas de Curtosis
n _
Σ (PMC - x)4 fi
i=1-------------
n
K = -----------------------; para datos tabulados
s4
Al tomar como referencia a K (en función de momentos) es positiva y se define de esta forma
porque en una distribución normal, este coeficiente toma el valor de 3, es decir, se tiene que:
Experimento Aleatorio
comportamiento de un fenómeno, ya sea en estado natural o bien bajo control. Al proceso mediante
• Experimento Determinístico
• Experimento no Determinístico
describirse por una fórmula matemática llamada también modelo determinístico (no son de interés
Ejemplo...
Supóngase que el experimento consiste en lanzar un objeto (piedra) al aire. De hecho ésta va a caer
porque posee un peso y por la fuerza de gravedad que ejerce la tierra. De hecho se puede saber
cuál es el tiempo que tardará en hacerlo. Este experimento se puede modelar por la ecuación de
caída libre de los cuerpos. En este caso de hecho se sabe cuál será el resultado que se obtendrá.
Otro ejemplo sería si se lanza una pelota al agua, ésta de hecho flotará, en caso de ser de hierro
pues no flotará.
Ejemplo...
Supóngase que un experimento consiste en la aplicación de un sedante a una persona que tiene dolor
de cabeza. Aquí los posibles resultados pueden ser {sanos, enfermos}. En este caso no se sabe a
Otro ejemplo sería el lanzamiento de un dado legal. Aquí los resultados posibles son: {1, 2, 3, 4, 5,6}.
Se sabe cuáles son los posibles resultados, pero no se sabe cual precisamente.
.- Cada experimento se puede repetir indefinidamente sin cambiar esencialmente las condiciones.
.- Cada experimento tiene varios resultados posibles que pueden describirse con anterioridad con
precisión (resultados apriori). Entonces a un experimento que presentas las tres características
que pueden ser escritos con precisión. Entonces: A todo los resultados posibles asociados a un
Ejemplo...
Extraer un artículo defectuoso de un lote que contiene artículos defectuosos "D" y no defectuosos
"N"
M = {D, N}
M = {1, 2, 3, 4, 5,6}
Los experimentos aleatorios pueden ser simples o compuestos. Experimentos aleatorios simples son
Un experimento aleatorio compuesto consiste en dos o más experimentos simples que puede ocurrir
Considérese el caso de experimento aleatorio compuesto: aquellos en que los experimentos simples
están unidos por la partícula gramatical "o" en el sentido excluyente y aquellos donde los
sí, sólo sí, el experimento ε ocurre, cuando el experimento ε1 ó ε2 ocurren (pero no ambos) .
Esto quiere decir que ocurren de forma sucesiva pero no al mismo tiempo.
Ejemplo...
M2 = {C,S} ... lanzamiento de la moneda ε2. Por lo tanto, el espacio muestral asociado a ε, es la unión
de M1 y M2. Es decir:
M = M1 υ M2 = {1, 2, 3, 4, 5, 6, C, S}
Aquí se puede observar que el experimento ∈ ocurre, si los tres experimentos simples ocurren... ∈i
= 1,2,3; i= i-ésimo lanzamiento de la moneda. Esto es:
M1 = {C,S}
M2 = {C,S}
M3 = {C,S}
M3
M1*M2
M2 C S
M1 C S CC CCC CCS
C CC CS CS CSC CSS
S SC SS SC SCC SCS
SS SSC SSS
Otro ejemplo podría ser el experimento aleatorio compuesto consistente en el lanzamiento de una
M2
M1 1 2 3 4 5 6
C (C,1) (C,2) (C,3) (C,4) (C,5) (C,6)
S (S,1) (S,2) (S,3) (S,4) (S,5) (S,6)
En muchos casos un diagrama, conocido con el nombre de Diagrama del Árbol, es más sugerente para
(2n) = 24 = 16
En este caso el espacio muestral se obtiene con los resultados que tiene cada rama del árbol, es
ha definido al espacio muestral como todos los posibles resultados de un experimento aleatorio, es
decir, se puede concebir al espacio muestral como un conjunto universo. Si se ve desde este punto
de vista, se puede hablar entonces de subconjunto y elementos de este conjunto universo llamado
espacio muestral. Se llama Evento a cualquier subconjunto del espacio muestral y se le denota por
M = {1, 2, 3, 4, 5, 6}
Dado que ya se ha identificado el espacio muestral como conjunto universal, los eventos como
subconjunto del espacio muestral, se identificará también el conjunto vacío (∅) de la teoría de
conjunto como el evento imposible, esto es, un evento que no se da o sea que no ocurre. Por ejemplo,
lanzar dos dados simultáneamente, y sea el evento A: "obtener suma de 14". De hecho esto nunca va
a suceder ∴ A = {∅}.
Sub-evento: Dados dos eventos, A y B se dice que A está contenido en B o que a es sub-evento de
A⊂ B
Igualdad de Eventos: Se dice que dos eventos A y B son iguales si, A⊂B y B⊂A. Esto es: A = B = A⊂
B y B⊂A.
Unión de Eventos: Dados dos eventos A y B, se llama unión de A con B y se denota por A∪B al
A∪B A∪B
Intersección: Dados los eventos A y B, se llama intersección de A con B, al evento formado por
todos los sucesos favorables a A y a B. Es decir, ambos eventos A y B ocurren. Esto es:
A B = {w ∈ M / w ∈ A ∧ w ∈ B}.
A∩B
formado por todos los sucesos que no pertenecen a A. Es decir, no ocurre el evento A. Esto es:
Ac = M - A = {wi ∈ M / wi ∈ A}
Ac
Dos eventos A y B definidos en el mismo espacio muestral, se dice que son mutuamente excluyentes
si no pueden ocurrir juntos. Es decir la ocurrencia de uno excluye la ocurrencia del otro. Es decir,
que A B = ∅
Enfoques de Probabilidades
probabilidades requiere niveles de abstracción y competencia matemática fuertes. Sin embargo, hay
autores que plantean enfoques a través de los cuales se puede abordar las probabilidades. Estos
enfoques son:
3. Probabilidad subjetiva
Enfoque Clásico o A priori: Llamado también Este definición se basa en el supuesto de que todos
los resultados posibles de un experimento aleatorio son igualmente probable, es decir, cada suceso
(sucesos) favorables y el número total de casos (sucesos) posibles, siempre que nada obligue a
creer que alguno de estos sucesos deban de tener preferencia a los demás, lo que hace que
PA=nAM
Observaciones:
4.- Puesto que todos los elementos de M = (w1, w2, ..., wn} son igualmente probables ⇒ P[{wi}] = 1/n; i
Ejemplo..... Si se lanza una moneda tres veces. Calcular la probabilidad que ocurran:
El espacio muestral de este experimento lo puede obtener a través de producto cartesiano o bien a
c.- C = {CCS, CSC, CSS, SCC, SCS, SSC, SSS} ⇒ P[C] = 7/8
Ejemplo
d.- Que el resultado del primer dado sea mayor que el resultado del segundo dado.
A = {(w1,w2) ∈ M / w1 + w2 = 7}
B = {(wi,w2) ∈ M / w1 + w2 = 6}
C = {(w1,w2) ∈ M / w1 + w2 > 5}
Determinando el espacio muestral a través del producto cartesiano de los dos espacios muestrales
simples de los experimentos que conforman este experimento compuesto se tendría lo siguiente:
M2
M1 1 2 3 4 5 6
1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
3 (3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
4 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
5 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
6 (6,1) (6,2) (6,3) (6,4) (6,5) (6,6)
Supóngase la siguiente pregunta: ¿Cuál es la probabilidad de que la mitad o más de los estudiantes de
Esta2 obtengan notas aprobatorias?. En este caso y en muchos más, no sirve de nada enumerar todos
los resultados posibles. Como se puede observar esta pregunta no se puede responder utilizando la
definición clásica de probabilidades, dado que se necesita mayor información. Esto conlleva a la
Si un experimento bien definido se repite n veces (n grande): sean nA < n el número de veces
que el evento A ocurren los n ensayos, entonces la frecuencia relativa de veces que ocurre el
P[A] = nA/n
Observación:
nM/n = 1
Ejemplo.
Solución.....
Probabilidad desde el punto de vista subjetivo está relacionada con una presunción,
creencia o como algunos autores le llaman corazonada, por lo tanto, puede variar de una
persona a otra.
3. P[AUB] = P[A] + P[B]; siempre y cuando los eventos A y B ocurran por separado o de
forma independiente.
estos dos requisitos se dicen que forman una partición del espacio muestral M.
que se dice que el evento B ha ocurrido y se quiere saber la probabilidad que ocurra el
evento A.
PA/B=PA∩BPB; PB≠ 0
Es decir, la probabilidad condicional es una probabilidad calculada en un espacio muestral
calculando la P [A∩B] y P [B] con respecto al espacio muestral original, o bien considerando
la probabilidad del evento A con respecto al espacio muestral reducido B, es decir, del
Ejemplo...
Una empresa tiene 300 trabajadores de los cuales 100 son casados y 30 son divorciados. En
dicha empresa trabajan 200 hombres, 85 de los cuales son casados y 95 son solteros. Se
Solución
Lo primero que se tiene que hacer es extraer la información que proporciona el problema y
ver como se puede completar la siguiente. Por otro lado se debe de partir del hecho que la
información proporcionada se puede clasificar de acuerdo a dos criterios los cuales son: el
sexo de los trabajadores y el estado civil de los mismos. En el caso del ejemplo se dispone
Estado Civil
Casado Soltero Divorciado
Sexo (C) (D) (E) Total
Femenino (A) 15 75 10 100
Masculino (B) 85 95 20 200
Total 100 170 30 300
Como se puede observar se está totalizando tanto por filas como por columnas, es decir, de
respecto al espacio muestral original y respecto al espacio muestral restringido del evento
PAD=P[A∩D]P[D]= 75/300170/300=75170
PA∩D= 75300
PD= 170300
Para el segundo caso, es decir, respecto al espacio muestral restringido del evento
condiciónate se tendría que ver cuántas veces se repite el evento trabajador de sexo
tiene que:
PAD=P[A∩D]P[D] = 75170
Como se puede observar ambos resultados coinciden en el mismo resultado.
Esto tiende a confundir pensando que es el mismo del inciso a., sin embargo el evento
PDA=P[D∩A]P[A] = 75100
c. ¿Cuál es la probabilidad que sea mujer o esté casada?
PA∪D=PA+ PB- P[A∩D]
PA∪D=100300+ 170300- 75300=95300
Independencia de Sucesos
segundo evento. Sin embargo, hay muchos casos donde los eventos están totalmente sin
Sean A y B dos eventos y sea P [B] ≠ 0., A y B son eventos independientes si:
condiciones:
Ejemplo...
Un impulso eléctrico debe de pasar del punto I al II para producir una señal. Para llegar al
punto II debe de pasar por dos componentes electrónicos (E1 y E2). La trayectoria del
P [AUB] = 0.94
Para que se produzca el impulso eléctrico, ninguno de los componentes (E1 y E2) deben de
Probabilidad Total
Sean A1, A2,..., Ak, eventos que forman una partición del espacio muestral y Sea B un
evento en el espacio muestral. Si P[A1], P[A2],..., P[Ak], P[B/A1], P[B/A2],..., P[B/Ak] son
esta probabilidad se hace uso del Teorema de Probabilidad Total que partiendo de las
Ejemplo:
Un profesor tiene tres secretarias con diferentes niveles de competencia. Las secretarias
son S1, S2, S3. La secretaria S1 ha escrito el 20% de un trabajo, la secretaria S2 el 40%
éste ha calculado que S1 lo comete el 90% de las veces que tiene que escribir la palabra en
P [S1] = 0.20; P [S2] = 0.40; P [S3] = 0.40; P [ES1]=0.90; P [ES2]=0.40; P [ES3]=0; entonces
continuación
P [E/S3]
[S1] == 0.20
[S2]
[S3]
[E/S1]
[E’/S1]
[E/S2]
[E’/S2] 0.40
===0.90
0.60
0
0.10
10.40
Supóngase ahora que el evento “B” ya ha ocurrido y se está interesado en saber a cuáles de
los eventos que forman la partición del espacio muestra se ha debido su ocurrencia. En este
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Universidad Autónoma “Gabriel René Moreno”
Facultad de Ciencias Tecnológicas
Unidad de Postgrado de Tecnología
Maestría: “Sistemas Integrados de Gestión de Calidad, Medio Ambiente y Seguridad
Módulo: Métodos Estadísticos para la Toma de Decisiones Empresariales
caso se hace uso del Teorema de Bayes que partiendo también de las premisas anteriores
probabilidad total.
Ejemplo>
probabilidad de que esa página la haya escrito secretaria S1?, ¿la secretaria S2?, ¿la
secretaria S3?
P S1E= P S1*PES1P [E]= (0.20*0.9)0.34=0.53
estas variables que influyen en el análisis estadístico, permite conocer la naturaleza de las
relaciones y utilizar esta información para mejorar la descripción y las inferencias de las
Al probar las relaciones entre variables es importante que el valor de la variable pueda ser
formulación de modelos matemáticos que describen las relaciones entre variables y el uso
Al igual que en otros tipos de análisis estadísticos, el modelo de Regresión Lineal Simple se
"X"
Este supuesto quiere decir que para cualquier valor de "X", "Y" es una variable aleatoria con
cierta distribución probabilística con media μy/x y σ²y/x. Note que esta suposición solamente
implica que "Y" es una variable aleatoria que depende de "X", y no toma en cuenta la forma
lineal. Por otra parte, significa que la variable X se mide sin error y fijada por el
investigador.
Esta suposición requiere que la ecuación para μ y/x sea una línea recta, es decir que μ y/x = ß0 +
ß1Xi y, por lo tanto, que la ecuación de dependencia sea Y = ß 0 + ß1Xi+ ε. Con esta restricción,
la línea que une a μy/x debe de ser una recta, por lo tanto se puede tener una de las
siguientes situaciones:
Puede ser que se tenga una relación positiva entre las variables X y Y, esto quiere decir que
Otra situación que se puede dar es una relación inversa, es decir, que a medida que aumenta
X, Y disminuye.
tangente inversa del ángulo de inclinación de una recta. En los dos primeros casos las rectas
tienen pendiente y en el tercer caso, no hay pendiente lo cual indica que no existe regresión
distribuciones de "Y" son idénticas para todos los valores de "X". En otras palabras, se
supone que σ²y/x1 = σ²y/x2 = σ²y/xn = σ², donde σ² es la varianza común (desconocida) para
todas las distribuciones de "Y", independientemente del valor de "X". Esto quiere decir, que
la media de "Y" se modifica con el valor de "X", pero la varianza se mantiene constante.
Supuesto 4. Independencia
Los valores de "Y" deberán ser estadísticamente independiente. Un ejemplo donde se viola
Supuesto 5. Normalidad
La distribución de "Y" para cualquier valor de "X" es normal. Esto equivale a suponer que la
variable aleatoria no observable ε es normal y su media es cero ya que "X" se toma como
1. "Y" es una variable aleatoria cuya distribución probabilística depende del valor de "X".
3. Homogeneidad de varianza.
4. Independencia de las observaciones lo que implica que los errores son independientes.
5. Normalidad.
Diagrama de Dispersión
Este diagrama tiene por objetivo dar una idea de la posible relación existente entre la
Para realizar un diagrama de dispersión se coloca en el eje de las abscisas los valores
dólares.
Para construir un diagrama de dispersión lo primero que se tiene que hacer es determinar
relación entre dichas variables. Esta relación debe ser lo más natural posible.
En el caso del problema, es de suponerse que a medida que aumenta la producción también
se incrementarán los costos de producción por todo lo concerniente a ello (materia prima,
tiene lo siguiente:
30 10
32 14
26 12
12 3
que a medida que aumenta la producción de las industrias, aumentan los costos de
producción de las mismas, es decir, se concluir que existe una relación positiva entre estas
variables y además se puede ver que esta relación tiende a ser lineal.
Como lo plantea el supuesto 2 del modelo de regresión lineal simple, "Modelo de la Línea
Recta", que de existir una relación entre X y Y, ésta debe ser una línea recta. Entonces a
partir de muestra (x1, y1), (x2, y2),..., (xn, yn), de las variables "X" y "Y", se trata de
obtener una ecuación que represente la relación entre dichas variables. El modelo del cual
se habla es de una ecuación punto pendiente como sigue: Yi= β0+ β1Xi
El problema de esta modelo es que sus componentes son parámetros y por lo tanto, son
Para llegar a obtener estos estimadores se hace uso de la técnica propuesta por Carl Gauss
(1777-1855). Este método se basa en la idea de obtener estimadores para los componentes
del modelo que minimicen la suma de cuadrados de las distancias entre los valores
observados (Yi) y los estimados (Yi). Esto significa que se tiene que minimizar la suma de
cuadrados de las longitudes de los segmentos de las líneas verticales que unen los datos
estimadores de ß0 y ß1.
ß0 y ß1^ (en este caso se ha omitido los procesos de derivación mediante el cual se llega a
obtener las fórmulas de trabajo). Estas ecuaciones son las siguientes:
Retomando los datos que se utilizaron para construir el diagrama de dispersión y aclarando
que “X” es Producción (miles de millones de $us) y “Y” Costos (miles de millones de $us) y
tiene lo siguiente:
X Y XY X2 Y2
10 3 30 100 9
18 5 90 324 25
12 4 48 144 16
16 5 80 256 25
22 8 176 484 64
36 12 432 1296 144
30 10 300 900 100
32 14 448 1024 196
26 12 312 676 144
12 3 36 144 9
Totales 214 76 1952 5348 732
Promedio 21.4 7.6
una variable independiente, es por ello que se debe estar seguro que la ecuación de
estimación sirve para este propósito (que existe regresión lineal simple). Por esta razón es
puede ser explicada o debida a “X”, es por ello que mientras más cerca esté del 100% es
mucho mejor. Esto es debido a que se trata de predecir el comportamiento de “Y” a través
del conocimiento de “X”, es por ello que es deseable que el mayor porcentaje de la
variabilidad de la variable dependiente sea debida a “X”, a tal punto que hay autores que
R²=1952- (214*76)105348-(214)²10732-(76)²10²*100=89.36%
Esta dato indica que del 100% de la variabilidad de Y (Costos), el 89.36% es debido a X
(Producción), por lo tanto también se puede concluir que existe un 10.64% de variabilidad
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Universidad Autónoma “Gabriel René Moreno”
Facultad de Ciencias Tecnológicas
Unidad de Postgrado de Tecnología
Maestría: “Sistemas Integrados de Gestión de Calidad, Medio Ambiente y Seguridad
Módulo: Métodos Estadísticos para la Toma de Decisiones Empresariales
explicada. En este caso se puede concluir también que la ecuación estimada sirve para
en fuentes de variación conocidas que en el caso de regresión lineal son las siguientes:
• debida a la regresión
Para tratar de ser un poco más explícito, estas dos fuentes de variación se derivan del
Yi= β0+ β1Xi+ εi. Esto tiene correspondencia con una tabla de varianza o salida de varianza
que para regresión lineal simple es la siguiente:
FV gl SC CM Fc Ft
Regresión SCRegresión SCRegresión1 CMRegresió (α, glreg, glerr)
1
nCMError
Error n-2 SCError SCErrorn-2
Total n-1 SCTotales
fuentes de variación en las que se está partiendo la variabilidad total. Nótese que en esta
tabla no se incluye el efecto de β0, ya que éste es una constante por lo tanto no es una
fuente de variación.
La segunda columna encabeza por “gl” (Grados de Libertad). De forma general grados de
que son dos los parámetros que se estiman, β0 y β1, por lo tanto, 2-1 = 1. Es por ello que
para el ANARE de regresión lineal simple, esta fuente de variación siempre tiene 1 grado
de libertad y los grados de libertad del error, siempre en este caso, son n-2. Por “n” se
La tercera columna es la de Suma de Cuadrados (SC) que vienen a ser los componentes de
La cuarta columna es para los Cuadrados Medios (CM) que viene a ser las estimaciones
propiamente dichas de las varianza de cada una de las fuentes de variación. Estas resultan
La quinta columna denominada como “Fc” se refiere a los “F” calculados que resultan de
dividir el cuadrado medio de regresión entre el cuadrado medio del error, es decir, de la
variabilidad no debida a la regresión. Es por ello que el error se considera como un término
del error es mayor que el cuadrado medio de regresión, el resultado que se obtendrá será
pequeño y posiblemente menor que el valor de la siguiente columna “Ft” o “F” de tabla, valor
que se extrae de una tabla de “F” con un nivel de significancia, grados de libertad de
Para entender mejor lo anterior se debe de partir del juego de hipótesis que se prueba en
Ho: β1 = 0
Ha: β1 ≠ 0
La hipótesis nula (Ho) asume el efecto de igual o nulidad de efecto y es la hipótesis que se
somete a prueba. Partiendo del hecho de que asume el efecto de nulidad, en este caso
indica que no existe regresión lineal simple, y asume que la relación entre X y Y es una línea
Por hipótesis alternativa se entiende aquella que contradice a la hipótesis nula y que es
aceptada una vez que se rechaza la hipótesis nula. Es por ello que está como β1 ≠ 0 ya que
una igualdad se contradice con una desigualdad. Esto significa que la recta tiene pendiente,
Ahora bien, todo el ANARE se hace para realizar la prueba de hipótesis de que si existe o
Al realizar la prueba de hipótesis se debe llegar una decisión de aceptar o rechazar Ho.
No Rechazo de Ho si Fc Ft
Rechazo de Ho si Fc Ft
Si la hipótesis nula no se rechaza significa que no existe regresión lineal simple, por lo
acepta la hipótesis alternativa la que indica que sí existe regresión lineal simple.
probabilidad de tomar una decisión equivocada (conocido también como Error Tipo I) es por
FV gl SC CM Fc Ft
Regresión 1 137.6897 137.6897 67.0389 11.26
Error 8 16.4310 2.053875
Total 9 154.4
De los resultados de la tabla se puede observar que el “Fc” es mayor que el “Ft” lo cual
indica que existe suficiente evidencia para rechazar la hipótesis nula, es decir, que existe
regresión lineal simple y por lo tanto se dice que la ecuación estimada sirve para predecir el
Cuando se realiza un análisis de varianza de la regresión se debe emitir una conclusión que
Una vez que se ha comprobado que la ecuación estimada es buena (hay regresión lineal) el
Cuando se hacer una interpretación, ésta debe ser aplicada al problema en cuestión. En el
β1: Este es el coeficiente de regresión que indica la cantidad de cambios que experimenta
“Y” por un cambio en “X”. En este caso indica que por Un mil millones de dólares que se
de dólares. Esto porque la pendiente encontrada fue positiva, si hubiera sido negativa,
como el punto donde la recta de estimación corta al eje de las ordenadas cuando “X”
toma el valor de cero. En el caso del ejemplo, β0 =-1.46798, esto estaría indicando que
cuando la producción es cero, los costos son de -1.46798 miles de millones de dólares.
Como se ve esta interpretación carece de lógica lo cual hace que se interprete como se
ha mencionado anteriormente.
investigación realizado por Martínez (1995) donde ajustó pesos de becerros al nacimiento.
Cualquier recta se define por dos puntos y en el caso de la recta de regresión lineal simple,
ésta pasa por dos puntos obligados cuyas coordenadas son: (x , y) y (0, β0). La recta de
estimación debe dibujarse dentro del área de exploración, es decir, el área determinada
Para el caso del ejemplo que se ha venido tratando la gráfica de la recta de estimación
Regresión no Lineal
consideran para cursos superiores de estadística lo que se trata es dejar plasmado que una
relación entre dos variables no siempre es una línea recta, ésta puede ser logarítmica,
exponencial o bien cuadrática o cúbica. Uno de los criterios para definir el ajuste de
modelo es el R² y además el Cuadrado Medio del Error del análisis de varianza. En estos
Regresión Múltiple
No siempre la dependencia en caso de existir se pueda deber a una sola variable, puede ser
que “Y” como variable dependiente se vea afectada por más de una variable independiente,
en este caso se habla de regresión lineal múltiple, aspecto que no se desarrolla en este
documento.
Así como existen técnicas que cuantifican los cambios de una variable dependiente por un
lineal entre dos variables, esta técnica es llamada Correlación Lineal Simple que se exprese
como también la magnitud de ésta, partiendo del hecho que el coeficiente de correlación
lineal simple toma valores en el rango de: r es 0≤ r ≤ 1. Entre más se acerca a 1 el valor de r
-0.8 ≤ r < -0.4 Asociación débil y negativa 0.4 ≤ r < 0.8 Asociación débil y positiva
-0.4 ≤ r ≤ 0 No hay asociación 0.8 ≤ r ≤ 1 Asociación fuerte y positiva
Este valor indica que existe una asociación fuerte y positiva entre estas variables, es decir,
BIBLIOGRAFIA CONSULTADA
CALZADA, B.J. 1988. Estadística General con Énfasis en Muestreo. Edit. ____. Lima, Perú.
CHAO, L.L. 1993. Estadística para las Ciencias Administrativas. 3ra. Edic. Edit. McGraw-Hill.
Bogotá, Colombia.
LEVIN, I.R. 1988. Estadística para Administradores. 2da Edic. en español. Edit. Prentice-Hall
Hispanoamericana, S.A. México.
MARTINEZ, S.F. 1996. Diseños Experimentales: Una herramienta para el investigador. Santa
Cruz, Bolivia.
Por: Ing. M.Sc. Francisco Martínez Solaris
Mgs. En Educación Superior
Universidad Autónoma “Gabriel René Moreno”
Facultad de Ciencias Tecnológicas
Unidad de Postgrado de Tecnología
Maestría: “Sistemas Integrados de Gestión de Calidad, Medio Ambiente y Seguridad
Módulo: Métodos Estadísticos para la Toma de Decisiones Empresariales
MOYA, C.R. 1992. Estadística Descriptiva. Conceptos y Aplicaciones. Edit. San Marcos. Lima,
Perú.
REYES, C.P. 1990. Diseño de Experimentos Aplicados. 3era. Edi. Edit. Trillas. México, D.F.
RODRIGUEZ del ANGEL, J.M. 1991. Métodos de Investigación Pecuaria. Edit. Trillas.
México, D.F.
SNEDECOR, W.G. and W.G. COCHRAN, 1976. Statistical Methods. 6ta. Edic. Edit. The
Iowa State University Press. Ames, Iowa. U.S.A.
SPIEGEL, R.M. 1995. Estadística. 2da. Edi. Edit. Mcwraw-Hill. México, D.F.
STEEL, D.R.G. y J.H. TORRIE. 1992. Bioestadística. Principios y Procedimientos. 2da. Edi.
Edit. McGraw-Hill. México, D.F.