Академический Документы
Профессиональный Документы
Культура Документы
descriptiva e inferencial”
1. SEMANA 1
1.1. Dato
Es el registro de un valor observado.
En esta población hipotética, el universo está constituido por cinco personas: Juan, Anita,
Luis, Marı́a y Antonio. Pero de acuerdo a nuestro interés en el estudio, existen dos poblaciones,
las estaturas o los pesos. Debido a la correspondencia numérica entre los dos conceptos, a veces
tienden a confundirse. Realmente, siempre nos interesa el estudio estadı́stico sobre una población.
Nunca sobre un universo. Si fuera de interés el número de personas que se llaman “Juan”, entonces
la población serı́a el conjunto de nombres, pero no las personas en sı́ mismas. En este caso las
personas seguirı́an siendo el universo mientras que el conjunto de sus nombres son la población.
En pocas palabras, la población la constituyen el conjunto de datos a observar de los elemento
del universo.
Cuando lo que se observa es un solo dato de cada elemento del universo, se dice la población
está asociada a una variable univariada. En el ejemplo anterior, el conjunto de todas las estaturas
es una población formada por una variable univariada. Igual sucede si se tomen el conjunto de
datos que conforman los pesos.
Ahora supóngase que es de interés recoger ambas caracterı́sticas de cada una de las personas
que conforman la población, estatura y peso, entonces se tendrı́a que cada dato es un dato “doble”,
donde la población está asociada a una variable bivariada. Ası́, cada dato está formado por un
par de datos que son estatura y peso. Este par de datos forman un vector de dos dimensiones y
se llama dato bivariado.
Es posible que sea de interés cada población por separado donde cada una sirva para un
estudio diferente, como también podrı́a ser con la medición de un componente en la sangre
(hierro o colesterol), del ı́ndice de masa corporal o la tensión arterial. Pero también puede ser
de interés medir todas estas variables en cada persona simultáneamente con el fin de estudiar
la relación que éstas tienen entre sı́. Este serı́a el caso de una población asociada a una variable
multivariada. Cada dato es un vector aleatorio de tantas dimensiones como datos se recojan de
cada elemento del universo. Fı́jese que un vector aleatorio puede descomponerse en varios datos
únicos e indivisibles donde cada uno es una observación de una cualidad o valor de un elemento
del universo.
2
Fundamentos de estadı́stica descriptiva e inferencial - Ronald Pietri
1.4. Muestra
Es cualquier subconjunto de la población. La utilidad de la muestra depende de que tanto
represente a la población en términos estadı́sticos. Esto será explicado más adelante. Una muestra
está conformada por uno o más datos de la población pero sin tomar toda ésta, es decir; si la
población tiene 10000 resultados, entonces una muestra debe ser un conjunto de valores que debe
estar entre 1 solo y 9999 datos. Tomar toda la población es idóneo porque es más preciso para
el estudio, pero hay muchos casos en que esto no es posible. Si se desea saber el número de
animales de una especie determinada, no es posible contarlos a todos. Solo puede estimarse su
población en base a su distribución en una muestra. También es el caso de unas elecciones donde
se puede estimar el candidato ganador en base a un sondeo de opinión y donde es imposible hacer
unas elecciones paralelas con todos los ciudadanos participantes. Existe un concepto asociado al
muestreo llamado “Espacio muestral”.
3
Fundamentos de estadı́stica descriptiva e inferencial - Ronald Pietri
La población tiene 5 datos o, lo que es lo mismo, tiene tamaño 5, pero el espacio muestral
tiene tamaño 20. Si la muestra se hubiera tomado de tamaño 3, el espacio muestral hubiese tenido
tamaño 60 porque es la cantidad de tomas que se pueden hacer de tres en tres.
Fı́jese que cada par de datos es contado como uno diferente cuando se invierte el orden, esto es,
la muestra 1.82Mts, 1.76Mts se cuenta como un resultado distinto a 1.76Mts, 1.82Mts. En el caso
de que no sea de interés el orden de los elementos, se cuentan como una sola observación. Aquı́ se
está presentando en la forma más básica y desglosada posible. También se puede observar que en
este ejemplo no se repiten los datos como en el caso de que una persona pueda ser seleccionada
dos veces para tomar su estatura. Puede haber casos donde se repitan o donde no. Esto depende
del estudio y se aclarará más adelante.
En el caso de que se tenga que hacer el muestreo con la variable bivariada que comprende un
vector de dos variables que son estatura y peso, La población sigue teniendo 5 datos (tamaño 5)
y si se desea tomar una muestra de tamaño 2, también el espacio muestral tendrá 20 resultados
posibles (espacio muestral de tamaño 20). No debe confundirse el orden del vector de muestra,
que puede comprender estatura en la primera componente y peso en la segunda, o al revés, con
el orden en el cual se toman los vectores de muestra. El orden de los componentes del vector se
define previamente y no influye en el estudio. Puede ser (Mts , Kg) o (Kg , Mts). Pero no es lo
mismo el resultado Juan , Anita que Anita , Juan que a efectos de los datos que interesa recolectar
se escriben (1.82Mts , 78.5Kg) , (1.76Mts , 67.2Kg) y (1.76Mts , 67.2Kg) , (1.82Mts , 78.5Kg)
respectivamente. Aquı́ se asume que el primer componente del vector es la estatura y el segundo el
peso que, como se dijo antes, este orden no influye en el estudio y se define arbitrariamente. Una
vez definido, ese orden no debe cambiarse. Los vectores son indivisibles porque es claro que no
puede asociarse el peso de una persona con la estatura de otra por ejemplo. Si en la recolección
de los datos, se hubiera deseado que sea bivariado, entonces los posibles resultados en el caso
anterior se pueden escribir o representar igual para los elementos del universo seleccionados a
observar:
{Juan, Anita} {Anita, Juan}
{Juan, Luis} {Luis, Juan}
{Juan, Marı́a} {Marı́a, Juan}
{Juan, Antonio} {Antonio, Juan}
{Anita, Luis} {Luis, Anita}
{Anita, Marı́a} {Marı́a, Anita}
{Anita, Antonio} {Antonio, Anita}
{Luis, Marı́a} {Marı́a, Luis}
{Luis, Antonio} {Antonio, Luis}
{Marı́a, Antonio} {Antonio, Marı́a}
Fı́jese que son los mismos elementos del universo seleccionados que en el caso anterior que
es univariado. Pero los elementos a recolectar de la población se escriben como vectores que se
corresponden a cada uno de los 20 datos anteriores en el mismo orden escritos:
{(1.82Mts, 78.5Kg), (1.76Mts, 67.2Kg)} {(1.76Mts, 67.2Kg) , (1.82Mts, 78.5Kg)}
{(1.82Mts, 78.5Kg), (1.80Mts, 76.8Kg)} {(1.80Mts, 76.8Kg) , (1.82Mts, 78.5Kg)}
{(1.82Mts, 78.5Kg), (1.72Mts, 64.5Kg)} {(1.72Mts, 64.5Kg) , (1.82Mts, 78.5Kg)}
{(1.82Mts, 78.5Kg), (1.78Mts, 72.1Kg)} {(1.78Mts, 72.1Kg) , (1.82Mts, 78.5Kg)}
{(1.76Mts, 67.2Kg), (1.80Mts, 76.8Kg)} {(1.80Mts, 76.8Kg) , (1.76Mts, 67.2Kg)}
{(1.76Mts, 67.2Kg), (1.72Mts, 64.5Kg)} {(1.72Mts, 64.5Kg) , (1.76Mts, 67.2Kg)}
{(1.76Mts, 67.2Kg), (1.78Mts, 72.1Kg)} {(1.78Mts, 72.1Kg) , (1.76Mts, 67.2Kg)}
{(1.80Mts, 76.8Kg), (1.72Mts, 64.5Kg)} {(1.72Mts, 64.5Kg) , (1.80Mts, 76.8Kg)}
{(1.80Mts, 76.8Kg), (1.78Mts, 72.1Kg)} {(1.78Mts, 72.1Kg) , (1.80Mts, 76.8Kg)}
{(1.72Mts, 64.5Kg), (1.78Mts, 72.1Kg)} {(1.78Mts, 70.2Kg) , (1.72Mts, 64.5Kg)}
4
Fundamentos de estadı́stica descriptiva e inferencial - Ronald Pietri
Cada resultado de una población se llama punto muestral, sea univariada, bivariada o mul-
tivariada, es decir, sea dato univariado (valor), bivariado (vector de 2 valores) o multivariado
(vector de varios valores). Cada punto muestral en el ejemplo anterior es cada resultado de del
dato o conjunto de datos observados de cada elemento del universo seleccionado. En los casos
anteriores son 20 puntos muestrales, tanto en el univariado como en el bivariado como se dijo
antes.
El número de elementos a seleccionar en una muestra se define antes del estudio. Pero lo
primero es definir la población, seguido luego de lo que debe responder el estudio. Para entender
esto veremos la definición de parámetro posteriormente.
Cuando se hace un estudio en estadı́stica, no importan tanto los datos individuales sino el
conjunto de ellos vistos como un todo. Esto hace que las descripciones exhaustivas de detalles, no
sean relevantes y no aporten a una información resumida que pueda dar una idea de la tendencia
del fenómeno. Puede que algunos datos sean interesantes a efectos de entender las razones de su
aparición, pero son excepciones. El objetivo de la estadı́stica es sintetizar algo que saque a la luz
algún denominador común en la masa de datos desordenados y confusa, puesto que el volumen
de datos hace imposible que con una mirada de inspección sencilla se pueda ver alguna relación
entre variables o coincidencias entre comportamientos.
La manera de obtener un resumen que describa un comportamiento de los datos o que haga
explı́cita, y de manera ordenada, alguna información oculta e implı́cita en los datos desordenados,
es con algo simple de interpretar que describa una o varias caracterı́sticas de la población. La
forma de sacar información es hacer cálculos con los datos para obtener valores útiles para tal
fin. Para poner el tema en contexto, se da la siguiente definición.
1.6. Parámetros
Un parámetro es un valor numérico que describe una caracterı́stica de una población. Puede
haber varios parámetros de una población que sirvan para describir varias caracterı́sticas de ella.
Véase que en la definición se aclara que su valor es numérico. No puede ser una frase o un
párrafo sino un número. Por ejemplo: El 30 % de las mujeres de esta población tiene menos de
25 años o el 20 % de los mayores de 65 años de la población X tiene hipertensión.
A pesar de que en las dos frases anteriores hay una explicación, se puede ver que hay un
parámetro en la primera que es 30 % de mujeres con una caracterı́stica que es ser menor de
25 años en una población especı́fica. En la segunda se ve que hay otra caracterı́stica que es la
hipertensión y que la sufren solo el 20 % de la población de hombres mayores de 65 años de un
determinado lugar, que puede ser de un pueblo, ciudad o paı́s tomado como población de estudio.
Hay muchos valores producto de cálculos con los datos que se han vuelto parámetros clásicos
por su utilidad. La media (o promedio) de los valores es un caso de ejemplo. El parámetro a elegir
para describir a la población, depende de lo que se desea saber de la población.
Cada parámetro tiene su forma de cálculo y es posible que un estudio contenga la definición
de un nuevo parámetro a medir. Este serı́a el caso de la creación de un instrumento de medición
en psicologı́a de alguna caracterı́stica de la personalidad.
En todo estudio de estadı́stica, lo que interesa casi siempre es el valor de uno o más parámetros
para describir una o más caracterı́sticas de la población. Otro tipo de estudio menos común es
cuando requerimos crear un nuevo parámetro como en el ejemplo de psicologı́a del párrafo anterior.
La pregunta aquı́ es ¿cómo saber el valor de un parámetro de interés para un estudio? Si
siempre se desea saber el valor de un parámetro y ya se tiene su valor, entonces el estudio ya está
hecho y se puede usar su valor para dar una idea o concluir algo. Pero como ya se dijo, un estudio
consiste en definir el parámetro que se necesita y luego buscar la manera de hallar su valor. Hay
muchos casos en que no se puede hallar el valor de un parámetro, sencillamente porque no pueden
5
Fundamentos de estadı́stica descriptiva e inferencial - Ronald Pietri
medirse todos los elementos de la población y debe optarse por estimar su valor. Esta estimación,
como cualquier otra, tiene un margen de error. Estos casos se aclaran en la siguiente definición:
6
Fundamentos de estadı́stica descriptiva e inferencial - Ronald Pietri
hierro está alto y menor de otro, está muy bajo. Aunque a esta persona nunca se la haya medido
la sangre antes, su añadidura no altera los valores de los parámetros para saber si su hierro está
bajo o alto. Ya este estudio se ha realizado tantas veces como para asegurar que esos valores
son la referencia. Es como que en una elección nacional no asista un votante; esto no altera el
resultado con una precisión que sea significativa.
En los estudios realizados en muchas ocasiones y de manera probada y recurrente, se considera
que los parámetros son conocidos ası́ falten algunos datos de la población.
2. SEMANA 2
2.1. Evento
Es cualquier resultado del espacio muestral. En términos de la teorı́a de conjuntos se define
como cualquier subconjunto del espacio muestral.
Los eventos pueden clasificarse en simples o compuestos.
Véase que cada resultado se ve como un todo y que el orden de cada resultado se toma como
un resultado distinto. La muestra fue definida previamente, como debe ser, y se decidió que serı́a
de tamaño 3. Para otra muestra de tamaño distinto serı́an otros resultados ası́ como también si
el evento definido fuese otro. Aquı́ se presentó con los nombres de las personas pero realmente
cada toma es de tres estaturas asociadas a las personas.
7
Fundamentos de estadı́stica descriptiva e inferencial - Ronald Pietri
Como ejemplo de evento excluyente se puede definir la cara que sale en el lanzamiento de un
dado porque es imposible que salgan dos valores al mismo tiempo en un lanzamiento. También
es el caso del lanzamiento de una moneda ya que no puede salir cara y sello al mismo tiempo.
8
Fundamentos de estadı́stica descriptiva e inferencial - Ronald Pietri
Los eventos se pueden operar tal cual como conjuntos porque son tratados como parte de
esta teorı́a. El espacio muestral es análogo al conjunto universal y cualquier ocurrencia fuera del
espacio muestral es tratado como el conjunto vacı́o.
En términos del álgebra de eventos la independencia se cumple cuando P (A∩B) = P (A)∗P (B)
y la probabilidad condicional se representa como P (A/B) y se lee “Probabilidad del evento A
dado que ya ocurrió el evento B”. También se cumple que P (A/B) = P P(A∩B) (B)
.
Es fácil ver que si dos eventos son independientes, también la probabilidad de un evento es
igual a la probabilidad condicional de ese mismo evento dado el otro. Esto es coherente con la
definición de eventos independientes. Se observa fácil aquı́ su prueba con las definiciones anteriores
escritas en términos matemáticos:
Supóngase A y B independientes, entonces P (A/B) = P P(A∩B) (B)
= P (A)∗P
P (B)
(B)
= P (A) Como se
puede ver aquı́, la probabilidad de A es la misma que la de A dado B puesto que las probabili-
dades de B se cancelan en el numerador y denominador. Esto es coherente con la definición de
independencia, la cual significa que la ocurrencia de uno no tiene nada que ver con la del otro.
=
Por las propiedades de conjuntos, también se puede escribir P (A/B ∩C) = P (A∩B∩C) P (B ∩ C)
asi como P (A/B ∪ C) = P (A ∩ (B ∪ C))P (B ∪ C) y como cualquier otra combinación con las
operaciones de conjuntos. Otros ejempĺos válidos que se cumplen son P (A ∩ B/C) = P (A∩B∩C) P (C)
y
P (A ∪ B/C) = P ((A∪B)∩C)
P (C)
Con la notación anterior se pueden escribir las definiciones de forma
más precisa y sencilla. Aquı́ va las definición de independencia:
Dos eventos son independientes si y solo si P (A ∩ B) = P (A) ∗ P (B) Y la definición puede
generalizarse a muchos eventos como sigue: Los eventos A1 , A2 , A3 , ...Ak son independientes si y
9
Fundamentos de estadı́stica descriptiva e inferencial - Ronald Pietri
10