Вы находитесь на странице: 1из 5

Metodologa de la Investigacin Conceptos Bsicos de Estadstica

Pgina 9
SU I.2.3: De la muestra a la poblacin: incertidumbre y probabilidad
Las frecuencias, momentos, percentiles y dems resmenes numricos de los datos introducidos en la
subunidad anterior son estadsticos; esto es, funciones de los datos que representan algunas caractersticas
de la muestra observada. En general, sin embargo, el objetivo es estudiar los parmetros; esto es, esas
mismas caractersticas pero en toda la poblacin.
Por ejemplo, si en una muestra de tamao 100 se ha observado un peso medio de 68 Kg qu se
puede decir sobre el peso medio de toda la poblacin? Se puede afirmar que tambin ser 68 Kg? No
podra ser 71 Kg? O incluso quizs 60 Kg? En este ejemplo la media muestral, 68 Kg, es el estadstico
mientras que el parmetro es la media de toda la poblacin. Los estadsticos siempre son conocidos, una vez
ya se han observado todos los datos de la muestra, los parmetros siempre son desconocidos.
Para averiguar la relacin que puede existir entre los estadsticos y los parmetros se pueden plantear
hiptesis sobre los valores concretos de los parmetros. Utilizando la Teora de la Probabilidad y esos valores
de los parmetros, predecir los resultados que se esperara obtener en una futura muestra (del mismo
tamao que la observada). De esa manera se puede estudiar qu valores de los parmetros son compatibles
con los estadsticos observados. Esa es la metodologa habitualmente empleada en estadstica.
Para aplicar esa metodologa es preciso utilizar distribuciones de probabilidad.

Variables categricas: funcin de probabilidades
La representacin de una variable categrica, por ejemplo el grupo sanguneo, en toda la poblacin se
hace a travs de la funcin de probabilidades. Esta es una funcin que asocia a cada una de las categoras la
probabilidad con la que aparece esa categora en toda la poblacin. Esas probabilidades son los parmetros
que estn asociados a las frecuencias relativas de la muestra. La funcin de probabilidades puede
representarse grficamente utilizando un diagrama de barras, la altura de cada barra es la probabilidad de la
categora correspondiente. La distribucin de probabilidad de una variable categrica viene dada por su
funcin de probabilidad, que muestra cmo se reparte toda la probabilidad entre los distintos valores
posibles de la variable.
En general las poblaciones estudiadas en cualquier investigacin clnica son tan grandes que pueden
considerarse infinitas. Estn constituidas por todo paciente, presente o futuro, que cumpla los criterios de
admisin. En consecuencia, en la poblacin no puede considerarse ninguna medida similar a las frecuencias
absolutas: si la poblacin es infinita, el nmero de pacientes de la poblacin en cada categora tambin lo
ser.
Cuando en una investigacin experimental se estudia una variable categrica, es habitual que el
objetivo principal sea averiguar cunto vale la probabilidad de una categora concreta. En esas situaciones se
puede considerar una nueva variable dicotmica que tome el valor de xito si se da la categora de inters y
fracaso en otro caso. Por ello, el anlisis de las variables categricas suele hacerse estudiando esas variables
dicotmicas.

Variables dicotmicas: distribucin binomial
La distribucin de probabilidad de una variable dicotmica, con categoras xito y fracaso, viene
determinada por el parmetro probabilidad de xito. As por ejemplo, si en una poblacin la probabilidad de
xito es 0.8 (el 80% de los individuos de la poblacin son xitos) lo que falta hasta uno, 0.2, ser la
probabilidad de fracaso. A estas distribuciones de probabilidad, que reparten la unidad de probabilidad entre
los dos nicos sucesos, xito y fracaso, se les denomina distribuciones de Bernoulli. Para cada valor de la
probabilidad de xito hay una distribucin de Bernoulli distinta.
Si se conoce la probabilidad de xito de una distribucin Bernoulli, es posible calcular probabilidades
sobre cualquier resultado al observar una futura muestra de esa poblacin. Por ejemplo, si la probabilidad de
xito es 0.8, la probabilidad de que el prximo individuo observado sea xito y el segundo fracaso es 0.16.
Esto es as ya que slo el 80% de las veces se observar un xito y, de esas veces, slo el 20% se observar un
fracaso a continuacin; un xito y luego un fracaso slo se observar el 20% del 80% de las veces, es decir un
16% de las veces. Razonamientos similares permiten calcular cualquier otra probabilidad.
Metodologa de la Investigacin Conceptos Bsicos de Estadstica
Pgina 10
En ese contexto, las probabilidades ms interesantes son las asociadas al nmero de xitos observado
en una futura muestra de tamao n, fijo. Esas probabilidades se conocen como probabilidades binomiales y
dan lugar a la distribucin Binomial. Para cada tamao muestral y cada probabilidad de xito hay una
distribucin Binomial distinta. La Figura 1 muestra el diagrama de barras asociado a la funcin de
probabilidades de la distribucin Binomial para un tamao muestral 100 y probabilidad de xito 0.8.

-Figura 1. Diagrama de barras de la distribucin Binomial con tamao muestral 100 y probabilidad de xito 0.8.-
De la Figura 1 se deduce que el valor ms probable para esa distribucin es 80, con una probabilidad
cercana a 0.1, pero los valores prximos a 80 tienen una probabilidad escasamente inferior. De ah se deduce
que al observar una nueva muestra de tamao 100, no sera muy raro observar 75 xitos o incluso 86. De
hecho slo parece muy raro, por muy improbable, que el nmero de xitos sea menor que 70 o mayor que
90.
Razonando de manera anloga, si se observan 75 xitos en una muestra de tamao 100, una
frecuencia relativa de 0.75, no se puede descartar que el verdadero valor del parmetro, la probabilidad de
xito, sea 0.8. Por el contrario, si el nmero de xitos observados ha sido 65, s se podr descartar 0.8 como
probabilidad de xito, pues la Figura 1 muestra que 65 xitos y probabilidad de xito 0.8 no parecen ser
valores compatibles.

Variables discretas: funcin de probabilidad
Las variables numricas discretas, variables para las que sus posibles valores pueden enumerarse en
una lista ordenada, tienen tambin una distribucin que puede representarse mediante una funcin de
probabilidades, como las variables categricas. La funcin de probabilidad asocia a cada valor de la variable
su probabilidad, de manera que todas esas probabilidades sumen uno. Estas funciones de probabilidad
tambin se representan grficamente con un diagrama de barras.
A diferencia de las variables categricas, para las variables discretas numricas s tiene sentido definir
caractersticas numricas de la poblacin, basadas en momentos o percentiles como la media, la desviacin
tpica o el percentil 95 de la poblacin. Esas nuevas caractersticas son tambin parmetros cuyo estudio
suele ser ms interesante que el de las probabilidades. As por ejemplo, la media poblacional de ganglios
linfticos cancerosos extrados tras una intervencin quirrgica puede ser ms til que la probabilidad de
extraer exactamente 2 ganglios cancerosos.
La distribucin Binomial puede tambin ser til en el estudio de variables numricas discretas, pero la
distribucin Binomial est relacionada sobre todo con el anlisis estadstico de una probabilidad. Otras
distribuciones discretas importantes son las distribuciones de Poisson, Geomtrica y Binomial negativa.

Variables continuas: funcin de densidad
Cuando la variable estudiada es continua, el ndice de masa corporal por ejemplo, no puede hacerse
una lista de todos sus valores posibles por lo que no se pueden utilizar funciones de probabilidad. Como ya
se ha comentado anteriormente, en la prctica todas las medidas se redondean al observarlas hacindolas
parecer discretas, aqu sin embargo se considera el valor real de la medida no su valor redondeado. De
hecho, la probabilidad de cualquier valor concreto de una variable continua es siempre cero, slo se
obtienen probabilidades superiores a cero cuando se consideran intervalos.
Metodologa de la Investigacin Conceptos Bsicos de Estadstica
Pgina 11
Ese es un hecho habitual en todas las medidas continuas, no solamente al hablar de probabilidades. La
longitud, por ejemplo, proporciona una medida cero a cualquier punto; todo punto tiene longitud cero, pero
cualquier segmento ya tiene una longitud mayor que cero. A pesar de que un segmento es la unin de
muchos puntos, al sumar (unir) puntos de longitud cero obtenemos un segmento cuya longitud ya es mayor
que cero. Tcnicamente es preciso sumar un infinito no numerable de ceros para obtener un resultado
mayor que cero.
En conclusin, al trabajar con variables continuas slo tiene sentido calcular probabilidades de
intervalos. La probabilidad de cualquier intervalo puede obtenerse como el rea que queda sobre dicho
intervalo y bajo la funcin de densidad, si esta existe. Tcnicamente, la funcin de densidad existe si la
distribucin es absolutamente continua, lo que ocurre en casi todas las situaciones de inters.
La Figura 2 muestra una funcin de densidad, es la funcin de densidad de una distribucin Normal de
media 150 y desviacin tpica 30. La probabilidad de obtener un valor entre 150 y 200 es el rea de la regin
coloreada. Toda el rea bajo la funcin de densidad siempre vale uno, pues es la probabilidad del suceso
seguro. La probabilidad de cualquier otro intervalo puede obtenerse de manera similar.

-Figura 2. Ejemplo de funcin de densidad. El rea de la regin coloreada es la probabilidad del intervalo (150, 200).-
En las distribuciones continuas tiene sentido definir momentos y percentiles por tratarse de
distribuciones de variables numricas. En concreto, la media de la poblacin suele ser el parmetro de
inters en la mayor parte de los estudios experimentales. La desviacin tpica de la poblacin y algunos
percentiles tambin suelen ser parmetros interesantes.
Existen bastantes distribuciones continuas interesantes, como las distribuciones Exponencial, Gamma,
Beta, Lognormal, etc La ms importante de todas ellas es la distribucin Normal pues la mayora de las
medidas fsicas suelen distribuirse como si fueran Normales. La justificacin terica de ese hecho emprico la
proporciona el Teorema Central del Lmite.

Distribucin Normal
La distribucin Normal tiene una funcin de densidad con forma de campana simtrica, conocida
como campana de Gauss. No existe una nica distribucin Normal, para cada media y desviacin tpica
poblacionales existe una distribucin Normal distinta. La figura 3 muestra tres ejemplos con diferentes
medias, denotadas con la letra griega mu, , y diferentes desviaciones tpicas, denotadas con la letra griega
sigma, .

-Figura 3. Tres curvas normales con diferentes medias y desviaciones tpicas.-
Metodologa de la Investigacin Conceptos Bsicos de Estadstica
Pgina 12
La media coincide con el centro de gravedad de la campana, que es simtrica respecto a ese punto. La
campana es ms o menos ancha, ms o menos dispersa, dependiendo del valor de la desviacin tpica. Otras
distribuciones importantes relacionadas con la Normal son t de Student, F de Fisher-Snedecor y Ji-cuadrado.
Teorema Central del Lmite
La Figura 4 es un ejemplo de la evolucin de la distribucin de las medias muestrales cuando aumenta
el tamao muestral. Arriba a la izquierda se describe una poblacin, la lnea roja es la funcin de densidad y
el histograma corresponde a una muestra enorme (de tamao 10000) obtenida de esa poblacin por
simulacin; el histograma se asemeja tanto a la funcin de densidad por tratarse de una muestra tan grande.
Esta poblacin es muy distinta de una Normal, la funcin de densidad ni tan siquiera tiene forma de
campana. A continuacin se ha observado una muestra de tamao 5 de la poblacin anterior y se ha
calculado su media muestral, este proceso se ha repetido 10000 veces obteniendo 10000 medias muestrales
de tamao cinco. La Figura 4, arriba a la derecha, muestra el histograma de esas 10000 medias. El mismo
proceso se ha repetido con medias de muestras de tamao 10 y 50, los resultados aparecen en la parte
inferior de la Figura 4.

-Figura 4. Teorema Central del lmite: evolucin hacia normalidad de las medias muestrales.-
Las cuatro distribuciones representadas en la Figura 4 estn localizadas alrededor del mismo valor,
tienen la misma media, pero cada vez estn ms concentradas, su desviacin tpica es menor; de hecho, la
desviacin tpica de cada distribucin es la de la poblacin dividida por la raz cuadrada del tamao muestral.
Lo ms interesante, sin embargo, es que las funciones de densidad se van pareciendo cada vez ms a una
Normal al aumentar el tamao muestral. Ya con un tamao muestral de 10, la funcin de densidad tiene
forma de campana casi simtrica a pesar de que la poblacin original distaba mucho de serlo; con tamao 50
la densidad ya es prcticamente igual a una Normal.
El ejemplo anterior no es un caso aislado. El Teorema Central del Lmite, uno de los resultados ms
importantes de la Teora de la Probabilidad, garantiza que la media aritmtica de los datos de una muestra
aleatoria tenga una distribucin cada vez ms parecida a una Normal conforme el tamao muestral aumenta.
Para ello es suficiente con que la poblacin original tenga media y varianzas finitas, pero tambin se han
demostrado resultados similares bajo otras condiciones, por lo que en realidad existen varios teoremas
centrales del lmite.
El Teorema Central del Lmite no slo se aplica a la media muestral, todos los momentos muestrales
son medias, por lo que sus distribuciones tambin se parecern a una Normal si el tamao muestral es
grande. Lo mismo ocurre con las frecuencias relativas, que tambin pueden expresarse como medias
aritmticas. Otros estadsticos importantes, como la desviacin tpica, los coeficientes de asimetra y
apuntamiento o los percentiles, tambin tienen distribuciones que se deben parecer a una Normal si el
tamao muestral es grande. En esos casos, sin embargo, la convergencia a la normalidad no es una aplicacin
directa del Teorema Central del Lmite y se necesitan otros resultados de Teora de la Probabilidad.
Debe subrayarse, sin embargo, que la consecuencia ms importante del Teorema Central del Lmite es
que puede suponerse una distribucin Normal para la media muestral cuando el tamao muestral es grande,
a partir de 20 o 30 datos en la mayora de las situaciones. Por ello son tan tiles las tcnicas estadsticas
basadas en la distribucin Normal.
Metodologa de la Investigacin Conceptos Bsicos de Estadstica
Pgina 13
Tambin es una consecuencia del Teorema Central del Lmite que la suma (no slo la media) de los
datos se parezca a una Normal cuando aumenta el tamao muestral. Un ejemplo es el nmero de xitos al
observar una variable dicotmica, pues el nmero de xitos coincide con la suma de los datos si se codifica el
xito con un 1 y el fracaso con un 0. El nmero de xitos tiene una distribucin Binomial con tamao n, el
tamao muestral, y probabilidad de xito la de la poblacin. Por el Teorema Central del Lmite, al aumentar
el tamao muestral la distribucin del nmero de xitos debera parecerse cada vez ms a una Normal, luego
la distribucin Binomial, al aumentar n, debera parecerse cada vez ms a una Normal.
La Figura 5 muestra ese hecho utilizando una probabilidad de xito igual a 0.25 y aumentando en cada
grfica el tamao muestral. Arriba a la izquierda se muestra el diagrama de barras de una Binomial con n = 5;
la lnea roja es la densidad de la distribucin Normal ms parecida pero, evidentemente, se parece poco; de
hecho esa distribucin Normal dara probabilidades relativamente grandes a valores negativos para el
nmero de xitos, lo que es imposible. Las siguientes grficas, de arriba abajo e izquierda a derecha, son las
Binomiales con n = 10, 20 y 50. Con n = 20 la curva Normal se ajusta bastante bien al diagrama de barras. Con
n = 50 las probabilidades calculadas con la Normal seran prcticamente las mismas que las probabilidades
binomiales.

-Figura 5. Teorema Central del Lmite: distribucin Normal como aproximacin a la Binomial.-
El Teorema Central del Lmite tambin proporciona una justificacin de por qu la mayora de las
medidas fsicas se distribuyen de manera similar a una Normal. Estas medidas suelen ser una mezcla de
factores genticos, ambientales, culturales y de otros tipos que interactan e influyen en el resultado final;
resultado que termina siendo una especie de suma de muchas cosas.

Вам также может понравиться