Вы находитесь на странице: 1из 3

El significado de P y Q

Cuando se realizan encuestas, y en general recogida de informacin, se da muy a menudo un tipo de


preguntas que slo pueden obtener como respuesta un S o un No (con el permiso del NS/NC, que ahora
dejaremos de lado). Estas preguntas son las ms sencillas de clasificar, ya que en el resto se pueden utilizar
escalas diferentes como la del 0 al 10, escalas de Likert, grficos, u otras.
Para estas preguntas, una proporcin de los encuestados puede responder que s, y otra que no
(perogrullada al canto), lo que matemticamente puede representarse como un 1 y un 0, respectivamente.
En el caso de haber planteado un muestreo adecuado, la proporcin entre ceros y unos debera ser
representativa de la poblacin general.
Sumando la cantidad de respuestas 1 y dividindolo por el nmero de encuestados, tenemos una
proporcin. As por ejemplo, si se ha hecho la pregunta a 100 personas y 35 han contestado que s, tenemos
que la proporcin de ses suma en total:
P(X = s) = 35/100 = 0,35
Lo que equivaldra a un 35% en trminos porcentuales.
Sabiendo que slo hay dos casos posibles sabemos que la proporcin de noes ha sido:
P(X = no) = (100-35)/100 = 65/100 = 0,65
Es decir, un 65% de noes.
De lo anterior se deduce que sabiendo la proporcin de respuestas afirmativas, deducimos la proporcin de
respuestas negativas. Por lo tanto:
P(X=no) = 1 P(X=s) = 1 0,35.
Para simplificar la nomenclatura, normalmente se indica como P (aunque normalmente en minsculas) a
P(X=s), mientras que P(X = no) se indica como (1-P), aunque por cuestiones de simplicidad se indica como
Q.
En resumen:
P = P(X = S)
Q = P(X = No) = 1 P
Hasta aqu se entiende? Bueno pues, sigamos.
En el peor de los casos
Dejando de lado las imperfecciones del trabajo de campo (que daran para mucho), supongamos que
tenemos los medios necesarios para garantizar la representatividad de la muestra slo teniendo en cuenta
el tamao (nmero de encuestados).
Lo que sucede antes de empezar a calcular la muestra es que no conocemos la proporcin de individuos que
contestarn s o no a una determinada respuesta. Por eso es necesario suponer el peor de los casos.
Retornando al ttulo del post, ya sabrs cul es el peor de los casos, e intuitivamente incluso te puedes
imaginar el por qu. Efectivamente, el peor de los casos ocurre cuando hay la misma proporcin de
individuos que contestan afirmativamente y negativamente.
Te puedes imaginar la situacin: tu vas a suponer en cada momento qu va a contestar al siguiente. Si P = Q
= 0,5, tienes un 50% de probabilidades de acertar. Y eso es lo mnimo que cabra esperar si puedes elegir
entre s y no, y no hay ms respuestas posibles.
Estadsticamente, el proceso de disponer de dos valores posibles para una pregunta se puede modelizar
sobre un proceso de Bernouilli . Este modelo estadstico indica que la varianza de una muestra de una
poblacin que sigue este modelo es pq.
Es decir, que la variabilidad de las respuestas se obtiene multiplicando las proporciones de cada una. Ojo,
multiplicando, no sumando.
Si sabemos que tanto p como q pueden tomar valores entre 0 y 1, y que la suma de ambas siempre da 1,
tenemos los ingredientes necesarios para hacer un anlisis de la funcin de la varianza. Representando el
valor de los productos de p y q (considerando incrementos de 0,01). Es decir, vamos a representar:
f(p) = pq = p (1-p) = p p^2
tras lo cual tenemos un grfico como el siguiente:

Se puede observar que en la mitad del grfico est el pico mximo. Teniendo en cuenta que es un grfico
entre 0 y 1, se puede intuir el valor intermedio. Para deducir el punto exacto, en el anlisis de funciones se
utilizan las derivadas. No explicar lo que son las derivadas, simplemente comentar que para este caso son
formas de detectar la velocidad y aceleracin de la curva.
Esto es un salto sin red para quien no entienda del tema, pero seguro que podr encontrar amplia literatura
al respecto. Teniendo la funcin anterior:
F(p) = p p2
Su primera derivada (que indicar la velocidad) es:
F(p) = 1 2p
Mientras que la segunda derivada es:
F(p) = -2
De lo anterior se deduce:
Dado que la segunda derivada es una constante negativa, la recta siempre est desacelerando. podemos
comprobar que la recta ya vena subiendo pero cada vez un poco menos rpido, hasta que empieza a
bajar, y luego cada vez va ms rpido. Es decir lleva una aceleracin negativa. Aunque llevara una inercia, la
ha ido perdiendo. Por el hecho que la segunda derivada es una constante tambin se deduce que la curva es
una parbola.
Dado que sabemos que siempre desacelera, sabemos que la curva es convexa (es decir, tiene la concavidad
hacia abajo), por lo que si en algn momento la velocidad es nula (el objeto se ha frenado), podemos
deducir que se ha llegado al mximo.
Trato de explicar este segundo punto en palabras ms llanas: si ests desacelerando, llega un momento que
te paras, y desaceleras ms, vas en velocidad negativa. Es decir, que vuelves hacia atrs (o hacia abajo)
por lo que se deduce que habas llegado al mximo de lejos que podas.
Bien, dicho lo anterior, lo que hay que encontrar es un valor para el que se cumpla:
1 2p = 0
La resolucin es fcil:
1 2p = 0 => 1 = 2p => 1/2 = p ==> p = 1/2 = 0,5
voil. Tenemos la demostracin matemtica que la mxima varianza se tiene con p = 0,5!
Este clculo da garantas al conjunto de la encuesta?
Por lo general, este modo de clculo es una forma de definir un tamao de muestra. Las encuestas
acostumbran a ser mucho ms complejas, pero lo cierto es que los casos en los que las respuestas son de
s/no son los ms habituales en encuestas sociales. En otros casos se utilizan otros criterios (por ejemplo
cuando lo que se busca no es un estudio de proporciones sino de medias o totales).
Lo que s vale la pena comentar es que el tamao de muestra obtenido utilizando este criterio proporciona
un margen de error para cada pregunta estudiada de una en una.
De lo anterior hay que deducir que cuando se cruzan dos preguntas, las variabilidades en las respuestas de
cada cual se combinan, y por ello el grado de error aumenta. Eso no implica directamente que las encuestas
sean ms falsas, sino que estos datos se pueden utilizar con finalidad descriptiva y no inferencial (para
extraer conclusiones), ya que eso provocara decisiones errneas por asumir un riesgo mayor del supuesto.
Otras cuestiones que van ms all de este post son la informacin previa que tenemos sobre una
determinada poblacin, ya que ello nos permitira reducir el margen de error. Esta reduccin podra
aplicarse en la fase de muestreo, utilizando uno de varios diseos muestrales existentes.

Вам также может понравиться