Академический Документы
Профессиональный Документы
Культура Документы
VARIABLES DE ESTUDIO
INTRODUCCIÓN
Uno de los problemas mas frecuentes que ocurre en investigación epidemiológica
esta dado por la realización directa de instrumentos de recolección de información, sin
tener en cuenta la construcción previa de la variables de estudio posterior a revisar
los estudios previos de otros autores y los aspectos conceptuales establecidos, lo que
conlleva a errores muy graves de medición que están relacionados con la falta de
validez de las variables medidas. Por lo tanto el formular el problema de investigación
en salud, conlleva a preguntarse de que forma se debe dar a respuesta a este, es por
esto que un paso dentro del método es el de establecer los objetivos del estudio,
clasificados en generales y específicos, donde se debe determinar cuales deben ser
las variables de estudio que midan dichos objetivos y donde el investigador entra en
un ejercicio de medición definido como un procedimiento de atribuir valores
cuantitativos o cualitativos a características de los sujetos del estudio que
generalmente son los pacientes. La adecuada identificación, definición y
operacionalización de las variables utilizadas en el estudio, están estrechamente
relacionada con las medidas y métodos estadísticos a ser utilizados en el proyecto y
no da parámetros para obtener validez interna, definida por la inferencia de las
conclusiones del estudio a la población diana o blanco.
DEFINICIÓN DE VARIABLES
La definición de las variables se debe iniciar conceptualmente y posteriormente la
forma especifica como se va a medir que es la forma operativa. La definición
conceptual debe hacerse en las variables principales de estudio, como por ejemplo la
definición conceptual de hipertensión, que esta dada por el aumento de la tensión
arterial, posteriormente se debe definir como se va a medir el aumento de la tensión
arterial, es por esto importante definir operativamente lo que se entiende por aumento
de la tensión arterial, como por ejemplo una definición operativa podría ser, una
presión diastólica mayor de 90 y una sistólica mayor de 140, lo que lleva a que todas
las personas que están recolectando la información tenga el mismo criterio para
determinar si el paciente incluido en el estudio es o no hipertenso. La definición
operacional nos muestra con que escala se va a medir cada variable de estudio, en el
caso anterior de hipertensión, sería de 1. Si 2. No. También puede ocurrir que una
variable la mida con una escala y se analice con una clasificación pre-establecida
como en el caso del estudio de sobrevida donde se midió el tamaño del tumor en
centímetros y se analizo clasificando en dos grupos 1. < 3 y 2. >=3 (ejemplo 3)
Es importante en el caso de que en la escala operativa utilizada no exista claridad en
sus categorías, se debe definir cada valor de la escala, como pasa en el caso de
severidad de los síntomas, clasificados en leve, moderado o severo, que pueden ser
definidos de la siguiente forma:
OPERACIONALIZACIÓN DE VARIABLES
Posterior a definir las variables operativamente se debe establecer si las mediciones
obtenidas son dadas en categorías o en forma numérica, a partir de las escalas de
medición de la variables se pueden clasificar en cualitativas o cuantitativas.
En las variables cualitativas los valores que toman las categorías están dados por
atributos o cualidades. La primera escala de medición es la nominal que esta definida
por una clasificación de categorías excluyentes (solo se puede pertenecer solamente a
una categoría) y deben estar el totalidad de las categorías. Esta escala se pueden
clasificar en nominales dicotómicas, que es cuando se tiene solo dos resultados, que
son muy usuales en investigación en salud, como por el ejemplo, para enfermedad,
complicación, recuperación, muerte, donde se mide si se presenta o no (1.Si 2. No); la
otra clasificación es nominal policotómica cuando se tiene más de 2 clasificaciones
en las categorías de las variables, como por ejemplo el estado civil (1. Unión libre,
casado, 3. soltero, 4. Viudo, 5. Separado). La segunda escala de medición entre las
variables cualitativas es la ordinal, definida por categorías excluyentes, donde existen
un orden jerárquico entre estas categorías, como por ejemplo, la severidad de los
síntomas, clasificada en 1. Leve, 2. Moderada y 3. Severo.
En las variables cuantitativas los valores que toman son numéricos y están dados por
cantidades, la primera escala de medición es la discreta que esta definida por valores
numéricos enteros, como por ejemplo, el numero de embarazos, numero de partos,
numero de hijos nacidos vivos, numero de dientes careados etc; la segunda escala es
la continua, que esta definida por, tomar valores infinitos entre dos valores de la
variables, como por ejemplo el peso, entre 60 y 61 Kg, (60,01, 60,02…..). Otra forma
de clasificar las variables cuantitativas es con la escala de medición de intervalo y de
razón. La escala de medición de intervalo esta dada en términos numéricos donde el 0
es convencional y arbitrario, como en el caso del año en que vivimos, el 0, esta dado
por convención que es la aparición de Cristo y es arbitrario debido a que en el 0 no es
que no existiera vida. En la escala de razón también toma valores numéricos, pero el
0 representa la nulidad, como en el caso del peso, talla, presión arterial donde el 0
representa la no existencia.
La posición de la mediana estaría entre 5 y 6 en este caso se suman los dos valores y se
21+21
dividen entre 2 ; Me= 2 = 21 años, por lo tanto la Me= 21 años, la mediana para
peso seria 57.5 kg, para altura 163 cm y para IMC 22.6 𝑚𝐾𝑔2 . En caso de que el número de
datos sea impar la posición de la mediana queda exactamente en el número medio y no
hay necesidad de realizar este procedimiento.
Moda
Definición: es el valor que mas se repite o con mayor frecuencia, puede ocurrir que la
variable no contenga moda debido a que no se repita ningún valor o puede tener varias
modas, en el caso de la edad el dato que mas se repite es 21 años.
Edad 20 20 21 21 21 21 22 22 23 36
Para el peso no hay moda ya que todos lo datos son diferentes, con respecto a la altura hay
dos modas que son: 160 y 167 cm, este caso seria bimodal, para el IMC por ser una variable
con dos decimales por lo general no se encuentra moda
MEDIDAS DE DISPERSIÓN
Varianza
Esta medida se usa para determinar la dispersión de los datos con respecto al promedio,
si los datos provienen de una muestra la notación matemática es la siguiente:
𝑛 2
2 𝑖 𝑋𝑖 − 𝑋
𝑆 =
𝑛−1
En el caso de que se este haciendo la investigación en toda la población sin tomar
muestras la notación matemática es la siguiente:
𝑁 2
2 𝑖 𝑋𝑖 − 𝑋
𝜎 =
𝑁
En este ejemplo se parte de una muestra de 10 personas por lo tanto se utiliza la primera
formula de la varianza, para la variable edad la varianza quedara:
𝑿𝒊 =Edad 𝑿𝒊 − 𝑿 𝑿𝒊 − 𝑿 𝟐
21 21-22.7= -1.7 2,89
21 21-22.7= -1.7 2,89
23 23-22.7= 0.3 0,09
36 36-22.7= 13.3 176,89
22 22-22.7= -0.7 0,49
22 22-22.7= -0.7 0,49
21 21-22.7= -1.7 2,89
20 20-22.7= -2.7 7,29
20 20-22.7= -2.7 7,29
21 21-22.7= -1.7 2,89
𝑛
= 204.1
𝑖
La primera parte de la ecuación es la sumatoria al cuadrado de cada una de las
observaciones menos el promedio, la segunda parte se halla restando el numero de datos
de la muestra que en este caso es 10 menos 1 para un total de 9:
204.1 204.1
𝑆2 = = = 22.7𝑎ñ𝑜𝑠2
10 − 1 9
La varianza de peso fue de 75.2 Kg2, la de la altura fue de 48.9 cm2 y la del IMC fue de
𝐾𝑔 2
7.6 𝑚4
Una medida que por estar al cuadrado no es muy útil, por esto se debe contar con una
medida como la desviación estándar que es la raíz cuadrada de la varianza para mejorar
su interpretación, como en el caso de la varianza existe desviación estándar para la
población y otra para la muestra, la formula para la desviación estándar para la muestra
es la siguiente:
2 𝑛 2
𝑋𝑖 − 𝑋
𝑖
𝑠=
𝑛−1
Y para la población
2 𝑁 2
𝑋𝑖 − 𝑋
𝑖
𝜎=
𝑁
Siguiendo el ejemplo anterior para la muestra de 10 personas la varianza era 22.7 años2
por lo tanto su desviación estándar es:
2
𝑠 = 22.7 = 4.8 𝑎ñ𝑜𝑠
La desviación estándar para el peso fue de 8.7 Kg, para la altura fue de 7 cm y para el
𝐾𝑔
IMC fue de 2.8 𝑚 2
Coeficiente de variación
Aunque no se considera una medida de dispersión es muy útil cuando se desconoce si la
desviación estándar es muy dispersa o poca dispersa con respecto al promedio, su
formula es:
𝑠
𝐶𝑉 = ∗ 100
𝑋
La forma de analizarla es determinando su homogeneidad en las siguientes tres
categorías:
0 a 10% homogénea
10.1 a 20% medianamente homogénea
Mayor al 20% heterogénea
4.8𝑎ñ𝑜𝑠
En este ejemplo el Coeficiente de variación para la edad es 𝐶𝑉 = 22.7 𝑎ñ𝑠𝑜 ∗ 100 = 21%
por lo tanto se puede determinar que los datos están muy dispersos con respecto a su
promedio por lo tanto su variabilidad es heterogénea. En el caso del peso el C.V fue de
14. 2% siendo medianamente homogéneo, el C.V de la altura fue de 4.3% siendo
homogéneo y el C.V de l IMC fue de 12.2% siendo medianamente homogéneo.
MEDIDAS DE LOCALIZACION
Las medidas de localización nos permiten dividir el conjunto de datos en partes iguales,
las formas mas usuales de realizar esta división se conocen con el nombre de cuartiles,
deciles y percentiles. Estos tipos de medidas se realizan para varaiables cuantitativas y
en algunos casos para varables ordinales.
Cuartiles
Los cuartiles dividen al conjunto de datos en 4 partes iguales, es decir la primera parte
q1 el 25%, la segunda parte q2 el 50% y la tercera parte q3 el 75%. El q2 es la misma
mediana calculada anteriormente.
Para calcular la posición, la notación matematica es la siguiente:
Q1=(n+1)/4
Q2=(n+1)/2
Q3=3(n+1)/4
En el ejemplo de la tabla 1 los cuartiles son:
Q1=(10+1)/4=2.75, en donde n es el numero total de observaciones
Q2=(10+1)/2=5.5, en donde n es el numero total de observaciones
Q3=3(10+1)/4=8.25, en donde n es el numero total de observaciones
El numero 2.75, 5.5 y 8.25 nos indica la posición del numero que corresponde a los
datos, en este caso no es fácil determinar cual es el valor exacto (a menos que se utilice
un programa estadístico), por lo tanto en el caso de Q1 y Q3 utilizamos un método
matematico denominado truncar, esto significa tomar la unidad ya sea por debajo o por
encima del valor, en este ejemplo si truncamos por el menor el valor de la posición de
Q1 sera 2 que corresponde al valor 20 años y el valor de la posición de Q3 sera 8 que
corresponde al valor 22 años. En el caso de truncar al mayor el valor de la posición de
Q1 sera 3 que corresponde al valor de 21 años y el valor de la posición de Q3 sera 9 que
corresponde al valor de 23 años. Para el calculo de Q2 se utiliza el mismo
procedimiento de la mediana descrito anteriormente, sin embargo aquí repetimos el
procedimiento, la posición de Q2 estaría entre 5 y 6 en este caso se suman los dos
21+21
valores y se dividen entre 2 ; Q2= 2 = 21 años, por lo tanto Q2= 21 años. Para este
ejercicio tomamos el método de truncar al menor por lo tanto
Q1=20 años
Q2=21 años
Q3=22 años
Posición 1 2 3 4 5 6 7 8 9 10
Edad 20 20 21 21 21 21 22 22 23 36
Con un pequeño margen de error debido a no tener los valores exactos se puede
determinar que el 25% de las edades se encuentran por debajo de 20 años el 50% se
encuentran por debajo o por encima de 21 años, y el 75% de edades menores por debajo
de 22 años o el 25% de las edades mayores se encuentran por encima de 22 años.
Realizando este procedimiento por un programa estadístico los datos para la variable
edad, peso y altura son:
Tabla 4. Cuartiles de las variables cuantitativas de la tabla 1
Cuartiles Edad Peso Altura
Q1=25% 20,75 54,75 159,5
Q2=50% 21 57,5 163
Q3=75% 22,25 71,25 169
Otra forma de ayudarnos a este análisis es por medio del diagrama denominado cajas y
bigotes o box-plot.
Deciles y Percentiles
Estos calculos para dividir el conjunto de datos en partes iguales se vuelven cada vez
mas complejos, por lo tanto se aconceja utilizar cualquier programas estadístico.
Los deciles dividen al conjunto de datos en 10 partes iguales y un percentil hace lo tanto
pero en 100 partes iguales, el ejemplo con que hemos venido trabajando no se hace
viable para realizar este procedimiento debido a que solamente se cuentan con 10 datos,
por lo tanto realizamos un ejemplo anexo con mas datos.
En en este ejemplo el 10% de los datos menores de edad es a partir de los 18 años, y asi
consecutivamente con cada decil.
Tabla 6. Deciles
Deciles Edad
1 18
2 18
3 18
4 19
5 20
6 20
7 21
8 22
9 24
Para los percentiles es importante determinar cual es el percentil importante para el
estudio, en este caso el percentil 1% de los datos menores es a parti de 16.11 años, el
percentil de las edades menores del 95% es a partir de 25.9 años o el 5% de los datos
mayores es a partir de este numero, y asi consecutivamente.
Tabla 7. Percentiles
Percentiles Edad
1 16,11
5 17,55
10 18
90 24
95 25,9
99 35,34
MEDIDAS DE DISTRIBUCION
DATOS AGRUPADOS
Referente Teorico
ANALISIS BIVARIADO