Академический Документы
Профессиональный Документы
Культура Документы
67890’0987656790’0987654567
890’0875434578998765456789
0’098765434567890’098765456
7890’098675434567890’098654
3234567890’098765434567890’
MANUAL BÁSICO STATA
098754323457890’0987643234
INICIACIÓN A LA INVESTIGACIÓN
56790’09876543235678909876
SOCIEDAD CIENTÍFICA DE ESTUDIANTES DE MEDICINA VERITAS
56723394857890329487829300
2394876738290’309485743829
00394875609876123450986234
56098098762352347667809874
56985789878972364654568763
45984569845986459834587634
98345873876569834945687126
asdfads12111111111212111111111111111111121
MANUAL BÁSICO STATA
PRÓLOGO
Coordinador Sur
Cender Udai Quispe Juli
- SOCIEMA, Arequipa -
ÍNDICE
I. DESCRIPCIÓN DEL STATA pág. 04
Variables categóricas
Variables cuantitativas
NORMALIDAD
Categórica – Categórica
Categórica – Cuantitativa
Cuantitativa – Cuantitativa
Medidas de Asociación: OR RP RR HR
Agradecimientos pág. 27
Referencias pág. 28
DEFINICIÓN:
BARRA DE MENU
BARRA DE
HERRAMIENTAS
TABLA DE
COMANDOS
EFECTUADOS
TABLA DE
VARIABLES
TABLA DE TABLA DE
COMANDOS RESULTADOS
TABLA DE VARIABLES: Se encuentran las variables de la base con sus etiquetas, tipo y
formato.
- En la base Excel las variables deben estar en mayúsculas o al menos una de las letras. Esto
permite al programa STATA generar etiquetas de las variables.
- En el programa STATA utilizar el comando “edit”, se ejecutará un editor de variables. En el
editor de variables pegar la base del Excel. Al hacerlo saldrá la siguiente tabla:
Lo que significa que tomará a la primera fila como nombres de las variables.
- Para editar la base usar siempre el comando “edit”, y verificar que todas las variables
- Si observamos una columna de color rojo significa que en esa columna existen letras,
- Si observamos que en uno de los datos hay un punto “.”, significa que ese dato está vacío
Log file: Útil para guardar todas las acciones hechas en STATA, por ejemplo: comandos,
modificación de variables, resultados, etc.
Al abrir el archivo *.smcl en el STATA, se verá todas las acciones hechas desde el momento
en que se inició el Log file hasta donde se guardó.
Abrir la base con el comando “edit” y hacer click derecho sobre la variable y luego en
variable properties y saldrá la siguiente ventana
Hacer click:
Luego digite “1” en value y etiquetelo en Label con el nombre de Mujer, Apply (aplicar) y
ok.
En la ventana de Variable Properties, baje la barra de Value Label y seleccione sexo. Luego
Para comprobar la etiqueta escriba el comando “tab sexo”, y observará los cambios en el
cero y el uno.
V. Descripción de variables.
Antes de empezar la descripción de las variables se debe utilizar el comando “set more
off”, para poder ver la lista de resultados completa.
El comando “sum”, sirve para ver la lista de todas las variables con sus datos observados,
medias, desviación estándar, Rangos mínimos y máximos.
De esta forma uno puede empezar la primera tabla descriptiva en cada trabajo.
Utilizamos el comando “tab variable_independiente_vertical
variable_dependiente_horizontal”
CATEGÓRICAS NUMÉRICAS /
/CUALITATIVAS CUANTITATIVAS
NORMAL: MEDIA
FRECUENCIAS Y DESVIACIÓN
ESTÁNDAR
NO NORMAL:
PORCENTAJES MEDIANA Y
RANGOS
2) Sesgo y kurtosis: Existe otro comando llamado “sktest variable”, este combina el
sesgo y kurtosis obteniéndose un valor P
- Si P es >0,05 = NORMAL
- Si P es <0,05 = No NORMAL
- Ejemplo: sktest edad
P =
0.2780, de acuerdo a estos resultados se concluye que es NORMAL.
4) Shapiro wilk: Es la prueba más utilizada para hallar normalidad. Para ello utilizamos el
comando “swilk variable” obteniéndose un valor P.
- Si P es >0,05 = NORMAL
- SI P es <0.05 = NO NORMAL
P = 0.00680 Es NO NORMAL
NOTA: La media, desviación estándar, mediana y rangos se obtienen a partir del comando “sum
variable, detail”
Ejemplo:
<20% : Chi2
Categórica - Valores
Categórica Esperados
>20%: Exacta de Fisher
Depende el tipo de variables que queremos cruzar, donde se calculará un valor P, siendo
significativo si es <0,05.
Los valores esperados (1.1)(0.5)(5.0)(0.9)(0.5) son menores o igual a cinco (05), esto quiere
decir que el 50% de los valores esperados son menores o igual a cinco, por lo tanto se utiliza
una la prueba Exacta de Fisher.
Chi2: Para utilizar la prueba paramétrica de Chi2 cruzaremos dos variables en una tabla y
seguido de una coma añadimos “chi2”.
El valor P es de 0.042 y es menor que 0.05, esto quiere decir que es significativo. En el ejemplo
se interpreta que existe diferencia estadística entre la frecuencia de aprobar de hombres y
mujeres
Exacta de Fisher: Para utilizar la prueba Exacta de Fisher cruzaremos dos variables en una
tabla y seguido de una coma añadimos “exact”.
El valor P es de 0.044 y es menor que 0.05, esto quiere decir que es significativo y se interpreta
igual que chi2.
El valor P es 0.1644 y es mayor que 0.05, esto quiere decir que es NO significativo. En el
ejemplo se interpreta: “No existen diferencias estadísticas entre las edades de los que
aprobaron y desaprobaron”.
El valor P es 0.0675 y es mayor que 0.05, esto quiere decir que es NO significativo. Se
interpreta igual que la t student
Coeficiente de Correlación
NOTA: El signo del dato 0.6296, indica si la correlación es positiva o negativa. En el ejemplo
es positivo y quiere decir que a mayor edad mayor año. Si fuese negativo: a mayor edad
menor año. En el ejemplo se interpreta: “Existe asociación significativa moderada entre la
edad y el año”*.
Rho de Spearman
NOTA (*): Para la interpretación de los valores de correlación (coeficiente de correlación y/o Rho de
Spearman), es importante tener en cuenta las siguientes interpretaciones, propuestas por diferentes
autores:
Interpretación 1: El coeficiente de correlación oscila entre –1 y +1, el valor 0 que indica que no existe
asociación lineal entre las dos variables en estudio.
Interpretación 2:
Ninguna correlación………………………………………………………………………………………………………………………0
Interpretación 3:
1) Perfecta R = 1
0,26-0,50: Débil
NOTA: Las pruebas chi2, exacta de ficher y t-student, U de mann-whitney solo sirven para
calcular el valor P, pero no explica cuál es la fuerza de asociación. Para ello se utiliza valores
de asociación o estadísticos de asociación: RP, OR, OR, RR, HR
D) Medidas de Asociación:
RP: Razón de prevalencias: Principalmente en estudios de Casos y Controles y
transversales analíticos.
OR: Odds Ratio o razón de momios: Principalmente en estudios de Casos y Controles y
transversales analíticos.
RR: Razón de riesgos o riesgo relativo o razón de incidencia: Principalmente en estudios
Cohorte y Experimentales
HR: Hazzard ratio: Estudios en un punto en el tiempo, Longitudinales.
Para las medidas de asociación se utiliza el mismo comando para todos, y se interpreta de
acuerdo al tipo de estudio.
Ejemplo
“tab aprobo”:
La variable de interés (SI) representa el 12.85%, esto es mayor que el 10% y por lo tanto se
usará GLM.
Primera: Las mujeres tienen 1,37 veces la probabilidad de aprobar a comparación de los
hombres.
Segunda: Las mujeres tienen 0,37 veces más la probabilidad de aprobar a comparación de los
hombres.
Tercera: Las mujeres tienen el 37% más probabilidad de haber aprobar a comparación de los
hombres.
Modelos Lineales Generalizados (GLM): Para entender GLM diremos que la regresión
logística es como un individuo y el GLM es como una familia de regresiones logísticas.
En otras palabras, GLM es una familia especializada para hacer logística/estadística.
Las familias son:
FAMILIA INVERSE GAUSSIAN: Se usa cuando las variables principales son número inversos.
FAMILIA BINOMIAL /BERNOLLI: Se usa cuando las variables principales son categóricas.
FAMILIA POISSON: Se usa cuando la variable principal es categórica pero se utiliza en casos raros
(ej: problemas de convergencia en el análisis).
Ejemplo:
Ejemplo:
NOTA: Cuando la variable por analizar tiene más de dos categorías, por ejemplo la variable
estado civil tiene las categorías: soltero (0), casado (1), viudo (2) y divorciado (3). Siendo la
variable de interés “aprobó”, para ello se utiliza se utiliza el comando:
Colocar antes de todo el comando “xi” y antes de la variable de varias categorías “i.”
El estado civil tiene cuatro categorías y en análisis lo compara contra el “0” (soltero).
NOTA:
Comando “robust”: Sirve para ajustar la muestra cuando la población es muy grande.
Comando “cluster”: Sirve para ajustar el resultado en caso se haya obtenido la muestra de
diferentes sub_muestras. Por ejemplo si se encuestó a nueve universidades diferentes.
Ejemplo: Los que recibieron el curso de RCP previamente tienen 3,08 veces la probabilidad de
aprobar a comparación de los que no recibieron el curso de RCP, ajustado al semestre, recibir
el curso de primero auxilios, recibir el curso de inyectables y por cluster de universidad.
Agradecimientos
Referencias
1. Van Belle G, Fisher LD. Biostatistics: a methodology for the health sciences. Hoboken, NJ:
Wiley-Interscience; 2004.
2. Stata Press. Stata Base Reference Manual. 13th ed. College Station, TX: Stata Press; 2013.