Вы находитесь на странице: 1из 36

Anlisis de la informacin

Jaiberth Antonio Cardona Arias e-mail: jaiberthcardona@gmail.com

Contenido

Anlisis univariado:

Variables cualitativas: Medidas de frecuencia (frecuencia absoluta, frecuencia relativa - proporciones). Variables cuantitativas: Medidas de resumen.

Anlisis bivariado:

Estadstica inferencial o paramtrica. Estadstica no paramtrica.

Anlisis multivariado:

Regresin lineal mltiple. Regresin logstica: Binaria y multinomial.

Tradicionalmente la estadstica se ha definido como la

ciencia que estudia la recopilacin, organizacin,


presentacin y anlisis de informacin de tipo numrico o cuantitativa, con el fin de deducir explicaciones precisas, realizar predicciones y orientar la toma de decisiones.

Estadstica descriptiva: Utilizada para organizar, resumir y presentar (en grficos o tablas) datos numricos. Esta subsume el anlisis de frecuencias para las variables cualitativas y el clculo de medidas de resumen para las variables cuantitativas. Las variables son datos, valores o mediciones con los cuales estudian los individuos; estas se dividen en cuantitativas y cualitativas: Variables Cualitativas: Expresan cualidades o atributos clasificados en categoras, pueden ser dicotmicas (clasifican la variable en dos categoras por ejemplo fuma/no fuma) o politmicas (se observan tres o ms categoras, por ejemplo el color de los ojos, profesin, grupo sanguneo). Presentan dos niveles de medicin, nominal para las variables que no presentan ninguna orden y ordinal para las variables cuyas categoras se pueden jerarquizar u ordenar como el estrato socioeconmico.

Variables Cuantitativas: Expresan cantidad, pueden medirse cuantificarse o expresarse en nmeros. Pueden ser continuas o discretas y presentar un nivel de medicin de razn o intervalo. Continuas: Pueden tomar cualquier valor dentro de un rango numrico determinado como la edad, el peso y la talla (permiten la medicin con decimales). Discretas: No admiten cualquier valor dentro de un rango numrico, por lo que solo toman valores enteros. Razn: Presentan un cero absoluto, es decir, el cero indica ausencia. Intervalo: Presentan cero relativo, como la temperatura.

Segn la NATURALEZA CUALITATIVA

TIPO

NIVEL DE MEDICIN

Bicategrica Dicotmica Politmica


Discretas

Nominal
Ordinal De Intervalo

CUANTITATIVA Continuas

De Razn

Estadstica inferencial: corresponde a los anlisis estadsticos que trasciende la descripcin a la generalizacin, en este sentido deriva conclusiones generales (aplicables a una poblacin) a partir de observaciones hechas en una muestra (observaciones o datos recopilados de una parte representativa de la poblacin). Estadstica multivariante: Es la evaluacin del efecto de varias variables independientes sobre una denominada dependiente. Puede utilizarse para predecir, estimar o ajustar y para explicar el efecto recproco y simultneo de varias variables sobre un desenlace.

Anlisis univariado de variables cualitativas

Frecuencia absoluta: es la determinada por el nmero de veces que aparece el valor en una serie de datos, corresponde al recuento, por ejemplo el nmero total de participantes o nmero total de hombres que participan en un estudio.

Frecuencia relativa: tambin es conocida como proporcin o porcentaje, es el cociente entre la frecuencia absoluta conjunta y el nmero de observaciones que cumplen una condicin particular; por ejemplo, porcentaje de hombres (nmero total de hombres divido el nmero total de participantes de un estudio).

Anlisis univariado de variables cuantitativas


Medidas de resumen Se calculan a partir de variables cuantitativas, en estas puede presentarse un gran nmero de valores observados, por ello se ha optado por analizarlas con base en las siguientes preguntas: 1) Alrededor de qu valor se agrupan los datos? 2) Si se agrupan alrededor de un nmero, cmo lo hacen? Muy concentrados? Muy dispersos? Para dar respuesta a estas preguntas se desarrollaron las medidas de tendencia central, de dispersin y de posicin.

Anlisis univariado

Variables cualitativas: Medidas de frecuencia (frecuencia absoluta, frecuencia relativa proporciones). Variables cuantitativas: Medidas de resumen.

Medidas de tendencia central: Media, Mediana, Moda. Medidas de posicin: Percentiles, Deciles. Mediana, Cuartiles,

Medidas

de

dispersin:

Varianza,

Desviacin

Medidas de tendencia central

Media aritmtica: Es la medida ms comn de localizacin o centro de un grupo de datos, es el promedio aritmtico ordinario. Es la suma de todos los valores de una variable dividida entre el nmero total de datos de los que se dispone. Ventajas e inconvenientes: Se expresa en las mismas unidades que la variable. En su clculo intervienen todos los valores de la distribucin. Es el centro de gravedad de toda la distribucin, representando a todos los valores observados. Es nica. Su principal inconveniente es que se ve afectada por los valores extremadamente grandes o pequeos de la distribucin.

1. 2. 3.

4.
5.

Moda muestral: es la observacin que se presenta con mayor frecuencia en la muestra. Es el valor de la variable que ms veces se repite, y en consecuencia, en una distribucin de frecuencias, es el valor de la variable que viene afectada por la mxima frecuencia de la distribucin. En distribuciones no agrupadas en intervalos se observa la columna de las frecuencias absolutas, y el valor de la distribuci6n al que corresponde la mayor frecuencia ser la moda. A veces aparecen distribuciones de variables con ms de una moda (bimodales, trimodales, etc), e incluso una distribucin de frecuencias que presente una moda absoluta y una relativa. Ventajas e inconvenientes: Su clculo es sencillo. Es de fcil interpretacin. Es la nica medida de posicin central que puede obtenerse en las variables de tipo cualitativo. En su determinacin no intervienen todos los valores de la distribucin.

1. 2.

3.
4.

Medidas de dispersin

La localizacin o tendencia central no necesariamente proporciona informacin suficiente para describir datos de manera adecuada, por ello al describir los datos continuos de la muestra se debe tener en cuenta su dispersin.

Las medidas de dispersin ms importantes suelen ser: desviacin estndar, rango, rango intercuartlico y varianza.
Varianza: es la media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmtica de la distribucin.

Desviacin estndar: es la raz cuadrada de la varianza. Expresa la dispersin de la distribucin y se expresa en las mismas unidades de medida de la variable. La desviacin tpica es la medida de dispersin ms utilizada en estadstica. Caractersticas de la desviacin tpica y la varianza:
1.

Son ndices que describen la variabilidad o dispersin y por tanto cuando los datos estn muy alejados de la media, el numerador de sus frmulas ser grande y la varianza y la desviacin tpica lo sern. Al aumentar el tamao de la muestra, disminuye la varianza y la desviacin tpica.

2.

3.

Cuando todos los datos de la distribucin son iguales, la varianza y la desviacin tpica son iguales a 0.
Para su clculo se utilizan todos los datos de la distribucin; por tanto, cualquier cambio de valor ser detectado.

4.

Coeficiente de Variacin: es una medida de dispersin relativa de los datos y se calcula dividiendo la desviacin tpica muestral por la media y multiplicando el cociente por 100. Indica la relacin existente entre la desviacin tpica de una muestra y su media.

Rango: Definido como la diferencia entre las observaciones ms grande y ms pequea r=Max(xi)Min (xi).
Rango intercuartlico: diferencia entre el cuartil 3 (percentil 75) y cuartil 1 (percentil 25).

Medidas de posicin

Estn diseadas para proporcionar al investigador una medida cuantitativa de donde est el centro de los datos en una muestra. Para el caso de distribuciones asimtricas se usan los cuartiles, deciles y percentiles. Cuartil: corresponde a cada una de las cuatro partes que surge de la divisin de todos los datos recolectados en cuatro partes iguales. El primer cuartil Q1 deja el 25% de los valores por debajo, el segundo cuartil es igual a la mediana y el tercero Q3 deja el 75%. Decil: es una de las 10 partes que ha sido divida en un conjunto ordenado de datos. El primer decil D1 deja el 10% de los valores por debajo y el resto por encima. El quinto decil es la mediana. Percentil: es el nombre que recibe cada uno de los puntos de divisin de un conjunto ordenado de datos en 100 partes. El percentil catorce (P14) deja el 14% de los valores por debajo. El

Mediana

Es el punto donde la muestra se divide en dos partes iguales. La palabra mediana es sinnimo de parte media. La ventaja de la mediana es que los valores extremos no tienen mucha influencia sobre ellos. Dada una distribucin de frecuencias con los valores ordenados de menor a mayor, llamamos mediana y la representamos por Me, al valor de la variable que deja a su izquierda el mismo nmero de frecuencias que a su derecha. Ventajas e inconvenientes: Es la medida ms representativa en el caso de variables que solo admitan la escala ordinal. Es fcil de calcular. En la mediana solo influyen los valores centrales y es insensible a los valores extremos u outliers.

Anlisis bivariado

El uso de pruebas para comparar variables se basa en el cumplimiento del supuesto de normalidad. En este sentido, cuando el supuesto se cumple se emplean pruebas paramtricas y en caso contrario pruebas no paramtricas. Las pruebas de normalidad, al igual las pruebas empleadas en el anlisis bivariado y multivariado, se interpretan bajo la lgica de las pruebas de hiptesis.

Prueba de hiptesis

Una hiptesis estadstica es una proposicin o supuesto sobre los parmetros de una o ms poblaciones. El procedimiento que conduce a una decisin sobre una hiptesis en particular recibe el nombre de prueba de hiptesis. Tambin se conoce como pruebas de significacin estadstica. En sta se plantea la hiptesis nula y la hiptesis alternativa. La hiptesis nula, representada por Ho, es la afirmacin sobre una o ms caractersticas de poblaciones que al inicio se supone cierta, es decir, la creencia a priori. Es la hiptesis que plantea la igualdad. La hiptesis alternativa, representada por Ha, es la afirmacin contradictoria a Ho, y sta generalmente es la hiptesis a investigar.

Ho es la hiptesis de igualdad Ho, se rechaza cuando el valor p calculado en las diferentes pruebas es menor que el valor de , que convencionalmente es de 0,05 (que corresponde a un nivel de confianza del 95%). La hiptesis de investigacin es la conjetura o suposicin que motiva la investigacin y conduce directamente a la hiptesis estadstica. La hiptesis estadstica se establece de tal forma que pueden ser evaluadas por medio de tcnicas estadsticas adecuadas.

Pasos para la prueba de hiptesis

Datos: es necesario comprender la naturaleza de los datos que forman la base de los procedimientos de prueba, ya que esto determina la prueba particular que se ha de utilizar. Supuestos (restricciones): algunos procedimientos cambian segn las suposiciones, por ejemplo supuestos respecto a la normalidad de la distribucin de la poblacin, igualdad de variancias e independencias de las muestras. Hiptesis: se trabaja con dos que deben anunciarse explcitamente.

Primero la hiptesis que debe probarse, conocida como hiptesis nula o de no diferencia y designada como Ho. En general, la hiptesis nula se establece con el propsito expreso de ser rechazada. En consecuencia, el complemento de la conclusin que el investigador desea alcanzar se convierte en el enunciado de la hiptesis nula. La hiptesis alternativa, identificada con el smbolo HA es una proposicin que se creer cierta si los datos de la muestra llevan al rechazo de la Ho.

Estadstico de prueba: es la frmula que se puede calcular a partir de los datos de la muestra. Este sirve como un productor de decisiones, ya que la decisin de rechazar o no Ho depende de la magnitud del estadstico de prueba. La formula general de los estadsticos de prueba (EP) es: EP = (estadstico - parmetro supuesto) / error estndar del estadstico. Distribucin del estadstico de prueba: generalmente, es la normal o la t student. Regla de decisin: en la distribucin de probabilidad (por ejemplo la normal o la t student) del estadstico todos los valores posibles se dividen en dos grupos conocidos como regin de rechazo y regin de no rechazo. Los valores del estadstico de prueba que forman la regin de rechazo son aquellos que tienen la menor probabilidad de ocurrir, mientras que los valores que forman la regin de no rechazo tienen mayor probabilidad de ocurrir, si la Ho es verdadera para ambas regiones. La regla indica que se debe rechazar Ho si el valor del estadstico de prueba que se calcula a partir de la muestra es uno de los valores de la zona de rechazo.

Nivel de significacin: la decisin en cuanto a qu valores van hacia la regin de rechazo y cules van hacia la regin de no rechazo se toma con base en el nivel de significacin deseado, designa como . Este se define con base en al distribucin normal o t student. Clculo del estadstico de prueba: A partir de los datos contenidos en la muestra se calcula un valor del estadstico de prueba y se compara contra las regiones de no rechazo y rechazo que ya fueron especificadas. Decisin estadstica: Rechazar o no Ho, con base en el valor del estadstico de prueba. Conclusin. Valor p: cantidad que indica qu tan inslitos son los resultados de la muestra, considerando que la Ho sea verdadera.

Tipos de errores:

Error : tambin se conoce como error tipo I, consiste en rechazar una Ho verdadera. Error : tambin se conoce como error tipo II, consiste en no rechazar una Ho falsa.
Al rechazar Ho se tiene el riesgo de cometer un error tipo I, al no rechazar Ho se tiene el riesgo de cometer un error tipo II.

Pruebas de normalidad:

Kolmogorov Smirnov: para datos poblacionales. Kolmogorov Smirnov con correccin de Lilliefors: Para datos muestrales con tamao de muestra igual o mayor a 50. Shapiro Wilk: Para datos muestrales con tamao de muestra igual o menor a 50. En las pruebas de hiptesis Ho indica que los datos provienen de una poblacin normal, por tanto si el valor p (significacin estadstica) es <0,05 se rechazara Ho, indicando que no se cumple el supuesto de normalidad en la distribucin de los datos.

Anlisis bivariado
Variables a comparar Estadstica paramtrica inferencial Estadstica no paramtrica

Cualitativa bicategrica con cuantitativa

T Student para muestras Prueba U de Mannindependientes Whitney

T Student para muestras Prueba de Wilcoxon pareadas


Cualitativa politmica con cuantitativa Cuantitativa con cuantitativa ANOVA Prueba H de KruskalWallis Correlacin de Spearman, Coeficiente Tao de Kendal Coeficiente de correlacin intraclase Chi cuadrado de Pearson, Prueba exacta

Correlacin de Pearson

Cualitativa con cualitativa

Intervalo de confianza para la diferencia de

Regresin: es til para averiguar la forma probable de las relaciones entre las variables y el objetivo final, es predecir o estimar el valor de una variable que corresponde al valor dado de otra variable. En este anlisis participan dos variables X y Y; a la variable X se le conoce por lo general como variable independiente, ya que con frecuencia se encuentra bajo el control del investigador, es decir, los valores de X pueden ser seleccionados por el investigador para obtener uno o ms valores de Y, en correspondencia con los valores de X. Por consiguiente, a la otra variable Y se le conoce como variable dependiente, y se habla de regresin de Y sobre X.

Coeficiente de correlacin mltiple: evala la relacin entre diversas variables y mide la intensidad de dicha relacin. Coeficiente de correlacin parcial: Medida de la intensidad de la relacin lineal entre dos variables cuando se elimina la influencia de las variables restantes (introducidas al modelo de correlacin mltiple). Es la correlacin entre Y y X1, despus de controlar el efecto de X2, manteniendo su valor constante. Modelo de regresin lnea mltiple: Supone la existencia de una relacin lineal entre alguna variable Y, a la cual se le da el nombre de variable dependiente, y K variables independientes X1, X2, Xk. A veces, a las variables independientes se los llama variables explicativas porque se utilizan para explicar la variacin de Y. Tambin se les conoce como variables de prediccin, pues se usan para predecir a Y.

Anlisis multivariado

Desenlace de naturaleza cualitativa:

Anlisis discriminante. Regresin logstica binaria o multinomial. ANOVA de dos o ms factores. Regresin lineal mltiple. Anlisis de componentes principales Anlisis factorial. Anlisis de componentes principales. Anlisis de cluster.

Desenlace de naturaleza cuantitativa:


Solo cualitativas:

Presentacin grfica de la informacin


1.

2.

Para variables Cuantitativas: Histograma de frecuencias: es una presentacin grfica de una variable cuantitativa, donde se explicitan sus valores en el eje X y el eje Y representa la frecuencia de cada valor. Polgono de frecuencias: es similar al histograma, la diferencia radica en que no presenta la frecuencia de cada valor den barras sino con puntos. Para variables Cualitativas: Barras: con base en la altura de cada barra se determina la frecuencia (absoluta o relativa) de cada categora de la variable cualitativa. Sectores: en cada sector se grafica la frecuencia (absoluta o relativa) de cada categora de la variable cualitativa.

1.

2.

Comparacin del comportamiento de una variable cuantitativa segn las categoras de una variable cualitativa: 1. Diagrama de cajas: til para comparar medidas de posicin y dispersin, dado que grafica los cuartiles 1, 2 y 3. Permite principalmente las siguientes comparaciones: 1) las medianas de la variable cuantitativa en cada una de las categoras de la variable cualitativa, 2) los rangos intercuartlicos, 3) el grado de dispersin con base la amplitud de las barras y 4) los valores extremos y atpicos. til en los datos que no presentan distribucin normal y por tanto el mejor parmetro es la mediana. 2. Barras de error: el punto central indica la media y las barras su intervalo de confianza. til en los datos que presentan distribucin normal y por tanto el mejor parmetro es la media.

Comparacin de dos variables cualitativas: 1. Barras apiladas: 2. Barras agrupadas:

Comparacin de dos variables cualitativas: 1. Grfico de dispersin o nube de puntos

Histograma de la variable Peso (en kilogramos) de un grupo de estudio.

Grfico de barras: Frecuencia absoluta del estado civil.

Polgono de frecuencias de la variable Peso (en kilogramos) de un grupo de estudio

Grfico de barras: Frecuencia relativa del estado civil.

Grfico de sectores: Frecuencia del estado civil

Diagrama de cajas. Comparacin del peso segn el sexo de los participantes.

Barra apilada. Comparacin de la afiliacin en salud segn el sexo

Barra agrupada. Comparacin de la afiliacin en salud segn el sexo.

Grfico de dispersin o nube de puntos. Comparacin de la relacin entre la edad y el peso en los participantes del grupo de estudio.

Barras de error. Comparacin del peso segn el sexo de los participantes

Bibliografa

Dawson-Saunders B, Trapp RG. Bioestadstica Mdica. 2 ed. Mxico: Editorial el Manual Moderno; 1996. Pita Fernndez, S. Uso de la estadstica y la epidemiologa en atencin primaria. En: Gil VF, Merino J, Orozco D, Quirce F. Manual de metodologa de trabajo en atencin primaria. Universidad de Alicante. Madrid, Jarpyo Editores, S.A. 1997. David Ruiz Muoz. Manual de estadstica. Universidad Pablo de Olavide. 2004. Szklo Moyses; Nieto Javier. Epidemiologa intermedia Conceptos y aplicaciones. Universidad de Wisconsin, Escuela de Medicina. Madison Wisconsin. Walpole Ronald. Probabilidad y estadstica para ingenieros. Sexta edicin. 1999. Azzimonti Juan Carlos. Bioestadstica aplicada a Bioquimica y farmacia. Segunda edicin.

Вам также может понравиться