Вы находитесь на странице: 1из 12

Características de un dato categorico

Los datos categóricos aparecen cuando una variable se mide en una escala que sólo incluye a los
posibles encuestados en un número limitado de grupos. Por ejemplo, una en- cuesta donde se
recoge información sobre variables como el género, estado civil o afiliación polıtica.

LAS VARIABLES TAMBI´EN SE PUEDEN CLASIFICAR

COMO INDEPENDIENTES

O DEPENDIENTES
. EL T´ERMINO INDEPENDIENTE SE REFIERE A UNA VARIABLE QUE SE PUEDE MANIPULAR
EXPERIMENTALMENTE (E.J. EL TIPO DE TRATAMIENTO QUE SE LE ASIGNA A CADA PERSONA), PERO
TAMBI´EN SE APLICA A MENUDO A UNA VARIABLE QUE SE UTILIZA PARA PREDECIR OTRA VARIABLE
(E.J. NIVEL SOCIO–ECON´OMICO).
EL T´ERMINO DEPENDIENTE SE REFIERE EN GENERAL A UNA VARIABLE CUYO INTER´ES PRIMORDIAL
ES EL RESULTADO O LA RESPUESTA

EJEMPLO: SUPONGAMOS QUE SE DESEA DETERMINAR SI LOS COLEGIOS CONCERTADOS DIFIEREN DE


MANERA SUSTANCIAL DE LOS COLEGIOS PRIVADOS Y P´UBLICOS EN BASE A CIERTOS DATOS
DEMOGR´AFICOS COMO LA UBICACI´ON (URBANO, SUBURBANO O RURAL), EL TIPO (P´UBLICA O
PRIVADA), LA SITUACI´ON PREDOMINANTE SOCIO-ECON´OMICA DE LOS ESTUDIANTES (BAJO, MEDIO
O ALTO) ETC. PARA ESTE TIPO DE AN´ALISIS ES NECESARIO USAR T´ECNICAS DE AN´ALISIS DE DATOS
CATEG´ORICOS, PORQUE TODAS LAS VARIABLES INVOLUCRADAS SON CATEG´ORICAS.

EJEMPLO: SUPONGAMOS QUE UN SOCIOLOGO QUIERE PREDECIR SI UN ESTUDIANTE SE GRADUAR´A


EN SECUNDARIA EN BASE A CIERTA INFORMACION COMO EL N´UMERO DE D´IAS DE ASISTENCIA,
PROMEDIO DE LAS CALIFICACIONES Y LOS INGRESOS FAMILIARES. EN ESTE CASO, SE NECESITA UN
ENFOQUE DE AN´ALISIS CATEG´ORICO DONDE LA GRADUACI´ON (S´I O NO) SIRVE COMO VARIABLE
DEPENDIENTE EN FUNCI´ON DE OTRAS VARIABLES EXPLICATIVAS
Se clasifican en datos categóricos ordinales y nominales

LAS VARIABLES DE RESPUESTA CATEGORICA PUEDEN SER


DICOTOMICAS
ORDINALES
NOMINALES
DE RECUENTO

RESPUESTAS DICOT´OMICAS SON AQUELLAS QUE TIENEN DOS POSIBLES RESULTADOS QUE
A MENUDO SON S´I Y NO. ¿SE DESARROLLAR´A LA ENFERMEDAD? ¿EL VOTANTE VOTAR´A
POR EL CANDIDATO A O POR EL B? ¿APROBAR´A EL EXAMEN? CON FRECUENCIA, LAS
RESPUESTAS DE LOS DATOS CATEG´ORICOS REPRESENTAN M´AS DE DOS RESULTADOS
POSIBLES Y A VECES EN ESTOS RESULTADOS ES POSIBLE CONSIDERAR ALG´UN ORDEN
INHERENTE. ESTAS VARIABLES TIENEN UNA ESCALA DE RESPUESTA ORDINAL DE MEDICI´ON.
¿EL NUEVO PLAN DE ESTUDIOS GUSTA A LOS ESTUDIANTES? ¿LA MUESTRA DE AGUA ES DE
DUREZA BAJA, MEDIA O ALTA? EN EL PRIMER CASO DEL NUEVO PLAN DE ESTUDIOS, EL
ORDEN DE LOS NIVELES DE RESPUESTA ES CLARO, PERO NO HAY NINGUNA PISTA EN
CUANTO A LAS DISTANCIAS RELATIVAS ENTRE LOS NIVELES. EN EL SEGUNDO CASO DE LA
DUREZA DEL AGUA, HAY UNA DISTANCIA POSIBLE ENTRE LOS NIVELES: MEDIO PODR´IA
TENER EL DOBLE DE LA DUREZA DE BAJA Y ALTA PODR´IA TENER TRES VECES LA DUREZA DE
BAJA. SI EXISTEN M´AS DE DOS CATEGOR´IAS POSIBLES Y NO HAY UN ORDEN INHERENTE
ENTRE ELLAS ENTONCES SE TIENE UNA ESCALA DE MEDIDA NOMINAL. NO EXISTE UNA
ESCALA SUBYACENTE EN ESOS RESULTADOS Y NO HAY UNA FORMA APARENTE DE
ORDENARLOS.

EJEMPLOS: ¿A CU´AL DE LOS CUATRO CANDIDATOS VOTASTE EN LAS ELECCIONES MUNICIPALES DE


LA CIUDAD? ¿PREFIERES LA PLAYA, LA MONTA˜NA O LA CIUDAD PARA IR DE VACACIONES? LAS
VARIABLES CATEG´ORICAS A VECES CONTIENEN RECUENTOS. EN LUGAR DE CONSIDERAR LAS
CATEGOR´IAS QUE PRESENTA CADA OBSERVACI´ON (S´I, NO) O (BAJO, MEDIO, ALTO), LOS
RESULTADOS QUE SE ESTUDIAN SON LOS MISMOS N´UMEROS O RECUENTOS DE APARICIONES.

EJEMPLOS: EL TAMA˜NO DE UNA CAMADA, ¿FUE DE 1, 2, 3, 4 ´O 5 ANIMALES? LA OFICINA TIENE ¿1,


2, 3 ´O 4 EQUIPOS DE AIRE ACONDICIONADO? EN LA METODOLOG´IA CL´ASICA HABITUAL SE ANALIZA
LA MEDIA DE LOS RECUENTOS, PERO LOS SUPUESTOS QUE SE TIENEN QUE CUMPLIR EN UN MODELO
LINEAL EST´ANDAR CON DATOS CONTINUOS NO SE CUMPLEN A MENUDO CON DATOS DISCRETOS.
EN GENERAL, LOS RECUENTOS NO SE DISTRIBUYEN SEG´UN UNA DISTRIBUCI´ON NORMAL Y LA
VARIANZA NO SUELE SER HOMOG´ENEA.

diferentes métodos sobre pruebas de hipótesis sobre


datos categóricos,

el metodo de la razon de verosimilitudes

EN EL M´ETODO DE LA RAZ´ON DE VEROSIMILITUDES SE COMPARA LA VEROSIMILITUD


(PLAUSIBILIDAD) DE LOS DATOS OBSERVADOS USANDO LA PROPORCI´ON ESPECIFICADA
BAJO LA HIP´OTESIS NULA, RESPECTO A LA VEROSIMILITUD DE LOS DATOS OBSERVADOS
USANDO LA ESTIMACI´ON MUESTRAL. LA VEROSIMILITUD OBTENIDA BAJO LA HIP´OTESIS
NULA SE DENOTA MEDIANTE L0 Y LA VEROSIMILITUD OBTENIDA USANDO EL ESTIMADOR
MUESTRAL SE DENOTA COMO L1. EL COCIENTE L0/L1 REPRESENTA LA RAZ´ON DE
VEROSIMILITUDES. SI L1 (LA VEROSIMILITUD OBTENIDA A PARTIR DE LOS DATOS
OBSERVADOS) ES MUCHO MAYOR QUE L0 (LA VEROSIMILITUD BAJO LA HIP´OTESIS NULA
H0) LA RAZ´ON DE VEROSIMILITUDES SER´A PEQUE˜NA E INDICAR´A QUE LOS DATOS
MUESTRAN EVIDENCIAS EN CONTRA DE LA HIP´OTESIS NULA

Inferencia para la distribuci´on multinomial

EN 1900 KARL PEARSON PRESENT´O UNA PRUEBA DE HIP´OTESIS QUE FUE UNO DE LOS PRIMEROS M´ETODOS
DE INFERENCIA QUE SE INVENTARON Y TUVO UN GRAN IMPACTO EN EL AN´ALISIS DE DATOS CATEG´ORICOS,
QUE HASTA ESE MOMENTO SE HAB´IA CENTRADO EN LA DESCRIPCI´ON DE LAS ASOCIACIONES ENTRE
VARIABLES. LA PRUEBA DE PEARSON EVAL´UA SI LOS PAR´AMETROS DE UNA MULTINOMIAL SON IGUALES A
UNOS VALORES PREVIOS ESPECIFICADOS. SE CONSIDERA COMO HIPOTESIS NULA
CUANDO LA HIPOTESIS NULA ES CIERTA, ENTONCES (PARA J = 1, . . . , C) LOS VALORES ESPERADOS DE NJ O
FRECUENCIAS ESPERADAS SON IGUALES a nπj0.
EJEMPLO EL TEST DE PEARSON SE US´O EN GEN´ETICA PARA CONTRASTAR LAS TEOR´IAS DE MENDEL
SOBRE LA HERENCIA. MENDEL CRUZ´O GUISANTES AMARILLOS PUROS CON GUISANTES VERDES
PUROS. SU PREDICCI´ON ERA QUE 3/4 TEN´IAN QUE SER AMARILLOS Y 1/4 VERDES. EN UN
EXPERIMENTO SE OBTUVO N = 8023 GUISANTES, DE LOS CUALES N1 = 6022 FUERON AMARILLOS Y
N2 = 2001 VERDES. LAS FRECUENCIAS ESPERADAS SON,
ENTONCES,
H0 : πA = 8023 · 0,75
πV = 8023 · 0,25
De modo que X 2 = (6022 − 8023 · 0,75)/2 8023 · 0,75 + (2001 − 8023 · 0,25)2 8023 · 0,25 = 1,59 ×
10−2

métodos de pruebas de bondad de


ajuste,

La bondad de ajuste de un modelo estadístico describe lo bien que se ajusta


un conjunto de observaciones. Las medidas de bondad en general resumen la
discrepancia entre los valores observados y los k valores esperados en el
modelo de estudio. Tales medidas se pueden emplear en el contraste de
hipótesis, e.g. el test de normalidad de los residuos, comprobar si dos muestras
se obtienen a partir de dos distribuciones idénticas (test de Kolmogorov-
Smirnov), o si las frecuencias siguen una distribución específica ( chi
cuadrado).
Prueba de Bondad de Ajuste x2
Esta prueba se utiliza para encontrar la distribución de probabilidad de una
serie de datos. La metodología de la prueba x2 es la siguiente:
1. Se colocan los n datos históricos en una tabla de frecuencia
de intervalos. Se obtiene la frecuencia observada en cada
intervalo i (FOi). Se calcula la media y la varianza de los datos.
2. Se propone una distribución de probabilidad de acuerdo con la forma
de la tabla de frecuencias obtenida en el paso 1
3. Con la distribución propuesta, se calcula la frecuencia esperada para
casa uno de los intervalos (FEi) mediante la integración de distribución
propuesta y su posterior multiplicación por el número total de datos.
4. Se calcula el estimador

5. Si el estimador C es menor o igual al valor correspondiente x2 con m –


k – 1 grados de libertad ( donde k= números de parámetros estimados
de la distribución) y a un nivel de confiabilidad 1- α, entonces no se
puede rechazar la hipótesis de que la información histórica sigue la
distribución propuesta en el punto 2.
Ejemplo
Mediante la prueba x2 determine el tipo de distribución de probabilidad que
sigue la demanda de automóviles a un nivel del 95%, si a través del tiempo se
ha registrado el comportamiento consignado en la siguiente figura. Obtenga
la tabla de frecuencias de la figura anterior considerando 7 intervalos y
cuantificando la frecuencia para cada uno de ellos.

La distribución de probabilidad esperada que se propone, observando los


datos de FO, es una distribución uniforme entre a = 0 y b = 13 y automóviles
por día, o sea:

Integrando

Sustituyendo valores para obtener F(x) y multiplicándolos por es total de


datos, se obtiene FE para cada intervalo.
Calculando el estadístico C con los datos de se obtiene:
c = 4.092
Es valor de 4.092, comparado con el valor de la tabla = 12.59, indica que no
podemos rechazar que los datos anteriores se comportan de acuerdo a una
distribución uniforme entre 0 y 13 automóviles demandados por día con un
nivel de confianza del 95%, entonces:

Prueba de Bondad de Ajuste de Kolmogorov-Smirnov


Esta prueba es más eficiente que la x2 ya que trabaja con la distribución de
probabilidad acumulada. Su metodología es:
1. Se colocan los n datos históricos en una tabla de frecuencias
con . Para cada intervalo se tendrá la frecuencia observada i
(FOi). Se calcula la media y la varianza de los datos.
2. Se divide la frecuencia observada da cada intervalo por el número total
de datos a este resultado, para obtener la probabilidad
observada(POi).
3. Se calcula la probabilidad acumulada observada de cada intervalo
(PAOi) del paso 2.
4. Se propone una distribución de probabilidad de acuerdo con la forma
de la tabla de frecuencias obtenida en 1.
5. Con la distribución propuesta se calcula la probabilidad esperada para
cada uno de los intervalos (PEi). Mediante la integración de la
distribución propuesta.
6. Se calcula la probabilidad acumulada esperada (PAEi) para cada
intervalo de la clase.
7. Se calcula el valor absoluto entre PAOi y PEOi para cada intervalo y se
selecciona la máxima diferencia, llamándola DM
8. El estimador DM se compara con el valor límite correspondiente con n
daos y a un nivel de confiabilidad de 1-α . Si el estimador DM es menor
o igual al valor límite de la tabla en función del nivel de significancia y
del tamaño de la muerta, no se puede rechazar que la información
histórica sigue la distribución propuesta en el paso 4.
Ejemplo:
Mediante la prueba de Kolmogorov determine el tipo de distribución de
probabilidad que siguen los datos del ejemplo anterior, con un nivel de
confianza del 95%. Obtenga la tabla de frecuencias, considerando 7 intervalos
La distribución de probabilidad esperada que se propone, según los datos de
la columna FO, es una distribución uniforme entre 0 y 13 automóviles por día,
o sea:

Integrando

Evaluando la ecuación, se obtiene la siguiente tabla:

Al obtener la diferencia término a término entre PEA y POA, se tiene:

El valor DM es igual a la máxima diferencia, o sea 0.0694, que comparándolo


contra el valor de indica que los datos anteriores siguen una
distribución uniforme entre 0 y 13 automóviles demandados por día, con un
nivel de confianza del 95% por lo tanto:
Tabla de contingencia

UNA TABLA DE CONTINGENCIA ES UNA DE LAS FORMAS M´AS COMUNES DE RESUMIR DATOS
CATEG´ORICOS. EN GENERAL, EL INTERES SE CENTRA EN ESTUDIAR SI EXISTE ALGUNA
ASOCIACI´ON ENTRE UNA VARIABLE DENOMINADA FILA Y OTRA VARIABLE DENOMINADA
COLUMNA Y SE CALCULA LA INTENSIDAD DE DICHA ASOCIACION

La tabla de contingencia es un medio particular de representar


simultáneamente dos carácteres observados en una misma
población, si son discretos o continuos reagrupados en clases. Los

dos carácteres son e , el tamaño de la muestra es . Las

modalidades o clases de se escribirán , las de

, . Se denota:
el efectivo conjunto de y : es el número de

individuos para los cuales toma el valor e el valor ,

el efectivo marginal de : es el número de

individuos para los cuales toma el valor ,

el efectivo marginal de : es el número de

individuos para los cuales toma el valor .


Se representan estos valores en una tabla de doble entrada,
llamada tabla de contingencia:

Cada fila y cada columna corresponden a una submuestra particular.


La fila de índice es la distribución en , de los individuos
para los cuales el carácter toma el valor . La columna de
índice es la distribución sobre , de los individuos para los
cuales el carácter toma el valor . Dividiendo las filas y las
columnas por sus sumas, obtenemos en cada una, distribuciones
empíricas formadas porfrecuencias condicionales.
Para y , las denotaremos:

Estas distribuciones empíricas condicionales se llaman los perfiles-


fila y perfiles-columna. La cuestión es estudiar la dependencia de los
dos carácteres. Dos carácteres son independientes si el valor de uno
no influye sobre la distribución de los valores del otro. Si este es el
caso, los perfiles-fila diferirán muy poco de la distribución empírica
de , y los perfiles-columna de la de :

Es equivalente a decir que las frecuencias conjuntas deben estar


cerca de los productos de las frecuenciasmarginales:

Las frecuencias conjuntas por un lado, y los productos de las


frecuencias marginales por el otro, constituyen dos distribuciones de

probabilidad sobre el conjunto producto .


Una de las maneras de cuantificar su proximidad es calcular
la distancia de chi-cuadrado de una con respecto a la otra. En este
caso particular, hablamos de chi-cuadrado de contingencia.

Proposición 3.9 La distancia de chi-cuadrado de contingencia de

la distribución empírica a la distribución teórica vale:

Demostración: La primera expresión es la aplicación directa de la


definición 2.7. Para pasar a la segunda, se desarrolla el cuadrado.
La distancia de chi-cuadrado vale 0 si los dos carácteres son
independientes. Ella es máxima si existe una dependencia

sistemática. Supongamos que y , para una cierta


función biyectiva . En cada fila y en cada columna de la tabla de
contingencia una sola casilla es diferente de cero y la distancia de
chi-cuadrado vale .

Ejemplo

Por ejemplo, se considera la distribucion conjunta de dos variables y la correspondiente tabla de


contingencia en una muestra de pacientes de un hospital. Se tiene la siguiente tabla donde se
consideran el riesgo de ataque al corazon respecto a la toma de aspirinas: X ≡ Se toma aspirina o
placebo (I = 2). Y ≡ Se sufre ataque cardıaco o no (J = 3).
las pruebas de
independencia.

EJEMPLO: Para estudiar la dependencia entre la práctica de algún deporte y la depresión, se


seleccionó una muestra aleatoria simple de 100 jóvenes, con los siguientes resultados: Sin depresión
Con depresión Deportista 38 9 No deportista 31 22 Determinar si existe independencia entre la
actividad del sujeto y su estado de ánimo. Nivel de significación (5%)

Reza M., García E. (1996). Simlulación y análisis de modelos estocásticos.


México: MacGraw-Hill.

Вам также может понравиться