Вы находитесь на странице: 1из 6

ANÁLISIS DE DATOS CATEGÓRICOS

GUÍA PARA TRABAJO AUTÓNOMO FINAL

OBJETIVOS ESPECÍFICOS

1. Analizar datos de conteo obtenidos mediante la clasificación de observaciones


resultantes de un experimento multinomial para realizar inferencias respecto a las
probabilidades de categorías tanto en tablas unidireccionales como bidireccionales
(de contingencia).
2. Determinar si los datos disponibles se ajustan a una distribución determinada
mediante la aplicación de técnicas de bondad de ajuste para predecir el
comportamiento de la variable de estudio.

Estructura del trabajo:


TABLAS UNILATERALES
1. Una vía rápida en una ciudad, con cuatro carriles en cada dirección, fue estudiada para ver si los
conductores prefieren viajar en los carriles interiores. Se observaron un total de 1000
automóviles durante el intenso tránsito de la hora pico por la mañana y se registraron sus carriles
respectivos. Los resultados se muestran en la siguiente tabla. ¿Los datos presentan suficiente
evidencia para indicar que algunos carriles se prefieren a otros? (Pruebe la hipótesis de que
, usando

Carril 1 2 3 4
Cantidad 294 276 238 192

2. ¿Odia usted los lunes? Investigadores en Alemania han dado otra razón para hacerlo:
concluyeron que el riesgo de ataque al corazón en un lunes, para una persona que trabaja,
puede ser hasta 50% mayor que en cualquier otro día. Los investigadores registraron ataques al
corazón y paros cardiacos en un periodo de 5 años entre 330 000 personas que vivían cerca de
Augsberg, Alemania. En un intento por verificar lo dicho por el investigador, se encuestaron 200
trabajadores que habían tenido ataques al corazón recientemente. El día en el que ocurrieron
sus ataques al corazón aparecen en la tabla siguiente:

Domingo Lunes Martes Miércoles Jueves Viernes Sábado


23 38 27 26 32 26 28

¿Estos datos presentan suficiente evidencia para indicar que hay una diferencia en los
porcentajes de ataques al corazón que ocurren en diferentes días de la semana? Pruebe usando
.

3. Históricamente, las proporciones de todas las personas de origen caucásico en Estados Unidos
con fenotipos sanguíneos A, B, AB y O son .41, .10, .04 y .45, respectivamente. Para determinar
si las proporciones actuales de población todavía se comparan con estos valores históricos, se
seleccionó una muestra aleatoria de 200 estadounidenses caucásicos y se registraron sus
fenotipos sanguíneos. Los números observados con cada fenotipo se dan en la siguiente tabla:
A B AB O
89 18 12 81

¿Hay suficiente evidencia, en el nivel de significancia .05 para afirmar que las proporciones
difieren de los valores históricos?

4. Un sistema de apoyo para decisiones (DSS, decision support system) es un sistema


computarizado diseñado para facilitar el análisis y gestión de conjuntos de datos grandes.
Idealmente, un DSS deberá incluir 4 componente: (1) un sistema de extracción de datos, (2) una
organización de base de datos relacional, (3) modelos de análisis y (4) un dialogo interactivo,
amable con el usuario, entre éste y el sistema. Una dependencia estatal de autopistas instaló
hace poco un DSS para coadyuvar al manejo de datos sobre licitaciones por contratos de
construcción de carreteras. Como parte de un autoexamen, la dependencia seleccionó 151 de
los problemas más recientes que podría achacarse directamente al DSS y los calificó según el
componente en el que se originaron. ¿Se puede concluir de los datos de la tabla que las
proporciones de problemas son diferentes para al menos dos de los 4 componente del DSS?
Pruebe con

Componente 1 2 3 4
Número de problemas 31 28 45 47

5. Imagine que las suposiciones asociadas con un experimento multinomial están todas
satisfechas. Entonces cada una de las ni, i = 1, 2, . . . , k, tienen una distribución binomial con
parámetros n y pi. Además, Cov (ni, nj) = −npi pj si i ≠ j.
a. ¿Cuál es E (ni − nj)?
b. Consulte el inciso a. Proporcione un estimador insesgado para pi − pj .
c. Demuestre que V(ni − nj) = n[pi (1 − pi ) + pj (1 − pj ) +2pi pj ].
d. Consulte el inciso c. ¿Cuál es la varianza del estimador insesgado que se dio en el inciso b?

TABLAS DE CONTINGENCIA

6. Los resultados de un estudio sugieren que el electrocardiograma (ECG) inicial de una víctima
que se sospecha sufre un ataque al corazón se pueden usar para predecir complicaciones de
naturaleza aguda en el hospital. El estudio incluyó 469 pacientes con sospecha de infarto al
miocardio (ataque al corazón).
Cada uno de los pacientes fue clasificado de acuerdo con si su ECG inicial era positivo o
negativo y si la persona sufría complicaciones que ponían en riesgo su vida después en el
hospital. Los resultados se resumen en la siguiente tabla.

Complicaciones que ponen en riesgo la vida del


internado en Hospital
ECG No Sí Total
Negativo 166 1 167
Positivo 260 42 302
Total 426 43 469

¿Hay suficiente evidencia para indicar que si el paciente de un ataque al corazón sufre o no
complicaciones depende del resultado del ECG inicial? Pruebe usando
7. Joseph Jacobson y Diane Wille realizaron un estudio para determinar el efecto del cuidado
temprano de niños con patrones de apego entre hijo y madre.5 En el estudio, 93 infantes fueron
clasificados como “seguro” o “ansioso” usando el paradigma Ainsworth de situación extraña.
Además, los infantes fueron clasificados de acuerdo con el número promedio de horas por
semana que recibían cuidado. Los datos aparecen en la siguiente tabla:

Horas en cuidados de Infantes


Patrón de Bajo (0 - 3 horas) Moderado (4 - 19 horas) Alto (20 - 54 horas)
afecto
Seguro 24 35 5
Ansioso 11 10 8

¿Los datos indican dependencia entre patrones de apego y el número de horas de atención al
niño? Pruebe usando

8. El empleo de lenguajes de alto nivel para programar computadoras (por ejemplo, Fortran, Cobol,
Algol y Pascal) con microprocesadores y minicomputadoras se ha incrementado drásticamente
en los últimos años. Esto ha hecho crecer la necesidad de contar con nuevos y mejores métodos
para evaluar el rendimiento. En un estudio, un investigador desarrolló un sistema de medición
para evaluar dos lenguajes de programación de alto nivel, Algol y Pascal. Los resultados
informados incluyen una distribución de la frecuencia de ocurrencia relativa de los diferentes
tipos de enunciados que se utilizan en programas típicos escritos en Algol y Pascal del mismo
tamaño aproximadamente. Los porcentajes informados se usaron para tabular la información
como sigue:
Algol Pascal
IF 125 2045
FOR 968 350
Tipos de enunciado E/S 135 1847
Asignación 8923 4763
Otro 261 465
TOTALES 10412 9470

a. Suponiendo conteos marginales fijos para los dos lenguajes de programación, realice una
prueba para determinar si los porcentajes de los diferentes tipos de enunciados de
programación difieren para los lenguajes. Prueba con
b. Establezca un intervalo de confianza de 95% para la diferencia en los porcentajes de
enunciados de asignación empleados en los dos lenguajes

9. La naturaleza y ecologistas emplean el término reconocimiento de enemigo querido para


referirse al comportamiento agresivo de aves, mamíferos y hormigas cuando un miembro de su
propia especie viola sus fronteras territoriales. El reconocimiento de enemigo querido a menudo
va seguido de ataques cada vez más violentos contra el animal invasor. Un estudio reciente
exploro la probabilidad de que la salamandra de espalda roja realice el reconocimiento de
enemigo querido utilizando señales químicas para distinguir las salamandras conocidas de las
desconocidas. En las pugnas violentas, una salamandra para localizar presas, compañeras o
competidores territoriales. Una parte del estudio se concentró en las proporciones de machos y
hembras que presentaban heridas en el hocico. Se recolectaron 144 salamandras de un bosque,
se sacrificaron y se examinaron tomando nota de la presencia o ausencia de tejido de
cicatrización el hocico. Los resultados se muestran en la tabla.
Machos Hembras TOTALES
Con tejido de cicatrización en el hocico 5 12 17
Sin tejido de cicatrización en el hocico 76 51 127
TOTALES 81 63

a. Utilice una prueba chi cuadrado para determinar si hay alguna diferencia entre las proporciones
de machos y hembras que tienen tejido de cicatrización en el hocico. Utilice
b. Estime la diferencia entre las proporciones de machos y hembras que tienen tejido de
cicatrización en el hocico. Utilice un intervalo de confianza de 99% e interprete el resultado.

10. Los ingenieros de video han inventado un método nuevo para acortar el tiempo requerido para
transmitir un mensaje comercial por televisión. Esta técnica, llamada compresión en tiempo, ha
permitido a quienes utilizan la publicidad por televisión reducir el alto costo de dicha publicidad.
Sin embargo, ¿son efectivos los mensajes más cortos? A fin de responder esta pregunta, 200
estudiantes universitarios se dividieron aleatoriamente en 3 grupos. El primer grupo (57
estudiantes) vio una grabación de un programa televisivo que incluía un mensaje comercial de
30 segundos; el segundo grupo (74 estudiantes) vio la misma grabación pero con la versión del
mensaje comercial comprimida a 24 segundos; el tercer gripo (69 estudiantes) vio una versión
del mensaje comercial comprimida a 20 segundos. Dos días después de ver el programa, se
pidió a los estudiantes de los 3 grupos citar el nombre de la marca publicitada. En la tabla se
indican los números de estudiantes que recordaron el nombre de la marca para cada uno de los
3 grupos.

Tipo de mensaje comercial


Versión Versión Versión
normal (30 comprimida 1 comprimida 2 TOTALES
segundos) (24 segundos) (20 segundos)
Retención 15 32 10 57
del Sí
nombre 42 42 59 143
de marca No
TOTALES 57 74 69 200

a. ¿Los datos proporcionan pruebas suficientes (con ) de que las dos direcciones de
clasificación, tipo de mensaje comercial y retención del nombre de marca, son
dependientes? Interprete sus resultados
b. Establezca un intervalo de confianza de 95% para la diferencia entre las proporciones de
espectadores de mensajes comerciales normal y comprimido de 24 segundos que
recuerden la marca.

11. La industria de los viajes aéreos se ha preocupado desde hace mucho por el miedo a volar; se
estima que una de cada seis estadounidenses adultos tiene miedo a volar, A fin de determinar si
el miedo a volar es un problema importante para la industria de las líneas aéreas, se realizó una
serie de encuestas nacionales y de propósito especial. Una de las preguntas buscaba determinar
si la ansiedad generada por la idea de volar depende de la experiencia de vuelo en aviones
comerciales. Los respondedores se clasificaron en primer término como no voladores (los que
han volado por lo menos una vez), no voladores que probablemente volarán (quienes nunca han
volado pero consideran que seguramente volarán en el futuro) y no voladores que
probablemente no volarán (quienes nunca han volado ni piensan volar en el futuro). En la tabla
se muestran los números dentro de cada grupo que caen en cada uno de 3 niveles de ansiedad
ante la idea de volar.
Experiencia de vuelo
Voladores No voladores que No voladores que
piensan volar no piensan volar
Nivel de Sin ansiedad 1043 128 113
ansiedad Con ansiedad 189 46 6
Con miedo 140 47 141

a. ¿El nivel de ansiedad ante la idea de volar depende de la experiencia de vuelo? Utilice
b. Establezca un intervalo de confianza de 95% para la diferencia entre las proporciones de
voladores y no voladores que piensan volar que no sienten ansiedad ante la idea de volar.
Interprete el intervalo.

12. Suponga que las entradas en una tabla de contingencia que aparecen en el renglón i y la
columna j están denotadas por nij, para i = 1, 2, . . . , r y j = 1, 2, . . . , c; que los totales de
renglón y columna están denotados por ri, para i = 1, 2, . . . , r, y cj, para j = 1, 2, . . . , c; y que el
tamaño muestral total es n.

Demuestre que:

Observe que esta fórmula proporciona una forma más eficiente desde el punto de vista
computacional para calcular el valor de

BONDAD DE AJUSTE
13. Durante un periodo fijo se observó el número de accidentes sufridos por mecánicos, con los
resultados que se ven en la siguiente. Pruebe, con un nivel de significancia de 5%, la hipótesis
de que los datos provienen de una distribución de Poisson.

Accidentes por Frecuencia de


mecánico Observación
(número de
mecánicos)
0 296
1 74
2 26
3 8
4 4
5 4
6 1
7 0
8 1
14. Los datos de la tabla siguiente son los conteos de frecuencia para 400 observaciones del
número de colonias bacterianas dentro del campo de un microscopio, usando muestras de
película de leche. ¿Hay suficiente evidencia para decir que los datos no se ajustan a la
distribución de Poisson? (Use )

Número de Frecuencia de
colonias por Observación
campo
0 56
1 104
2 80
3 62
4 42
5 27
6 9
7 9
8 5
9 3
10 2
11 0
19 1
Total 400

15. Se lanzó mil veces 5 monedas y luego se registró las veces que salieron cara. ¿Hay suficiente
evidencia para decir que los datos se ajustan a la distribución Binomial? (Use )

# de Caras Frecuencia de
Observación
0 38
1 144
2 342
3 287
4 164
5 25
Total 1000

Вам также может понравиться