Вы находитесь на странице: 1из 55

Tema 10: Anlisis de los Datos

Cuantitativos
INTEGRANTES:
Ayquipa Bautista, Gustavo
Bendezu Quispe, Willian
Huarcaya Guerra, Jos
Medina Meza, Ericks Vladimir
Osccorima Baldeon, Miguel Angel
Pariona Cayllahua, Miguel Angel
Pinto Condori, Jesu
Porras Davalos, Alxander Darwin
Rodas Camana, Pablo Luis
Rodrguez Salcedo, Joe Harry Jess
Roque Flores, Nazaria Paola
Valdivia Juarez, Omar Jordan
Paso 1: seleccionar un programa de
anlisis
Existen diversos programas para analizar datos.
Incluyen dos partes: una parte de definiciones de
las variables y la otra parte, la matriz de datos.
Las definiciones son efectuadas por el
investigador.
Una vez recolectados los datos se define los
parmetros de la matriz de datos en el programa
e introduce los datos en la matriz.
Tabla 10.1: Ejemplo de matriz de datos
con tres variables y cuatro casos

En la parte superior de la matriz de datos
aparecen las opciones de los comandos.
Se procede a realizar el anlisis de la matriz (el
anlisis estadstico).
En cada programa tales opciones varan,
pero en cuestiones mnimas
Programas ms importantes
Statistical Package for the Social Sciences o
Paquete Estadstico para las Ciencias Sociales
(SPSS).
Minitab.
Statistical Package for the Social Sciences o Paquete
Estadstico para las Ciencias Sociales (SPSS)
Universidad de Chicago, contiene todos los
anlisis estadsticos, contiene las dos partes
denominadas: a) vista de variables (para
definiciones de las variables y
consecuentemente, de los datos) y b) vista de
los datos (matriz de datos).
Figura 10.2: Vista de los datos en SPSS.

Comandos
File (archivos).
Edit (edicin).
View (ver).
Data (datos).
Transform (transformar).
Analyze (analizar): Se solicitan anlisis estadsticos que bsicamente seran:
1. Informes.
2. Estadsticos descriptivos.
3. Comparar medias.
4. Modelo lineal general.
5. ANOVA.
6. Correlaciones.
7. Regresin.
8. Clasificacin.
9. Reduccin de datos.
10. Escalas.
11. Pruebas no paramtricas.
12. Respuestas mltiples.
13. Validacin compleja.
14. Series de tiempos.
15. Ecuaciones estructurales y modelamiento matemtico.
Graphs (grficas).
Utilities (herramientas).
S-plus.
Window (ventana).
Help (ayuda).
Minitab
Incluye un considerable nmero de pruebas
estadsticas.
Cuenta con un tutorial para aprender a
utilizarlo y practicar.
Sencillo de manejar.
Tiene un sitio web
(http://www.minitab.com/).
Figura 10.2: Pantalla de Minitab
Comandos
File (archivo).
Edit (edicin).
Data (datos).
Cale (calcular).
Stat (estadsticas): de manera fundamental, ejecuta los siguientes tipos de estadsticas:
1. Bsicas.
2. Regresin lineal y mltiple.
3. Anlisis de varianza.
4. DOE.
5. Diagramas .
6. Diagramas de dispersin.
7. Confiabilidad.
8. Anlisis multivariado.
9. Series de tiempos.
10. Tablas.
11. Estadstica no paramtrica.
12. EDA.
13. Poder y tamao de muestra.
Graph (graficas).
Editr (editar).
Tools (herramientas).
Window (ventana).
Help (ayuda).
Paso 2: ejecutar el programa
Lo nico que hay que hacer es solicitar los
anlisis requeridos seleccionando las opciones
apropiadas.
Se debe verificar que el programa funcione en
nuestra computadora.
Comienza la ejecucin del programa y la tarea
analtica.
Paso 3: explorar los datos
1) formulamos la pregunta de investigacin
que pretendemos contestar
2) visualizamos un alcance.
3) establecimos nuestras hiptesis.
4) definimos las variables.
5) elaboramos un instrumento.
6) recolectamos los datos.
Estadstica descriptiva para cada
variable
Qu es una distribucin de frecuencias?
Conjunto de puntuaciones ordenadas en sus
respectivas categoras.
Que otros elementos contiene una distribucin de
frecuencias?
Las distribuciones de frecuencias pueden completarse
agregando los porcentajes de casos en cada categora,
los porcentajes validos (excluyendo los valores
perdidos) y los porcentajes acumulados (porcentaje de
lo que se va acumulando en cada categora, desde la
mas baja hasta la mas alta).
El porcentaje acumulado constituye lo que aumenta en
cada categora de manera porcentual y progresiva (en
orden descendente de aparicin de las categoras),
tomando en cuenta los porcentajes vlidos.
Las columnas porcentaje y porcentaje vlido son iguales
(mismas cifras o valores) cuando no hay valores perdidos;
pero si tenemos valores perdidos, la columna porcentaje
vlido presenta los clculos sobre el total menos tales
valores.
Al elaborar el reporte de resultados, una distribucin se
presenta con los elementos mas informativos para el lector
y la descripcin de los resultados o un comentario.
En los comentarios sobre las distribuciones de
frecuencias se utilizan frases como la mitad
de los entrevistados prefiere la marca X" (con
50%), poco menos de la mitad de la
poblacin mencion que votarn por el
candidato X (<50.0%), casi la tercera parte...",
cuatro de cada diez..., solamente uno de
cada diez... la mayora..., etctera.
De qu otra manera pueden presentarse las distribuciones
de frecuencias?
Las distribuciones de frecuencias,
especialmente cuando utilizamos los
porcentajes, pueden presentarse en forma de
histogramas o grficas de otro tipo.
Las distribuciones de frecuencias tambin se pueden
graficar como polgonos de frecuencias
Polgonos de frecuencias: Relacionan las
puntuaciones con sus respectivas frecuencias,
por medio de grficas tiles para describir los
datos.
Cules son las medidas de tendencia
central?
Valores medios o centrales de una distribucin
que sirven para ubicarla dentro de la escala de
medicin.
Moda: Categora o puntuacin que se presenta
con mayor frecuencia.
Mediana es el valor que divide la distribucin por
la mitad.
Media: Es el promedio aritmtico de una
distribucin y es la medida de tendencia central
mas utilizada.
Cules son las medidas de la
variabilidad?
Son intervalos que indican la dispersin de los
datos en la escala de medicin.
Rango: Indica la extensin total de los datos en la
escala.
Desviacin estndar: Promedio de desviacin de
las puntuaciones con respecto a la media que se
expresa en las unidades originales de medicin
de la distribucin.
Varianza: Es la desviacin estndar al cuadrado.
Se utiliza en anlisis inferenciales.
Cmo se interpretan las medidas de tendencia central
y de la variabilidad?
Para interpretarlos, lo primero que hacemos
es tomar en cuenta el rango potencial de la
escala.
Hay alguna otra estadstica
descriptiva?
Asimetra Estadstica: que se usa para conocer
cunto se parece una distribucin a la
distribucin terica llamada curva normal y
que constituye un indicador del lado de la
curva en el que las frecuencias se agrupan
ms.
Curtosis: Indicador de lo plana o picuda que es
una curva.
Cmo se traducen las estadsticas
descriptivas al ingls?

Nota final
Debe recordarse que en una investigacin se
obtiene una distribucin de frecuencias y se
calculan las estadsticas descriptivas para cada
variable, las que se necesiten de acuerdo con
los propsitos de la investigacin y los niveles
de medicin.
Puntuaciones z
Medida que indica la direccin y el grado en
que un valor individual se aleja de la media,
en una escala de unidades de desviacin
estndar.
Razones y tasas
Razn: Es la relacin entre dos categoras.
Tasa: Es la relacin entre el numero de casos
de una categora y el nmero total de
observaciones.
Paso 4: evaluar la confiablidad y validez lograda
por el instrumento de medicin
La confiabilidad:
1. Medida de estabilidad (confiabilidad por
test-retest).
2. Mtodo de formas alternativas o paralelas.
3. Mtodo de mitades partidas.
4. Medidas de coherencia interna.
Coeficientes de confiabilidad alfa de Cronbach
() y los coeficientes KR-20 y KR-21.
La validez:
Anlisis de factores: Mtodo estadstico
multivariado que sirve para determinar el
nmero y la naturaleza de un grupo de
constructos subyacentes en un conjunto de
mediciones.
Paso 5: analizar mediante pruebas estadsticas las
hiptesis planteadas (anlisis estadstico inferencial)
La estadstica inferencial se utiliza para dos
procedimientos (Wiersma y Jurs, 2005):
a) Probar hiptesis.
b) Estimar parmetros.
Prueba de hiptesis: determina si la hiptesis es
congruente con los datos obtenidos en la muestra
(Wiersma y Jurs, 2005).
Distribucin muestral: es un conjunto de valores
sobre una estadstica calculada de todas las
muestras posibles de determinado tamao de
una poblacin (Wiersma y Jurs, 2005).
Nivel de significancia: Es un nivel de la
probabilidad de equivocarse y que fija de manera
a priori el investigador.
Relacin de la distribucin muestral y el nivel
de significancia
El nivel de significancia se expresa en trminos de
probabilidad (0.05 y 0.01) y la distribucin muestral
tambin como probabilidad (el rea total de sta como
1.00). Para ver si existe o no confianza al generalizar
acudimos a la distribucin muestral, con una
probabilidad adecuada para la investigacin. El nivel de
significancia lo tomamos como un rea bajo la
distribucin muestral y depende de si elegimos un nivel
de 0.05 o de 0.01.
As, el nivel de significancia representa reas de riesgo
o confianza en la distribucin muestral.
Qu hacemos para
ver si nuestra hiptesis sobre la media poblacional es aceptada
o rechazada una vez definido el nivel de significancia?
Es necesario hacer las siguientes consideraciones:
a) La distribucin muestral es una distribucin normal
de puntuaciones 2 , la base de la curva son
puntuaciones z o unidades de desviacin estndar.
b) Las puntuaciones z son distancias que indican reas
bajo la distribucin normal. En este caso, reas de
probabilidad.
c) El rea de riesgo es tomada como el rea de rechazo
de la hiptesis; por el contrario, el rea de confianza,
como el rea de aceptacin de la hiptesis.
d) Se habla de una hiptesis acerca del parmetro (en
este caso, media poblacional).
Si partimos de estas consideraciones, el procedimiento es:
1. Sobre bases firmes (revisin de la literatura e informacin
disponible), establecer una hiptesis acerca del parmetro
poblacional.
2. Definir el nivel de significancia.
3. Recolectar los datos en una muestra representativa.
4. Estimar la desviacin estndar de la distribucin muestral de la
media utilizando la siguiente frmula:


Donde Sx es la desviacin estndar de la distribucin muestral de la
media, s representa la desviacin estndar de la muestra y n es el
tamao de la muestra.
5. Transformar la media de la muestra en una
puntuacin z, en el contexto de la distribucin
muestral, con una variacin de la formula ya conocida
para obtener puntuaciones z:


donde X es la media de la muestra (recordemos que la
distribucin muestral es de medias y no de
puntuaciones), X es la media hipottica de la
distribucin muestral (parmetro poblacional), Sx es la
desviacin estndar de la distribucin muestral de
medias.
6. En la tabla de reas bajo la curva normal
buscar aquella puntuacin z por encima de
ella.
7. Comparar la media de la muestra
transformada a puntuacin z; si es menor,
aceptar la hiptesis; si es mayor, rechazarla.
Por qu es importante otro concepto:
el intervalo de confianza?
El nivel de confianza es al intervalo de
confianza, lo que el nivel de significancia es a
la prueba de hiptesis.
Tales niveles de confianza se expresan en
unidades de desviacin estndar.

Se pueden cometer errores al realizar estadstica
inferencial?
Los resultados posibles al probar hiptesis seran:
1. Aceptar una hiptesis verdadera (decisin correcta).
2. Rechazar una hiptesis falsa (decisin correcta).
3. Aceptar una hiptesis falsa (conocido como error del Tipo II o
error beta).
4. Rechazar una hiptesis verdadera (conocido como error del Tipo I
o error alfa).
Ambos tipos de error son indeseables; sin embargo, puede
reducirse la posibilidad de que se
presenten mediante:
a) Muestras representativas probabilsticas.
b) Inspeccin cuidadosa de los datos.
c) Seleccin de las pruebas estadsticas apropiadas.
d) Mayor conocimiento de la poblacin.
Prueba de hiptesis
Hay dos tipos de anlisis estadsticos que pueden realizarse para
probar hiptesis: los anlisis paramtricos y los no paramtricos.
Cada tipo posee sus caractersticas y presuposiciones que lo
sustentan; la eleccin de qu clase de anlisis efectuar depende de
estas presuposiciones. De
igual forma, cabe destacar que en una misma investigacin es
posible llevar a cabo anlisis paramtricos
para algunas hiptesis y variables y anlisis no paramtricos para
otras. Asimismo,
los anlisis a realizar dependen de las hiptesis que hayamos
formulado y el nivel de medicin
de las variables que las conforman. Primero revisaremos las
pruebas ms importantes y luego la
secuencia de anlisis segn las hiptesis establecidas.
Anlisis paramtricos
Cules son los supuestos o las presuposiciones de la
estadstica paramtrica?
Para realizar anlisis paramtricos debe partirse de los
siguientes supuestos:
1. La distribucin poblacional de la variable dependiente es
normal: el universo tiene una distribucin normal.
2. El nivel de medicin de la variable dependiente es por
intervalos o razn.
3. Cuando dos o ms poblaciones son estudiadas, tienen
una varianza homognea: las poblaciones
en cuestin poseen una dispersin similar en sus
distribuciones (Wiersma y Jurs, 2005).
Cules son los mtodos o las pruebas estadsticas
paramtricas ms utilizadas?
Las pruebas estadsticas paramtricas ms utilizadas
son:
Coeficiente de correlacin de Pearson y regresin
lineal
Prueba t
Prueba de contraste de la diferencia de proporciones
Anlisis de varianza unidireccional (ANOVA Oneway)
Anlisis de varianza factorial (ANOVA)
Anlisis de covarianza (ANOVA)
Qu es el coeficiente de correlacin
de Pearson?
Definicin: Es una prueba estadstica para analizar la relacin entre
dos variables medidas en un nivel por intervalos o de razn.
Se simboliza: r
Hiptesis a probar. Correlaciona!, del tipo de A mayor X, mayor Y ,
A mayor X, menor Y \ altos valores en X estn asociados con altos
valores en Y', altos valores en X se asocian con bajos valores de Y .
Variables: Dos. La prueba en si no considera a una como
independiente y a otra como dependiente, ya que no evala la
causalidad. La nocin de causa-efecto (independiente-dependiente)
es posible establecerla tericamente, pero la prueba no considera
dicha causalidad.
Qu es la regresin lineal?
Definicin: Es un modelo matemtico para estimar el efecto de una
variable sobre otra. Est asociado con el coeficiente r de Pearson.
Brinda la oportunidad de predecir las puntuaciones de una variable
tomando las puntuaciones de la otra variable. Entre mayor sea la
correlacin entre las variables (covariacin), mayor capacidad de
prediccin.
Hiptesis: Correlacinales y causales.
Variables: Dos. Una se considera como independiente y otra como
dependiente. Pero, para poder hacerlo, debe tenerse un slido
sustento terico.
Nivel de medicin de las variables: Intervalos o razn.
Procedimiento e interpretacin: La regresin lineal se determina
con base en el diagrama de dispersin. ste consiste en una grfica
donde se relacionan las puntuaciones de una muestra en dos
variables.
Qu es la prueba t?
Definicin: Es una prueba estadstica para evaluar si dos grupos difieren entre si de
manera significativa respecto a sus medias.
Se simboliza: t
Hiptesis: De diferencia entre dos grupos. La hiptesis de investigacin propone
que los grupos difieren de manera significativa entre si y la hiptesis nula propone
que los grupos no difieren significativamente. Los grupos pueden ser dos plantas
comparadas en su productividad, dos escuelas contrastadas en los resultados a un
examen, dos clases de materiales de construccin comparados en su rendimiento,
etctera.
Variable: La comparacin se realiza sobre una variable (tericamente
dependiente). Si hay diferentes variables, se efectuaran varias pruebas t (una por
cada variable), y la razn que motiva la creacin de los grupos puede ser una
variable independiente. Por ejemplo, un experimento con dos grupos, donde a
uno se le aplica el estimulo experimental y al otro no, es de control.
Nivel de medicin de la variable de comparacin: Intervalos o razn.
Interpretacin: El valor t se obtiene en muestras grandes mediante la formula:
En donde X1 es la media del primer grupo, X2 la
media del segundo grupo, s12 representa la
desviacin estndar del primero elevada al
cuadrado, n1 es el tamao del primer grupo,
s22 simboliza la desviacin estndar del
segundo grupo elevada al cuadrado y n2 es el
tamao del segundo grupo. En realidad, el
denominador es el error estndar de la
distribucin muestral de la diferencia entre
medias.
Qu es la prueba de diferencia de
proporciones?
Definicin: Es una prueba estadstica para analizar
si dos proporciones difieren significativamente
entre si.
Hiptesis: De diferencia de proporciones en dos
grupos.
Variable: La comparacin se realiza sobre una
variable. Si hay varias, se efectuara una prueba de
diferencia de proporciones por variable.
Nivel de medicin de la variable de comparacin:
Intervalos o razn, expresados en proporciones o
porcentajes.
Qu es el anlisis de varianza unidireccional
o de un factor? (one way)
Definicin-, Es una prueba estadstica para analizar si ms de dos
grupos difieren significativamente entre s en cuanto a sus medias y
varianzas. La prueba t se utiliza para dos grupos y el anlisis de
varianza unidireccional se usa para tres, cuatro o ms grupos.
Aunque con dos grupos se puede utilizar tambin.
Hiptesis: De diferencia entre mas de dos grupos. La hiptesis de
investigacin propone que los grupos difieren significativamente
entre si y la hiptesis nula propone que los grupos no difieren
significativamente.
Variables: Una variable independiente y una variable dependiente.
Nivel de medicin de las variables: La variable independiente es
categrica y la dependiente es por intervalos o razn.
Anlisis de varianza Prueba estadstica para analizar si mas de dos
grupos
difieren entre si de manera significativa en sus medias y varianzas.
Anlisis no paramtricos
Cules son las presuposiciones de la estadstica no
paramtrica?
Para realizar los anlisis no paramtricos debe partirse de
las siguientes consideraciones:
1. La mayora de estos anlisis no requieren de
presupuestos acerca de la forma de la distribucin
poblacional. Aceptan distribuciones no normales.
2. Las variables no necesariamente tienen que estar
medidas en un nivel por intervalos o de razn; pueden
analizar datos nominales u ordinales. De hecho, si se
quieren aplicar anlisis no paramtricos a datos por
intervalos o razn, estos se resumen a categoras discretas
(a unas cuantas). Las variables deben ser categricas.
Cules son los mtodos o las pruebas
estadsticas no paramtricas ms utilizados?
Las pruebas no paramtricas mas utilizadas
son:
1. La chi cuadrada o X2.
2. Los coeficientes de correlacin e
independencia para tabulaciones cruzadas.
3. Los coeficientes de correlacin por rangos
ordenados de Spearman y Kendall.
Qu es la chi cuadrada o x2?
Definicin: Es una prueba estadstica para evaluar hiptesis
acerca de la relacin entre dos variables categricas.
Se simboliza: X2.
Hiptesis a probar: Correlacinales.
Variables involucradas: Dos. La prueba chi cuadrada no
considera relaciones causales.
Nivel de medicin de las variables: Nominal u ordinal (o
intervalos o razn reducidos a ordinales).
Procedimiento: Se calcula por medio de una tabla de
contingencia o tabulacin cruzada, que es un cuadro de dos
dimensiones, y cada dimensin contiene una variable. A su
vez, cada variable se subdivide en dos o ms categoras.
Qu son los coeficientes de correlacin e
independencia
para tabulaciones cruzadas?
Phi ().
Coeficiente de contingencia C de Pearson.
V de Cramer (C).
Goodman-Kruskal Lambda o solo Lambda ().
Coeficiente de incertidumbre o entropa o U de
Theil.
Gamma de Goodman y Kruskal.
Tau-a, Tau-b y Tau-c (a, b, c).
D de Somers Kappa.
Qu otra aplicacin tienen las tablas
de contingencia?
Son tiles para describir conjuntamente dos o ms
variables. Esto se efecta al convertir las frecuencias
observadas en frecuencias relativas o porcentajes. En
una tabulacin cruzada puede haber tres tipos de
porcentajes respecto de cada celda.
Porcentaje en relacin con el total de frecuencias
observadas (N o n de muestra).
Porcentaje en relacin con el total marginal de la
columna.
Porcentaje en relacin con el total marginal del
rengln.
Otros coeficientes de correlacin
Coeficiente de correlacin de Pearson: Es una
estadstica apropiada para variables medidas
por intervalos o razn y para relaciones
lineales.
Coeficientes rho de Spearman y tau de
Kendall: Son medidas de correlacin para
variables en un nivel de medicin ordinal; los
individuos u objetos de la muestra pueden
ordenarse por rangos.
Paso 6: realizar anlisis adicionales
Una vez realizados nuestros anlisis, es posible
que decidamos realizar otros anlisis extras o
pruebas para confirmar tendencias y evaluar
los datos desde diferentes ngulos.
Paso 7: preparar los resultados para
presentarlos
Se recomienda las siguientes actividades:
1. Revisar cada resultado.
2. Organizar los resultados.
3. Cotejar diferentes resultados.
4. Priorizar la informacin ms valiosa.
5. Copiar y/o formatear las tablas en el programa con
el cual se elaborar el reporte de la investigacin.
6. Comentar o describir brevemente la esencia de los
anlisis, valores, tablas, diagramas, grficas.
7. Volver a revisar los resultados.
8. Elaborar el reporte de investigacin.
RESUMEN
El anlisis cuantitativo de los datos se efecta mediante la matriz de datos.
Los pasos ms importantes en el anlisis de los datos son:
Decidir el programa de anlisis de los datos a utilizar.
Explorar los datos obtenidos en la recoleccin.
Evaluar la confiabilidad y validez del instrumento de medicin utilizado.
Analizar e interpretar mediante pruebas estadsticas las hiptesis planteadas.
Los anlisis estadsticos se llevan a cabo mediante programas computacionales, con la ayuda de paquetes estadsticos, los ms conocidos son:
Minitab y SAS.
El tipo de anlisis o pruebas estadsticas depende del nivel de medicin de las variables, las hiptesis y el inters del investigador.
Los principales anlisis estadsticos que pueden hacerse son: estadstica descriptiva para cada variable (distribucin de frecuencia y medidas de la
variabilidad), razones y tazas, pruebas paramtricas y pruebas no paramtricas.
Las distribuciones de frecuencias contienen las categoras, los cdigos y los porcentajes.
Las medidas de tendencia central son la moda, la mediana y la media.
Las medidas de la variabilidad son el rango, la desviacin estndar y la varianza.
Una razn es la relacin entre dos categoras; una tasa es la relacin entre el nmero de casos de una categora.
La validez de criterio se obtiene mediante coeficientes de correlacin.
La estadstica inferencial sirve para efectuar generalizaciones de la muestra a la poblacin. Se utiliza para probar hiptesis y estimar parmetros.
La curva o distribucin normal es un modelo terico sumamente til; su media es (0) y su desviacin estndar (1).
Los anlisis estadsticas paramtricas ms utilizados son:
Coeficiente de correlacin de Pearson : Correlacional
Regresin lineal :Correlacional/causal
Anlisis de varianza (ANOVA) : Diferencia de grupos/causal
Anlisis de covarianza (ANCOVA) : Correlacional/causal
En todas las pruebas estadsticas paramtricas las variables estn medidas en un nivel por intervalos o razn.
Los anlisis o las pruebas estadsticas no paramtricas ms utilizados son:
Coeficientes de correlacin de Spearman y Kendall : Correlacional
Coeficiente eta para relaciones no lineales : Correlacional
Las pruebas no paramtricas se utilizan con variables nominales u ordinales.

Вам также может понравиться