Академический Документы
Профессиональный Документы
Культура Документы
Walter
[Dirección de correo electrónico]
Velárdez, Walter Fabián
Introducción al análisis de datos – Aplicaciones en Microsoft Excel ®
37 páginas.
Los derechos de autor de esta obra, que pertenecen a Velárdez Walter, están protegidos por la ley
11.723 y se prohíbe la modificación, edición o reproducción total o parcial de esta obra, sea cual
fuere el medio, electrónico o mecánico, sin el consentimiento por escrito del editor.
◊1◊
INDICE
CONSIDERACIONES PRELIMINARES 2
Comentarios del autor .....................................................................................................................................................2
Activando complementos...............................................................................................................................................2
1. INTRODUCCIÓN AL MUESTRO ................................................................................................................................4
1.1. Herramientas para el análisis ................................................................................................................................4
1.2. Tomando la muestra – método simple al azar (con reposición) ............................................................6
1.3. Tomando la muestra – método sistemático al azar ....................................................................................7
1.4. Tomando la muestra – método simple al azar (sin reposición) ..............................................................9
1.5. Calculo de medidas que resumen información empleando funciones ............................................ 12
1.6. Calculo de medidas que resumen información empleando herramientas de análisis ............... 14
2. INTERVALOS DE CONFIANZA ................................................................................................................................ 17
2.1. Determinación del factor de confianza ......................................................................................................... 17
3. PRUEBA DE HIPÓTESIS PARAMÉTRICA DE UNA POBLACIÓN .................................................................. 18
3.1. Acerca del P-valor................................................................................................................................................... 18
3.2. Como calcular el P-Valor ..................................................................................................................................... 18
3.2.1. Acerca de los estadísticos ................................................................................................................................ 19
3.2.2. Acerca de las funciones y distribuciones ................................................................................................... 19
3.2.3. Acerca del tipo de prueba ............................................................................................................................... 20
4. PRUEBA DE HIPÓTESIS PARAMÉTRICA DE DOS POBLACIONES.............................................................. 22
4.1. Comparación de varianzas .................................................................................................................................. 22
4.2. Comparación de medias ...................................................................................................................................... 24
4.3. Comparación de proporciones ......................................................................................................................... 27
5. ANÁLISIS DE LA VARIANZA .................................................................................................................................... 29
5.1. Análisis de la varianza para un factor ............................................................................................................. 29
5.1. Análisis de la varianza para dos factores ...................................................................................................... 31
6. ANÁLISIS DE REGRESIÓN......................................................................................................................................... 34
6.1. Análisis de regresión ............................................................................................................................................. 34
6.2. Análisis de correlación .......................................................................................................................................... 36
◊1◊
CONSIDERACIONES PRELIMINARES
El presente trabajo no pretende ser un manual exhaustivo para aprender a manejar Microsoft
Excel®, ni tampoco aspira a ser un texto estadístico que profundice en cuestiones teóricas de la
disciplina, ya que para ello existe una vasta cantidad de obras que han hecho un gran aporte al
marco teórico de la disciplina. Simplemente, pretende construir un nexo entre la teoría que se puede
aprender en un curso introductorio de Estadística y la aplicación que se puede hacer en problemas
cotidianos o de moderada complejidad.
Así, se recomienda que previo a la puesta en práctica de los temas tratados en este trabajo, se realice
una acabada revisión bibliográfica ya que, sin el conocimiento teórico suficiente, todo lo que se
trabaje se verá simplificado a una mera ejecución de funciones y herramientas.
Por otro lado, si bien es cierto que existen programas estadísticos con una potencia de análisis mayor
a la que puede ofrecer la planilla de Microsoft Excel®, hay dos razones por la cual se elige el
programa de Microsoft® para desarrollar el presente trabajo de aplicaciones estadísticas. En primer
lugar, Excel® es un programa masivo. No todas las personas tienen la posibilidad de adquirir
programas estadísticos de mayor envergadura. Y, en segundo lugar, puede ocurrir que no todos
tengan el tiempo necesario, o las problemáticas que tratan no tengan un elevado grado de
complejidad estadística, como para adentrarse en el manejo de algún software libre que requiera
mucho más tiempo y dedicación para su óptimo uso.
Finalmente, se aclara que todas las imágenes, ejemplos y funciones fueron desarrolladas con la
versión de Microsoft Excel 2016®, y desde ya, se agradece a los docentes, auxiliares y a los
estudiantes que han hecho llegar sus opiniones e informe de errores de la presente obra.
◊ Activando complementos
1B
Si bien muchas de los procedimientos estadísticos que abordaremos se pueden realizar mediante la
ejecución de alguna función, se puede ahorrar bastante tiempo si se utilizan las herramientas de
Análisis de Datos que trae consigo el programa. No obstante, hay que tener presente dos cuestiones
antes de emplear dichas herramientas:
◊2◊
A continuación, se presenta el paso a paso de cómo realizar la activación de la herramienta Análisis
de Datos.
PASO 1: Abrir Microsoft Excel® y hacer click en la pestaña que dice ubicada en la barra de
tareas en la parte superior de la pantalla principal. Una vez hecho esto, se desplegará un menú en
donde deberemos buscar la opción donde dice y hacer click en él.
“Complementos de Excel”
◊3◊
1. INTRODUCCIÓN AL MUESTRO
A continuación, se explicarán las funciones, herramientas básicas y el paso a paso para realizar
muestreos probabilísticos. En este trabajo, se presentará la explicación realizar muestreos
empleando el método simple al azar y el método sistemático al azar. Así también, se desarrollarán
dos formas de calcular las principales medidas que resumen información.
PASO 1: En la pantalla principal de Excel® hacer click en la pestaña y luego hacer click en
la opción de Análisis de datos, como se presenta en la imagen a continuación:
PASO 3: Una vez seleccionada la opción para tomar muestras aleatorias, se presentará una nueva
ventana emergente con el nombre de Muestra. En ella se deberán completar los campos solicitados
para determinar la población de la cual se tomará la muestra, el tipo de muestreo a realizar y donde
queremos que se presente la muestra generada.
◊4◊
Determinar la población:
Actualmente Excel®, es capaz de realizar dos métodos de muestreos, el simple al azar (aleatorio) y
el sistemático al azar (periódico). Dependiendo del tipo de muestreo que se desee realizar se deberá
elegir entre la casilla de PERIÓDICO o ALEATORIO, y en función de ellos completar:
- Periodo: Solicita que se especifique el valor de la constante c, la cual indica cada cuanto valor
se tomaran los elementos que conforman la muestra. Como bien se sabe, el valor de la
constante c surge del cociente del tamaño de la población (N) y el tamaño de la muestra (n),
por lo que, al especificar el valor de la constante c y brindar el tamaño de la población (N) en
el rango de entrada de datos, el programa determina automáticamente el valor óptimo del
tamaño de muestra.
- Número de muestras: Se debe indicar el número de elementos que deseamos que conformen
la muestra.
- Rango de salida: Si activa esta opción, puede indicar en que parte de la hoja de cálculo actual
se presentara la muestra aleatoria.
- En una hoja nueva: Si activa esta opción, puede indicar en que hoja de cálculo de todo el libro
se presentara la muestra aleatoria.
- En un libro nuevo: Si activa esta opción, indicará que la salida de la muestra se presente en
un libro nuevo.
◊5◊
◊ 1.2. Tomando la muestra – método simple al azar (con reposición)
3B
Para poder mostrar cómo se emplean los distintos métodos de muestreos, se trabajará con el archivo
llamado AD_muestreo.xlsx, el cual se puede descargar desde:
Realizar los PASOS 1, 2 y 3 del apartado anterior, para comenzar a tomar la muestra aleatoria. En
este caso, realizaremos un muestreo de tamaño 6 (n =6) empleado el método simple al azar, para
la población “Cantidades vendidas del producto 01” denominada V_PROD01. Para tomar la muestra,
la ventana emergente de muestra deberá quedar completado de la siguiente manera:
◊6◊
NOTA: En la parte de Entrada, se encuentra seleccionada la opción de , ya que en el
Rango de entrada se encuentra seleccionado la primera celda con el nombre de la población. Si
solo se seleccionaran los valores que componen la población, la opción no debería
estar seleccionada.
Una vez completado los campos, se debe ACEPTAR, y se tendrá la muestra tomada. Tenga presente
que como se está tomando una muestra aleatoria, los valores de variable que aparecerán en la
muestra de ejemplo, seguramente no coincidirán con los valores que aparecen en su planilla de
cálculo.
Para poder tomar una muestra empleando el método sistemático al azar, se deberán repetir los
PASOS 1, 2 y 3 del apartado correspondiente a las Herramientas para el análisis. Recuerde que en
este método debe especificar cada cuanto valor c desea que se tomen los elementos de la muestra.
Como investigador puede ocurrir dos situaciones:
- Que tenga definido el valor de la constante c, por lo que el programa determinará el tamaño
de la muestra.
- Que tenga definido el tamaño de la muestra, por lo que el valor de la constante c será el
número entero que surge del cociente entre el tamaño de la población (N) y el tamaño de
muestra (n). Si así lo quisiera podría determinarlo con la función:
=ENTERO(valor de N/valor de n)
◊7◊
Para realizar este ejemplo se asumirá que el valor de la constante será 4. Para tomar la muestra, la
ventana emergente de muestra deberá quedar completado de la siguiente manera:
Una vez completado los campos, se debe ACEPTAR, y se tendrá la muestra tomada. Nuevamente,
tenga presente que como se está tomando una muestra aleatoria, los valores de variable que
aparecerán en la muestra de ejemplo, seguramente no coincidirán sus valores de muestra.
◊8◊
Es importante tener presente para la investigación que a medida que el valor de la constante c se va
incrementando, el tamaño de la muestra (n) se va haciendo cada vez más chico, explicándose por:
𝑁 𝑁
𝑆𝑖 𝑐 = ⇒ 𝑛 = 𝑝𝑜𝑟 𝑙𝑜 𝑡𝑎𝑛𝑡𝑜, 𝑠𝑖 ↑ 𝑐 ⇒ ↓ 𝑛
𝑛 𝑐
NOTA: Si observa con atención en el ejemplo, se podrá ver que el primer valor que se considera
en la muestra es 23, los siguientes elementos se tomaron cada 4 posiciones (el valor de c), siendo
estos 34, 33, 27 y 29. Esto se debe a que este método elige al azar el primer valor de la población
que formará parte de la muestra, mientras que los siguientes valores estarán a c posiciones del
anterior.
Es importante tener presente que cuando uno toma una muestra empleando las herramientas para
el análisis, este lo hace con reposición, es decir que en una misma muestra puede repetirse el valor
de una variable correspondiente a una misma unidad de análisis. Por ello, si se quisiera trabajar con
un muestreo sin reposición, se debe realizar un procedimiento un tanto mas laborioso, pero no
necesariamente mucho más complejo: Para la realización del ejemplo, vamos a suponer que se
tomará una muestra de tamaño 10.
=ALEATORIO()
◊9◊
PASO 2: Se deberán seleccionar todos los valores
aleatorios, copiarlos y realizar el pegado especial para los
valores. Para eso, se debe abrir el menú desplegable de la
opción PEGAR y buscar la opción que indica pegar valores:
PASO 3: Una vez generada la serie de números aleatorios, se deberá identificar la posición que
ocupa cada uno de ellos en la totalidad de valores aleatorios. Para ello, se deberá emplear la
siguiente función:
Recordando que se trabaja con valor aleatorios y que por ello cada trabajo tendrá números
aleatorios distintos, la planilla de cálculo debería quedar más o menos de la siguiente manera:
◊ 10 ◊
Una vez ejecutada la función para cada uno de los valores aleatorios, salvando la diferencia de los
valores producto de la aleatoriedad, la planilla debería presentarse más o menos así:
PASO 4: Para tomar los valores de variable que formarán parte de la muestra, se deberá utilizar la
función:
Esta función permite buscar elementos sobre la primera columna de una matriz de datos,
recorriendo los datos de manera vertical (de allí la V de la función) hasta encontrar una coincidencia
con el valor_buscado. Por ello, los datos deberán estar presentados por columnas.
◊ 11 ◊
Debo dejar fijo los valores de la matriz
donde se buscará el valor
(matriz_buscar_en), deberían aparecerle
en la denominación de dichas celdas el $
antes de la letra y el número.
Si arrastro la celda generada, tendré la muestra aleatoria sin reposición para la población
“V_PROD01”.
Una vez que se tienen seleccionada la muestra o en el mejor de los casos, se cuenta con la población,
llega el momento de obtener información de ese conjunto de datos. Para ello se realizará el cálculo
de medidas que resumen información, de esta manera en lo que sigue, se presentarán las funciones
correspondientes a las medidas más importantes, siendo estas:
=PROMEDIO(número1;[número2];…)
- Varianza
=VAR.P(número1;[número2];…)
=VAR.S(número1;[número2];…)
◊ 13 ◊
- Desvío típico, desvío estándar, variabilidad absoluta
Estimador (S):
=DESVEST.M(número1;[número2];…)
En donde número1;[número2];… indica que se deben seleccionar los datos que permitirán calcular el
correspondiente desvío estandar.
Si se emplean las Herramientas de análisis que tiene Excel®, es posible obtener una gran cantidad
de medidas que resumen información.
PASO 1: En la pantalla principal de Excel® hacer click en la pestaña y luego hacer click en
la opción de Análisis de datos, como se presenta en la imagen a continuación:
◊ 14 ◊
PASO 3: Una vez seleccionada la opción para realizar el análisis descriptivo, se presentará una nueva
ventana emergente con el nombre de Estadística descriptiva. En ella se deberán completar los
campos solicitados para determinar el análisis a realizar.
- Rango de salida: Si activa esta opción, puede indicar en que parte de la hoja de cálculo actual
se presentara la muestra aleatoria.
- En una hoja nueva: Si activa esta opción, puede indicar en que hoja de cálculo de todo el libro
se presentara la muestra aleatoria.
- En un libro nuevo: Si activa esta opción, indicará que la salida de la muestra se presente en
un libro nuevo.
- Resumen de estadísticas: Se deberá seleccionar esta opción si o si, para obtener como
resultado el análisis descriptivo.
- Nivel de confianza para la media: Al seleccionar esta opción, se obtendrá como resultado del
análisis el valor número del ERROR DE MUESTREO, pendiéndose el valor del nivel de
confianza para realizar la estimación. (Aclaración: la estimación la hace empleado como factor
de confianza el fractil de la distribución T de Student con (n-1) grados de libertad)
◊ 15 ◊
Algunas aclaraciones respecto a la salida
obtenida:
- Las medidas de variabilidad, desviación
estándar y varianza se calcularon
considerando que el conjunto de datos
corresponde a una muestra, por tanto,
los mismo son los estimadores S2 y S.
- La moda no permite identificar
distribuciones polimodales.
- El error típico es el cociente entre el
desvío estándar y la raíz cuadrada de la
muestra.
𝑆
𝐸𝑟𝑟𝑜𝑟 𝑒𝑠𝑡𝑎𝑛𝑑𝑎𝑟 =
√𝑛
◊ 16 ◊
2. INTERVALOS DE CONFIANZA
Con el conocimiento teórico suficiente, construir un intervalo de confianza no debería representar
una tarea demasiado compleja, basta con conocer:
En esta parte del trabajo, se explicará detalladamente como obtener el último punto mencionado,
considerando como premisa que quien está leyendo comprende en que caso habrá de emplear la
distribución normal, la distribución t de student con (n-1) grados de libertad o la distribución chi-
cuadrado.
Las funciones por emplear en el caso de construir intervalos de confianza aditivos son:
=INV.NORM.ESTAND(probabilidad)
=INV.T(probabilidad)
=INV.CHICUAD(probabilidad)
Es importante recordar que donde dice probabilidad para la inversa de la distribución chi-cuadrado
se deberá utilizar el valor de 𝜀⁄2 para el límite inferior y 1 − 𝜀 ⁄2 para el límite superior.
Nótese entonces que el desafío en lo que refiere a los intervalos de confianza, no son sus fórmulas
ni el cálculo de los límites, sino saber reconocer cuando se emplea cada una de las distribuciones y
poder dar una correcta interpretación de los límites estimados.
◊ 17 ◊
3. PRUEBA DE HIPÓTESIS PARAMÉTRICA DE UNA POBLACIÓN
Finalmente nos encontramos en un punto en donde Excel® no es de mucha ayuda: si esperamos
que el programa nos evite de hacer muchas cuentas o recurrir a muchas funciones para obtener un
resultado, este no sería el caso. Lamentablemente dentro de las Herramientas de análisis no existe
la herramienta que permita realizar una prueba de hipótesis paramétrica de una población para la
media, varianza o proporción. No obstante, con una cuota de trabajo y teoría, es posible determinar
el famoso “P-valor” que permite tomar decisiones estadísticas en materia de pruebas de hipótesis,
ya que, como extensa bibliografía estadística lo menciona, si:
En lo que sigue, se desarrollará las maneras para determinar el “P-valor”, considerando las distintas
alternativas de su cálculo, en función del tipo de prueba (unilateral izquierda, unilateral derecha y
bilateral), así como también considerando el parámetro que se desea probar (media 𝜇, varianza 𝜎 2
y proporción 𝜋). Todo lo que refiere a las cuestiones teóricas entorno a la determinación de las
hipótesis, la probabilidad de cometer los distintos tipos de errores, y el fondo de las pruebas de
hipótesis, se debe ampliar necesariamente con cualquier texto de estadística.
Como bien se sabe, o no, el conocido P-Valor es un valor de probabilidad. Se pone en duda respecto
al conocimiento de esto, porque si bien existe una gran cantidad de bibliografía que trabaja con él,
pocas veces hacen una clara mención respecto a lo que significa y como se calcula.
Se puede decir que el P-Valor, con los datos que disponemos, mide la probabilidad de cometer un
error. ¿Qué error? El error de rechazar la hipótesis nula (H0), considerando que dicha hipótesis es
verdadera. Por ello, si la probabilidad de cometer ese error es grande (haciendo la salvedad que
para hacer clara la explicación, consideramos como grande a un valor mayor al nivel de significación)
no se deberá rechazar la hipótesis nula (H0), ya “es muy probable que estemos rechazando una
hipótesis que es verdadera”.
Determinar el valor del P-Valor no resulta complicado, pero si se puede considerar que es laborioso.
Exige tener un sólido conocimiento teórico, ya que su valor depende de dos cuestiones importantes:
1) Del estadístico a emplear, teniendo presente que el mismo depende del parámetro que nos
interesa probar y de los datos de la muestra que obtengamos para tal cometido.
2) Del tipo de prueba que realicemos: pudiendo ser estas unilateral izquierda, unilateral derecha
o bilateral.
◊ 18 ◊
3.2.1. Acerca de los estadísticos
Los estadísticos son variables aleatorias cuyo valor se calcula a partir de los datos de una muestra.
En el caso de las pruebas de hipótesis, nos permite obtener una idea acerca de la discrepancia que
hay entre los valores obtenidos a partir de la muestra, y el valor postulado del parámetro que se
desea probar. A continuación, se presentan los estadísticos y sus correspondientes distribuciones,
en función del parámetro que se desea probar:
𝑥̅ − 𝜇 𝑥̅ − 𝜇
𝑧= 𝜎 ~𝑁𝑜 𝑡= ~𝑇(𝑛 − 1)
𝑆
√𝑛 √𝑛
Siendo:
𝑥̅ : Valor del estimador “media muestral” 𝜇: Valor del parámetro “media poblacional”
𝜎: Valor del parámetro “desvío poblacional” 𝑆: Valor del estimador “desvío muestral”
𝑛: tamaño de muestra (𝑛 − 1): Grados de libertad
𝑝̅ − 𝜋 Siendo:
𝑧= ~𝑁𝑜
𝑝̅ : Valor del estimador “proporción muestral”
√𝜋. (1 − 𝜋)
𝑛 𝜋: Valor del parámetro “proporción poblacional”
𝑛: Tamaño de muestra
- Varianza poblacional (𝜎 2 )
2
𝑆 2 . (𝑛 − 1) 2 Siendo:
𝜒 = ~𝜒 (𝑛 − 1) 𝑆 2 : Valor del estimador “varianza muestral”
𝜎2
𝜎 2 : Valor del parámetro “varianza poblacional”
𝑛: Tamaño de muestra
(𝑛 − 1): Grados de libertad
Para empezar, el tipo de prueba determinará la manera que utilizaremos las funciones en Excel®, y
a su vez será la hipótesis nula (H0) y la hipótesis alternativa (H1) quienes definirán si la región crítica
se encuentra para la derecha, izquierda o dividida en dos.
◊ 19 ◊
- Media poblacional (𝜇)
En el caso de la media poblacional se pueden emplear dos distribuciones: Normal o T de Student.
Por ello, las funciones que se van a emplear son:
=DISTR.NORM.ESTAND.N(z; acumulado)
- Varianza poblacional
Cuando toque realizar una prueba de hipótesis para la varianza poblacional corresponderá emplear
la distribución Chi-Cuadrado, siendo la función por emplear:
En donde:
x : se deberá poner el valor del estadístico calculado previamente.
gradosdelibertad: cuando se emplea la Chi-Cuadrado se deberá indicar por grados de libertad el
valor del tamaño de la muestra, menos uno (n-1).
acumulado: se deberá completar con VERDADERO para indicar a la función que arroje el valor de
probabilidad acumulado.
Una vez establecidas todas las funciones a emplear, se puede empezar a ver como utilizarlas en
función del tipo de prueba.
◊ 20 ◊
Tipo de prueba Condición Cómo calcular el P-Valor
Prueba unilateral
--- Se usa directamente la función calculada previamente
izquierda
Prueba unilateral
--- Se hace 1 menos la función calculada previamente
derecha
Si el 𝑧 ≤ 0 ⇒
Se usa el doble producto de la función calculada previamente
Prueba bilateral
Si el 𝑧 > 0 ⇒ Se hace el doble producto de “1 menos la función calculada
previamente”
Con lo cual se podrá tomar la decisión estadística en función de la siguiente regla de la decisión:
(𝑠𝑖 𝑃𝑣𝑎𝑙𝑜𝑟 ≤ 𝛼 ⇒ 𝑅𝑒𝑐ℎ𝑎𝑧𝑜 𝐻0 )
Prueba unilateral
--- Se usa directamente la función calculada previamente
izquierda
Prueba unilateral
--- Se hace 1 menos la función calculada previamente
derecha
Con lo cual se podrá tomar la decisión estadística en función de la siguiente regla de la decisión:
(𝑠𝑖 𝑃𝑣𝑎𝑙𝑜𝑟 ≤ 𝛼 ⇒ 𝑅𝑒𝑐ℎ𝑎𝑧𝑜 𝐻0 )
(1)
Salvo de que se trate de una prueba bilateral, en donde la regla de la decisión quedará establecida
de la siguiente manera:
(𝑠𝑖 𝑃𝑣𝑎𝑙𝑜𝑟 ≤ 𝛼⁄2 𝑜 𝑠𝑖 𝑃𝑣𝑎𝑙𝑜𝑟 ≥ 1 − 𝛼⁄2 ⇒ 𝑅𝑒𝑐ℎ𝑎𝑧𝑜 𝐻0 )
◊ 21 ◊
4. PRUEBA DE HIPÓTESIS PARAMÉTRICA DE DOS POBLACIONES
En lo que sigue se presentará la explicación para realizar comparaciones de dos parámetros. Para el
caso de la varianza y la media, Excel® goza de una alternativa expeditiva mediante el uso de las
Herramientas de Análisis, sin embargo, en caso de la comparación de dos proporciones se deberá
explicar cómo calcular el P-Valor.
Por último, se recuerda que en el caso de querer comprar dos medias poblacionales, primero se
debe realizar la prueba de comparación de varianzas a fin de poder determinar, mediante los datos
obtenidos de cada una de las muestras, si las varianzas poblacionales son iguales o no (con su
correspondiente nivel de significación).
PASO 1: En la pantalla principal de Excel® hacer click en la pestaña y luego hacer click en
la opción de Análisis de datos, como se presenta en la imagen a continuación:
en el botón de ACEPTAR.
PASO 3: Una vez seleccionada la opción para realizar la prueba F de Fisher Snedecor, se presentará
una nueva ventana emergente con el nombre de Prueba F para varianzas de dos muestras. En ella
se deberán completar los campos solicitados:
1
Se recuerda que, para el caso de querer comparar dos varianzas, dicha prueba emplea la distribución F de Fisher-
Snedecor, de allí el nombre de la opción a elegir en el cuadro de Análisis de datos.
◊ 22 ◊
Determinar las opciones de entrada:
- Rótulos: Se debe activar esta opción si la primera columna (o fila) del rango que contiene a
la muestra, tiene alguna denominación o rótulo.
- Alfa: En esta parte el usuario puede definir con qué nivel de significación trabajar.
- Rango de salida: Si activa esta opción, puede indicar en que parte de la hoja de cálculo actual
se presentara las conclusiones de la prueba.
- En una hoja nueva: Si activa esta opción, puede indicar en que hoja de cálculo de todo el libro
se presentara las conclusiones de la prueba.
- En un libro nuevo: Si activa esta opción, indicará que la salida de las conclusiones de la prueba.
se presente en un libro nuevo.
◊ 23 ◊
Así mismo se puede ver cómo en el conjunto de datos seleccionados, están incluidos los rótulos A
y B, por lo que la opción deberá quedar seleccionada.
PASO 4: Una vez realizado el análisis se procede a leer la salida que general el Excel® de la prueba.
Es importante tener presente los conceptos teóricos de las pruebas de hipótesis a fin de realizar
correctamente la interpretación de la misma. Con los datos presentados en el PASO 1, se obtuvo la
salida que se presenta a continuación:
1) La hipótesis nula (H0) postula que no hay diferencias entre las varianzas poblacionales, por
tanto, la hipótesis alternativa (H1) postula que si la hay.
2) Si el P-Valor es menor al nivel de significación, se rechazará la hipótesis nula (H0).
PASO 1: Al igual que para realizar la comparación de varianzas, se debe ir a , para luego
hacer click en ANÁLISIS DE DATOS. Recuerde que, si sus varianzas son muestrales, previamente
debió haber realizado la prueba F para comprar varianzas poblacionales, a fin de determinar si las
mismas son iguales o distintas (pese a no conocer su valor).
◊ 24 ◊
PASO 2: En este caso, se abrirá una ventana emergente correspondiente al Análisis de datos.
Dependiendo del tipo de prueba que deba realizar, puede elegir entre tres últimas opciones:
Prueba t para dos muestras suponiendo varianzas iguales: se emplea en caso de querer
comparar dos promedios poblacionales y se tiene por dato a las varianzas de cada una de
las muestras. Así mismo, se supone que mediante la realización de la prueba F de Fisher
Snedecor las varianzas poblacionales pese a ser desconocidas, son iguales.
Prueba t para dos muestras suponiendo varianzas desiguales: se emplea en caso de
querer comparar dos promedios poblacionales y se tiene por dato a las varianzas de cada
una de las muestras. Así mismo, se supone que mediante la realización de la prueba F de
Fisher Snedecor las varianzas poblacionales pese a ser desconocidas, son desiguales.
Prueba z para medias de dos muestras: se emplea en caso de querer comparar dos
promedios poblacionales y se tiene por dato las varianzas de cada una de las poblaciones.
PASO 3: Tras elegir la opción acorde a la prueba que se desee realizar, se abrirá una nueva ventana
emergente, no obstante, la misma presenta sutiles diferencias en función de si se eligió realizar
alguna de las dos pruebas t (varianzas iguales o varianzas desiguales) o la prueba z, para comprar
los promedios poblacionales.
◊ 25 ◊
- Diferencia hipotética entre las medías para la variable 2: En este campo se deberá completar
si se quiere probar que existe en concreto una diferencia numérica entre las dos medias. En
caso de no completar con nada, simplemente se estará comparando si existen diferencias
significativas entre los promedios.
- Rótulos: Se debe activar esta opción si la primera columna (o fila) del rango que contiene a
la muestra, tiene alguna denominación o rótulo.
- Alfa: En esta parte el usuario puede definir con qué nivel de significación trabajar.
- Rango de salida: Si activa esta opción, puede indicar en que parte de la hoja de cálculo actual
se presentara las conclusiones de la prueba.
- En una hoja nueva: Si activa esta opción, puede indicar en que hoja de cálculo de todo el libro
se presentara las conclusiones de la prueba.
- En un libro nuevo: Si activa esta opción, indicará que la salida de las conclusiones de la prueba.
se presente en un libro nuevo.
- Prueba z
- Diferencia hipotética entre las medías para la variable 2: En este campo se deberá completar
si se quiere probar que existe en concreto una diferencia numérica entre las dos medias. En
caso de no completar con nada, simplemente se estará comparando si existen diferencias
significativas entre los promedios.
- Varianza para la variable #: Como se trabaja con el supuesto de conocer las varianzas
poblaciones, en esos campos se deberá completar con el valor de cada una. Importante no
confundir el orden de las poblaciones.
◊ 26 ◊
- Rótulos: Se debe activar esta opción si la primera columna (o fila) del rango que contiene a
la muestra, tiene alguna denominación o rótulo.
- Alfa: En esta parte el usuario puede definir con qué nivel de significación trabajar.
- Rango de salida: Si activa esta opción, puede indicar en que parte de la hoja de cálculo actual
se presentara las conclusiones de la prueba.
- En una hoja nueva: Si activa esta opción, puede indicar en que hoja de cálculo de todo el libro
se presentara las conclusiones de la prueba.
- En un libro nuevo: Si activa esta opción, indicará que la salida de las conclusiones de la prueba.
se presente en un libro nuevo.
Como se puede apreciar, se obtiene los valores de los P-Valores, ya sea que la prueba se trate de
una unilateral o una bilateral.
Tal como se adelantó al principio del apartado, Excel® no cuenta con una alternativa de resolución
mediante el uso de las Herramientas de análisis, por lo que, si se quisiera realizar esta prueba, habría
que calcular el P-Valor empleado el estadígrafo correspondiente para la comparación de
proporciones.
◊ 27 ◊
(𝑝̅1 − 𝑝̅2 ) − (𝜋1 − 𝜋2 ) Siendo:
𝑧=
𝑝̅ . 𝑛 + 𝑝̅2 . 𝑛2 1 1 𝑝̅1 : Proporción de la muestra 1.
√( 1 1 ).( + ) 𝑝̅2 : Proporción de la muestra 2.
𝑛1 + 𝑛2 𝑛1 𝑛2
(𝜋1 − 𝜋2 ): Parámetro diferencia de proporciones, si se desea verificar que no hay diferencia entre
las proporciones poblacionales corresponde asumir que dicha diferencia es igual a 0.
𝑛1 : Tamaño de la muestra 1.
𝑛2 : Tamaño de la muestra 2.
Finalmente, tiendo ya la función y el estadístico que emplearemos para hallar el valor de z, se
recuerda que el P-Valor se calculará en función del tipo de prueba de hipótesis, siendo:
Prueba unilateral
--- Se usa directamente la función calculada previamente
izquierda
Prueba unilateral
--- Se hace 1 menos la función calculada previamente
derecha
Si el 𝑧 ≤ 0 ⇒
Se usa el doble producto de la función calculada previamente
Prueba bilateral
Si el 𝑧 > 0 ⇒ Se hace el doble producto de “1 menos la función calculada
previamente”
Con lo cual se podrá tomar la decisión estadística en función de la siguiente regla de la decisión:
(𝑠𝑖 𝑃𝑣𝑎𝑙𝑜𝑟 ≤ 𝛼 ⇒ 𝑅𝑒𝑐ℎ𝑎𝑧𝑜 𝐻0 )
◊ 28 ◊
5. ANÁLISIS DE LA VARIANZA
Tras comprender la teoría sustenta al análisis de la varianza, su resolución no resulta ser demasiado
compleja. En lo que sigue se explicará cómo efectuar el análisis de la varianza para un criterio y dos
criterios de clasificación.
PASO 1: En la pantalla principal de Excel® hacer click en la pestaña y luego hacer click en
la opción de Análisis de datos, como se presenta en la imagen a continuación:
PASO 3: Una vez seleccionada la opción para realizar el análisis de la varianza se presentará una
nueva ventana emergente con el nombre de Análisis de la varianza de un factor. En ella se deberán
completar los campos solicitados:
Determinar las opciones de entrada:
◊ 29 ◊
- Rótulos: Se debe activar esta opción si la primera columna (o fila) del rango que contiene a
la muestra, tiene alguna denominación o rótulo.
- Alfa: En esta parte el usuario puede definir con qué nivel de significación trabajar.
En un análisis de la varianza de un factor para tres poblaciones, los datos podrían quedar
completados la siguiente manera:
Habiendo completado los campos con la información requerida, se debería tener la siguiente salida:
◊ 30 ◊
En la parte ANÁLISIS DE LA VARIANZA, aparecen las tres fuentes de variación: entre, dentro y total.
En cada una de ellas se brinda su suma de cuadrados y los grados de libertad correspondientes. Con
estos dos valores, se determina el valor del cuadrado medio (promedio de los cuadrados), el cual
permite obtener el valor del estadístico F y el P-valor (el cual se presenta en la celda Probabilidad).
PASO 1: En la pantalla principal de Excel® hacer click en la pestaña y luego hacer click en
la opción de Análisis de datos, como se presenta en la imagen a continuación:
PASO 3: Una vez seleccionada la opción para realizar el análisis de la varianza se presentará una
nueva ventana emergente con el nombre de Análisis de la varianza de un factor. En ella se deberán
completar los campos solicitados:
Determinar las opciones de entrada:
◊ 31 ◊
- Rótulos: Se debe activar esta opción si la primera columna (o fila) del rango que contiene a
la muestra, tiene alguna denominación o rótulo.
- Alfa: En esta parte el usuario puede definir con qué nivel de significación trabajar.
En un análisis de la varianza de un factor para tres poblaciones, los datos podrían quedar
completados la siguiente manera:
Habiendo completado los campos con la información requerida, se debería tener las siguientes
salidas:
Al igual que en la
primera parte de la
salida anterior, aquí se
encuentran la
información individual
de cada uno de los
tratamientos y los
bloques que se
emplean como
segundo criterio de
clasificación
◊ 32 ◊
Hay que recordar que el estadístico de prueba para el análisis de la varianza es:
𝐶𝑀𝑒𝑛𝑡𝑟𝑒
𝐹=
𝐶𝑀𝑑𝑒𝑛𝑡𝑟𝑜
Por tanto, cuando se realiza un análisis de la varianza para dos factores debo tener presente que, el
CMdentro corresponde al origen de la variación “ERROR”. Mientras que, el CMentre dependerá si
mis poblaciones o tratamientos, estaban planteadas como Columnas o Filas. Por ello, si los
tratamientos están presentados por columnas el P-Valor a emplear es que aparece en Probabilidad
Columnas, mientras que si los tratamientos están presentados por filas (y por ende los bloques por
columnas) el P-Valor a emplear es el que figura en Probabilidad Filas.
◊ 33 ◊
6. ANÁLISIS DE REGRESIÓN
En este último apartado se presentarán el procedimiento para realizar estimaciones de modelos de
regresión simples o múltiples. Como se verá, para poder abordar este tema se requerirá no solo de
los conocimientos respecto a regresión y correlación, sino también acerca de pruebas de hipótesis.
PASO 1: En la pantalla principal de Excel® hacer click en la pestaña y luego hacer click en
la opción de Análisis de datos, como se presenta en la imagen a continuación:
PASO 3: Una vez seleccionada la opción para realizar el análisis de regresión, se presentará una
nueva ventana emergente con el nombre de Regresión. En ella se podrán completar los campos
solicitados indicando si lo que se desea es hacer la estimación de un modelo simple o múltiple:
◊ 34 ◊
Determinar las opciones de entrada:
- Rango de salida: Si activa esta opción, puede indicar en que parte de la hoja de cálculo actual
se presentara las conclusiones de la prueba.
- En una hoja nueva: Si activa esta opción, puede indicar en que hoja de cálculo de todo el libro
se presentara las conclusiones de la prueba.
- En un libro nuevo: Si activa esta opción, indicará que la salida de las conclusiones de la prueba.
se presente en un libro nuevo.
En la constitución de un modelo de regresión múltiple con dos variables explicativas, los datos
podrían quedar completados de la siguiente manera:
◊ 35 ◊
La salida obtenida de completar con esos valores se presenta a continuación:
PASO 1: En la pantalla principal de Excel® hacer click en la pestaña y luego hacer click en
la opción de Análisis de datos, como se presenta en la imagen a continuación:
◊ 36 ◊
PASO 3: Una vez seleccionada la opción para realizar el cálculo de los coeficientes de correlación
por pares de variables, se presentará una nueva ventana emergente con el nombre de Coeficiente
de correlación.
- Rango de entrada: Solicita que se especifique el rango de todos los datos, sin identificar si en
el modelo de regresión una es la variable explicada y las otras las variables explicativas.
- Agrupado por: Si los datos están presentados por columnas se deberá elegir la opción
COLUMNAS, caso contrario de encontrarse presentadas por filas deberá seleccionarse FILAS.
- Rótulos: Se debe activar esta opción si la primera columna (o fila) del rango que contiene a
la población, tiene alguna denominación o rótulo.
- Rango de salida: Si activa esta opción, puede indicar en que parte de la hoja de cálculo actual
se presentara la muestra aleatoria.
- En una hoja nueva: Si activa esta opción, puede indicar en que hoja de cálculo de todo el libro
se presentara la muestra aleatoria.
- En un libro nuevo: Si activa esta opción, indicará que la salida de la muestra se presente en
un libro nuevo.
Tras completar con los datos, la salida termina presentándose en una matriz, en donde la diagonal
indica que el coeficiente de correlación de una variable con ella misma es 1.
◊ 37 ◊