01 Velardez Introduccionalanalisisdedatos

ANÁLSIS DE DATOS
Walter
[Dirección de correo electrónico]
Velárdez, Walter Fabián
Introducción al análisis de datos – Aplicaciones en Microsoft Excel ®
37 páginas.
Esta obra está bajo una Licencia Creative Commons

Atribución-NoComercial-CompartirIgual 4.0 Internacional.
Primera Edición: Diciembre de 2017

E-mail: w.velardez@gmail.com
Los derechos de autor de esta obra, que pertenecen a Velárdez Walter, están protegidos por la ley
11.723 y se prohíbe la modificación, edición o reproducción total o parcial de esta obra, sea cual
fuere el medio, electrónico o mecánico, sin el consentimiento por escrito del editor.
◊1◊
INDICE
CONSIDERACIONES PRELIMINARES 2
Comentarios del autor .....................................................................................................................................................2
Activando complementos...............................................................................................................................................2
1. INTRODUCCIÓN AL MUESTRO ................................................................................................................................4
1.1. Herramientas para el análisis ................................................................................................................................4
1.2. Tomando la muestra – método simple al azar (con reposición) ............................................................6
1.3. Tomando la muestra – método sistemático al azar ....................................................................................7
1.4. Tomando la muestra – método simple al azar (sin reposición) ..............................................................9
1.5. Calculo de medidas que resumen información empleando funciones ............................................ 12
1.6. Calculo de medidas que resumen información empleando herramientas de análisis ............... 14
2. INTERVALOS DE CONFIANZA ................................................................................................................................ 17
2.1. Determinación del factor de confianza ......................................................................................................... 17
3. PRUEBA DE HIPÓTESIS PARAMÉTRICA DE UNA POBLACIÓN .................................................................. 18
3.1. Acerca del P-valor................................................................................................................................................... 18
3.2. Como calcular el P-Valor ..................................................................................................................................... 18
3.2.1. Acerca de los estadísticos ................................................................................................................................ 19
3.2.2. Acerca de las funciones y distribuciones ................................................................................................... 19
3.2.3. Acerca del tipo de prueba ............................................................................................................................... 20
4. PRUEBA DE HIPÓTESIS PARAMÉTRICA DE DOS POBLACIONES.............................................................. 22
4.1. Comparación de varianzas .................................................................................................................................. 22
4.2. Comparación de medias ...................................................................................................................................... 24
4.3. Comparación de proporciones ......................................................................................................................... 27
5. ANÁLISIS DE LA VARIANZA .................................................................................................................................... 29
5.1. Análisis de la varianza para un factor ............................................................................................................. 29
5.1. Análisis de la varianza para dos factores ...................................................................................................... 31
6. ANÁLISIS DE REGRESIÓN......................................................................................................................................... 34
6.1. Análisis de regresión ............................................................................................................................................. 34
6.2. Análisis de correlación .......................................................................................................................................... 36
◊1◊
CONSIDERACIONES PRELIMINARES
◊ Comentarios del autor

0B
El presente trabajo no pretende ser un manual exhaustivo para aprender a manejar Microsoft
Excel®, ni tampoco aspira a ser un texto estadístico que profundice en cuestiones teóricas de la
disciplina, ya que para ello existe una vasta cantidad de obras que han hecho un gran aporte al
marco teórico de la disciplina. Simplemente, pretende construir un nexo entre la teoría que se puede
aprender en un curso introductorio de Estadística y la aplicación que se puede hacer en problemas
cotidianos o de moderada complejidad.
Así, se recomienda que previo a la puesta en práctica de los temas tratados en este trabajo, se realice
una acabada revisión bibliográfica ya que, sin el conocimiento teórico suficiente, todo lo que se
trabaje se verá simplificado a una mera ejecución de funciones y herramientas.
Por otro lado, si bien es cierto que existen programas estadísticos con una potencia de análisis mayor
a la que puede ofrecer la planilla de Microsoft Excel®, hay dos razones por la cual se elige el
programa de Microsoft® para desarrollar el presente trabajo de aplicaciones estadísticas. En primer
lugar, Excel® es un programa masivo. No todas las personas tienen la posibilidad de adquirir
programas estadísticos de mayor envergadura. Y, en segundo lugar, puede ocurrir que no todos
tengan el tiempo necesario, o las problemáticas que tratan no tengan un elevado grado de
complejidad estadística, como para adentrarse en el manejo de algún software libre que requiera
mucho más tiempo y dedicación para su óptimo uso.
Finalmente, se aclara que todas las imágenes, ejemplos y funciones fueron desarrolladas con la
versión de Microsoft Excel 2016®, y desde ya, se agradece a los docentes, auxiliares y a los
estudiantes que han hecho llegar sus opiniones e informe de errores de la presente obra.
◊ Activando complementos
1B
Si bien muchas de los procedimientos estadísticos que abordaremos se pueden realizar mediante la
ejecución de alguna función, se puede ahorrar bastante tiempo si se utilizan las herramientas de
Análisis de Datos que trae consigo el programa. No obstante, hay que tener presente dos cuestiones
antes de emplear dichas herramientas:
1. Si bien implica un ahorro de tiempo en la ejecución de los procedimientos estadísticos, eso no

significa que no se requiera de un vasto conocimiento en la materia para saber qué herramienta
usar y como interpretar la información que brinda la salida de datos.
2. El complemento de Análisis de Datos debe activarse manualmente para su uso.
◊2◊
A continuación, se presenta el paso a paso de cómo realizar la activación de la herramienta Análisis
de Datos.
PASO 1: Abrir Microsoft Excel® y hacer click en la pestaña que dice ubicada en la barra de
tareas en la parte superior de la pantalla principal. Una vez hecho esto, se desplegará un menú en
donde deberemos buscar la opción donde dice y hacer click en él.
PASO 2: Una vez realizado el

paso anterior, se abrirá una
ventana emergente la cual se
identifica como las Opciones
de Excel. En ella, se deberá
buscar y hacer click en la
opción . Tras
realizar esto, se deberá tocar
el botón que dice ,
verificando que en la opción
“Administrar” ubicada antes
del botón diga:
“Complementos de Excel”
PASO 3: Se abrirá una nueva ventana emergente

denominada Complementos. Allí se debe activar la
casilla HERRAMIENTAS PARA ANÁLISIS y luego
hacer click en el botón ACEPTAR.
Para verificar que las Herramientas para análisis

quedaron activadas, puede ir a la barra de tareas
en la pantalla principal y hacer click en la pestaña
que dice . Una vez allí, debería poder
ubicar sobre el final, una opción nueva llamada
Análisis de datos.
◊3◊
1. INTRODUCCIÓN AL MUESTRO
A continuación, se explicarán las funciones, herramientas básicas y el paso a paso para realizar
muestreos probabilísticos. En este trabajo, se presentará la explicación realizar muestreos
empleando el método simple al azar y el método sistemático al azar. Así también, se desarrollarán
dos formas de calcular las principales medidas que resumen información.
◊ 1.1. Herramientas para el análisis

2B
PASO 1: En la pantalla principal de Excel® hacer click en la pestaña y luego hacer click en
la opción de Análisis de datos, como se presenta en la imagen a continuación:
NOTA: La opción de Análisis de datos no estará disponible para su uso si no se realizó

previamente la activación de los complementos Herramientas de análisis.
PASO 2: A continuación, se abrirá una ventana emergente correspondiente al Análisis de datos, en

donde se tendrá que seleccionar la opción MUESTRA y dar en el botón de ACEPTAR.
PASO 3: Una vez seleccionada la opción para tomar muestras aleatorias, se presentará una nueva
ventana emergente con el nombre de Muestra. En ella se deberán completar los campos solicitados
para determinar la población de la cual se tomará la muestra, el tipo de muestreo a realizar y donde
queremos que se presente la muestra generada.
◊4◊
Determinar la población:
- Rango de entrada: Se deberá seleccionar el

rango de datos que contienen a la población de
estudio.
- Rótulos: Se debe activar esta opción si la primera
columna (o fila) del rango que contiene a la
población, tiene alguna denominación o rótulo.
Determinar el método de muestreo:
Actualmente Excel®, es capaz de realizar dos métodos de muestreos, el simple al azar (aleatorio) y
el sistemático al azar (periódico). Dependiendo del tipo de muestreo que se desee realizar se deberá
elegir entre la casilla de PERIÓDICO o ALEATORIO, y en función de ellos completar:
- Periodo: Solicita que se especifique el valor de la constante c, la cual indica cada cuanto valor
se tomaran los elementos que conforman la muestra. Como bien se sabe, el valor de la
constante c surge del cociente del tamaño de la población (N) y el tamaño de la muestra (n),
por lo que, al especificar el valor de la constante c y brindar el tamaño de la población (N) en
el rango de entrada de datos, el programa determina automáticamente el valor óptimo del
tamaño de muestra.
- Número de muestras: Se debe indicar el número de elementos que deseamos que conformen
la muestra.
Determinar las opciones de salida:
- Rango de salida: Si activa esta opción, puede indicar en que parte de la hoja de cálculo actual
se presentara la muestra aleatoria.
- En una hoja nueva: Si activa esta opción, puede indicar en que hoja de cálculo de todo el libro
- En un libro nuevo: Si activa esta opción, indicará que la salida de la muestra se presente en
un libro nuevo.
◊5◊
◊ 1.2. Tomando la muestra – método simple al azar (con reposición)
3B
Para poder mostrar cómo se emplean los distintos métodos de muestreos, se trabajará con el archivo
llamado AD_muestreo.xlsx, el cual se puede descargar desde:
Realizar los PASOS 1, 2 y 3 del apartado anterior, para comenzar a tomar la muestra aleatoria. En
este caso, realizaremos un muestreo de tamaño 6 (n =6) empleado el método simple al azar, para
la población “Cantidades vendidas del producto 01” denominada V_PROD01. Para tomar la muestra,
la ventana emergente de muestra deberá quedar completado de la siguiente manera:
◊6◊
NOTA: En la parte de Entrada, se encuentra seleccionada la opción de , ya que en el
Rango de entrada se encuentra seleccionado la primera celda con el nombre de la población. Si
solo se seleccionaran los valores que componen la población, la opción no debería
estar seleccionada.
Una vez completado los campos, se debe ACEPTAR, y se tendrá la muestra tomada. Tenga presente
que como se está tomando una muestra aleatoria, los valores de variable que aparecerán en la
muestra de ejemplo, seguramente no coincidirán con los valores que aparecen en su planilla de
cálculo.
◊ 1.3. Tomando la muestra – método sistemático al azar

4B
Para poder tomar una muestra empleando el método sistemático al azar, se deberán repetir los
PASOS 1, 2 y 3 del apartado correspondiente a las Herramientas para el análisis. Recuerde que en
este método debe especificar cada cuanto valor c desea que se tomen los elementos de la muestra.
Como investigador puede ocurrir dos situaciones:
- Que tenga definido el valor de la constante c, por lo que el programa determinará el tamaño
de la muestra.
- Que tenga definido el tamaño de la muestra, por lo que el valor de la constante c será el
número entero que surge del cociente entre el tamaño de la población (N) y el tamaño de
muestra (n). Si así lo quisiera podría determinarlo con la función:
=ENTERO(valor de N/valor de n)
◊7◊
Para realizar este ejemplo se asumirá que el valor de la constante será 4. Para tomar la muestra, la
ventana emergente de muestra deberá quedar completado de la siguiente manera:
Una vez completado los campos, se debe ACEPTAR, y se tendrá la muestra tomada. Nuevamente,
tenga presente que como se está tomando una muestra aleatoria, los valores de variable que
aparecerán en la muestra de ejemplo, seguramente no coincidirán sus valores de muestra.
◊8◊
Es importante tener presente para la investigación que a medida que el valor de la constante c se va
incrementando, el tamaño de la muestra (n) se va haciendo cada vez más chico, explicándose por:
𝑁 𝑁
𝑆𝑖 𝑐 = ⇒ 𝑛 = 𝑝𝑜𝑟 𝑙𝑜 𝑡𝑎𝑛𝑡𝑜, 𝑠𝑖 ↑ 𝑐 ⇒ ↓ 𝑛
𝑛 𝑐
NOTA: Si observa con atención en el ejemplo, se podrá ver que el primer valor que se considera
en la muestra es 23, los siguientes elementos se tomaron cada 4 posiciones (el valor de c), siendo
estos 34, 33, 27 y 29. Esto se debe a que este método elige al azar el primer valor de la población
que formará parte de la muestra, mientras que los siguientes valores estarán a c posiciones del
anterior.
◊ 1.4. Tomando la muestra – método simple al azar (sin reposición)

5B
Es importante tener presente que cuando uno toma una muestra empleando las herramientas para
el análisis, este lo hace con reposición, es decir que en una misma muestra puede repetirse el valor
de una variable correspondiente a una misma unidad de análisis. Por ello, si se quisiera trabajar con
un muestreo sin reposición, se debe realizar un procedimiento un tanto mas laborioso, pero no
necesariamente mucho más complejo: Para la realización del ejemplo, vamos a suponer que se
tomará una muestra de tamaño 10.
PASO 1: Generar una serie de N (tamaño de la población) números aleatorios, entre 0 y 1,

empleando la función:
=ALEATORIO()
◊9◊
PASO 2: Se deberán seleccionar todos los valores
aleatorios, copiarlos y realizar el pegado especial para los
valores. Para eso, se debe abrir el menú desplegable de la
opción PEGAR y buscar la opción que indica pegar valores:
PASO 3: Una vez generada la serie de números aleatorios, se deberá identificar la posición que
ocupa cada uno de ellos en la totalidad de valores aleatorios. Para ello, se deberá emplear la
siguiente función:
=JERARQUIA.EQV(número; referencia; [orden])
- número: seleccionar la celda correspondiente al valor aleatorio generado previamente.

- referencia: seleccionar la matriz que contiene a todos los números aleatorios generados. No
se olvide de dejar fijos estos valores, presionando F4 en valores de este campo.
- orden: para indicar que el ordenamiento se realizará de manera ascendente, se tiene que
poner en este campo el valor 1.
Recordando que se trabaja con valor aleatorios y que por ello cada trabajo tendrá números
aleatorios distintos, la planilla de cálculo debería quedar más o menos de la siguiente manera:
Si dejo fijo los valores de la matriz de los

valores aleatorios (referencia), deberían
aparecerle en la denominación de dichas
celdas el $ antes de la letra y el número.
◊ 10 ◊
Una vez ejecutada la función para cada uno de los valores aleatorios, salvando la diferencia de los
valores producto de la aleatoriedad, la planilla debería presentarse más o menos así:
PASO 4: Para tomar los valores de variable que formarán parte de la muestra, se deberá utilizar la
función:
=BUSCARV(valor_buscado; matriz_buscar_en; indicador_columna; [ordenado])
- Valor_buscado: Se deberá buscar el valor de la POSICIÓN generada en el paso anterior.

- Matriz_buscar_en: Seleccionaremos el rango de celdas que contienen el ORDEN y las
POBLACIONES que deseamos estudiar.
- Indicador_columna: En función de la matriz seleccionada, y como se ve en el ejemplo,
deberemos especificar el numero “3” ya que tomaremos la muestra de la población ubicada
en la tercera columna.
- Ordenado: Pondremos en este argumento FALSO para que la búsqueda será exacta.
Esta función permite buscar elementos sobre la primera columna de una matriz de datos,
recorriendo los datos de manera vertical (de allí la V de la función) hasta encontrar una coincidencia
con el valor_buscado. Por ello, los datos deberán estar presentados por columnas.
◊ 11 ◊
Debo dejar fijo los valores de la matriz
donde se buscará el valor
(matriz_buscar_en), deberían aparecerle
en la denominación de dichas celdas el $
antes de la letra y el número.
Si arrastro la celda generada, tendré la muestra aleatoria sin reposición para la población
“V_PROD01”.
◊ 1.5. Calculo de medidas que resumen información empleando funciones

6B
Una vez que se tienen seleccionada la muestra o en el mejor de los casos, se cuenta con la población,
llega el momento de obtener información de ese conjunto de datos. Para ello se realizará el cálculo
de medidas que resumen información, de esta manera en lo que sigue, se presentarán las funciones
correspondientes a las medidas más importantes, siendo estas:
- La media aritmética o promedio.

- La varianza.
- El desvío típico o desvío estándar.
- La proporción dicotómica de elementos con un determinado atributo.
◊ 12 ◊
- Media aritmética o promedio
Ya sea que se tenga que calcular la

media aritmética poblacional (𝜇) o
muestral (𝑥̅ ), se empleará la misma
función:
=PROMEDIO(número1;[número2];…)
En donde número1;[número2];… indica

que se deben seleccionar los datos a
promediar.
- Varianza
A diferencia de la media aritmética, acá

se emplean dos funciones distintas para
calcular la varianza de una población o
de una muestra, siendo la primera:
=VAR.P(número1;[número2];…)

que se deben seleccionar los datos que
permitirán calcular la varianza
poblacional.
En el caso de requerir calcular la

varianza de un conjunto de datos
correspondiente a una muestra se
debe emplear la función:
=VAR.S(número1;[número2];…)

los datos a seleccionar para obtener
el valor numérico del estimador.
◊ 13 ◊
- Desvío típico, desvío estándar, variabilidad absoluta
Como es lógico, ya que se trata de la

raíz cuadrada de la varianza, acá
también se emplearán dos funciones,
dependiendo si los datos son
poblacionales o muestrales.
Parámetro (𝜎):
=DESVEST.P(número1;[número2];…)
Estimador (S):
=DESVEST.M(número1;[número2];…)
En donde número1;[número2];… indica que se deben seleccionar los datos que permitirán calcular el
correspondiente desvío estandar.
◊ 1.6. Calculo de medidas que resumen información empleando herramientas de análisis

7B
Si se emplean las Herramientas de análisis que tiene Excel®, es posible obtener una gran cantidad
de medidas que resumen información.

donde se tendrá que seleccionar la opción ESTADÍSTICA DESCRIPTIVA y dar en el botón de ACEPTAR.
◊ 14 ◊
PASO 3: Una vez seleccionada la opción para realizar el análisis descriptivo, se presentará una nueva
ventana emergente con el nombre de Estadística descriptiva. En ella se deberán completar los
campos solicitados para determinar el análisis a realizar.
Determinar las opciones de entrada:
- Rango de entrada: Se deberá seleccionar el rango de datos que contienen a la población de

estudio.
- Agrupado por: Si los datos están presentados por columnas se deberá elegir la opción
COLUMNAS, caso contrario de encontrarse presentadas por filas deberá seleccionarse FILAS.
- Rótulos: Se debe activar esta opción si la primera columna (o fila) del rango que contiene a
la población, tiene alguna denominación o rótulo.
un libro nuevo.
- Resumen de estadísticas: Se deberá seleccionar esta opción si o si, para obtener como
resultado el análisis descriptivo.
- Nivel de confianza para la media: Al seleccionar esta opción, se obtendrá como resultado del
análisis el valor número del ERROR DE MUESTREO, pendiéndose el valor del nivel de
confianza para realizar la estimación. (Aclaración: la estimación la hace empleado como factor
de confianza el fractil de la distribución T de Student con (n-1) grados de libertad)
◊ 15 ◊
Algunas aclaraciones respecto a la salida
obtenida:
- Las medidas de variabilidad, desviación
estándar y varianza se calcularon
considerando que el conjunto de datos
corresponde a una muestra, por tanto,
los mismo son los estimadores S2 y S.
- La moda no permite identificar
distribuciones polimodales.
- El error típico es el cociente entre el
desvío estándar y la raíz cuadrada de la
muestra.
𝑆
𝐸𝑟𝑟𝑜𝑟 𝑒𝑠𝑡𝑎𝑛𝑑𝑎𝑟 =
√𝑛
◊ 16 ◊
2. INTERVALOS DE CONFIANZA
Con el conocimiento teórico suficiente, construir un intervalo de confianza no debería representar
una tarea demasiado compleja, basta con conocer:
- El estimador del parámetro.

- La varianza del estimador.
- La distribución por emplear para determinar el valor numérico del factor de confianza.
◊ 2.1. Determinación del factor de confianza

8B
En esta parte del trabajo, se explicará detalladamente como obtener el último punto mencionado,
considerando como premisa que quien está leyendo comprende en que caso habrá de emplear la
distribución normal, la distribución t de student con (n-1) grados de libertad o la distribución chi-
cuadrado.
Las funciones por emplear en el caso de construir intervalos de confianza aditivos son:
=INV.NORM.ESTAND(probabilidad)
=INV.T(probabilidad)
Mientras que, si se desea construir un intervalo de confianza no aditivo, se empleará:
=INV.CHICUAD(probabilidad)
Es importante recordar que donde dice probabilidad para la inversa de la distribución chi-cuadrado
se deberá utilizar el valor de 𝜀⁄2 para el límite inferior y 1 − 𝜀 ⁄2 para el límite superior.
Nótese entonces que el desafío en lo que refiere a los intervalos de confianza, no son sus fórmulas
ni el cálculo de los límites, sino saber reconocer cuando se emplea cada una de las distribuciones y
poder dar una correcta interpretación de los límites estimados.
◊ 17 ◊
3. PRUEBA DE HIPÓTESIS PARAMÉTRICA DE UNA POBLACIÓN
Finalmente nos encontramos en un punto en donde Excel® no es de mucha ayuda: si esperamos
que el programa nos evite de hacer muchas cuentas o recurrir a muchas funciones para obtener un
resultado, este no sería el caso. Lamentablemente dentro de las Herramientas de análisis no existe
la herramienta que permita realizar una prueba de hipótesis paramétrica de una población para la
media, varianza o proporción. No obstante, con una cuota de trabajo y teoría, es posible determinar
el famoso “P-valor” que permite tomar decisiones estadísticas en materia de pruebas de hipótesis,
ya que, como extensa bibliografía estadística lo menciona, si:
El P-valor es menor o igual al Nivel de Significación, se rechazará la Hipótesis Nula

(𝑠𝑖 𝑃𝑣𝑎𝑙𝑜𝑟 ≤ 𝛼 ⇒ 𝑅𝑒𝑐ℎ𝑎𝑧𝑜 𝐻0 )
En lo que sigue, se desarrollará las maneras para determinar el “P-valor”, considerando las distintas
alternativas de su cálculo, en función del tipo de prueba (unilateral izquierda, unilateral derecha y
bilateral), así como también considerando el parámetro que se desea probar (media 𝜇, varianza 𝜎 2
y proporción 𝜋). Todo lo que refiere a las cuestiones teóricas entorno a la determinación de las
hipótesis, la probabilidad de cometer los distintos tipos de errores, y el fondo de las pruebas de
hipótesis, se debe ampliar necesariamente con cualquier texto de estadística.
◊ 3.1. Acerca del P-valor

9B
Como bien se sabe, o no, el conocido P-Valor es un valor de probabilidad. Se pone en duda respecto
al conocimiento de esto, porque si bien existe una gran cantidad de bibliografía que trabaja con él,
pocas veces hacen una clara mención respecto a lo que significa y como se calcula.
Se puede decir que el P-Valor, con los datos que disponemos, mide la probabilidad de cometer un
error. ¿Qué error? El error de rechazar la hipótesis nula (H0), considerando que dicha hipótesis es
verdadera. Por ello, si la probabilidad de cometer ese error es grande (haciendo la salvedad que
para hacer clara la explicación, consideramos como grande a un valor mayor al nivel de significación)
no se deberá rechazar la hipótesis nula (H0), ya “es muy probable que estemos rechazando una
hipótesis que es verdadera”.
◊ 3.2. Como calcular el P-Valor

10B
Determinar el valor del P-Valor no resulta complicado, pero si se puede considerar que es laborioso.
Exige tener un sólido conocimiento teórico, ya que su valor depende de dos cuestiones importantes:
1) Del estadístico a emplear, teniendo presente que el mismo depende del parámetro que nos
interesa probar y de los datos de la muestra que obtengamos para tal cometido.
2) Del tipo de prueba que realicemos: pudiendo ser estas unilateral izquierda, unilateral derecha
o bilateral.
◊ 18 ◊
3.2.1. Acerca de los estadísticos
Los estadísticos son variables aleatorias cuyo valor se calcula a partir de los datos de una muestra.
En el caso de las pruebas de hipótesis, nos permite obtener una idea acerca de la discrepancia que
hay entre los valores obtenidos a partir de la muestra, y el valor postulado del parámetro que se
desea probar. A continuación, se presentan los estadísticos y sus correspondientes distribuciones,
en función del parámetro que se desea probar:
- Media poblacional (𝜇)
𝑥̅ − 𝜇 𝑥̅ − 𝜇
𝑧= 𝜎 ~𝑁𝑜 𝑡= ~𝑇(𝑛 − 1)
𝑆
√𝑛 √𝑛
Siendo:
𝑥̅ : Valor del estimador “media muestral” 𝜇: Valor del parámetro “media poblacional”
𝜎: Valor del parámetro “desvío poblacional” 𝑆: Valor del estimador “desvío muestral”
𝑛: tamaño de muestra (𝑛 − 1): Grados de libertad
- Proporción poblacional (𝜋)
𝑝̅ − 𝜋 Siendo:
𝑧= ~𝑁𝑜
𝑝̅ : Valor del estimador “proporción muestral”
√𝜋. (1 − 𝜋)
𝑛 𝜋: Valor del parámetro “proporción poblacional”
𝑛: Tamaño de muestra
- Varianza poblacional (𝜎 2 )
2
𝑆 2 . (𝑛 − 1) 2 Siendo:
𝜒 = ~𝜒 (𝑛 − 1) 𝑆 2 : Valor del estimador “varianza muestral”
𝜎2
𝜎 2 : Valor del parámetro “varianza poblacional”
𝑛: Tamaño de muestra
(𝑛 − 1): Grados de libertad
Así, en el caso de la media poblacional y la proporción poblacional, cuando el valor de sus

estadísticos esté cercanos al cero, esto indicará poca discrepancia entre el valor postulado del
parámetro y los obtenidos de la muestra. Mientras que, en el caso de la varianza poblacional, si el
valor del estadístico se encuentra cercano al valor de los grados de libertad, implicará poca
discrepancia entre el valor postulado del parámetro y los obtenidos de la muestra.
3.2.2. Acerca de las funciones y distribuciones
Para empezar, el tipo de prueba determinará la manera que utilizaremos las funciones en Excel®, y
a su vez será la hipótesis nula (H0) y la hipótesis alternativa (H1) quienes definirán si la región crítica
se encuentra para la derecha, izquierda o dividida en dos.
◊ 19 ◊
- Media poblacional (𝜇)
En el caso de la media poblacional se pueden emplear dos distribuciones: Normal o T de Student.
Por ello, las funciones que se van a emplear son:
Distribución normal =DISTR.NORM.ESTAND.N(z; acumulado)

Distribución T de Student =DISTR.T.N(x; gradosdelibertad; acumulado)
En donde:
z o x : se deberá poner el valor del estadístico calculado previamente.
gradosdelibertad: cuando se emplea la T de Student se deberá indicar por grados de libertad el valor
del tamaño de la muestra, menos uno (n-1).
acumulado: se deberá completar con VERDADERO para indicar a la función que arroje el valor de
probabilidad acumulado.
- Proporción poblacional (𝜋)

Para trabajar con la proporción poblacional, solamente emplearemos a la distribución normal, por
tanto, la función a emplear será la misma que en el caso de querer probar la media poblacional.
=DISTR.NORM.ESTAND.N(z; acumulado)
- Varianza poblacional
Cuando toque realizar una prueba de hipótesis para la varianza poblacional corresponderá emplear
la distribución Chi-Cuadrado, siendo la función por emplear:
=DISTR.CHICUAD(x; gradosdelibertad; acumulado)
En donde:
x : se deberá poner el valor del estadístico calculado previamente.
gradosdelibertad: cuando se emplea la Chi-Cuadrado se deberá indicar por grados de libertad el
valor del tamaño de la muestra, menos uno (n-1).
acumulado: se deberá completar con VERDADERO para indicar a la función que arroje el valor de
probabilidad acumulado.
3.2.3. Acerca del tipo de prueba
Una vez establecidas todas las funciones a emplear, se puede empezar a ver como utilizarlas en
función del tipo de prueba.
Como las distribuciones empleadas en la prueba de la media y la proporción son simétricas, se

explicarán de manera conjunta, mientras que aparte se desarrollará la explicación para cuando se
quiera probar la varianza poblacional:
◊ 20 ◊
Tipo de prueba Condición Cómo calcular el P-Valor
Prueba unilateral
--- Se usa directamente la función calculada previamente
izquierda
Prueba unilateral
--- Se hace 1 menos la función calculada previamente
derecha
Si el 𝑧 ≤ 0 ⇒
Se usa el doble producto de la función calculada previamente
Prueba bilateral
Si el 𝑧 > 0 ⇒ Se hace el doble producto de “1 menos la función calculada
previamente”
Con lo cual se podrá tomar la decisión estadística en función de la siguiente regla de la decisión:
Prueba unilateral
izquierda
Prueba unilateral
derecha
Prueba bilateral(1) --- Se usa directamente la función calculada previamente
(1)
Salvo de que se trate de una prueba bilateral, en donde la regla de la decisión quedará establecida
de la siguiente manera:
(𝑠𝑖 𝑃𝑣𝑎𝑙𝑜𝑟 ≤ 𝛼⁄2 𝑜 𝑠𝑖 𝑃𝑣𝑎𝑙𝑜𝑟 ≥ 1 − 𝛼⁄2 ⇒ 𝑅𝑒𝑐ℎ𝑎𝑧𝑜 𝐻0 )
◊ 21 ◊
4. PRUEBA DE HIPÓTESIS PARAMÉTRICA DE DOS POBLACIONES
En lo que sigue se presentará la explicación para realizar comparaciones de dos parámetros. Para el
caso de la varianza y la media, Excel® goza de una alternativa expeditiva mediante el uso de las
Herramientas de Análisis, sin embargo, en caso de la comparación de dos proporciones se deberá
explicar cómo calcular el P-Valor.
Por último, se recuerda que en el caso de querer comprar dos medias poblacionales, primero se
debe realizar la prueba de comparación de varianzas a fin de poder determinar, mediante los datos
obtenidos de cada una de las muestras, si las varianzas poblacionales son iguales o no (con su
correspondiente nivel de significación).
◊ 4.1. Comparación de varianzas

1B

donde se tendrá que seleccionar la opción PRUEBA F PARA VARIANZAS DE DOS MUESTRAS 1 y dar 0F
en el botón de ACEPTAR.
PASO 3: Una vez seleccionada la opción para realizar la prueba F de Fisher Snedecor, se presentará
una nueva ventana emergente con el nombre de Prueba F para varianzas de dos muestras. En ella
se deberán completar los campos solicitados:
1
Se recuerda que, para el caso de querer comparar dos varianzas, dicha prueba emplea la distribución F de Fisher-
Snedecor, de allí el nombre de la opción a elegir en el cuadro de Análisis de datos.
◊ 22 ◊
- Rango para la variable 1:

Solicita que se especifiquen las
celdas que contienen los datos
de la primera muestra.
Solicita que se especifiquen las
celdas que contienen los datos
de la segunda muestra.
la muestra, tiene alguna denominación o rótulo.
- Alfa: En esta parte el usuario puede definir con qué nivel de significación trabajar.
se presentara las conclusiones de la prueba.
- En un libro nuevo: Si activa esta opción, indicará que la salida de las conclusiones de la prueba.
se presente en un libro nuevo.
En el ejemplo que se presenta a continuación, se puede ver como el conjunto de datos

correspondiente a la muestra A corresponden al Rango para la variable 1, mientras que la columna
de datos de la muestra B corresponden al Rango para la variable 2.
◊ 23 ◊
Así mismo se puede ver cómo en el conjunto de datos seleccionados, están incluidos los rótulos A
y B, por lo que la opción deberá quedar seleccionada.
PASO 4: Una vez realizado el análisis se procede a leer la salida que general el Excel® de la prueba.
Es importante tener presente los conceptos teóricos de las pruebas de hipótesis a fin de realizar
correctamente la interpretación de la misma. Con los datos presentados en el PASO 1, se obtuvo la
salida que se presenta a continuación:
Valor del estadígrafo F

Valor del P-Valor
Valor del punto crítico
Recuerde dos cosas importantes:
1) La hipótesis nula (H0) postula que no hay diferencias entre las varianzas poblacionales, por
tanto, la hipótesis alternativa (H1) postula que si la hay.
2) Si el P-Valor es menor al nivel de significación, se rechazará la hipótesis nula (H0).
◊ 4.2. Comparación de medias

12B
PASO 1: Al igual que para realizar la comparación de varianzas, se debe ir a , para luego
hacer click en ANÁLISIS DE DATOS. Recuerde que, si sus varianzas son muestrales, previamente
debió haber realizado la prueba F para comprar varianzas poblacionales, a fin de determinar si las
mismas son iguales o distintas (pese a no conocer su valor).
◊ 24 ◊
PASO 2: En este caso, se abrirá una ventana emergente correspondiente al Análisis de datos.
Dependiendo del tipo de prueba que deba realizar, puede elegir entre tres últimas opciones:
Prueba t para dos muestras suponiendo varianzas iguales: se emplea en caso de querer
comparar dos promedios poblacionales y se tiene por dato a las varianzas de cada una de
las muestras. Así mismo, se supone que mediante la realización de la prueba F de Fisher
Snedecor las varianzas poblacionales pese a ser desconocidas, son iguales.
Prueba t para dos muestras suponiendo varianzas desiguales: se emplea en caso de
querer comparar dos promedios poblacionales y se tiene por dato a las varianzas de cada
una de las muestras. Así mismo, se supone que mediante la realización de la prueba F de
Fisher Snedecor las varianzas poblacionales pese a ser desconocidas, son desiguales.
Prueba z para medias de dos muestras: se emplea en caso de querer comparar dos
promedios poblacionales y se tiene por dato las varianzas de cada una de las poblaciones.
PASO 3: Tras elegir la opción acorde a la prueba que se desee realizar, se abrirá una nueva ventana
emergente, no obstante, la misma presenta sutiles diferencias en función de si se eligió realizar
alguna de las dos pruebas t (varianzas iguales o varianzas desiguales) o la prueba z, para comprar
los promedios poblacionales.
- Pruebas t (varianzas iguales o varianzas desiguales)
- Rango para la variable 1: Solicita

que se especifiquen las celdas
que contienen los datos de la
primera muestra.
- Rango para la variable 2: Solicita
que se especifiquen las celdas
que contienen los datos de la
segunda muestra.
◊ 25 ◊
- Diferencia hipotética entre las medías para la variable 2: En este campo se deberá completar
si se quiere probar que existe en concreto una diferencia numérica entre las dos medias. En
caso de no completar con nada, simplemente se estará comparando si existen diferencias
significativas entre los promedios.
- Prueba z
Determinar las opciones de

entrada:

Solicita que se
especifiquen las celdas
que contienen los datos
de la primera muestra.
Solicita que se
especifiquen las celdas
que contienen los datos
de la segunda muestra.
- Diferencia hipotética entre las medías para la variable 2: En este campo se deberá completar
si se quiere probar que existe en concreto una diferencia numérica entre las dos medias. En
caso de no completar con nada, simplemente se estará comparando si existen diferencias
significativas entre los promedios.
- Varianza para la variable #: Como se trabaja con el supuesto de conocer las varianzas
poblaciones, en esos campos se deberá completar con el valor de cada una. Importante no
confundir el orden de las poblaciones.
◊ 26 ◊
Finalmente, las salidas obtenidas se ven mas o menos de la siguiente manera:
Como se puede apreciar, se obtiene los valores de los P-Valores, ya sea que la prueba se trate de
una unilateral o una bilateral.
◊ 4.3. Comparación de proporciones

13B
Tal como se adelantó al principio del apartado, Excel® no cuenta con una alternativa de resolución
mediante el uso de las Herramientas de análisis, por lo que, si se quisiera realizar esta prueba, habría
que calcular el P-Valor empleado el estadígrafo correspondiente para la comparación de
proporciones.
El P- Valor se va a calcular empleando la función =DISTR.NORM.ESTAND.N(z; acumulado). En el

campo donde dice acumulado se deberá poner VERDADERO, mientras que el z que aparece en la
función se va a calcular haciendo:
◊ 27 ◊
(𝑝̅1 − 𝑝̅2 ) − (𝜋1 − 𝜋2 ) Siendo:
𝑧=
𝑝̅ . 𝑛 + 𝑝̅2 . 𝑛2 1 1 𝑝̅1 : Proporción de la muestra 1.
√( 1 1 ).( + ) 𝑝̅2 : Proporción de la muestra 2.
𝑛1 + 𝑛2 𝑛1 𝑛2
(𝜋1 − 𝜋2 ): Parámetro diferencia de proporciones, si se desea verificar que no hay diferencia entre
las proporciones poblacionales corresponde asumir que dicha diferencia es igual a 0.
𝑛1 : Tamaño de la muestra 1.
𝑛2 : Tamaño de la muestra 2.
Finalmente, tiendo ya la función y el estadístico que emplearemos para hallar el valor de z, se
recuerda que el P-Valor se calculará en función del tipo de prueba de hipótesis, siendo:
Prueba unilateral
izquierda
Prueba unilateral
derecha
Si el 𝑧 ≤ 0 ⇒
Se usa el doble producto de la función calculada previamente
Prueba bilateral
Si el 𝑧 > 0 ⇒ Se hace el doble producto de “1 menos la función calculada
previamente”
◊ 28 ◊
5. ANÁLISIS DE LA VARIANZA
Tras comprender la teoría sustenta al análisis de la varianza, su resolución no resulta ser demasiado
compleja. En lo que sigue se explicará cómo efectuar el análisis de la varianza para un criterio y dos
criterios de clasificación.
◊ 5.1. Análisis de la varianza para un factor

14B

donde se tendrá que seleccionar la opción ANÁLISIS DE LA VARIANZA DE UN FACTOR y dar en el
botón de ACEPTAR.
PASO 3: Una vez seleccionada la opción para realizar el análisis de la varianza se presentará una
nueva ventana emergente con el nombre de Análisis de la varianza de un factor. En ella se deberán
completar los campos solicitados:
- Rango de entrada: Solicita que se

especifique el rango de todos los datos
a analizar.
- Agrupamiento por: como se seleccionó
un conjunto de celdas (matriz) hay que
especificar si las poblaciones están
divididas por columnas o filas.
◊ 29 ◊
En un análisis de la varianza de un factor para tres poblaciones, los datos podrían quedar
completados la siguiente manera:
Habiendo completado los campos con la información requerida, se debería tener la siguiente salida:
En la parte de RESUMEN, se brinda información de cada una de las poblaciones o tratamientos en

particular, siendo: el tamaño de la muestra (cuenta), la suma de los valores de variable, su media
aritmética y su varianza.
◊ 30 ◊
En la parte ANÁLISIS DE LA VARIANZA, aparecen las tres fuentes de variación: entre, dentro y total.
En cada una de ellas se brinda su suma de cuadrados y los grados de libertad correspondientes. Con
estos dos valores, se determina el valor del cuadrado medio (promedio de los cuadrados), el cual
permite obtener el valor del estadístico F y el P-valor (el cual se presenta en la celda Probabilidad).
◊ 5.1. Análisis de la varianza para dos factores

15B

donde se tendrá que seleccionar la opción ANÁLISIS DE LA VARIANZA DE DOS FACTORES CON UNA
SOLA MUESTRA POR GRUPO y dar en el botón de ACEPTAR.
PASO 3: Una vez seleccionada la opción para realizar el análisis de la varianza se presentará una
nueva ventana emergente con el nombre de Análisis de la varianza de un factor. En ella se deberán
completar los campos solicitados:
- Rango de entrada: Solicita que

se especifique el rango de
todos los datos a analizar.
- Agrupamiento por: como se
seleccionó un conjunto de
celdas (matriz) hay que
especificar si las poblaciones
están divididas por columnas o
filas.
◊ 31 ◊
En un análisis de la varianza de un factor para tres poblaciones, los datos podrían quedar
completados la siguiente manera:
Habiendo completado los campos con la información requerida, se debería tener las siguientes
salidas:
Al igual que en la
primera parte de la
salida anterior, aquí se
encuentran la
información individual
de cada uno de los
tratamientos y los
bloques que se
emplean como
segundo criterio de
clasificación
En la siguiente salida se encuentra el cuadro de Análisis de la varianza. Nuevamente, si bien es

importante poder comprender la información que brindan los cuadros que resumen el análisis de la
varianza, con el objetivo de poder tomar la correspondiente decisión estadística, y con ello su acción
derivada, se deberá mirar los valores obtenidos en P-Valor (Probabilidad). Así mismo, no se debe
descuidar el hecho de que, a diferencia del análisis de varianza presentado anteriormente, aparece
una nueva fuente de variación.
◊ 32 ◊
Hay que recordar que el estadístico de prueba para el análisis de la varianza es:
𝐶𝑀𝑒𝑛𝑡𝑟𝑒
𝐹=
𝐶𝑀𝑑𝑒𝑛𝑡𝑟𝑜
Por tanto, cuando se realiza un análisis de la varianza para dos factores debo tener presente que, el
CMdentro corresponde al origen de la variación “ERROR”. Mientras que, el CMentre dependerá si
mis poblaciones o tratamientos, estaban planteadas como Columnas o Filas. Por ello, si los
tratamientos están presentados por columnas el P-Valor a emplear es que aparece en Probabilidad
Columnas, mientras que si los tratamientos están presentados por filas (y por ende los bloques por
columnas) el P-Valor a emplear es el que figura en Probabilidad Filas.
◊ 33 ◊
6. ANÁLISIS DE REGRESIÓN
En este último apartado se presentarán el procedimiento para realizar estimaciones de modelos de
regresión simples o múltiples. Como se verá, para poder abordar este tema se requerirá no solo de
los conocimientos respecto a regresión y correlación, sino también acerca de pruebas de hipótesis.
◊ 6.1. Análisis de regresión

16B

donde se tendrá que seleccionar la opción REGRESIÓN y dar en el botón de ACEPTAR.
PASO 3: Una vez seleccionada la opción para realizar el análisis de regresión, se presentará una
nueva ventana emergente con el nombre de Regresión. En ella se podrán completar los campos
solicitados indicando si lo que se desea es hacer la estimación de un modelo simple o múltiple:
◊ 34 ◊
- Rango Y de entrada: Solicita que se

especifique el rango de los datos
correspondientes a la variable explicada.
- Rango X de entrada: Solicita que se
especifique el rango de los datos
correspondiente a la o las variables
explicativas. Si se trata de un modelo
simple, se seleccionará una sola columna
con datos, mientras que si se estima un
modelo múltiple se deberían seleccionar
varias columnas.
- Rótulos: Se debe activar esta opción si la primera columna del rango que contiene a la
muestra tiene alguna denominación o rótulo.
- Nivel de confianza: En esta parte el usuario puede definir con qué nivel de confianza se
realizarán las estimaciones por intervalo.
- Constante igual a cero: Se deberá activar la casilla si se desea estimar un modelo de regresión
sin término constante.
En la constitución de un modelo de regresión múltiple con dos variables explicativas, los datos
podrían quedar completados de la siguiente manera:
◊ 35 ◊
La salida obtenida de completar con esos valores se presenta a continuación:
◊ 6.2. Análisis de correlación

17B

donde se tendrá que seleccionar la opción REGRESIÓN y dar en el botón de ACEPTAR.
◊ 36 ◊
PASO 3: Una vez seleccionada la opción para realizar el cálculo de los coeficientes de correlación
por pares de variables, se presentará una nueva ventana emergente con el nombre de Coeficiente
de correlación.
- Rango de entrada: Solicita que se especifique el rango de todos los datos, sin identificar si en
el modelo de regresión una es la variable explicada y las otras las variables explicativas.
- Agrupado por: Si los datos están presentados por columnas se deberá elegir la opción
COLUMNAS, caso contrario de encontrarse presentadas por filas deberá seleccionarse FILAS.
la población, tiene alguna denominación o rótulo.
un libro nuevo.
Tras completar con los datos, la salida termina presentándose en una matriz, en donde la diagonal
indica que el coeficiente de correlación de una variable con ella misma es 1.
◊ 37 ◊

01 Velardez Introduccionalanalisisdedatos

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

01 Velardez Introduccionalanalisisdedatos

Загружено:

Авторское право:

Доступные форматы

ANÁLSIS DE DATOS

Esta obra está bajo una Licencia Creative Commons

Primera Edición: Diciembre de 2017

◊ Comentarios del autor

1. Si bien implica un ahorro de tiempo en la ejecución de los procedimientos estadísticos, eso no

2. El complemento de Análisis de Datos debe activarse manualmente para su uso.

PASO 2: Una vez realizado el

PASO 3: Se abrirá una nueva ventana emergente

Para verificar que las Herramientas para análisis

◊ 1.1. Herramientas para el análisis

NOTA: La opción de Análisis de datos no estará disponible para su uso si no se realizó

PASO 2: A continuación, se abrirá una ventana emergente correspondiente al Análisis de datos, en

- Rango de entrada: Se deberá seleccionar el

Determinar el método de muestreo:

Determinar las opciones de salida:

◊ 1.3. Tomando la muestra – método sistemático al azar

◊ 1.4. Tomando la muestra – método simple al azar (sin reposición)

PASO 1: Generar una serie de N (tamaño de la población) números aleatorios, entre 0 y 1,

=JERARQUIA.EQV(número; referencia; [orden])

- número: seleccionar la celda correspondiente al valor aleatorio generado previamente.

Si dejo fijo los valores de la matriz de los

=BUSCARV(valor_buscado; matriz_buscar_en; indicador_columna; [ordenado])

- Valor_buscado: Se deberá buscar el valor de la POSICIÓN generada en el paso anterior.

◊ 1.5. Calculo de medidas que resumen información empleando funciones

- La media aritmética o promedio.

Ya sea que se tenga que calcular la

En donde número1;[número2];… indica

A diferencia de la media aritmética, acá

En donde número1;[número2];… indica

En el caso de requerir calcular la

En donde número1;[número2];… indica

Como es lógico, ya que se trata de la

◊ 1.6. Calculo de medidas que resumen información empleando herramientas de análisis

PASO 2: A continuación, se abrirá una ventana emergente correspondiente al Análisis de datos, en

Determinar las opciones de entrada:

- Rango de entrada: Se deberá seleccionar el rango de datos que contienen a la población de

Determinar las opciones de salida:

- El estimador del parámetro.

◊ 2.1. Determinación del factor de confianza

Mientras que, si se desea construir un intervalo de confianza no aditivo, se empleará:

El P-valor es menor o igual al Nivel de Significación, se rechazará la Hipótesis Nula

◊ 3.1. Acerca del P-valor

◊ 3.2. Como calcular el P-Valor

- Media poblacional (𝜇)

- Proporción poblacional (𝜋)

Así, en el caso de la media poblacional y la proporción poblacional, cuando el valor de sus

3.2.2. Acerca de las funciones y distribuciones

Distribución normal =DISTR.NORM.ESTAND.N(z; acumulado)

- Proporción poblacional (𝜋)

=DISTR.CHICUAD(x; gradosdelibertad; acumulado)

3.2.3. Acerca del tipo de prueba

Como las distribuciones empleadas en la prueba de la media y la proporción son simétricas, se

Tipo de prueba Condición Cómo calcular el P-Valor

Prueba bilateral(1) --- Se usa directamente la función calculada previamente

◊ 4.1. Comparación de varianzas

PASO 2: A continuación, se abrirá una ventana emergente correspondiente al Análisis de datos, en

- Rango para la variable 1:

Determinar las opciones de salida:

En el ejemplo que se presenta a continuación, se puede ver como el conjunto de datos

Valor del estadígrafo F

Recuerde dos cosas importantes:

◊ 4.2. Comparación de medias

- Pruebas t (varianzas iguales o varianzas desiguales)