Вы находитесь на странице: 1из 9

RESUMEN BÁSICO ESTADÍSTICA

Aparicio, J., Barber, X., Martínez MªA. y Morales J. (UMH)

TEMA 1. INTRODUCCIÓN

Sujeto: el objeto (individuo, empresa o cosa) que podría ser medido en función del objetivo establecido
en el estudio. De un sujeto nos pueden interesar múltiples atributos, aunque sólo un conjunto de ellos
es medido. (Se puede conformar un conjunto de atributos del sujeto pero que no son de interés
específico para el objetivo planteado).

Variable: es la carcaterística de interés medida sobre cada uno de los sujetos que identifica el objetivo
del estudio. En un mismo estudio pueden aparecer diferentes variables de interés asociadas con cada
uno de los atributos medidos sobre los sujetos. En algunas ocasiones el objetivo del estudio puede
involucrar a la vez varias variables que se relacionan entre sí.

Valor: es cada uno de los posibles resultados de una medición que corresponden a la variable de interés.
De forma general, los valores son números, pero pueden ser también nombres u otro tipo de
identificadores. Por tanto, cada variable puede tomar un conjunto distinto de valores.

Datos: es el conjunto de todos los valores recogidos para cada una de las variables que resultan de
interés para alcanzar el objetivo del estudio.

Población: es el conjunto de sujetos que son objetivo de la investigación sean medidos o no, ya que en
la mayoría de ocasiones resulta materialmente imposible medir a todos los individuos que conforman el
objetivo del estudio.

Muestra: es el conjunto de sujetos que finalmente son medidos, es decir, todos aquellos sobre los que
se recoge información de las variables de interés.

Muestreo: es el proceso por el cual se seleccionan los sujetos de la población que finalmente
constituyen la muestra bajo estudio. La muestra obtenida no puede proporcionar información exacta
(sino con un error estadístico) sobre la variable de interés, ya que estamos considerando únicamente un
subconjunto de la población. El procedimiento de muestro debe servir para reducir dicho error a niveles
que se consideren aceptables desde el punto de vista estadístico o científico.

Tipos de varibles: se identifican principalmente dos tipos

- Categóricas: los valores observados no son números. Cada valor asigna a cada sujeto en una
categoría diferente. Generalmente se clasifican como: nominales, las categorías de las variables no
siguen ningún orden específico (nombre, sexo); ordinales, las categorías siguen un orden específico
(estudios cursados).

- Numéricas: los valores observados son números (beneficios). DE ESCALA Y DE RAZÓN


TEMA 2. ESTADÍSITICA DESCRIPTIVA

Tabla de frecuencias

Agrupar datos según categorías o niveles de la variable.

La frecuencia absoluta de una clase o categoría de respuesta de una variable es el número de sujetos
clasificados en dicha clase. (n sub i, (ni))

A partir de las frecuencias absolutas de todas las clases podemos calcular la frecuencia absoluta total o
número de casos (también conocido como tamaño de la muestra). El número de casos es la suma de las
frecuencias absolutas de todas las categorías de respuesta. Se denota habitualmente por n.

La frecuencia relativa de una clase "i" es el cociente entre la frecuencia absoluta de dicha clase y el
número de casos. Se denota por f sub i (fi). El porcentaje de una clase es la frecuencia relativa de dicha
clase expresada en tanto por cien. Se denota por %fi.

Representación gráfica de frecuencias (variable cualitativa (categórica) ordinal):

Gráfico de barras; gráfico de sectores.

La frecuencia absoluta acumulada hasta la categoría i es la suma de las frecuencias absolutas desde la
categoría 1 hasta la i. Se denota habitualmente por N sub i (Ni).

La frecuencia relativa acumulada de w es el cociente entre la frecuencia absoluta acumulada de w y el


número de casos. Se denota por F sub i (Fi). Obtenemos además el %Fi.

2.3 MEDIDAS DE TENDENCIA CENTRAL, DISPERSIÓN Y FORMA

MEDIDAS DE LOCALIZACIÓN

La media

La media muestral es la medida más común de localización y representa el centro de un grupo de datos.
Para datos sin agrupar, se define la media muestral como la suma de todos los valores dividida por el
número de observaciones

La moda

La moda es el valor que se presenta con mayor frecuencia en la muestra observada, es decir, el que se
repite en más ocasiones. Si los datos tienen una sola moda son unimodales, si tienen más de una moda
se consideran multimodales.

La mediana
Una vez ordenada la muestra la mediana muestral es el valor por debajo del cual quedan el 50% de las
observaciones. Consecuentemente el otro 50% de los datos quedan por encima.

La ventaja fundamental de la mediana sobre la media es la de dar información sobre el centro de los
datos cuando el valor de la media no tiene significado al quedar los datos de la muestra muy alejados de
ella.

Percentiles

Medidas de localización fuertemente relacionadas con la mediana: percentiles muestrales.

Se llama percentil de orden p al valor de la variable que deja por debaje un p% de los datos. P.ej., el
percentil 20 nos indica el valor de la variable por debajo de la cual se encuentran el 20% de los datos, o
de forma análoga el valor que deja por encima el 80% de los mismos.

MEDIDAS DE DISPERSIÓN O VARIABILIDAD

Las medidas de dispersión muestran la variabilidad de un conjunto de datos, indicando, por medio de un
número, si las diferentes observaciones de una variable están muy alejadas o no de la medida de
localización utilizada. Cuanto mayor sea la medida de dispersión, mayor será la variabilidad; cuanto
menor, más parecidos serán los datos a la medida de localización.

Rango

Rango muestral: diferencia entre el máximo y el mínimo valor observado en la muestra. Sólo para
variables numéricas sin agrupar.

Rango intercuartílico: diferencia entre el percentil 75 (3er cuartil) y el percentil 25 (primer cuartil) de la
muestra. Para cualquier variable numérica.

Varianza

La varianza muestral (s^2) de un conjunto de datos se define como la media de las diferencias al
cuadrado de las observaciones respecto a su media muestral. Es un número que mide la dispersión de
los valores observados respecto a la media.

Desviación típica

La desviación típica muestral (S) de un conjunto de datos se define como la raíz cuadrada de la varianza.

MEDIDAS DE FORMA

Medidas de asimetría y apuntamiento


Las medidas de asimetría son indicadores que permiten determinar el grado de simetría o asimetría de
la distribución de los datos. Determinan si los datos se reparten por igual a cada lado de la media.

Las medidas de apuntamiento, también llamadas curtosis, son una herramiento estadística para medir
cómo es de "apuntada" la distribución de los datos. Determinan si los datos se acumulan alrededor de la
media o si al contrario se reparten sobre el posible conjunto de valores de la variable.

TEMA 3. CONCEPTOS BÁSICOS DE PROBABILIDAD

Si en lostemas anteriores nos dedicamos a "describir" una muestra de datos, en este y los próximos
temas nos centraremos en obtener conclusiones ya no de la muestra si no de la población.

Experimento aleatorio vs determinista

Experimentos deterministas: todos aquellos donde sus resultados son previsibles con seguridad (p.ej. si
nada la soporta, una piedra cae con aceleración constante) .

Experimentos aleatorios: todos aquellos donde resulta imposible predecir el resultado con total
seguridad (p.ej. lanzamiento de un dado o moneda).

Azar: lo incierto del resultado. Cálculo de probabilidades: aunque el resultado de un experimento


aleatorio es impredecible, seremos capaces de realizar afirmaciones significativas sobre él cuantificando
numéricamente cada uno de los posibles resultados.

Definición de probabilidad

Elementos básicos

Espacio muestral: conjunto de todos los resultados posibles en una repetición del experimento.

Sucesos elementales: cualquiera de los posibles resultados que se pueden obtener al repetir el
experimento en una única ocasión.

Suceso: subconjunto que puede estar pormado por un suceso elemental o por una combinación de ellos.

TEMA 4. DISTRIBUCIONES DE PROBABILIDAD

Variable aleatoria

Las variables aleatorias reciben esta denominación porque 1) pueden tomar valores numéricos distintos
y 2) el valor observado se encuentra relacionado directament con el resultado de un experimento
aleatorio.
De esta forma, una variable aleatoria queda plenamente identificada o determinada al especificar todos
sus valores posibles y la probabilidad asociada a cada uno de ellos.

Notación: letras mayúsculas las variables aleatorias (X, Y, Z) y por minúsculas (xsub1, xsub2, etc.) los
resultados observados o muestra asociada a dicha variable.

Tipos de variables aleatorias

Var.al. discreta: es aquella cuyos valores posibles suelen ser números enteros. Nº finito de resultados.
Queda plenamente identificada o determinada al especificar todos sus valores posibles y la probabilidad
asociada a cada uno de ellos.

Función de probabilidad: P(x), proporciona la probabilidad de que la variable aleatoria X tome cada uno
de los posibles resultados, x, de la variable aleatoria: P (x) = P (X = x)

Función de distribución: F(x), proporciona la probabilidad de que la variable aleatoria X todos los valores
menores o iguales al valor x: F (x)

Var. al. continua: es aquella cuyos valores posibles suelen ser números decimales. Nº infinito de
resultados. Queda plenamente identificada o determinada al especificar todos sus valores posibles a
través del intervalo de posibles resultados.

Función de densidad: f(x)

Función de distribución: F(x)

TEMA 5. ALGUNAS DISTRIBUCIONES NOTABLES DE PROBABILIDAD

Variables aleatorias Discretas

V.A. Bernoulli

V.A. Binomial

V.A. Poisson

Variables aleatorias Continuas

V.A. Normal y Teorema Central del Límite

Camapana de Gauss (variable aleatoria normal, Distribución normal):

· Tiene una única moda, que coincide con su media y su mediana.


· Es simétrica con respecto a su media. Según estos, para este tipo de variables existe una probabilidad
de un 50% de observar un dato mayor que la media, y un 50% de observar un dato menor.

· Si fijamos la varianza y la función de densidad tiene la misma forma desplazándose únicamente según
el valor de la media

· Si fijamos la media y cambiamos la varianza en función de densidad cambia la forma, volviéndose más
puntiaguda o achatada en función del valor de la varianza.

Tipificación: método que nos permite calcular de forma inmediata la probabilidad asociada a cualquier
distribución Normal. Consiste en construir una nueva variable aleatoria que se distribuye mediante una
distribución normal estándar.

Teorema Central del Límite

Nos proporciona la distrubición de la suma y la media de un conjunto de observaciones independientes


que provienen de una misma población.

Otras distribuciones (T-Student,...)

X^2 (chi-cuadrado) de Pearson

Dada una colección de variables aleatorias que se distribuyen todas según una N(0,1), la variable
aleatoria se dice que se distribuye según una distribución chi-cuadrado con n grados de libertad, y se
denota por X^2subn (X, arriba 2 y debajo del 2 n).

Se trata de una distribución no simétrica y el rango de valores posibles va de 0 a infinito.

Distribución t de Student

Dadas dos variables aleatorias independientes, Y Z, la variable aleatoria (X) se dice que se distribuye
según una distribución t de Student con n grados de libertad, se denota por t sub n.

Se trata de una distribución simétrica, el rango de valores posibles va de menos infinito a más infinito y
se asemeja a la distribución Normal estándar pero con mayor varianza.

Distribución F de Snedecor

F sub n, sub m

Se trata de una distribución asimétrica y el rango de valores posibles va de 0 a infinito.


TEMA 6. CONCEPTOS BÁSICOS DE ESTIMACIÓN PUNTUAL, POR INTERVALOS Y CONTRASTE DE
HIPÓTESIS

Procedimientos básicos de inferencia estadística, su objetivo principal es estudiar y extraer conclusiones


acerca de uno o más parámetros de la población bajo estudio, basándonos en los datos muestrales
observados.

Procedimientos de Inferencia Estadística: estimación puntual, estimación por intervalos de confianza,


contraste de hipótesis

Conceptos básicos

Estimador del parámetro poblacional como una función de las variables aleatorias asociadas a cada uno
de los sujetos observables de una muestra de tamaño n.

Estimación como una aproximación del parámetro de interés al sustituir los datos observados en la
fórmula del estimador propuesto.

De esta forma, el estimador es general para cualquier población, y por tanto es una nueva variable
aleatoria; la estimación es un valor concreto que depende de la muestra observada.

Distribución en el muestreo de un estadístico como la distribución de los valores posibles para el


estadístico en todas las posibles muestras de igual tamaño de la misma población. Conceptos clave:

· Sesgo: un estadístico utilizado para estimar un parámetro es insesgado si la media de su


distribución muestral coincide con el verdadero valor del parámetro.

· Variabilidad: la variabilidad de un estadístico se describe como la dispersión de su


distribución muestral. Esta disposición depende del diseño muestral y el tamaño de la
muestra.

Procedimientos de inferencia estadística

Estimación puntual y por intervalos de confianza

El procedimiento de inferencia estafísica más sencillo es la estimación puntual, en la que se calcula un


único valor con los datos muestrales para estimar el parámetro de la población que desconocemos.

El procedimiento de estimación por intervalos de confianza trata de proporcionar un rango o intervalo


de valores de confianza para el valor del parámetro de la población.

Contraste de hipótesis

Tiene por objetivo valorar la evidencia proporcionada por los datos a favor de alguna hipótesis
planteada sobre el parámetro o parámetros que identifican a la población bajo estudio.
Distribución en el muestreo de un estimador

Razonamientos de la inferencia estadística basados en: ¿con qué frecuencia daría este método una
respuesta correcta si lo utilizara muchas veces?

En el tema actual estudiamos la obtención de la distribución en el muestro de diferentes estadísticos


usando el TCL

...

Estimación puntual

Procedimientos destinados a proporcionar una estimación del parámetro poblacional a partir de un


estadístico de la muestra obtenida. Virtud principal: proporciona de forma casi inmediata una
estimación del parámetro o parámetros de interés, pero no da medida del error asociado con dicha
estimación.

Uniparamétrica: procedimiento por el cual a partir de una muestra de datos extraída de una población
se calcula un solo valor como estimación del parámetro que caracteriza dicha población. Proporción,
media, varianza. Los estimadores puntuales de los parámetros poblacionales más habituales tienen su
correspondencia con los estadísticos muestrales obtenidos a partir de una muestra de datos observada:

Parámetro poblacional Estimador puntual

Media poblacional Media muestral


Varianza poblacional Varianza muestral
Proporción de la población Proporción muestral
Desviación típica poblacional Desviación típica muestral
Percentil poblacional Percentil muestral

Multiparamétrica

Se obtienen valores para más de un parámetro que caracteriza una población y para más de un
parámetro que caracterizan varias poblaciones independientes.

Estimación puntual para dos poblaciones independientes referidas a: diferencia de proporciones,


diferencia de medias y cociente de varianzas.

Intervalo de confianza de un parámetro poblacional

Los procedimientos de inferencia referidos a la estimación puntual no proporcionan una medida del
error que se comete. Por ese motivo se introducen los intervalos de confianza, que además de
proporcionar un estimador puntual del parámetro de interés, establecen una medida del error cometido
a partir de su distribución en el muestreo y del grado de confianza que debe poseer el intervalo
obtenido.

El término de error depende de: tamaño de la muestra, variabilidad del estadístico utilizado en la
estimación puntual y confianza que se desea para el intervalo construido

Tamaño de la muestra: cuanto mayor es el tamaño el estimador puntual utilizado estará más cerca del
verdadero valor del parámetro y, por tanto, menor será el error que comete

Variabilidad del estadístico utilizado en la estimación puntual : cuanto mayor sea la variabilidad del
estadístico utilizado en el proceso de estimación puntual, mayor será el error cometido.

Confianza que se desea para el intervalo construido: el nivel de confianza establecido para el intervalo
de estimación deseado provoca que cuanto mayor sea el nivel deseado, más amplio será dicho intervalo
y por lo tanto menos precisión en la estimación.

Construcción de intervalos de confianza

Contraste de hipótesis: conceptos básicos

Un procedimiento de contraste de hipótesis tiene por objetivo valorar la evidencia proporcionada por
los datos a favor de alguna hipótesis planteada sobre el parámetro o parámetros que identifican a la
población bajo estudio.

En caso sencillo, tenemos un parámetro población 0 que puede tomar valores en el conjunto O. El
procedimiento de contraste se basa en difinir dos subconjuntos en O, con el fin de descubrir en cuál de
ellos es más plausible que se encuentre 0.

Estos subconjuntos disjuntos se denominan hipótesis. El procedimiento genérico establece dos


hipótesis:

a) Hipótesis nula, que se denota por H sub 0, y que generalmente expresa el valor o conjunto de valores
del parámetro, O sub 0, que indican que no hay diferencia con respecto al verdadero valor del
parámetro.

b) Hipótesis alternativa, que se denota por H sub a, y que generalmente expresa el valor o conjunto de
valores complementarios, O sub 1, a los dados en la hipótesis nula.