Академический Документы
Профессиональный Документы
Культура Документы
La estadstica es una ciencia formal que estudia la recoleccin, anlisis e interpretacin de datos de una
muestra representativa.
La estadstica es ms que eso, es la herramienta que proporciona tcnicas precisas para obtener
informacin y mtodos para el anlisis de esta. Estudia los mtodos cientficos para recoger, organizar,
resumir y analizar datos, sacar conclusiones y tomar decisiones.
POBLACION Y MUESTRA:
Para recoger datos relativos a las caractersticas de un grupo (de lo que sea), no es posible o practico
observar al grupo entero (x el nro. Si es grande). En vez de examinar a todo el grupo, llamado poblacin
o universo, se examina una pequea muestra.
La poblacin puede ser finita (bolitas en 8 frascos) o infinita (ej. Nro de estrellas).
La estadstica inferencial o inductiva, (si una muestra es representativa de una poblacin se sacaran
buenas conclusiones). Realiza el estudio descriptivo de un subconjunto de la poblacin, la muestra y
extiende los resultados a toda la poblacin.
VARIABLES
Una variable es un smbolo que puede tomar un conjunto prefijado de valores, que
se llamara dominio de esa variable.
Si la variable toma un solo valor se llama CONSTANTE.
Una variable que puede tomar cualquier valor entre 2 valores dados, es una
VARIABLE CONTINUA.
Ej. La altura de una persona puede ser 1.75, o cualquiera.
Si no puede tomar cualquier valor es una VARIABLE DISCRETA. Ej el nro de hijos
de una flia puede ser 1, 2, pero no 0,345.
VARIABLE CUALITATIVA: Expresa atributo o caract. Ej. Rubio, morocho.
VARIABLE CUANTITATIVA: Podemos expresar numricamente. Ej. Cant. De hijos que
queremos tener.
GRAFICOS:
1.
2.
3.
4.
Diagrama de sectores
Diagrama de barras
Histograma
Diagrama de escalera
5. Pictograma
6. Cartograma
7. Poligono de frecuencias
DISTRIBUCIONES DE FRECUENCIAS:
DATOS: datos recogidos no ordenados numricamente.
ORDENACIONES: Es el conjunto de datos num. En orden creciente o decreciente.
La diferencia entre el mayor y el menor se llama RANGO.
DISTRIBUCION DE FRECUENCIAS: Cuando tenemos grandes colecc. De datos, es
mejor distribuirlos en clases y determinar el nro. De indiv. De cada una. Eso se
llama frecuencia de clase.
Poner los datos por clases con cada frecuencia, es una DISTRIBUCON DE
FRECUENCIAS (o tabla de frecuencias).
INTERVALOS DE CLASE: Ej. 1.60 1.62, ese es un intervalo. El 1 nro. Es el lim.
Inferior y el 2 el superior. Si careciera de los lim. Inferior y superior seria ABIERTO.
Ej. Personas que nacieron en el ao 65 o mas.
FRONTERA CLASE: Se promedia el lim. Sup. Y el inferior.
TAMAO O ANCHO DE UN INTERVALO DE CLASE: Es la diferencia entre las
fronteras de clase inf. Y superior.
MARCA DE CLASE: Es el punto medio del intervalo de clase y lo logro promediando
los limites inf. Y sup. De la clase. Tambin se denomina PUNTO MEDIO.
Reglas
generales
frecuencias
para
formar
distribuciones
de
Ejemplo:
medio.
Los pesos de seis amigos son: 84, 91, 72, 68, 87 y 78 kg. Hallar el peso
Definicin de mediana
Es el valor que ocupa el lugar central de todos los datos cuando stos estn
ordenados de menor a mayor.
La mediana se representa por Me.
La mediana se puede hallar slo para variables cuantitativas.
Clculo de la mediana
1. Ordenamos los datos de menor a mayor.
2. Si la serie tiene un nmero impar de medidas la mediana es la puntuacin central
de la misma.
2, 3, 4, 4, 5, 5, 5, 6, 6Me= 5
3. Si la serie tiene un nmero par de puntuaciones la mediana es la media entre las
dos puntuaciones centrales.
7, 8, 9, 10, 11, 12Me= 9.5
Definicin de moda
La moda es el valor que tiene mayor frecuencia absoluta.
Se representa por Mo.
Se puede hallar la moda para variables cualitativas y cuantitativas.
Hallar la moda de la distribucin:
2, 3, 3, 4, 4, 4, 5, 5 Mo= 4
Si en un grupo hay dos o varias puntuaciones con la misma frecuencia y esa
frecuencia es la mxima, la distribucin es bimodal o multimodal, es decir, tiene
varias modas.
1, 1, 1, 4, 4, 5, 5, 5, 7, 8, 9, 9, 9Mo= 1, 5, 9
Cuando todas las puntuaciones de un grupo tienen la misma frecuencia, no hay
moda.
2, 2, 3, 3, 6, 6, 9, 9
Si dos puntuaciones adyacentes tienen la frecuencia mxima, la moda es el
promedio de las dos puntuaciones adyacentes.
0, 1, 3, 3, 5, 5, 7, 8Mo = 4
Cuartil
Uno de los tres puntos que dividen un conjunto de datos numricamente ordenados
en cuatro partes iguales. A estos tres puntos se les llama primer cuartil (tambin
llamado el cuartil inferior), segundo cuartil (el cuartil medio; es la mediana) y el
tercer cuartil (cuartil superior), respectivamente. Se pueden utilizar para darnos una
idea de la dispersin de los datos.
Primer cuartil
Primero de los tres puntos que dividen un conjunto de datos ordenados
numricamente en cuatro partes iguales. Esto es, el primer cuartil de una lista
ordenada numricamente es un nmero tal que un cuarto de los datos de la lista se
encuentran debajo de l.
Segundo cuartil
Nmero que divide un grupo de datos numricamente ordenados en una mitad
inferior y una superior. El segundo cuartil es lo mismo que la mediana.
Tercer cuartil
Tercero de los tres puntos que dividen en cuatro partes iguales a un conjunto de
datos numricamente ordenados. Es decir, el tercer cuartil de una lista ordenada
numricamente es un nmero debajo del cual se encuentran las tres cuartas partes
de los datos.
Deciles.
Los deciles son los nueve valores que dividen la serie de datos en diez partes
iguales.
Los deciles dan los valores correspondientes al 10%, al 20%... y al 90% de los datos.
D5 coincide con la mediana.
Percentiles.
Los percentiles son los 99 valores que dividen la serie de datos en 100 partes
iguales.
Los percentiles dan los valores correspondientes al 1%, al 2%... y al 99% de los
datos.
MEDIDAS DE DESPERSION:
Se inici el estudio de la estadstica descriptiva. Se organiz un conjunto de datos,
en una tabla de distribucin de frecuencias y se grafic la distribucin. Usando un
histograma o un polgono de frecuencias.
Esto ayuda a visualizar donde se agrupan los datos y la forma general de la
distribucin.
Calculamos varias medidas de tendencia central, esto nos permite definir un valor
tpico en un conjunto de observaciones. Ahora veremos la dispersin o variabilidad
de los datos.
48
49
50
51
52
40
47
50
53
60
Medidas de dispersin:
Veremos varias medidas de dispersin: dispersin es la variacin de un conjunto de
datos.
1. Amplitud de variacin: es la ms sencilla. Es la diferencia entre el valor ms
grande y el ms chico de un conjunto de datos.
Amplitud de variacin: valor ms grande valor ms pequeo
Caractersticas principales:
a. Solo dos valores se utilizan
b. Tienen la influencia de valores extremos
c. Es fcil de calcular y comprender.
En nuestro ejemplo de la produccin, para la planta AA: 52-48= 4, para la planta BB
es: 60-40= 20.
Ejemplo. El nmero de clientes atendidos, para una muestra de 5 das es: 103, 97,
101, 106 y 103. Determinar e interpretar la desviacin media.
La media es: xi = 103 + 97 + 101 + 106 +103 = 102
n
5
DM = 12/5 = 2,4, esto es que el nmero de clientes en promedio varia en 2,4
respecto de la media de 102 clientes.
la media.
Teorema de Chebyshev
Para un conjunto cualquiera de observaciones (muestra o poblacin), la proporcin
mnima de los valores que se encuentran dentro de k observaciones estndares
desde la media es al menos 1- 1/k2, donde k es una constante mayor a 1.
Ejemplo. En muestro ejemplo anterior la media fue de X= 6185/120 = 51,54$ y la
desviacin fue de 7,51$
Qu porcentaje se encuentra a una distancia de ms de 3,5 desviaciones
estndares y menos de 3,5 desviaciones estndares?
Aproximadamente el 92%, 1- 1/(3,52) = 0,92
Regla emprica
Para una distr. De frecuencias simtrica, aproximadamente el 68% de las
observaciones estar a ms y menos una desviacin de la media; el 95% estar a
mas de dos y menos de dos desviaciones de la media y prcticamente todas las
observaciones, 99,7% se hallara a ms y menos tres desviaciones estndares de la
media.
70
-3s
80
-2s
90
100
-1s
110
120
130
1s
2s
3s
1 s= $150 1.$20
2.$20
3.$20
Dispersin relativa
Es la razn de la desviacin estndar a la media aritmtica, expresada como un
porcentaje.
CV =
S
100
X
Y los
Distribuciones normales
Caractersticas:
1. La curva normal es acampanada. La media, la mediana y la moda de la
distribucin son iguales y estn localizadas en el pico. De esta forma, la mitad del
rea bajo la curva se encuentra por arriba de este punto central y la mitad por
abajo.
2. Es simtrica con respecto a su media.
3. Decrece uniformemente en ambas direcciones a partir del valor central. Es
asinttica, lo cual significa que la curva se acerca cada vez ms al eje X, pero en
realidad nunca llega a tocarlo.
Distribucin normal estndar: tiene una media igual a 0 y una desviacin
estndar igual a 1. Cualquier distribucin normal puede convertirse en una
distribucin normal estndar.
Se convierte, o estandariza, la distribucin a una distribucin normal estndar
utilizando el valor z, denominado a veces, desvo normal estandarizado o
Muestreo de la poblacin:
El muestreo es la nica forma de determinar algo acerca de la poblacin. Algunas
de las principales razones son.
a. La naturaleza destructiva de ciertas pruebas. Si los catavinos tuvieran que beber
todo el vino para evaluar la vendimia, consumiran toda la produccin y no
quedara producto disponible para la venta. En el rea de la produccin industrial,
las placas de acero, el alambre y productos similares, frecuentemente deben
tener determinada resistencia mnima a la tensin. Para asegurar que el producto
cumpla con el estndar mnimo, se selecciona una muestra relativamente
pequea. Cada pieza es estirada hasta que se rompe y se registra el esfuerzo de
ruptura. Si todas las piezas se sometieran a prueba de resistencia a la tensin, no
quedara ningn producto para su venta o uso.
b. Imposibilidad fsica de revisar todos los integrantes de la poblacin:
c. El costo de estudiar a todos los integrantes de una poblacin, frecuentemente es
prohibitivo.
d. Lo adecuado de los resultados de la muestra: incluso si se contase con los
fondos, se necesaria mucho tiempo para entrevistar a toda la poblacin.
Error de muestreo:
desviacin estndar de la
distribucin de muestreo de las medias muestrales. Es una medida de la
variabilidad de la distribucin de muestreo de la media muestral.
Error estndar de la media, con base en la desviacin estndar de la muestra: sx =
s/
Dos valores afectan el tamao del error estndar. El 1 es la desviacin estndar, si
es grande, entonces el error estndar tambin lo ser. Y 2 el tamao de la muestra
tambin afecta al error estndar. Al aumentar el tamao de la muestra, el error
estndar disminuye, indicando esto que hay menor variabilidad en la distribucin de
las medias muestrales.
Cuando el tamao de la muestra, n, es al menos igual a 30, generalmente se acepta
que el teorema del lmite central asegura una distribucin normal de las medias
muestrales.
Con el estudio del muestreo, vimos que una muestra es un medio utilizado para
inferir algo acerca de una poblacin mediante la seleccin de una parte de la
misma. Analizamos mtodos para escoger una muestra de una poblacin. Despus
se elaborara una distribucin de las medias muestrales para comprender la forma
en que tales valores medios tienden a agruparse alrededor de la media poblacional
y porque esta distribucin se aproxima a la distribucin normal.
Se establecen los intervalos de confianza, que definen una gama de los valores
dentro de la cual ocurrir, probablemente, el valor de la poblacin. Se definen
formulas que determinaran el numero de observaciones necesarias para diferentes
situaciones de muestreo.
El parmetro es el valor que estamos buscando de la poblacin, no lo conozco. Con
los datos de la muestra encuentro un resultado que estima el valor del parmetro,
este es el estimador.
Poisson:
El nmero de autos que pasan a travs de un cierto punto en una ruta (suficientemente distantes
de los semforos) durante un periodo definido de tiempo.
El nmero de errores de ortografa que uno comete al escribir una nica pgina.
Ejemplo:
Si el 2% de los libros encuadernados en cierto taller tiene encuadernacin defectuosa, para obtener la
probabilidad de que 5 de 400 libros encuadernados en este taller tengan encuadernaciones defectuosas
usamos la distribucin de Poisson. En este caso concreto, k es 5 y, , el valor esperado de libros
defectuosos es el 2% de 400, es decir, 8. Por lo tanto, la probabilidad buscada es
Este problema tambin podra resolverse recurriendo a una distribucin binomial de parmetros
k = 5, n = 400 y =0,02.
Binomial:
En estadstica, la distribucin binomial es una distribucin de probabilidad discreta que mide el nmero
de xitos en una secuencia de n ensayos de Bernoulli independientes entre s, con una probabilidad
fija p de ocurrencia del xito entre los ensayos. Un experimento de Bernoulli se caracteriza por ser
dicotmico, esto es, slo son posibles dos resultados. A uno de estos se denomina xito y tiene una
probabilidad de ocurrencia p y al otro, fracaso, con una probabilidad q = 1 - p. En la distribucin binomial
el anterior experimento se repite n veces, de forma independiente, y se trata de calcular la probabilidad
de un determinado nmero de xitos. Para n = 1, la binomial se convierte, de hecho, en una distribucin
de Bernoulli.
Salario
$7
7
8
8
7
8
9
Xi
/ 7 = $ 7,71
7
2
()
2!( 72 )
7!
= 21
salari
o
media
jose-samuel
7;7
jose-susana
7;8
7,5
jose-roberto
7;8
7,5
jose-juan
7;7
jose-aurora
7;8
7,5
jose-teodoro
7;9
samuelsusana
7;8
7,5
samuelroberto
7;8
7,5
samuel-juan
7;7
10
samuelaurora
7;8
7,5
7;9
11
samuelteodoro
12
susanaroberto
8;8
13
susana-juan
8;7
7,5
14
susanaaurora
8;8
15
susanateodoro
8;9
8,5
16
roberto-juan
8;7
7,5
17
robertoaurora
8;8
18
robertoteodoro
8;9
8,5
19
juan-aurora
7;8
7,5
20
juan-teodoro
7;9
21
aurorateodoro
8;9
8,5
cantid probabili
ad
dad
0,1429
7,5
0,4286
0,2857
8,5
0,1429
21
Valores de0.4290.429
poblacin
probabilidad
7.5
8.5
medias muestrales
Pruebas de Hipotesis
Ya vimos el modo en que podemos seleccionar una muestra al azar, y a partir de
ella, calcular el valor de un parmetro poblacional. Es decir, calculamos un
parmetro poblacional a partir de un valor estadstico muestral. Adems podemos
hallar un intervalo de confianza, dentro del cual se espera localizar el valor
poblacional.
En lugar de desarrollar una variedad de valores dentro del cual se espera que
ocurra el parmetro poblacional, se lleva a cabo una prueba de hiptesis.
Primero veremos que se entiende por hiptesis y que por pruebas de hiptesis.
Despus se describen los pasos a seguir para probar una hiptesis. Se realiza un
ensayo de hiptesis:
1. Comparando una media muestral con un valor hipottico.
2. Comparando dos medias muestrales para determinar si son iguales.
3. Analizaremos errores estadsticos posibles en las pruebas de hiptesis.
Se rechaza H1
Error de tipo I
Decisin correcta
Valor critico:
Ejemplo: una cadena de tiendas tiene su propia tarjeta de crdito. El gerente desea
averiguar si el saldo vencido medio mensual es mayor que 400$. El nivel de
significancia se fija en 5%.
Una revisin aleatoria de 172 saldos vencidos revelo que la media muestral es
407$, y la desviacin de la muestra es 38$. Debera concluir el gerente de crditos
que la media poblacin es mayor que 400$ o bien es razonable suponer que la
diferencia de 7$ se debe al azar.
Solucin:
H0: 400$
H1: 400$
Dado que tenemos una direccin, la prueba es a una cola. El valor critico 1,645. El
valor calculado de z es 2,42
Z= 407 400 = 2,42
38/
172
Dado que el valor estadstico de prueba, 2,42 es mayor que el valor critico, 1,645,
se rechaza la H0. El gerente de credito puede concluir que el saldo vencido es mayor
que 400$.
x1
x2
s 12 s 22
+
n1 n2
Hicompresive
X2 = 1055 psi
n2 = 64
s2 = 57 psi
valor critico (0,01) es de 2,58.
x
s/
PRISIONERO 2
No delatar
Delatar
PRISIONERO
No delatar
(-2,-2)
(-1,-10)
1
Delatar
(-10, -1)
(-6,-6)
Supongamos que somos uno de los prisioneros, no sabemos que har el otro por lo
que el mejor de los casos es delatar al otro independientemente de lo que haga, ya
que en ambas situaciones minimizamos los aos de pena esperados en la crcel. Si
el otro nos delata iremos seis aos en vez de 10 y si no nos delata iremos uno en
vez de 2. Dado que el otro es igual de inteligente que nosotros, lo mas probable es
que llegue a la misma decisin. Al final lo que acaba pasando es que ambos
acaban perdiendo 6 aos entre rejas, mientras que si hubieran cooperado hubieran
sido solo 2.
La situacin alcanzada es un EQUILIBRIO DE NASH, porque ambas partes no
pueden cambiar sino empeorar. Es decir, no se haya la mejor situacin para las
partes.
El encubre
El traiciona
Tu encubres
Maximo beneficio
comun
(-2,-2)
El gana, tu pierdes
(-1,-10)
Tu traicionas
Tu ganas, el pierde
(-10, -1)
Maximo perjuicio
comun
(-6,-6)
EQUILIBRIO DE NASH:
Un concepto que fue desarrollado por el economista Antonie Aguistin Cournot en su
anlisis denominado Oligopolios en 1838, y en el que plantea un modelo
competitivo de varias empresas que compiten por un mismo bien. Y que en el que
cada una de ellas intenta determinar la cantidad optima que deben producir para
maximizar sus ganancias individuales.
El equilibrio de Nash se ha utilizado para regular situaciones de competencia entre
empresas y disear subastas de adjudicaciones pblicas. Una legislacin que tenga
en cuenta el equilibrio de Nash puede evitar oligopolios, por eso en la legislacin
antimonopolios se suele buscar formas de evitar que se pacten precios entre las
partes implicadas.
Probabilidad:
PROBABILIDAD EMPIRICA:
Se define a la probabilidad en base a las frecuencias relativas. La probabilidad de
que un evento ocurra a largo plazo se determina observando en que fraccin de
tpo. Sucedieron los eventos semejantes en el pasado.
Probabilidad subjetiva:
Si existe para ninguna experiencia enla cual puede basarse una probabilidad
subjetiva. Esto significa evaluar las opiniones disponibles y la otra info subjetiva
para despus estimar o asignar la probabilidad. A esto se lo llama probabilidad
subjetiva.
Diagrama del rbol:
Una representacin grafica muy til para organizar clculos que ahorran varias
etapas. Cada segmento en el rbol es una etapa del problema. Se usa una tabla de
contingencia.
TEOREMA DE BAYES:
Se usa para calcular la probabilidad de algo en base a la evidencia que ya se
dispone.
Muestreos: