Вы находитесь на странице: 1из 40

Facultad de Ingenierías: Electrónica, Industrial y Sistemas

ESTADISTICA Y PROBABILIDADES

Bibliografía

1.- FREUND,J, MILLER, I, 1992, Probabilidad y Estadística para


Ingenieros, México: Prentice Hall Latinoamericana.

2.- KOLMAN, B. Y BUSBY, R,1995, Estructuras de Matemáticas


Discretas para la Computación, México: Prentice Hall
latinoamericana.

3.- MYSKIS,A.D,1975, Introductory mathematics for engineers,


Moscú: Nauka

4.- MURRAY,S,1979, Estadística, México: McGraw-Hill de México


(Schaum)

5.- PARZEN, E,1979, Teoría Moderna de Probabilidades y sus


aplicaciones, México: Limusa

6.- SEMENDIAIEV K., I BRONSHTEIN, I, 1973, Manual de Matemáticas


para Ingenieros y estudiantes, Moscú: Mir

Ingeniero MSc. Alexis Sánchez Miño

1
Facultad de Ingenierías: Electrónica, Industrial y Sistemas
ESTADISTICA Y PROBABILIDADES

A MANERA DE INTRODUCCIÓN.- Tarea casi imposible sería tratar de

señalar un campo en donde la Estadística no haya causado gran impacto, y

su uso no sea una práctica permanente y cotidiana. En La ingeniería y en la

administración industrial sobre todo, esta ciencia ha adquirido una

connotación especial. Problemas de la producción, uso eficiente de

materiales, manejo de la fuerza de trabajo etc. cobran fuerza mayor con

conceptos como “Control de Calidad y Calidad Total” cuya esencia

estadística revela la importancia de esta ciencia. Si queremos como país

tercermundista afrontar con éxito los retos del nuevo milenio, tendremos que

mejorar sustancialmente la calidad de lo poco que producimos, y producir

más y mejor. Para sobrevivir, debemos adquirir el compromiso continuo de

mejoramiento de calidad, desde el diseño hasta la producción, aplicando

experiencias y propuestas como las de Edwards Deming, o el criterio

japonés de imitar, igualar, superar.

Una de las características fundamentales del milenio que iniciamos,

consiste en el empleo cada vez mayor de las ideas y conceptos de la Teoría

de Probabilidades, con una amplia aplicación científica, fundamentalmente

en la investigación. ¿Cómo podríamos en Genética por ejemplo emitir

criterios sobre la frecuencia relativa con que aparecen diversas

características de grupos de individuos sin la estadística y las

probabilidades?; o el cálculo de la densidad del tráfico en una metrópoli en

una hora pico, etc. etc. Fenómenos tan variados pero tan actuales son los

Ingeniero MSc. Alexis Sánchez Miño

2
Facultad de Ingenierías: Electrónica, Industrial y Sistemas
ESTADISTICA Y PROBABILIDADES

que estudian y ayudan a comprender estas ciencias, las que se abordan

-aún cuando elementalmente- a continuación.

Estadística Analítica e Inferencial.- Podemos definir a la Estadística como

una ciencia metodológica que se encarga de la toma, recopilación,

ordenamiento, organización, análisis, interpretación, y proyección o

pronóstico de datos numéricos pertenecientes a fenómenos masivos;

entendiéndose estos últimos como aquellos en los cuales participan un sin

número de elementos de un mismo tipo o especie.

El total de elementos que conforman un fenómeno se denomina

”población”; mientras que entendemos por ”muestra”; a un subconjunto de

este Universo, cuyos elementos han sido escogidos en forma aleatoria; pero

son representativos de la población, es decir que posea las mismas

características de la población. No deben existir desviaciones mayores en

los resultados de las aplicaciones estadísticas que es hicieran a la población

y a la muestra.

Ingeniero MSc. Alexis Sánchez Miño

3
Facultad de Ingenierías: Electrónica, Industrial y Sistemas
ESTADISTICA Y PROBABILIDADES

Distinguimos dos tipos de Estadística: ”La Analítica”; que tiene como límite

los resultados obtenidos del análisis e interpretación de los fenómenos y ”La

Inferencial”, que utiliza los datos de la primera y además los proyecta en

función de pronosticar posibles resultados respecto de fenómenos iguales o

similares en diferente tiempo y espacio, en base a generalizaciones de

datos. Algunos de los problemas fundamentales que resuelve la estadística

inferencial se refieren a la evaluación de riesgos y toma de decisiones.

Debemos entender que la Estadística sin embargo de ser científica,

es inexacta; la exactitud propia de la esencia de la materia la podemos

mejorar mediante ”La Probabilidad Matemática”, que es la ciencia que nos

permite pronosticar la aparición, repetición, evolución, terminación, etc. de

fenómenos estudiados mediante formulación matemática; siendo este el

vínculo entre estas dos ciencias.

Los datos estadísticos en dependencia de características cualitativas

y cuantitativas, como la longitud de la serie y algunos otros por menores se

clasifican en : ”Datos No Agrupados (DNA) y Datos Agrupados (DA)“.

Cuando la serie no es relativamente grande, además de un ordenamiento

que puede ser ascendente o descendente, suele no ser necesaria una

clasificación alguna, entonces estamos trabajando con datos no agrupados.

Estadísticamente los parámetros mas representativos de una serie de

datos ya sean estos no agrupados o agrupados son “Los Promedios o

Medidas de Tendencia central, y las medidas de desviación o dispersión”.

Ingeniero MSc. Alexis Sánchez Miño

4
Facultad de Ingenierías: Electrónica, Industrial y Sistemas
ESTADISTICA Y PROBABILIDADES

DATOS NO AGRUPADOS.-

Medidas de Centralización o Promedios.- Distinguimos parámetros de

dos tipos: Computacionales y Posicionales. Los primeros se denominan

así por cuanto se calculan por fórmula, la cual se encuentra

matemáticamente fundamentada, se denominan también científicos. Los

promedios posicionales, denominados también empíricos se determinan

unas veces por observación y otras por fórmula, pero esta última

generalmente es empírica o está sujeta a principios de interpolación lineal y

geométrica.

Entre los promedios computacionales más importantes tenemos:

MEDIA ARITMETICA (Xm).- No es sino la razón de la sumatoria de las

observaciones por el número de ellas.

Xm=  Xi / n

Ejemplo: Calcular el promedio (media aritmétca) de las notas de un

estudiante si su cuadro de calificaciones es :

MATERIA NOTAS

Estadística 9.6

Electrónica 8.0

Inglés 7.7

Estructuras 6.5

Ed.Física 10.0

Francés 9.9

Ingeniero MSc. Alexis Sánchez Miño

5
Facultad de Ingenierías: Electrónica, Industrial y Sistemas
ESTADISTICA Y PROBABILIDADES

Total 51.7 / 6 = 8.617

Vale aclarar aquí el concepto de media aritmética ponderada, que no

es sino la asignación de pesos (valores de importancia), a c/u de las

observaciones. Su expresión formular es:

Xp =  Wi Xi / N; (N = W)

Para el ejemplo anterior, asignando los siguientes pesos (valores de

importancia) a las diferentes materias:

MATERIA NOTAS PESO

Estadística 9.6 2

Electrónica 8.0 3

Inglés 7.7 3

Estructuras 6.5 3

Ed.Física 10.0 1

Francés 9.9 1

Xp = 2*9.6 + 3*7.7 + 3*6.5 + 10*1 + 9.9*1

2+3+3+3+1+1

Xp = 8.13

Una variación de esta fórmula se puede utilizar para calcular series con

observaciones que se repiten f veces (frecuencias), es decir:

Xp =  fi Xi / N ; (N = W)

La media aritmética cuenta con algunas propiedades matemáticas entre las

cuales citaremos :

Ingeniero MSc. Alexis Sánchez Miño

6
Facultad de Ingenierías: Electrónica, Industrial y Sistemas
ESTADISTICA Y PROBABILIDADES

1. Σ( Xi -Xm ) = 0: “ La Sumatoria de las desviaciones de las

observaciones respecto de la media aritmética de la serie, es igual a

cero. Para el ejemplo anteriormente citado:

9.6 - 8.617 = 0.983

8.0 - 8.617 = -0.617

7.7 - 8.617 = -0.917

6.5 - 8.617 = -2.117

10.0 - 8.617 = 1.383

9.9 - 8.617 = 1.283

Suma = 0,002 ≈ 0.

2. Σ( Xi - p )2 = mínimo, para “p = Xm”: La Sumatoria de las desviaciones

cuadradas respecto de un valor “p” , es mínimo, solamente cuando p

= Xm (media aritmética)

Por ejemplo:

( 9.6-9.6 ) 2 = 0 ( 9.6-8.617) 2 = 0.967

( 8.0-9.6 ) 2 = 2.56 ( 8.0-8.617) 2 = 0.380

( 7.7-9.6 ) 2 = 3.61 ( 7.7-8.617) 2 = 0.840

( 6.5-9.6 ) 2 = 9.61 ( 6.5-8.617) 2 = 4.48

(10.0-9.6 ) 2 = 0.16 (10.0-8.617) 2 = 1.914

( 9.9-9.6 ) 2 = 0.09 ( 9.9-8.617) 2 = 1.647

Suma = 16.03 Suma = 12.228

Ingeniero MSc. Alexis Sánchez Miño

7
Facultad de Ingenierías: Electrónica, Industrial y Sistemas
ESTADISTICA Y PROBABILIDADES

(Igual obtenemos una sumatoria mayor para cualquiera de los valores

de la serie). Independientemente del sinnúmero de ventajas que presenta

este promedio (facilidad de cálculo, caracterización de la serie, simple

interpretación, etc.), su gran desventaja es que al intervenir todos los valores

de la serie en su determinación, se ve seriamente afectada por valores

extremos.

MEDIA GEOMETRICA (G).- Se define como la raíz enésima “n“ del producto

de las “N“ observaciones. Matemáticamente se expresa:

G = (  Xi) 1/n

Por Ejemplo, la media geométrica de la serie que analizábamos será:


1/6
G = (9.6*8.0*7.7*6.5*10.0*9.9)

G = 8.513

Aún cuando G también se influencia de valores extremos, esta

influencia es menor a la observada en X. Sin embargo este promedio no se

puede aplicar para observaciones iguales a cero, y en aquellas con algunos

valores negativos.

MEDIA ARMONICA (H).- No es sino el recíproco de la media aritmética de

los recíprocos de los valores observados. Matemáticamente:

H= n .
 1
Xi

Ingeniero MSc. Alexis Sánchez Miño

8
Facultad de Ingenierías: Electrónica, Industrial y Sistemas
ESTADISTICA Y PROBABILIDADES

Este promedio está asociado directamente con series mecánicas

donde intervenga el tiempo. Para cálculos estadísticos aplicados a la Física

por ejemplo es preferible que siempre utilicemos este promedio.

PROMEDIOS POSICIONALES.- A diferencia de los computacionales, estos

carecen de sustentación matemática, sin embargo de aquello son

ampliamente utilizados debido a su importancia práctica y a determinadas

ventajas sobre los computacionales. Los más comunes son:

LA MEDIANA (MED).- Conocemos por mediana el valor más central de la

serie, es decir es aquel valor que divide a la serie ordenada en 2 partes

iguales. Si el número de observaciones de la serie es par, entonces la

mediana se calcula como la media aritmética de los valores más centrales

de la serie. La mediana es un parámetro de tendencia central (promedio),

ampliamente aplicado. Es muy cercano a la media aritmética pero al mismo

tiempo no se influencia en absoluto de valores extremos a diferencia de

ésta. Lamentablemente por ser un promedio posicional no se utiliza en

cálculos matemáticos más profundos.

En el caso que se analizaba anteriormente, la mediana Med. será:

10.0, 9.9 , 9.6 , 8.0 , 7.7 , 6.5


Ingeniero MSc. Alexis Sánchez Miño

9
Facultad de Ingenierías: Electrónica, Industrial y Sistemas
ESTADISTICA Y PROBABILIDADES

Los valores centrales son 9.6 y 8.0 ; por tanto:

Med = (9.6 + 8.0)/ 2 = 8.8

LA MODA (MOD).- O promedio modal, es un parámetro de tendencia central

ampliamente utilizado en fenómenos comerciales y fundamentalmente

relacionada con la discretización de variables continuas para análisis y

proyección de procesos. De este concepto, podemos concluir que una serie

puede tener mas de un promedio modal (Bimodal,Trimodal, Multimodal) o en

su defecto puede no tenerlo. La serie que analizamos carece de Moda.

CUANTILES .- El sufijo “ILES“ estadísticamente significa el  de partes en

que dividimos una serie. Diferenciamos los Cuantiles (Qi),que dividen a la

serie en cuatro partes, y son Q1,Q2,Q3;los quintiles (Ki), dividen a la serie

en 5 partes, y son: K1,K2,K3,y K4; Deciles(Di),que dividen a la serie en diez

partes, y son D1,D2.....D9, los Percentiles (Pi), que dividen a la serie en cien

partes y son P1,P2......P99.

Para el cálculo de los Cuartiles y en función del  de observaciones de la

serie, nos basamos en la determinación de su ubicación entre dos valores

dados, y luego a la afinación de este valor respecto de la longitud del

intervalo en que se encuentran.

Así :

Q1p = 1(N + 1)/4

Q2p = 2(N + 1)/4

Ingeniero MSc. Alexis Sánchez Miño

10
Facultad de Ingenierías: Electrónica, Industrial y Sistemas
ESTADISTICA Y PROBABILIDADES

Q3p = 3(N + 1)/4

Para los deciles

D1p = 1(N + 1)/10

D2p = 2(N + 1)/10

D3p = 3(N + 1)/10

...

D9p = 9(N + 1)/10

Para los Percentiles:

P1p = 1(N + 1)/100

P2p = 2(N + 1)/100

...

P27p = 27(N + 1)/100

...

P99p =99(N + 1)/100

Calculando el cuartil 3, el decil 7 y el percentil 38 tendremos:

Para Q3:

Q3p = 3*(6+1)/4 = 5.25

Q3 = 8-(0.25*(8-7.7)) = 7.925 o

Q3 = 7.7+(0.75(8-7.7)) = 7.925

Para D7:

D7p = 7*(7)/10 = 4.9

D7 = 8-(0.9*(8-7.7)) = 7.73 o

Ingeniero MSc. Alexis Sánchez Miño

11
Facultad de Ingenierías: Electrónica, Industrial y Sistemas
ESTADISTICA Y PROBABILIDADES

D7 = 7.7+(0.1*(8-7.7)) = 7.73

Para P38:

P38p = 38*(7)/100 = 2.66

P38 = 9.9-(0.66*(9.9-9.6)) = 9.702 o

P38 = 9.6+(0.34*(9.9-9.6)) = 9.70

MEDIDAS DE DESVIACION Y DISPERSION .-

Desviación y dispersión estadísticas son conceptos que denotan el grado de

alejamiento de los valores de la serie tomados como un todo, respecto de

sus promedios (generalmente de la Media aritmética y la Mediana. Entre los

principales podemos citar:

RANGO O RECORRIDO (R).- Es la medida de la longitud o el espacio del

desarrollo de la serie. Se calcula como la diferencia entre el valor máximo y

mínimo. Para la serie que analizamos:

R = 10.0 - 6.5 = 3.5

DESVIACION CUARTILICA O RANGO SEMIINTERCUARTILICO (DQ).-

Conocemos por rango intercuartílico a la expresión Q3-Q1; siendo la

desviación cuartílica,el rango intercuartílico dividido por dos.

DQ = (Q3 - Q1) /2

En nuestro caso: Q1= 9.7 ; Q3=7.925

DQ = (9.7-7.925)/2 = 1.775/2 = 0.888

Ingeniero MSc. Alexis Sánchez Miño

12
Facultad de Ingenierías: Electrónica, Industrial y Sistemas
ESTADISTICA Y PROBABILIDADES

DESVIACION MEDIA ABSOLUTA (MAD).- Este parámetro se define como la

media aritmética de las desviaciones de la serie tomadas en valor absoluto

respecto de la media aritmética o de la Mediana de la misma.

MAD = Xi - Xm / N o MAD = Xi- Med / N

Respecto de la media aritmética:

Dato Xi -Xm

10.0 1.383

9.9 1.283

9.6 0.983

8.0 0.617

7.7 0.917

6.5 2.117

Suma: 7.300 ; MAD = 7.300/6 = 1.217

DESVIACION TIPICA O ESTANDAR ().- Matemáticamente se expresa

como la raíz cuadrada de la media aritmética de las desviaciones

cuadráticas de la serie respecto de la media aritmética o de la mediana.

 = ((Xi- X)2 /N) 1/2

Dato (Xi-Xm)2

10.0 1.913

9.9 1.646

9.6 0.966

8.0 0.381

Ingeniero MSc. Alexis Sánchez Miño

13
Facultad de Ingenierías: Electrónica, Industrial y Sistemas
ESTADISTICA Y PROBABILIDADES

7.7 0.841

6.5 4.482

Suma:10.229 ;  = (10.229/6)1/2 = 1.306

VARIANZA ()2.- No es sino el cuadrado de la desviación estándar. Es decir

2= (Xi- X)2 /n = 1.705 ;

COEFICIENTE DE VARIACION (CV).- Es la razón de la desviación estándar

respecto de la media aritmética, generalmente expresada en forma

porcentual, es decir:

CV =  / Xm (%)

CV = 1.306 / 8.617 = 0.152 * 100 = 15.156%

DATOS AGRUPADOS.-

Clases, Intervalos, Marcas de clase.-

Fundamentalmente, el agrupamiento de datos se debe a necesidades

de carácter metodológico, es decir que cuantitativamente y cualitativamente

existe la necesidad de tal agrupamiento, por ejemplo cuando el número de

datos de la serie de un fenómeno estudiado es demasiado grande, se vuelve

necesario un agrupamiento de datos, así como la presencia de

características propias por intervalos de observaciones de una misma

especie, también demanda este tratamiento.

El agrupamiento señalado consiste en subdividir a la serie en

diferentes “ categorías “ o “ clases “ y en determinar por separado y

Ingeniero MSc. Alexis Sánchez Miño

14
Facultad de Ingenierías: Electrónica, Industrial y Sistemas
ESTADISTICA Y PROBABILIDADES

mediante técnicas de conteo el número de observaciones pertenecientes a

cada una de ellas. Denominamos a este proceso de agrupamiento como

distribución de frecuencias y los datos obtenidos en forma tabular conforman

la denominada “Tabla de distribución de frecuencias”.

Si por ejemplo hemos observado alturas (en metros), de estudiantes

de la FIS (muestra de 258), y estos datos han sido tabulados mediante una

distribución de frecuencias, podríamos tener datos como los siguientes:

H ( mts ) FREC. f Lim Real f(%)

1.55 - 1.59 15 1.545 - 1.595 5,81

1.60 - 1.64 26 1.595 - 1.645 10,08

1.65 - 1.69 82 1.645 - 1.695 31,78

1.70 - 1.74 75 1.695 - 1.745 29,09

1.75 - 1.79 40 1.745 - 1.975 15,50

1.80 - 1.84 16 1.795 - 1.845 6,20

1.85 - 1.89 3 1.845 - 1.895 1,16

1.90 - 1.94 1 1.895 - 1.945 0, 39

258

Suponemos que el número de clases de la distribución, corresponde a

necesidades metodológicas del estudio del fenómeno.

Cada clase cuenta con sus límites normales “superior e inferior“, siendo los

valores más grande y más pequeño de la clase respectivamente. Por

ejemplo para la primera clase:

Ingeniero MSc. Alexis Sánchez Miño

15
Facultad de Ingenierías: Electrónica, Industrial y Sistemas
ESTADISTICA Y PROBABILIDADES

LNi = 1.55 m

LNs = 1.59 m

Distinguimos además los límites reales de clase que toman en cuenta

la aproximación adoptada para las unidades de medidas del fenómeno. Si

en nuestro caso la aproximación es de 1 cm, entonces tendremos que:

LRi = 1.545 m

Lrs = 1.595 m

Conocemos por “ Longitud de clase o tamaño de clase ( c ) “ a la

diferencia calculada entre los límites reales de clase. La longitud de la clase

será:

1.595-1.545 = 0.05m = 5 cm

De fundamental importancia en distribución de frecuencias es el

concepto ”marca de clase (M) “, debido a que es este valor el que expresa

y representa a su categoría o clase. Es en función de la marca que se

realizan todos los cálculos estadísticos posteriores. Se calcula como la

Media Aritmética de los límites superior e inferior de clase (normales o

reales).

M = 1.545 + 1.595 = 1.57

M = 1.55 + 1.59 = 1.57

Ingeniero MSc. Alexis Sánchez Miño

16
Facultad de Ingenierías: Electrónica, Industrial y Sistemas
ESTADISTICA Y PROBABILIDADES

HISTOGRAMA DE FRECUENCIAS.- Denominado también Histograma

solamente no es sino una representación gráfica de una distribución de

frecuencias. Se conforma de un sistema de coordenadas rectangulares en

cuyo eje de abscisas se colocan las diferentes clases de la distribución a

través de sus respectivas marcas, siendo éstas los puntos medios de las

bases de los rectángulos cuyas alturas no son sino el número de

observaciones por clase (frecuencia) que son los valores a representarse en

el eje de las ordenadas del sistema. La superficie de cada uno de estos

rectángulos, representa el “tamaño” de la clase y su relación respecto de las

demás y de la serie en general. Un histograma, permite en sentido gráfico y

geométrico, la determinación de los diferentes parámetros estadísticos.

HISTOGRAMA DE FRECUENCIAS

Ingeniero MSc. Alexis Sánchez Miño

17
Facultad de Ingenierías: Electrónica, Industrial y Sistemas
ESTADISTICA Y PROBABILIDADES

Distinguimos el Histograma de Frecuencias Relativo en que como

única diferencia respecto del anterior, cuenta con sus valores de frecuencia

expresados en forma porcentual.

H ( mts ) f fa f(%) fa(%)

1.55 - 1.59 15 15 5,81 5.81

1.60 - 1.64 26 41 10,08 15.88

1.65 - 1.69 82 123 31,78 47.66

1.70 - 1.74 75 198 29,09 76.75

1.75 - 1.79 40 238 15,50 92.95

1.80 - 1.84 16 254 6,20 98.45

1.85 - 1.89 3 257 1,16 99.61

1.90 - 1.94 1 258 0,39 100.00

258

POLIGONO DE FRECUENCIAS.- No es sino la figura que se forma al unir

las proyecciones de las marcas en los techos de los rectángulos,

incrementando además dos categorías una al inicio y otra al final con la

misma longitud y frecuencia igual a cero, con el propósito de que la figura se

cierre en sus extremos respecto del eje X.

El histograma y el polígono de frecuencias, son gráficos estadísticos que

cumplen con una misma función. En algunas circunstancias es el polígono

un gráfico mas aplicable debido a que se pueden realizar lecturas directas

cuanto en abscisas como en ordenadas. Geométricamente el área total de la

Ingeniero MSc. Alexis Sánchez Miño

18
Facultad de Ingenierías: Electrónica, Industrial y Sistemas
ESTADISTICA Y PROBABILIDADES

sumatoria de superficies parciales de los rectángulos del histograma,

exactamente igual a la superficie encerrada por el polígono y el eje Ox.

HISTOGRAMA Y POLIGONO DE FRECUENCIAS´.-

Ingeniero MSc. Alexis Sánchez Miño

19
Facultad de Ingenierías: Electrónica, Industrial y Sistemas
ESTADISTICA Y PROBABILIDADES

POLIGONO DE FRECUENCIAS ACUMULADO .- Gráfico estadístico en el

cual se muestra que cantidad de observaciones acumuladas son menores a

un valor determinado (generalmente los límites reales superiores de clase)

En nuestro caso y completando la tabla:

Lrs fa

<= 1.595 15

<= 1.645 41

<= 1.695 123

<= 1.745 198

<= 1.795 238

<= 1.845 254

<= 1.895 257

<= 1,945 258

Ingeniero MSc. Alexis Sánchez Miño

20
Facultad de Ingenierías: Electrónica, Industrial y Sistemas
ESTADISTICA Y PROBABILIDADES

El polígono de frecuencias acumulado, nos sirve para determinar clase por

clase las tendencias de la serie en base a las características geométricas de

los diferentes tramos de recta que lo conforman.

De los polígonos de distribución de frecuencias nacen las denominadas

“curvas de distribución de frecuencia “. Estas se consiguen

matemáticamente bajo el supuesto de incrementar indefinidamente el

número de clases o categorías de una distribución, en tal circunstancia los

puntos que se unen mediante segmentos de recta forman el polígono, se

acercan cada vez mas entre sí, siendo por tanto los segmentos de longitud

tendientes a cero, o lo que es lo mismo perdiendo su condición de

segmentos y transformándose en puntos los cuales delinean las curvas de

distribución de frecuencias. Las curvas de distribución de frecuencias

presentan diferentes características, en función de las cuales se clasifican

por forma. Las más comunes son :

Ingeniero MSc. Alexis Sánchez Miño

21
Facultad de Ingenierías: Electrónica, Industrial y Sistemas
ESTADISTICA Y PROBABILIDADES

PROMEDIOS EN DATOS AGRUPADOS ( Medidas de Tendencia Central).

PROMEDIOS COMPUTACIONALES.- En datos agrupados distinguimos de

igual manera los promedios computacionales y los posicionales. Entre los

computacionales citamos a la media aritmética, la media geométrica y la

media armónica.

MEDIA ARITMETICA (X).- Se calcula como la relación entre la sumatoria de

las frecuencias por las marcas de cada clase, por el número total de

observaciones.

X = ( fj x Mj) / n

Para el caso que venimos analizando:

H ( mts ) f fa M fxM fxlogM fx 1/M

1.55 - 1.59 15 15 1.57 23.55 2.938 9.554

1.60 - 1.64 26 41 1.62 42.12 5.447 16.049

1.65 - 1.69 82 123 1.67 136.94 18.262 49.10

1.70 - 1.74 75 198 1.72 129.00 17.665 43.605

1.75 - 1.79 40 238 1.77 70.80 9.919 22.599

1.80 - 1.84 16 254 1.82 29.12 4.161 8.791

1.85 - 1.89 3 257 1.87 5.61 0.815 1.604

1.90 - 1.94 1 258 1.92 1.92 0.283 0.521

258 439.06 59.49 151.825

Para la media aritmética:

Ingeniero MSc. Alexis Sánchez Miño

22
Facultad de Ingenierías: Electrónica, Industrial y Sistemas
ESTADISTICA Y PROBABILIDADES

X = ( fj x Mj)/n = 439.06/258 = 1.702m

MEDIA GEOMETRICA (G).- Para datos agrupados, y debido a la esencia de

la media geométrica, se vuelve necesaria la utilización de logaritmos, con lo

que las operaciones pueden realizarse. La fórmula en este caso es la

siguiente:

G = Antilog (  f x Log M / n )

En nuestro caso:

G = Antilog ( 59.49/258) = 1.70m

MEDIA ARMONICA (H).- La media armónica se calcula mediante la

siguiente fórmula:

H = 1 / ( f x 1/M) / N = N / ( f x 1/M)

En el caso que analizamos:

H = 258 / 151.825 = 1.699m

PROMEDIOS POSICIONALES.- Por ser parámetros que carecen de

formulación matemática, las fórmulas que nos permiten su determinación,

son de lo mas variadas, y enmarcan aspectos relacionados de ubicación y

posición. Se utilizan diversas fórmulas para su determinación como son:

MEDIANA ( MED ) .- La fórmula más utilizada para el cálculo de la mediana

es la siguiente :

Med = Lri + (N/2- faa ) * k

fcm

Ingeniero MSc. Alexis Sánchez Miño

23
Facultad de Ingenierías: Electrónica, Industrial y Sistemas
ESTADISTICA Y PROBABILIDADES

en donde :

Lri = Límite real inferior de la clase mediana = 1.695 m

N/2 = Valor posicional para la mediana = 129

faa = Frecuencia acumulada anterior a la clase mediana = 123

fcm = Frecuencia de la clase mediana = 75

k = Longitud de clase o tamaño del intervalo = 0.05 m

Med = 1.695 + (129 -123) * 0.05 = 1.699 m

75

MODA ( MOD ).- Entre las fórmulas conocidas la mas utilizada se expresa :

Mod = Lricm + ( 1 ) * k

1+2

En donde :

Lricm = límite real inferior de la clase modal = 1.645 m

1 = diferencia entre la clase modal y la premodal = ( 82-26)

2 = diferencia entre la clase modal y la posmodal = ( 82-75)

K = Longitud de clase o tamaño del intervalo = 0.05 m

En nuestro caso la clase que mayor frecuencia tiene es la 3ra - ( 82 )

Mod =1.645 + ( 56 ) * 0.05 = 1.689 m

(56 + 7)

CUANTILES.- Estos parámetros posicionales también son para datos

agrupados: Cuartiles, quintiles, deciles y percentiles. (Los más utilizados).

Respectivamente se calculan de la manera siguiente:

Ingeniero MSc. Alexis Sánchez Miño

24
Facultad de Ingenierías: Electrónica, Industrial y Sistemas
ESTADISTICA Y PROBABILIDADES

CUARTILES ( Qi ).- Para los cuartiles las fórmulas mas utilizadas son :

Q1 = Lricq + ( N/4 - faa ) * k

fq1

Q2 = Lricq + ( 2N/4 - faa ) * k = Med

fq2

En nuestro caso tendremos :

Q1 = 1.645 + ( 64.5 - 41 ) * 0.05 ; Q1 = 1,659 m

82

Q2 = 1.695 + ( 124 - 123 ) * 0.05 ; Q2 = 1.699 m

75

Q3 = 1.695 + ( 193,5 - 123 ) * 0.05 ; Q3 = 1.742 m

75

DECILES Y PERCENTILES ( Pi, Qi )- Las fórmulas utilizadas tienen el

mismo principio que para el cálculo de los cuartiles . Enunciaremos algunas

de ellas . D3 = Lricd + ( 3N/10 - faa ) * k

fd

D8 = Lricd + ( 8N/10 - faa ) * k

fd

D8 = 1.645 + ( 77.4 - 41 ) * 0.05 = 1.667 m

82

P17 = Lricp + ( 17N/100 - faa ) * k = 1.647 m

Ingeniero MSc. Alexis Sánchez Miño

25
Facultad de Ingenierías: Electrónica, Industrial y Sistemas
ESTADISTICA Y PROBABILIDADES

fp

P39 = Lricd + ( 39N/100 - faa ) * k = 1,6814 m

fp

MEDIDAS DE DESVIACION Y DISPERSION .- Al igual que para los datos no

agrupados los promedios de desviación y dispersión nos dan una idea del

grado de alejamiento o separación de los valores de la serie, respecto de un

promedio ( generalmente la media aritmética o la mediana ). En su orden

podemos calcularlos de la siguiente manera.

RANGO.- No es sino la diferencia entre el límite superior de la última

categoría menos el límite inferior de la primera categoría.

R = Lns - Lni = 1.94 - 1.55 = 0,39 m

DESVIACION MEDIA ABSOLUTA ( DMA ) .- Este parámetro de dispersión

que tiene el mismo sentido para los datos no agrupados se calcula mediante

las fórmulas :

DMA =  fj Mj - X 

DMA =  fj Mj - Med 

En el caso nuestro tendremos que :

DMA = 13.46 = 0.052 m DMA = 13.452 = 0.05213 m

258 258

Ingeniero MSc. Alexis Sánchez Miño

26
Facultad de Ingenierías: Electrónica, Industrial y Sistemas
ESTADISTICA Y PROBABILIDADES

DESVIACION ESTANDAR.- Para datos agrupados la desviación estándar

se calcula mediante la fórmula :

σ =  Σ fj( Mj – Xm )2

σ =  Σ fj( Mj - Med )2

En nuestro caso :

σ =  1.0852 / 258 = 0.0648 m σ =  0.90486 0/ 258 = 0.0672 m

VARIANZA .- Siendo este parámetro igual a σ2 , en nuestro caso tendremos:

σ 2 = 0.0042 cm2 σ 2 = 0.0045 cm2

MOMENTOS ESTADISTICOS

Son formulaciones matemáticas, que se definen como parámetros

estadísticos, algunos de ellos cuales tienen amplia connotación dentro del

estudio de curvas de distribución de frecuencias y mas específicamente

respecto del sesgo y de la curtosis (fenómenos estadísticos a tratarse

posteriormente ). Distinguimos los momentos indefinidos de grado r ( Xr )y

los momentos respecto de la media, de grado r ( Mr ). Para datos no

agrupados:

Xr =  Xir

Mr =  ( Xi - Xm )r

N
Ingeniero MSc. Alexis Sánchez Miño

27
Facultad de Ingenierías: Electrónica, Industrial y Sistemas
ESTADISTICA Y PROBABILIDADES

Mientras para datos Agrupados:

Xr =  fj Mjr

Mr =  fj ( Mj - Xm ) r

SESGO Y CURTOSIS

Estos dos conceptos aún cuando en su esencia diferentes, se manejan en

forma paralela, puesto que ambos definen características de suma

importancia para las distribuciones de frecuencia y sus curvas

representativas (Polígonos de Distribución Suavizado). El sesgo no es otra

cosa que el grado de asimetría que describe una curva de distribución,

tomando como referencia una curva de distribución normal y por tanto

simétrica.

Ingeniero MSc. Alexis Sánchez Miño

28
Facultad de Ingenierías: Electrónica, Industrial y Sistemas
ESTADISTICA Y PROBABILIDADES

Si el sesgo describe una curva cuya cola más larga se encuentra del lado

derecho entonces decimos que la curva es positivamente sesgada.

Decimos que la distribución es negativamente sesgada, cuando la cola más

larga se encuentra del lado izquierdo de la misma. Existen múltiple fórmulas

para determinar el sesgo de una distribución ; algunas de ellas empíricas y

otras con sustento matemático. Entre las más importantes señalaremos :

S = Xm - Mod

Que puede reemplazarse por :

S = 3 ( Xm - Med )

Debido a que empíricamente se tiene que Xm - Mod  3 ( Xm - Med ).

Estas fórmulas son aplicables cuando las distribuciones son desde ligeras a

medianamente sesgadas.

Se conocen como Coeficiente de Sesgo Pearson 1 y 2.

También tenemos el coeficiente de sesgo cuartílico que se expresa como :

SQ = Q3 - 2Q2 + Q1

Q3 - Q1

Con sustento matemático la fórmula mas importante es :

a3 = M3

σ3

Ingeniero MSc. Alexis Sánchez Miño

29
Facultad de Ingenierías: Electrónica, Industrial y Sistemas
ESTADISTICA Y PROBABILIDADES

Todos estos coeficientes de sesgo son iguales a 0 para distribuciones

normales (simétricas); son positivas para distribuciones con sesgo derecho;

y si las distribuciones tienen sesgo izquierdo entonces los coeficientes son

negativos.

Entendemos por curtosis al grado de apuntamiento o achatamiento

que presenten las curvas de distribución de frecuencia.

Distinguimos curvas Leptocúrticas, Mesocúrticas y Platicúrticas. Así:

Generalmente la curtosis de una distribución se calcula mediante el

coeficiente de curtosis percentílica “a4“, el mismo que se determina

mediante las fórmulas :

a4 = M4
Ingeniero MSc. Alexis Sánchez Miño

30
Facultad de Ingenierías: Electrónica, Industrial y Sistemas
ESTADISTICA Y PROBABILIDADES

σ4

K= DQ

P90 - P10

DQ = Q3 - Q1

Una distribución normal se dice que es Mesocúrtica si su coeficiente a4 = 3 y

su K = 0,263

Si a4  3 o lo que es lo mismo k  0.263 la curva será leptocúrtica, mientras

que si a4  3 o lo que es lo mismo k  0.263 la curva será platicúrtica.

El sesgo y la curtosis aparecen también permanentemente en forma

combinada.

CORRELACION Y REGRESION ESTADISTICAS

Ingeniero MSc. Alexis Sánchez Miño

31
Facultad de Ingenierías: Electrónica, Industrial y Sistemas
ESTADISTICA Y PROBABILIDADES

Todos los procesos productivos o de cualquier actividad humana, se rigen por

el principio de causa y efecto, es decir que siempre podemos encontrar

relación entre las actividades desarrolladas y los resultados obtenidos,

existiendo una o más leyes que rigen, norman y determinan el curso del

fenómeno o actividad. El concepto de correlación estadística, se maneja para

grupos de datos que pueden ser determinados experimentalmente o pueden

ser el resultado de procesos productivos, resultados para los cuales se

pretende determinar primero la existencia de una relación y luego la ley

matemática a la que ésta responde. En los datos se cuenta con la presencia

de una variable dependiente “Y“ y de una variable independiente “X“ (una o

más), y se persigue determinar el grado de dependencia o interrelación entre

ellos. Decimos que los datos están correlacionados si por su ubicación

gráfica, pueden definirse como parte de una familia, dependencia funcional o

ley matemática. El grado de correlación se conceptúa como el nivel de

acercamiento o alejamiento respectivamente de los datos respecto de una

expresión funcional o ley. La regresión estadística es el proceso que nos

permite matemáticamente determinar la función que más o mejor se ajuste a

los datos correlacionados. En sentido práctico, la correlación estadística se

puede determinar en base a los denominados diagramas de dispersión, ya

que al observar la ubicación de los puntos en el plano, podemos definir el tipo

de función al que más se asemejan, y escogiendo el tipo de función,

procedemos entonces a su determinación.

Ingeniero MSc. Alexis Sánchez Miño

32
Facultad de Ingenierías: Electrónica, Industrial y Sistemas
ESTADISTICA Y PROBABILIDADES

Si todos los valores de las variables satisfacen exactamente una

ecuación, se dice que hay una correlación perfecta entre ellas. Cuando se

trata de dos variables solamente, se habla de correlación simple y de

regresión simple. Cuando se trata de más de dos variables se habla de

correlación múltiple y de regresión múltiple.

CORRELACION LINEAL..- Si X e Y representan las dos variables que se

consideran, y en un diagrama de dispersión todos o casi todos los puntos

parecen describir una recta, como en (a) y (b) de la Figura adjunta, la

correlación se dice lineal. En tales casos, para propósitos de regresión o

estimación es adecuada una ecuación lineal.

Si Y tiende a incrementarse cuando se incrementa X, como en (a), la

correlación se dice positiva o correlación directa. Si Y tiende a disminuir

cuando se incrementa X, como en (b) la correlación se dice negativa o

correlación inversa.

Si todos los puntos parecen estar cerca de alguna curva, la correlación se

dice no lineal y una ecuación no lineal es la apropiada para la regresión o

estimación. Es evidente que una correlación no lineal puede ser a veces

positiva y a veces negativa.

Si no hay ninguna relación entre las variables, como en la Fig (c), se dice que

no hay correlación entre ellas, es decir, no están correlacionadas.

Ingeniero MSc. Alexis Sánchez Miño

33
Facultad de Ingenierías: Electrónica, Industrial y Sistemas
ESTADISTICA Y PROBABILIDADES

Y Y Y

(a) (b) (c)

(a) Correlación Lineal Positiva

(b) Correlación Lineal Negativa

(c) No hay correlación

RECTAS DE REGRESION POR MINIMOS CUADRADOS

Se considera en primer lugar el problema de la bondad con que una línea

recta explica la relación entre dos variables. Para ello son necesarias las

ecuaciones de las rectas de regresión por mínimos cuadrados.

Matemáticamente, mediante el siguiente sistema de ecuaciones, podemos

calcular la recta regresional del tipo y = a x + b.

 ax2 +  bx =  xy

 ax + bn = y ; en donde:

 x2 - Sumatoria de los valores del argumento x elevadas al cuadrado

 x- Sumatoria de los valores del argumento x

 xy- Sumatoria de los productos de los valores de x por la función y

y- Sumatoria de los valores de la función y

Ingeniero MSc. Alexis Sánchez Miño

34
Facultad de Ingenierías: Electrónica, Industrial y Sistemas
ESTADISTICA Y PROBABILIDADES

n- Número de valores dados en la tabla

El sistema propuesto es de dos ecuaciones con dos incógnitas. Resolviendo

el sistema, podemos calcular los valores “a “ y “ b “, con lo cual

determinamos la recta regresional : y = ax + b

Ejercicio de aplicación.-

Del análisis de las ventas hechas por una compañía para los años 1991 a 1999, respecto de los

ingresos netos mensuales promedio del consumidor en este período, se han obtenido los siguientes

datos estadísticos:

VENTAS
PERIODO (Y) SUELDOS
(años) miles USD usd/MES
1996 50,2 200
1997 62,8 215
1998 76,4 220
1999 63,8 210
2000 67,1 230
2001 72,9 235
2002 66,8 225
2003 77,1 240
2004 71,1 235
2005 72,5 240

La compañía desea utilizar este análisis para pronósticos de ventas futuras,

asumiéndose una correlación lineal. Se quiere determinar la función

regresional correspondiente.

SOLUCION: Lógico es pensar que en cualquier actividad de mercado, las

ventas dependen de la capacidad de compra del consumidor, es decir de sus

ingresos. Por esta razón para nuestro caso, adoptamos como función “Y” a las

ventas, y como argumento “X” a los ingresos del consumidor. Calculamos

Ingeniero MSc. Alexis Sánchez Miño

35
Facultad de Ingenierías: Electrónica, Industrial y Sistemas
ESTADISTICA Y PROBABILIDADES

tabularmente las diferentes sumatorias necesarias para el cálculo de la recta

regresional, de la siguiente manera:

INGRESO
VENTAS S
PERIODO (Y) (X) X2 XY
(años) milesUSD usd/MES
1993 50,2 200 40000 10040,00
1994 62,8 215 46225 13502,00
1995 76,4 220 48400 16808,00
1996 63,8 210 44100 13398,00
1997 67,1 230 52900 15433,00
1998 72,9 235 55225 17131,50
1999 66,8 225 50625 15030,00
2000 77,1 240 57600 18504,00
2001 71,1 235 55225 16708,50
2002 72,5 240 57600 17400,00
Sumas 680,7 2250 507900 153955,00
Por tanto el sistema será:

 ax2 +  bx =  xy 507900 a + 2250 b = 153955

 ax + bn = y 2250 a + 10 b = 680.7

Resolviendo el sistema:

1:507900 a + 2250 b = 153955 x (1): 507900 a + 2250 b = 153955

2: 2250 a + 10 b = 680.7 x ( -225): -506250 a - 2250 b = -153157.3

1650 a = 797.7

a = 797.7/1650 = 0.483

Reemplazando a = 0.483 en 2: 2250(0.483) +10b = 680.7

b = (680.7 – 1086.75) /10; b = -40.605

Por tanto, la recta regresional es : y = 0.483 x – 40.605

Ingeniero MSc. Alexis Sánchez Miño

36
Facultad de Ingenierías: Electrónica, Industrial y Sistemas
ESTADISTICA Y PROBABILIDADES

Esta ecuación determina el comportamiento del fenómeno “Ventas de la

compañía, respecto del ingreso de los consumidores”. Esto significa que en

conocimiento de los ingresos futuros del consumidor (en base al desarrollo

económico del sector, región o país), con ayuda de la ecuación calculada,

podemos “ pronosticar ” el nivel de ventas esperado. Si por ejemplo,

deseamos proyectar las ventas de la compañía para los años 2004 y 2006,

con valores determinados de ingresos de 245 y 255 dólares respectivamente:

Yp = 0.483 (245) – 40.605 = 77.73 (miles de dólares) para 2004

Yp= 0.483 (255) – 40.605 = 82.56 (miles de dólares) para 2006

EVALUACION Y SIGNIFICACION DE LA CORRELACION LINEAL

Significa “ poner a trabajar” a la recta regresional determinada, con el

propósito de comprobar en función de valores de “y” conocidos, aquellos que

pudieran proyectarse (reemplazando en la función). Con estos valores, se

determinan las desviaciones medias absolutas, para comprobar a través de

“valores de tolerancia” , la bondad de la recta regresional, es decir si a futuro

los pronósticos pueden o no ser avalizados. Los parámetros de evaluación

más utilizados son:

 Variación Total

 Variación Explicada

 Variación No-explicada

 Coeficiente de Correlación

 Coeficiente de determinación

Ingeniero MSc. Alexis Sánchez Miño

37
Facultad de Ingenierías: Electrónica, Industrial y Sistemas
ESTADISTICA Y PROBABILIDADES

 Error típico de la estimación

VARIACION TOTAL (VT).- Representa la sumatoria de las desviaciones

cuadradas de los valores dados de “y” respecto de su media aritmética “ym”.

VT =  ( y - ym ) 2

VARIACION EXPLICADA (VE).- Representa la parte de la variación total que

depende de la variable independiente “x” . Se calcula como la sumatoria de

las desviaciones cuadradas de los valores de “y” pronosticados, “yc”; respecto

de la media de los valores de “y” dados: “ym”

VE =  ( yc - ym ) 2

VARIACION INEXPLICADA (VI).- Es la variación residual que refleja el

comportamiento de las fuerzas del mercado sobre y bajo las fluctuaciones de

la variable independiente “x”. Matemáticamente se calcula como la sumatoria

de las desviaciones cuadradas de los valores de la variable dependiente “y”

dados, respecto de los valores pronosticados “yc”. Es decir:

VI =  ( y - yc )2

COEFICIENTE DE CORRELACION (CR).- Expresa el grado de

asociación de las dos variables, la independiente y la dependiente.

CR = ( VE / VT ) ½ = ( (yc-ym)2 /  (y-ym)2)1/2

COEFICIENTE DE DETERMINACION (CD).- No es sino el coeficiente de

correlación elevado al cuadrado.

CD = CR 2

Ingeniero MSc. Alexis Sánchez Miño

38
Facultad de Ingenierías: Electrónica, Industrial y Sistemas
ESTADISTICA Y PROBABILIDADES

ERROR TIPICO DE LA PENDIENTE O ERROR DE LA ESTIMA (m).- Se

calcula matemáticamente mediante la fórmula:

m = ((  (y-yc)2 /(N-K))/ ( (x-xm)2 ) ; en donde:

(x-xm)2 - Sumatoria de las desviaciones cuadradas de x respecto de xm

k- # de variables de la correlación (siendo lineal en nuestro caso, k = 2)

Para el ejercicio que estamos analizando tendremos:

VENTAS INGRESOS
PERIODO (Y) (X) (Y –Ym)2 Yc (Yc-Ym)2 (Y-Yc)2 (X-Xm)2
(años) miles USD usd/MES
1993 50,2 200 319,34 56,00 145,81 33,58 625
1994 62,8 215 27,77 63,24 23,33 0,19 100
1995 76,4 220 69,39 65,66 5,83 115,46 25
1996 63,8 210 18,23 60,83 52,49 8,85 225
1997 67,1 230 0,94 70,49 5,83 11,46 25
1998 72,9 235 23,33 72,90 23,33 0,00 100
1999 66,8 225 1,61 68,07 0,00 1,61 0
2000 77,1 240 81,54 75,32 52,49 3,19 225
2001 71,1 235 9,18 72,90 23,33 3,24 100
2002 72,5 240 19,62 75,32 52,49 7,92 225
Suma: 680,7 2250 570,961 384,93 185,50 1650

Ym = 68,07
Xm = 225

Por tanto los valores serán:

La variación Total : VT =  ( y - ym ) 2 ; VT = 570.96

La variación Explicada: VE =  ( yc - ym ) 2 ; VE = 384.93

La variación Inexplicada : VI =  ( y - yc ) 2; VI = 185.50

El coeficiente de correlación: CR = (VE / VT )1/2 = ( 384.93/570.96) ½ =

0.821

Ingeniero MSc. Alexis Sánchez Miño

39
Facultad de Ingenierías: Electrónica, Industrial y Sistemas
ESTADISTICA Y PROBABILIDADES

El coeficiente de determinación : CD = CR2 = (0.816)2 = 0.674

El error de la estima: m = (( VI / (N-K))/ ( (x-xm)2 ))

m = ((185.50/(10-2))/(1650)) ½ = 0.1185

Generalmente, a partir de CR = 0.75, se estima que el nivel de correlación del

fenómeno es bueno. En nuestro caso, por ser CR = 0.821, consideramos que

nuestra curva regresional es bastante confiable. Esto se corrobora con el

error de la estima, que es de alrededor del 12%.

Ingeniero MSc. Alexis Sánchez Miño

40

Вам также может понравиться