Вы находитесь на странице: 1из 37

REVISIN DE LOS FUNDAMENTOS DE ESTADISTICA ALUMNA: CORREA TACUL, Janeth Elizabeth

I.

OBJETIVO: Revisar los principales conceptos y aplicaciones de los fundamentos de estadstica, debido a su importante relacin con las actividades de control de calidad en la industria alimentaria.

II.

REVISION Y APLICACIONES A PRESENTAR: 2.1. DISTRIBUCION DE FRECUENCIAS: 2.1.1. DEFINICION: DISTRIBUCION DE FRECUENCIA: Se le llama distribucin de frecuencias a la agrupacin de datos en categoras mutuamente excluyentes que indican el nmero de observaciones en cada categora.1 Esto proporciona un valor aadido a la agrupacin de datos. La distribucin de frecuencias presenta las observaciones clasificadas de modo que se pueda ver el nmero existente en cada clase. Estas agrupaciones de datos suelen estar agrupadas en forma de tablas. Una distribucin de frecuencias es un formato tabular en la que se organizan los datos en clases, es decir, en grupos de valores que describen una caracterstica de los [datos] y muestra el nmero de observaciones del conjunto de datos que caen en cada una de las clases. La tabla de frecuencias ayuda a agrupar cualquier tipo de dato numrico. En principio, en la tabla de frecuencias se detalla cada uno de los valores diferentes en el conjunto de datos junto con el nmero de veces que aparece, es decir, su Frecuencia. Se puede complementar la frecuencia absoluta con la denominada frecuencia relativa, que indica la frecuencia en porcentaje sobre el total de datos. En variables cuantitativas se distinguen por otra parte la frecuencia simple y la frecuencia acumulada. La tabla de frecuencias puede representar grficamente en un histograma (Diagrama De Barras). Normalmente en el eje vertical se coloca las frecuencias y en el horizontal los intervalos de valores. La distribucin de frecuencias o tabla de frecuencias es una ordenacin en forma de tabla de los datos estadsticos, asignando a cada dato su frecuencia correspondiente. FRECUENCIA RELATIVA:

La frecuencia relativa es aquella que resulta de dividir cada uno de los fi de las clases de una distribucin de frecuencia de clase entre el nmero total de datos(N) de la serie de valores. Estas frecuencias se designan con las letras fr; si cada fr se multiplica por 100 se obtiene la frecuencia relativa porcentual (fr %). FRECUENCIA ACUMULADA:

Las frecuencias acumuladas de una distribucin de frecuencias son aquellas que se obtienen de las sumas sucesivas de las fi que integran cada una de las clases de una distribucin de frecuencia de clase, esto se logra cuando la acumulacin de las frecuencias

se realiza tomando en cuenta la primera clase hasta alcanzar la ultima. Las frecuencias acumuladas se designan con las letras fa. Las frecuencias acumuladas pueden ser menor que

CLASE:

Son divisiones o categoras en las cuales se agrupan un conjunto de datos ordenados con caractersticas comunes. En otras palabras, son fraccionamientos del rango o recorrido de la serie de valores para reunir los datos que presentan valores comprendidos entre dos limites. Para organizar los valores de la serie de datos hay que determinar un nmero de clases que sea conveniente. En otras palabras, que ese nmero de intervalos no origine un nmero pequeo de clases ni muy grande. Un nmero de clases pequeo puede ocultar la naturaleza natural de los valores y un nmero muy alto puede provocar demasiados detalles como para observar alguna informacin de gran utilidad en la investigacin. TAMAO DE LOS INTERVALOS DE CLASE: Los intervalos de clase pueden ser de tres tipos, segn el tamao que estos presenten en una distribucin de frecuencia: a) Clases de igual tamao, b) clases desiguales de tamao y c) clases abiertas. RANGO:

Es el lmite dentro del cual estn comprendidos todos los valores de la serie de datos, en otras palabras, es el nmero de diferentes valores que toma la variable en un estudio o investigacin dada. Es la diferencia entre el valor mximo de una variable y el valor mnimo que sta toma en una investigacin cualquiera. El rango es el tamao del intervalo en el cual se ubican todos los valores que pueden tomar los diferentes datos de la serie de valores, desde el menor de ellos hasta el valor mayor estando incluidos ambos extremos. El rango de una distribucin de frecuencia se designa con la letra R. 2.1.2. REPRESENTACIONES GRAFICAS: HISTOGRAMA DE FRECUENCIA:

En estadstica, un histograma es una representacin grfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. Sirven para obtener una "primera vista" general, o panorama, de la distribucin de la poblacin, o la muestra, respecto a una caracterstica, cuantitativa y continua, de la misma y que es de inters para el observador (como la longitud o la masa).

CONSTRUCCION DE UN HISTOGRAMA:

Paso 1 Determinar el rango de los datos. Rango es igual al dato mayor menos el dato menor.

Paso 2 Obtener los nmeros de clases, existen varios criterios para determinar el nmero de clases (o barras) -por ejemplo la regla de Sturgess-. Sin embargo ninguno de ellos es exacto. Algunos autores recomiendan de cinco a quince clases, dependiendo de cmo estn los datos y cuntos sean. Un criterio usado frecuentemente es que el nmero de clases debe ser aproximadamente a la raz cuadrada del nmero de datos. Por ejemplo, la raz cuadrada de 30 (nmero de artculos) es mayor que cinco, por lo que se seleccionan seis clases.

Paso 3 Establecer la longitud de clase: es igual al rango dividido por el nmero de clases.

Paso 4 Construir los intervalos de clases: Los intervalos resultan de dividir el rango de los datos en relacin al resultado del PASO 2 en intervalos iguales.

Paso 5 Graficar el histograma: En caso de que las clases sean todas de la misma amplitud, se hace un grfico de barras, las bases de las barras son los intervalos de clases y altura son la frecuencia de las clases. Si se unen los puntos medios de la base superior de los rectngulos se obtiene el polgono de frecuencias. Un grfico que usa columnas verticales para mostrar frecuencias (cuntas veces ocurre cada puntaje). No debera haber espacios entre las barras.

DIAGARAMA DE FRECUENCIA:

Los diagramas de frecuencia se representan por medio de lneas verticales, cuya altura est dada por los valores de las frecuencias, ya sean absolutas o relativas. Si la representacin se refiere a las frecuencias acumuladas (absolutas o relativas), esta se har por medio de lneas horizontales, ubicando en el eje vertical los valores de la frecuencia acumulada. Este ltimo diagrama, denominado diagrama de frecuencias acumuladas, genera una serie de lneas horizontales que dan la sensacin de los peldaos de una escalera. Diagrama de frecuencias absolutas de visita al odontlogo de nios entre los 6 y 12 aos

Diagrama de frecuencias absolutas acumuladas de visita al odontlogo de nios entre los 6 y 12 aos

Se puede concluir que los nios de 7 aos de edad son los que ms han asistido al odontlogo en los ltimos seis meses de la muestra tomada.

DIAGRAMA DE BARRAS:

Es una de las grficas ms usadas para representar tanto caractersticas cuantitativas como cualitativas. Es muy semejante al histograma de frecuencias, pero el diagrama de barras no requiere que la informacin est agrupada en tablas de frecuencias. Las barras son rectngulos con alturas proporcionales a las frecuencias o magnitudes correspondientes, pueden construirse en forma vertical u horizontal, sin embargo son ms comunes las verticales; en este tipo de grficos se ubica la variable o atributo en el eje horizontal y la altura est dada por los valores o cantidades que toma dicha variable. El diagrama de barras se puede trabajar para describir una sola caracterstica de la variable, diagrama de barras simple, o bien describir y comparar dos o ms caractersticas de ella de forma segmentada o agrupada. Para diferenciar una caracterstica de otra en la misma barra se recurre a diferenciarlas usando colores, sombrndolas o rellenndolas con tramas. EJEMPLO La siguiente informacin corresponde a las ventas por departamento, al contado y a crdito, de un almacn de cadena en la ciudad de Bucaramanga en el mes de marzo de 2005. Los valores representan las ventas en millones de pesos. Ventas por departamento al contado y a crdito en marzo de 2005

POLIGONO DE FRECUENCIAS: Describe tambin la informacin de la distribucin de frecuencias absolutas o relativas. Pero se grafican las marcas de clase de cada intervalo, generando una secuencia de puntos que se unen en segmentos de recta para formar un polgono, de ah el nombre. El polgono puede dibujarse sobre el histograma de frecuencias o de manera independiente. En el primer caso, se unen los centros de las bases superiores de los rectngulos; en el segundo caso, se unen los puntos de interseccin de la abscisa, que corresponde a la marca de clase, con la ordenada correspondiente a la frecuencia relativa o absoluta.

Polgono de frecuencias absolutas de la velocidad de pulsaciones

2.1.3. MEDIDAS ALGEBRAICAS DE LAS DISTRIBUCIONES DE FRECUENCIA: MEDIDAS DE EXACTITUD Y PRECISION:

Desviacin tpica o estndar Esta medida se obtiene extrayendo la raz cuadrada de la varianza, tomando siempre el valor positivo. Se simboliza por s en la muestra y en la poblacin. Esta es la medida de dispersin ms conocida y ms utilizada en el anlisis de datos estadsticos. Desviacin media Se define como la media aritmtica de las desviaciones respecto a la media, tomadas en valor absoluto5. Es una de las medidas ms fciles de calcular y por ello, muy usada. Ella toma todos los valores de la variable y es menos afectada que la desviacin estndar por los valores extremos. Su valor siempre ser menor que la desviacin estndar. Coeficiente de variacin Las medidas de dispersin que se han estudiado son medidas absolutas y se expresan en las mismas unidades con las que se mide la variable. Cuando se comparan dos o ms conjuntos de datos con unidades de medida de observacin diferentes, no es posible compararlas con estas medidas absolutas. Si las unidades de observacin de los conjuntos de datos son iguales, estos pueden compararse usando cualquiera de estos estadsticos

(como en el ejemplo anterior) pero siempre y cuando la media aritmtica sea la misma, de lo contrario estas apreciaciones no aportarn una buena conclusin sobre las series que se comparan. Varianza Es una de las medidas ms usadas en estadstica, ella a su vez da origen a otra mucho ms significativa: la desviacin tpica o estndar. Se define como la media aritmtica de los cuadrados de las desviaciones respecto a la media aritmtica. Se simboliza s2 para la varianza muestral y 2 para la varianza poblacional. Rango o recorrido Sobre esta medida ya se haba trabajado en la construccin de las tablas de frecuencia agrupada. Se trata de la diferencia entre el lmite superior y el lmite inferior de un conjunto de datos. Es la medida de dispersin ms fcil de calcular, slo requiere que los datos estn ordenados. Pero es poco usada como medida de dispersin porque se deja afectar fcilmente de los valores extremos de poca frecuencia. 2.2. DISTRIBUCIONES MAS COMUNES: DISTRIBUCION NORMAL: En estadstica y probabilidad se llama distribucin normal, distribucin de Gauss o distribucin gaussiana, a una de las distribuciones de probabilidad de variable continua que con ms frecuencia aparece aproximada en fenmenos reales. La grfica de su funcin de densidad tiene una forma acampanada y es simtrica respecto de un determinado parmetro estadstico. Esta curva se conoce como campana de Gauss y es el grfico de una funcin gaussiana. La importancia de esta distribucin radica en que permite modelar numerosos fenmenos naturales, sociales y psicolgicos. Mientras que los mecanismos que subyacen a gran parte de este tipo de fenmenos son desconocidos, por la enorme cantidad de variables incontrolables que en ellos intervienen, el uso del modelo normal puede justificarse asumiendo que cada observacin se obtiene como la suma de unas pocas causas independientes. De hecho, la estadstica es un modelo matemtico que slo permite describir un fenmeno, sin explicacin alguna. Para la explicacin causal es preciso el diseo experimental, de ah que al uso de la estadstica en psicologa y sociologa sea conocido como mtodo correlacional. La distribucin normal tambin es importante por su relacin con la estimacin por mnimos cuadrados, uno de los mtodos de estimacin ms simples y antiguos. Algunos ejemplos de variables asociadas a fenmenos naturales que siguen el modelo de la normal son:

caracteres morfolgicos de individuos como la estatura; caracteres fisiolgicos como el efecto de un frmaco; caracteres sociolgicos como el consumo de cierto producto por un mismo grupo de individuos; caracteres psicolgicos como el cociente intelectual; nivel de ruido en telecomunicaciones; errores cometidos al medir ciertas magnitudes; etc.

La distribucin normal tambin aparece en muchas reas de la propia estadstica. Por ejemplo, la distribucin muestral de las medias muestrales es aproximadamente normal, cuando la distribucin de la poblacin de la cual se extrae la muestra no es normal.1 Adems, la distribucin normal maximiza la entropa entre todas las distribuciones con media y varianza conocidas, lo cual la convierte en la eleccin natural de la distribucin subyacente a una lista de datos resumidos en trminos de media muestral y varianza. La distribucin normal es la ms extendida en estadstica y muchos test estadsticos estn basados en una supuesta "normalidad". En probabilidad, la distribucin normal aparece como el lmite de varias distribuciones de probabilidad, continuas y discretas. Distribucin normal

La lnea verde corresponde a la distribucin normal estndar Funcin de densidad de probabilidad

Funcin de distribucin de probabilidad

Parmetros

Dominio

Funcin de densidad(pdf)

Funcin de distribucin(cdf)

Media

Mediana

Moda

Varianza

Coeficiente de simetra

Curtosis

Entropa

Funcin generadora de momentos (mgf)

Funcin caracterstica

DISTRIBUCION BINOMIAL: En estadstica, la distribucin binomial es una distribucin de probabilidad discreta que mide el nmero de xitos en una secuencia de n ensayos de Bernoulli independientes entre s, con una probabilidad fija p de ocurrencia del xito entre los ensayos. Un experimento de Bernoulli se caracteriza por ser dicotmico, esto es, slo son posibles dos resultados. A uno de estos se denomina xito y tiene una probabilidad de ocurrencia p y al otro, fracaso, con una probabilidad q = 1 - p. En la distribucin binomial el anterior experimento se repite n veces, de forma independiente, y se trata

de calcular la probabilidad de un determinado nmero de xitos. Para n = 1, la binomial se convierte, de hecho, en una distribucin de Bernoulli. Para representar que una variable aleatoria X sigue una distribucin binomial de parmetros n y p, se escribe:

La distribucin binomial es la base del test binomial de significacin estadstica. Las siguientes situaciones son ejemplos de experimentos que pueden modelizarse por esta distribucin:

Se lanza un dado diez veces y se cuenta el nmero X de tres obtenidos: entonces X ~ B(10, 1/6) Se lanza una moneda dos veces y se cuenta el nmero X de caras obtenidas: entonces X ~ B(2, 1/2) Una partcula se mueve unidimensionalmente con probabilidad p de moverse de aqu para all y 1-q de moverse de all para ac.

Distribucin binomial

Funcin de probabilidad

Funcin de distribucin de probabilidad

Parmetros

nmero de ensayos (entero) probabilidad de xito (real)

Dominio

Funcin de probabilidad(fp)

Funcin de distribucin(cdf)

Media

Mediana

Uno de

Moda

Varianza

Coeficiente de simetra

Curtosis

Entropa

Funcin generadora de momentos(mgf)

Funcin caracterstica

DISTRIBUCION POISSON: En teora de probabilidad y estadstica, la distribucin de Poisson es una distribucin de probabilidad discreta que expresa, a partir de una frecuencia de ocurrencia media, la probabilidad que ocurra un determinado nmero de eventos durante cierto periodo de tiempo. Fue descubierta por Simen-Denis Poisson, que la dio a conocer en 1838 en su trabajo Recherches sur la probabilit des jugements en matires criminelles et matire civile (Investigacin sobre la probabilidad de los juicios en materias criminales y civiles). La funcin de masa de la distribucin de Poisson es

Donde k es el nmero de ocurrencias del evento o fenmeno (la funcin nos da la probabilidad de que el evento suceda precisamente k veces). es un parmetro positivo que representa el nmero de veces que se espera que ocurra el fenmeno durante un intervalo dado. Por ejemplo, si el suceso estudiado tiene lugar en promedio 4 veces por minuto y estamos interesados en la probabilidad de que ocurra k veces dentro de un intervalo de 10 minutos, usaremos un modelo de distribucin de Poisson con = 104 = 40. e es la base de los logaritmos naturales (e = 2,71828...) Tanto el valor esperado como la varianza de una variable aleatoria con distribucin de Poisson son iguales a . Los momentos de orden superior son polinomios de Toucharden cuyos coeficientes tienen una interpretacin combinatoria. De hecho,

cuando el valor esperado de la distribucin de Poisson es 1, entonces segn la frmula de Dobinski, el n-simo momento iguala al nmero departiciones de tamao n. La moda de una variable aleatoria de distribucin de Poisson con un no entero es igual a , el mayor de los enteros menores que (los smbolos representan lafuncin parte entera). Cuando es un entero positivo, las modas son y 1. La funcin generadora de momentos de la distribucin de Poisson con valor esperado es

Las variables aleatorias de Poisson tienen la propiedad de ser infinitamente divisibles. La divergencia Kullback-Leibler desde una variable aleatoria de Poisson de parmetro 0 a otra de parmetro es

Distribucin de Poisson

El eje horizontal es el ndice k. La funcin solamente est definida en valores enteros de k. Las lneas que conectan los puntos son solo guas para el ojo y no indican continuidad.
Funcin de probabilidad

El eje horizontal es el ndice k. Funcin de distribucin de probabilidad

Parmetros

Dominio

Funcin de probabilidad(fp)

Funcin de distribucin(cdf) laFuncin gamma incompleta) (dnde es

Media

Mediana

Moda

Varianza

Coeficiente de simetra

Curtosis

Entropa

Funcin generadora de momentos(mgf)

Funcin caracterstica

DISTRIBUCION HIPERGEOMETRICA: En teora de la probabilidad la distribucin hipergeomtrica es una distribucin discreta relacionada con muestreos aleatorios y sin reemplazo. Supngase que se tiene una poblacin de N elementos de los cuales, d pertenecen a la categora A y N-d a la B. La distribucin hipergeomtrica mide la probabilidad de obtener x ( ) elementos de la categora A en una muestra sin reemplazo de n elementos de la poblacin original. La funcin de probabilidad de una variable aleatoria con distribucin hipergeomtrica puede deducirse a travs de razonamientos combinatorios y es igual a

Donde es el tamao de poblacin, es el tamao de la muestra extrada, es el nmero de elementos en la poblacin original que pertenecen a la categora deseada y es el nmero de elementos en la muestra que pertenecen a dicha categora. La

notacin hace referencia al coeficiente binomial, es decir, el nmero de combinaciones posibles al seleccionar elementos de un total . El valor esperado de una variable aleatoria X que sigue la distribucin hipergeomtrica es

y su varianza,

En la frmula anterior, definiendo

se obtiene

La distribucin hipergeomtrica es aplicable a muestreos sin reemplazo y la binomial a muestreos con reemplazo. En situaciones en las que el nmero esperado de repeticiones en el muestreo es presumiblemente bajo, puede aproximarse la primera por la segunda. Esto es as cuando N es grande y el tamao relativo de la muestra extrada, n/N, es pequeo. Distribucin hipergeomtrica

Parmetros

Dominio

Funcin de probabilidad(fp)

Media

Moda

Varianza

Coeficiente de simetra

Curtosis

Funcin generadora de momentos(mgf)

Funcin caracterstica

2.3. RELACION ENTRE DOS VARIABLES: CORRELACION: La correlacin indica la fuerza y la direccin de una relacin lineal y proporcionalidad entre dos variables estadsticas. Se considera que dos variables cuantitativas estn correlacionadas cuando los valores de una de ellas varan sistemticamente con respecto a los valores homnimos de la otra: si tenemos dos variables (A y B) existe correlacin si al aumentar los valores de A lo hacen tambin los de B y viceversa. La correlacin entre dos variables no implica, por s misma, ninguna relacin de causalidad. FUERZA, SENTIDO Y FORMA DE CORRELACION: La relacin entre dos variables cuantitativas queda representada mediante la lnea de mejor ajuste, trazada a partir de la nube de puntos. Los principales componentes elementales de una lnea de ajuste y, por lo tanto, de una correlacin, son la fuerza, el sentido y la forma:

La fuerza extrema segn el caso, mide el grado en que la lnea representa a la nube de puntos: si la nube es estrecha y alargada, se representa por una lnea recta, lo que indica que la relacin es fuerte; si la nube de puntos tiene una tendencia elptica o circular, la relacin es dbil. El sentido mide la variacin de los valores de B con respecto a A: si al crecer los valores de A lo hacen los de B, la relacin es positiva; si al crecer los valores de A disminuyen los de B, la relacin es negativa.

La forma establece el tipo de lnea que define el mejor ajuste: la lnea recta, la curva monotnica o la curva no monotnica.

COEFICIENTE DE CORRELACION: Existen diversos coeficientes que miden el grado de correlacin, adaptados a la naturaleza de los datos. El ms conocido es el coeficiente de correlacin de Pearson (introducido en realidad por Francis Galton), que se obtiene dividiendo la covarianza de dos variables entre el producto de sus desviaciones estndar. Otros coeficientes son:

Coeficiente de correlacin de Spearman Correlacin cannica Coeficiente de Correlacin Intraclase Interpretacin geomtrica

Dados los valores muestrales de dos variables aleatorias e , que pueden ser consideradas como vectores en un espacio a n dimensiones, pueden construirse los "vectores centrados" como: e .

El coseno del ngulo alfa entre estos vectores es dada por la frmula siguiente:

Pues es el coeficiente de correlacin muestral de Pearson. El coeficiente de correlacin es el coseno entre ambos vectores centrados:

Si r = 1, el ngulo Si r = 0, el ngulo Si r =-1, el ngulo Ms generalmente:

, ambos vectores son colineales (paralelos). , ambos vectores son ortogonales. , ambos vectores son colineales de direccin opuesto. .

Por supuesto, del punto vista geomtrica, no hablamos de correlacin lineal: el coeficiente de correlacin tiene siempre un sentido, cualquiera si que sea su valor entre -1 y 1. Nos informa de modo preciso, no tanto sobre el grado de dependencia entre las variables, que sobre su distancia angular en la hiperesfera a n dimensiones.

La Iconografa de las correlaciones es un mtodo de anlisis multidimensional que reposa en esta idea. La correlacin lineal se da cuando en una nube de puntos estos se encuentran o se distribuyen alrededor de una recta. La frmula de correlacin para dos series distintas con cierto desfase "k", esta dada por la frmula:

REGRESION: LINEAL Y CURVILNEA El trmino regresin fue introducido por Galton en su libro Natural inheritance (1889) rerindose a la ley de la regresin universal. Se supone que se tiene una muestra (x1; y1);(x2; y2); : : : ;(xn; yn) correspondiente a la observacin conjunta de las variables X e Y . El objetivo ser encontrar una relacin entre ambas variables, esta relacin podra estar dada por una recta (ecuacin de regresin: yb = b0 + b1 * x). Coeficiente de Regresin Indica el nmero de unidades en que se modifica la variable dependiente "Y" por efecto del cambio de la variable independiente "X" o viceversa en una unidad de medida. Clases de coeficiente de Regresin: El coeficiente de regresin puede ser: Positivo, Negativo y Nulo. Es positivo cuando las variaciones de la variable independiente X son directamente proporcionales a las variaciones de la variable dependiente "Y" Es negativo, cuando las variaciones de la variable independiente "X" son inversamente proporcionales a las variaciones de las variables dependientes "Y" Es nulo o cero, cuando entre las variables dependientes "Y" e independientes "X" no existen relacin alguna.

Procedimiento para hallar el Coeficiente de Regresin Para determinar el valor del coeficiente de regresin de una manera fcil y exacta es utilizando el mtodo de los Mnimos Cuadrados de dos maneras: 1.- Forma Directa De la ecuacin de la recta:

Si

, se obtienen a partir de las ecuaciones normales:

Aplicando normales Y sobre X tenemos:

El Coeficiente de Regresin es

De la misma manera la recta de regresin de "X" sobre "Y" ser dada de la siguiente manera:

Donde:

se obtienen a partir de las ecuaciones normales:

Aplicando normales X sobre Y tenemos:

2.- Forma Indirecta del Mtodo de los Mnimos Cuadrados. El fundamento de este mtodo es de las desviaciones de X respecto a su media aritmtica. X

Ecuacin de y sobre x Ecuacin de y sobre x Donde:

x, y = desviaciones X = media aritmtica Y = media aritmtica Regresin Simple: Este tipo se presenta cuando una variable independiente ejerce influencia sobre otra variable dependiente. Ejemplo: Y = f(x) Regresin Mltiple: Este tipo se presenta cuando dos o ms variables independientes influyen sobre una variable dependiente. Ejemplo: Y = f(x, w, z). 2.4. PRUEBAS ESTADISTICAS: 2.4.1. PARAMETRICAS: A. DISEOS EXPERIMENTALES: DISEO COMPLETAMENTE AL AZAR: Este diseo consiste en la asignacin de los tratamientos en forma completamente aleatoria a las unidades experimentales (individuos, grupos, parcelas, jaulas, animales, insectos, etc.). Debido a su aleatorizacin irrestricta, es conveniente que se utilicen unidades experimentales de lo ms homogneas posibles: animales de la misma edad, del mismo peso, similar estado fisiolgico; parcelas de igual tamao, etc., de manera de disminuir la magnitud del error experimental, ocasionado por la variacin intrnseca de las unidades experimentales. Este diseo es apropiado para experimentos de laboratorio, invernadero, animales de bioterio, aves, conejos, cerdos, etc., es decir, situaciones experimentales como de las condiciones ambientales que rodean el experimento. Este diseo es el ms utilizado en la experimentacin con animales, asocindole la tcnica del anlisis de covarianza y arreglos de tratamiento de tipo factorial.

Aleatorizacin Para ejemplificar el proceso de aleatorizacin irrestricta de los tratamientos a las unidades experimentales, considrese la prueba de cuatro tratamientos, cada uno de ellos con cinco repeticiones. El proceso mencionado podra realizarse formando cuatro

grupos de tarjetas, representando cada uno de ellos a un tratamiento en particular, digamos T1, repetido cinco veces, y as T2, T3 y T4. Posteriormente mzclense las tarjetas en una urna y extraiga una tarjeta al azar, asignando el tratamiento correspondiente a un animal, terreno, maceta, jaula o grupo de animales en que consista cada unidad experimental. Reptase el procedimiento sin reemplazo hasta terminar su asignacin. Modelo estadstico asociado al diseo: i = 1,2,3,..., t j = 1,2,3,..., n donde: = Variable respuesta en la j-sima repeticin del i-simo tratamiento = Media general = Efecto del tratamiento i. = Error aleatorio, donde ~

Anlisis de la Varianza para el modelo Ho: Ha: al menos un efecto de un tratamiento es diferente de los dems.

Fuentes de Variacin (F.V.) Tratamient os Error

Grados de Libertad (G.L.) t-1

Suma de Cuadrados (S.C.)

Cuadrados Medios (C.M.)

F0

Total

Ejemplo: Se realiz un experimento para probar el efecto de cinco fuentes de energa utilizadas en dietas para engorda de toretes (T1. Testigo, T2. Melaza, T3. Cebo, T4.Maz, T5. Sorgo) en las cuales se midi la ganancia de peso (GP) durante el perodo de engorda. Se consideraron 5 repeticiones por tratamientos (25 animales) y se plante la hiptesis de igualdad de medias de tratamientos.

Repeticin 1 Repeticin 2 Repeticin 3 Repeticin 4 Repeticin 5

Trat 1 980 1050 1100 1000 1120

Trat 2 1200 1230 1150 1390 1250

Trat 3 1300 1180 1200 1170 1050

Trat 4 1400 1350 1380 1420 1500

Trat 5 1350 1420 1550 1600 1490

Rep etici n 1 Rep etici n 2 Rep etici n 3 Rep etici n 4 Rep etici n 5

Tr at 1 98 0

Tr at 2 12 00

Tr at 3 13 00

Tr at 4 14 00

Tra t5 135 0

10 50

12 30

11 80

13 50

142 0

11 00

11 50

12 00

13 80

155 0

10 00

13 90

11 70

14 20

160 0

11 20

12 50

10 50

15 00

149 0

5 52 50 10 50 55 12 50 0

5 62 20 12 44 77 37 68 0

5 59 00 11 80 69 62 00 0

5 70 50 14 10 99 40 50 0

5 741 0 148 2 109 816 20

=25 31830

=4113430 0

55 27 30 0 14 80 0 -

77 70 00 0 32 32 0

69 93 80 0 31 80 0

99 53 30 0 12 80 0

110 215 00 =4126590 0 398 80 =131600

37 00

80 80

79 50

32 00

997 0

En primer lugar se calcular el factor de correccin:

= 40525956

S.C. TRAT =

- F.C. = 41134300 40525956 = 608344

S.C. TOTAL =

- F.C. = 41265900 40525956 = 739944

S.C.TOTAL = S.C. TRAT + S.C. ERROR Al despejar de la ecuacin anterior S.C. ERROR queda como: S.C. ERROR = S.C.TOTAL S.C. TRAT = 739944 608344 = 131600

C.M TRAT =

= (608344 / 4) = 152086

C.M. ERROR =

= ( 131600 / 20) = 6580

Fo=

= (152086 / 6580) = 23.11

Fuentes de Variacin (F.V.) Tratamientos Error Total

Grados de Libertad (G.L.) 4 20 24

Suma de Cuadrados (S.C.) 608344 131600 739944

Cuadrados Medios (C.M.) 152086 6580

F0

23.11

Para probar que Ho:

en oposicin a Ha: al menos un tratamiento

diferente de los demas con un a=0.05 , obtenemos = 2.866 de la tabla correspondiente y puesto que Fo>2.866 se rechaza Ho con un a=0.05 y se concluye que al menos un tratamiento es diferente.

DISEO DE BLOQUES COMPLETAMENTE AL AZR: Conocido como diseo de doble va, se aplica cuando el material es heterogneo. Las unidades experimentales homogneas se agrupan formando grupos homogneos llamados bloques. Tratamientos A, B, C, D, E Bloque I: B A E C D Bloque II: C B D E A Bloque III: B E A D C Bloque IV: D C A E B Las fuentes de variacin para el anlisis estadstico son: Fuentes Grados de libertad Tratamiento (t-1) = 4 Bloques (r-1) = 3 Error (t-1) (r-1)=12 Caractersticas: 1. Las unidades experimentales son heterogneas. 2. Las unidades homogneas estn agrupadas formando los bloques. 3. En cada bloque se tiene un nmero de unidades igual al nmero de tratamientos (bloques completos) 4. Los tratamientos estn distribuidos al azar en cada bloque. 5. El nmero de repeticiones es igual al nmero de bloques. DISEOS CUADRADO LATINO: Un cuadrado latino es una matriz de nn elementos en la que cada casilla est ocupada por uno de los n smbolos de tal modo que cada uno de ellos aparece exactamente una vez en cada columna y en cada fila. Las siguientes matrices son cuadrados latinos:

Los cuadrados latinos se dan como una tabla de multiplicar (tabla Cayley) de quasigrupos, los cuales se aplican en el diseo de experimentos. El popular rompecabezas Sudoku es un caso especial de cuadrado latinos; toda solucin de un Sudoku es un cuadrado latino. UnSudoku impone una restriccin adicional a los subgrupos de 33, estos slo deben contener los dgitos del 1 al 9 (en la versin estndar). El rompecabezas conocido como Diamante 16 (Diamond 16 Puzzle) ilustra un concepto generalizado de la ortogonalidad de los cuadrados latinos: el cuadrado ortogonal ([1], 1976) o "Matrices ortogonales"-- ortogonal en el sentido combinatorio y no en un sentido algebraico-lineal (A. E. Brouwer, 1991). EXPERIMENTOS FACTORIALES:

Un experimento factorial completo es un experimento cuyo diseo consta de dos o ms factores, cada uno de los cuales con distintos valores o niveles, cuyas unidades experimentales cubren todas las posibles combinaciones de esos niveles en todo los factores. Este tipo de experimentos permiten el estudio del efecto de cada factor sobre la varible respuesta, as como el efecto de las interacciones entre factores sobre dicha variable. Por ejemplo, con dos factores y dos niveles en cada factor, un experimento factorial tendra en total cuatro combinaciones de tratamiento, y se le denominara diseo factorial de 22. Si el nmero de combinaciones en un diseo factorial completo es demasiado alto para su procesamiento, puede optarse por un diseo factorial fraccional, en el que se omitan algunas de las combinaciones posibles. EJEMPLO: El experimento factorial ms simple contiene dos niveles para cada uno de dos factores. Suponga los deseos de un ingeniero para estudiar la energa total usada por cada uno de dos diversos motores, A y B, funcionando en cada uno de dos diversas 2000 o 3000 RPM de las velocidades. El experimento factorial consistira en cuatro elementos experimentales: viaje en automvil A en 2000 RPM, viaje en automvil B en 2000 RPM, viaje en automvil A en 3000 RPM, y viaje en automvil B en 3000 RPM. Cada combinacin de un solo nivel seleccionado de cada factor est presente una vez. Este experimento es un ejemplo de 22 (o 2x2) experimento factorial, nombrado as porque considera dos niveles (la base) para cada uno de dos factores (la energa o el exponente), o #lniveles#factores, produciendo 22puntos factoriales =4. Los diseos pueden implicar muchas variables independientes. Como otro ejemplo, los efectos de tres variables entradas se pueden evaluar en ocho condiciones

experimentales demostradas como las esquinas de un cubo. Esto se puede conducir con o sin la rplica, dependiendo de su propsito previsto y recursos disponibles. Proporcionar los efectos de las tres variables independientes en la variable dependiente y las interacciones posibles (en caso de haber ms de 3 se habla de un hiperespacio). B. PRUEBAS DE COMPARACION DE PROMEDIOS: PRUEBA DE T DE STUDENT: En estadstica, una prueba t de Student, prueba t-Student, o Test-T es cualquier prueba en la que el estadstico utilizado tiene una distribucin t de Student si la hiptesis nula es cierta. Se aplica cuando la poblacin estudiada sigue una distribucin normal pero el tamao muestral es demasiado pequeo como para que el estadstico en el que est basada la inferencia est normalmente distribuido, utilizndose una estimacin de la desviacin tpica en lugar del valor real. Es utilizado en anlisis discriminante. Entre los usos mas frecuentes de las pruebas t se encuentran:

El test de locacin de muestra nica por el cual se comprueba si la media de una poblacin distribuida normalmente tiene un valor especificado en una hiptesis nula. El test de locacin para dos muestras, por el cual se comprueba si las medias de dos poblaciones distribuidas en forma normal son iguales. Todos estos test son usualmente llamados test t de Student, a pesar de que estrictamente hablando, tal nombre slo debera ser utilizado si las varianzas de las dos poblaciones estudiadas pueden ser asumidas como iguales; la forma de los ensayos que se utilizan cuando esta asuncin se deja de lado suelen ser llamados a veces como Prueba t de Welch. Estas pruebas suelen ser comnmente nombradas como pruebas t desapareadas o de muestras independientes, debido a que tienen su aplicacin ms tpica cuando las unidades estadsticas que definen a ambas muestras que estn siendo comparadas no se superponen.5 El test de hiptesis nula por el cual se demuestra que la diferencia entre dos respuestas medidas en las mismas unidades estadsticas es cero. Por ejemplo, supngase que se mide el tamao del tumor de un paciente con cncer. Si el tratamiento resulta efectivo, lo esperable seria que el tumor de muchos pacientes disminuyera de tamao luego de seguir el tratamiento. Esto con frecuencia es referido como prueba t de mediciones apareadas o repetidas. El test para comprobar si la pendiente de una regresin lineal difiere estadsticamente de cero.

La mayor parte de las pruebas estadsticas t tienen la forma , donde Z y s son funciones de los datos estudiados. Tpicamente, Z se disea

de forma tal que resulte sensible a la hiptesis alternativa (p.ej. que su magnitud tienda a ser mayor cuando la hiptesis alternativa es verdadera), mientras que s es un parmetro de escala que permite que la distribucin de T pueda ser determinada.

Por ejemplo, en una prueba t de muestra nica, , donde es la media muestral de los datos, n es el tamao muestral, y es la desviacin estndar de la poblacin de datos; s en una prueba de muestra nica es , donde es la desviacin estndar muestral.

Las asunciones subyacentes en una prueba t son:


Que Z sigue una distribucin normal bajo la hiptesis nula. ps2 sigue una distribucin 2 con p grados de libertad bajo la hiptesis nula, y donde p es una constante positiva. Z y s son estadsticamente independientes. En una prueba t especfica, estas condiciones son consecuencias de la poblacin que est siendo estudiada, y de la forma en que los datos han sido muestreados. Por ejemplo, en la prueba t de comparacin de medias de dos muestras independientes, deberamos realizar las siguientes asunciones:

Cada una de las dos poblaciones que estn siendo comparadas sigue una distribucin normal. Esto puede ser demostrado utilizando una prueba de normalidad, tales como una prueba Shapiro-Wilk o Kolmogrov-Smirnov, o puede ser determinado grficamente por medio de un grfico de cuantiles normales Q-Q plot. Si se est utilizando la definicin original de Student sobre su prueba t, las dos poblaciones a ser comparadas deben poseer las mismas varianzas, (esto se puede comprobar utilizando una prueba F de igualdad de varianzas, una prueba de Levene, una prueba de Bartlett, o una prueba de Brown-Forsythe, o estimarla grficamente por medio de un grfico Q-Q plot). Si los tamaos muestrales de los dos grupos comparados son iguales, la prueba original de Student es altamente resistente a la presencia de varianzas desiguales.7 la Prueba de Welch es insensible a la igualdad de las varianzas, independientemente de si los tamaos de muestra son similares. Los datos usados para llevar a cabo la prueba deben ser muestreados independientemente para cada una de las dos poblaciones que se comparan. Esto en general no es posible determinarlo a partir de los datos, pero si se conoce que los datos han sido muestreados de manera dependiente (por ejemplo si fueron muestreados por grupos), entonces la prueba t clsica que aqu se analiza, puede conducir a resultados errneos.

PRUEBA DE DUNCAN: Se utiliza para comparar todos los pares de medias. Fue desarrollado por primera vez por Duncan en 1951 pero posteriormente l mismo modific su primer mtodo generando el que ahora se denomina Nuevo mtodo de Rango Mltiple de Duncan. Esta prueba no requiere de una prueba previa de F, como sucede con la DMS o sea que an sin ser significativa la prueba F puede llevarse a cabo. La estadstica de Prueba es denotado, por

Donde es el nmero de medias inclusives entre las dos medias a comparar para diseos balanceados. Para aplicar esta prueba al nivel se debe pasar por las siguientes etapas: 1. Determine el error estndar (desviacin estandar) de cada promedio, , el cual es dado por la expresin:

Donde el CM

es obtenido de la tabla Anova

2. Con los grados de libertad del error y el nivel de significancia determinar los valores de (intervalos o amplitudes estandarizadas significativos) utilizando las tablas de amplitudes estandarizadas de Duncan dadas por Harter (1960) y que se encuentran en el libro de Miller (1992). Para encontrar estos valores, se requieren los grados de libertad del error y el valor de .

3. Determinar las amplitudes minimas significativas denotadas por calculados por la expresin:

4. Se ordenan de manera creciente los resultados promedios del experimento

5. Se comparan las medias ordenadas as:comienza a comparar en el siguiente orden: a) El promedio ms alto, con el ms bajo, comparando esta

diferencia con el intervalo mnimo significativo . Si esta diferencia es no significativa entonces todas las otras diferencias son no significantes. Si la diferencia es significativa se continua con b) b) Posteriormente se calcula la diferencia entre el valor ms alto el penltimo significativo y se compara con el intervalo y

mnimo

c) Este procedimiento se contina hasta que todas las medias se han comparado con la media ms grande .

d) A continuacin se compara la segunda media ms grande la ms pequea significativo .

con

y se compara con el intervalo mnimo

Este proceso contina hasta que han sido comparadas las diferencias entre todos los posibles pares.

Si una diferencia observada es mayor que el intervalo mnimo significativo, se concluye que la pareja de medias comparadas son significativamente diferentes. Para evitar contradicciones, ninguna diferencia entre una pareja de medias se considera significativamente diferentes si stas se encuentran

entre otras dos que no difieren significativamente. A manera de ilustracin se tiene: Cuando el diseo es desbalanceado pero los tamaos de rplicas difieren marcadamente este mtodo puede adaptarse utilizando en vez de en la estadstica, el valor de la media armnica de los tamaos de muestras

o alternativamente se puede reemplazar a de las medias extremas, donde

por

la media armnica

y y son los tamaos de muestra correspondientes a las medias de tratamientos menos pequeo y ms grande respectivamente. Ejemplo Al aplicar el mtodo de Duncan a los datos del ejemplo del algodn se tiene: 1. El error estndar de la media es

2. Determinacin de los intervalos significativos como y Montgomery se tiene: Utilizacin la tabla VII del Apndice de

3. Los rangos mnimos significativos son:

4. Las medias ordenadas ascendentemente son:

5. Comparacin de las medias

Se compara con medias.

porque entre

hay inclusive

PRUEBA DE TUKEY: Tukey (1953) propuso un procedimiento para testar la hiptesis nula, con siendo exactamente el nivel global de significancia, cuando las muestras tienen tamaos iguales, y en el mximo , cuando las muestras tienen tamaos diferentes. El test de Tukey utiliza la distribucin de la estadstica de amplitud en la forma de Student. El Test HSD (Honestly-significant-difference) de Tukey es un test de comparaciones mltiples. Permite comparar las medias de los t niveles de un factor despus de haber rechazado la Hiptesis nula de igualdad de medias mediante la tcnica ANOVA. Es, por lo tanto, un test que trata de perfilar, trata de especificar, una Hiptesis alternativa genrica como la de cualquiera de los Test ANOVA. Se basa en la distribucin del rango estudentizado que es la distribucin que sigue la diferencia del mximo y del mnimo de las diferencias entre la media muestral y la media poblacional de t variables normales N(0, 1) independientes e idnticamente distribuidas. Se establece as un umbral, como en otros mtodos, como el Test LSD (Ver Herbario de tcnicas). Se calculan todas las diferencias de medias muestrales entre los t niveles del factor estudiado. Las diferencias que estn por encima de ese umbral se considerarn diferencias significativas, las que no lo estn se considerarn diferencias no significativas.

Observemos que el test est diseado para el mismo tamao muestral por nivel, por esto aparece esta n comn. Si tenemos tamaos muestrales distintos se toma entonces como n la media armnica de esas medias. La media armnica de dos medias es la siguiente:

Para nuestro caso debera generalizarse a t medias simplemente sustituyendo el 2 por el nmero t. Para ver cmo funciona la distribucin del rango estudentizado veamos una tabla donde se buscaran estos valores:

Observemos que en la tabla hay un valor de el nmero de medias, en la nomenclatura seguida por nosotros sera la t, los t niveles del factor. En la tabla le llama k. Los grados de libertad son el N-t nuestro. La tabla da umbrales para dos niveles de significacin alfa: 0.05 y 0.01.

Вам также может понравиться