Академический Документы
Профессиональный Документы
Культура Документы
investigación y capacitación de
la caña de azúcar.
-CENGICAÑA-
Primera Edición
Santa Lucia Cotz. Agosto 2009.
InfoStat
Contenido
Manual de uso
Métodos estadísticos utilizados en la industria cañera. CENGICAÑA
Es posible importar directamente una base de datos desde Excel y otros formatos. Esto
facilita el manejo y presentación de los mismos.
Muchas veces poseemos la base de datos de tal forma, que no coincide la primera fila y la
primera columna con información propia de la base , o se poseen objetos distintos como
gráficas o logotipos. Considerando esto, es relativamente fácil, el copiar la base de datos
que se desea analizar de forma directa a la tabla de InfoStat. Para esto se puede incluir la
primera fila como el nombre de las columnas o no. Se debe de presionar el botón derecho
del ratón y seleccionar la opción “pegar” o “pegar incluyendo nombre de columnas”.
Transformación de datos
Muchas veces se trabaja con variables cualitativas o datos no paramétricos, los cuales no
cumplen con el supuesto de normalidad. Por lo anterior es necesario realizar
transformación de estos datos.
InfoStat ofrece una gran cantidad de transformaciones para una variable, y a la vez permite
la operación entre variables.
Prueba de hipótesis
Hipótesis Nula (Ho)
Esta es la que el investigador evalúa y está dispuesto a sostener como probable, a menos
que la evidencia experimental en su contra sea sustancial.
Nivel de significancia
5
2. Seleccionar el estadístico de prueba, necesario para evaluar la hipótesis.
Ejemplo:
En una región cañera se siembra predominantemente una variedad de caña de azúcar que
tiene un TCH promedio de 103.5 toneladas ha -1 . Un programa de mejoramiento ha
desarrollado una nueva variedad, comúnmente usada, con rendimientos mayores a la
variedad predominante. Para probar esta aseveración se siembran nueve lotes
experimentales con la nueva variedad y se obtienen los siguientes rendimientos:
Lote TCH
1 103.15
2 103.92
3 104.26
4 103.36
5 103.72
6 104.19
7 103.42 6
8 104.38
9 104.5
Prom. 103.88
Media (µ)
Hipótesis a probar:
La t de Student
α = 5% o 0.05
Se Rechaza la Ho si p ≤ α
La regla de desición:
Conclusión:
La muestra apoya la aseveraión del programa de mejoramiento.
Cuadro 5: Rendimientos en toneladas de caña por hectarea, de dos variedades tamados de 6 lotes.
NF CP72-2086 CG97-77
1 160 130
2 112 118
3 184 225
4 186 149
5 104 168
8
6 152 139
Prom. 150 155
Es importante que se ingresen los datos en dos columnas, una para cada población o
conjunto de datos.
Ho: la diferencia entre las medias es igual a cero, que es igual a decir que ambas medias
son iguales µ1 = µ2.
Ha: µ1 ≠ µ2.
Conclusión:
En base a las evidencias se puede aseverar que los tonelajes de ambas variedades son
semejantes.
Conclusión:
Al observar la salida del análisis, se puede decir que el rendimiento del tratamiento P240 es
mayor que el rendimiento del tratamiento P0.
Es importante que al momento de realizar un análisis de varianza, se tenga bien claro las
fuentes de variación consideradas por dicho modelo.
10
Como la media general y el error experimental son términos que poseen en común todos los
modelos, no es necesario el indicarlos entre las fuentes de variación.
Características generales
Ejemplo: Video.
En este caso los datos se deben de ingresar en la Tabla de InfoStat, indicando en una
columna el tratamiento evaluado y en la columna de la par la variable de respuesta
correspondiente a cada tratamiento.
Tratamientos TCH
Testigo (práctica regional) 123
Riego cada 21 días 175
Riego cada 28 días 199
Riego cada 35 días 179
Testigo (práctica regional) 133
Riego cada 21 días 167
Riego cada 28 días 203
Riego cada 35 días 188
Testigo (práctica regional) 131
Riego cada 21 días 192
Riego cada 28 días 166
Riego cada 35 días 203
12
Al aceptar aparecerá otro recuadro, donde se debe indicar las fuentes de variación del
modelo, como ya se mencionó la media general y el error no se indican. Esto se realiza en
la pestaña . A un lado se encuentra la pestaña donde se puede indicar
la prueba de media que se desea realizar, donde se encuentran varias opciones.
Análisis de la varianza
Variable N R² R² Aj CV
TCH 12 0.83 0.77 7.98
201.35
A A
182.40 A
TCH
163.45
144.50
B
125.56
Riego cada 28 días Testigo (práctica regional)
Riego cada 35 dias Riego cada 21 dias
Tratamientos
14
(*) Significa que un tratamiento no debe modificar su acción (o efecto) por estar en uno u
otro bloque.
Ejemplo: Video
Cuadro 9: Rendimiento en Toneladas de caña por hectárea, caña plantilla, finca Margaritas.
Bloques
Variedad I II III IV
CGSP98-08 177 182 182 166
CG00-032 136 158 141 156
CGSP-98-05 166 193 158 186
CGSP-98-16 195 213 176 185
CG00-120 231 213 216 188 15
CG00-129 175 172 168 155
CG00-001 170 171 179 185
CG00-092 190 206 208 196
CG99-045 164 163 179 175
CG00-028 199 189 226 208
CG00-044 188 181 208 192
CG-99-014 210 203 191 210
PR75-2002 249 217 227 231
CP72-2086 161 165 194 179
Para este análisis la base de datos se debe de ordenar de tal forma que se tenga una columna
donde se indique el tratamiento aplicado y a la par en otra columna a que bloque pertenece
y en una tercera el valor de la variable medida.
16
Para indicar el modelo de bloques completos al azar, se observan las fuentes de variación
en el recuadro “términos del modelo”, y debajo de este se observa un botón de acción
llamado “agregar interacción” en este caso no se debe de agregar, de esta forma se cumple
con uno de los supuestos del modelo.
No activar
17
Figura 12: Agrupamiento de las medias para su comparación.
Análisis de la varianza
Variable N R² R² Aj CV
TCH 56 0.79 0.71 6.80
241.86
A
217.21 B
BC BC
BC
TCH
CD CD
192.56
DE DE
18
DE DE
E
E
167.92
F
143.27
PR75-2002
CG00-120
CG00-028
CG-99-014
CG00-092
CG00-044
CGSP-98-16
CGSP98-08
CG00-001
CGSP-98-05
CP72-2086
CG99-045
CG00-129
CG00-032
Variedad
Serie de Experimentos
Para esto es necesario el analizar por separado las localidades y luego realizar un análisis
que integre todas las localidades. Estos ensayos se pueden realizar no solo para localidades
distribuidas en el espacio, si no también ensayos distribuidos en el tiempo, por ejemplo el
realizar un ensayo de herbicidas para verano y otro en invierno con la misma estructura, y 19
concluir para todo el año.
Siendo:
Ejemplo: Video.
Cuadro 11: Toneladas de caña por hectárea, plantilla, en tres localidades.
En este caso, como se puede observar, en el modelo el efecto del bloque se encuentra
anidado en la localidad, por lo que se debe de indicar en las fuentes de variación, para esto
se utiliza el símbolo “>” para indicar que el efecto del bloque se encuentra dentro de la
localidad (Localidad>Bloque) y teniendo en cuenta que el error de la localidad es
Localidad>Repetición, como se ha mencionado en ejemplos anteriores.
Análisis de la varianza
Variable N R² R² Aj CV
TCH 168 0.88 0.83 11.08
193.79
A
171.33
TCH
148.86
B
22
126.40
103.93
San Bonifacio Las Margaritas Tululá
Localidad
183.67
A
167.28
B
BC
TCH
BCD BCD
150.89 BCD CD
CD D D
D D D
134.49
E
118.10
PR75-2002
CG00-120
CG-99-014
CG00-028
CGSP98-08
CG00-092
CGSP-98-16
CGSP-98-05
CG00-001
CG00-044
CP72-2086
CG00-129
CG99-045
CG00-032
Variedad
Ventajas
a. Se logra una gran eficiencia en el uso de los recursos experimentales disponibles. 23
d. Los experimentos factoriales son más eficientes que los experimentos simples.
Inconvenientes
a. El resultado del experimento y el análisis estadístico resultante son más
complejos.
Arreglos combinatorios
24
Siendo que:
Ejemplo: Video
Cuadro 12: Rendimiento en toneladas de caña por hectárea, evaluando distintas concentraciones de tres elementos.
Tratamientos Bloque
N (Kg/ha) P (Kg/ha) K (Kg/ha) I II III IV
50 0 0 147.88 160.41 129.54 105.21
150 0 0 129.79 136.2 124.1 111.44
50 100 0 148.61 160.53 135.84 130.03
150 100 0 148.12 163.32 161.08 151.28
50 0 100 126.82 141.77 124.09 127.18
150 0 100 135.96 142.43 135.96 129.6
50 100 100 160.48 160.53 136.02 141.89
150 100 100 178.69 159.99 163.81 148.13
Es importante que se cree una columna para indicar los distintos niveles de cada factor y
otra columna para indicar la repetición o el bloque como también la variable de respuesta.
Cuadro 13: Ejemplo de cómo se debe de ingresar datos en la tabla de InfoS tat.
Se debe de agregar la interacción de todos los elementos por medio del botón de acción
, se agregará todas las combinaciones posibles, y se debe de eliminar
las interacciones donde se relacione con el bloque.
También existe la opción de agregar contrastes en el análisis, para esto se debe de indicar el
contraste deseado en la pestaña contrastes. Se debe de seleccionar entre que agrupaciones
se desean los contrastes y que tratamientos se desean realizar. Para esto se encuentran dos
botones, el botón , sirve para indicar que tratamiento se desea contrastar al seleccionar
el tratamiento y luego presionar el botón de acción. Y el botón indica contra que
tratamientos se realiza el contraste, es importante activar la casilla
cuando se realizan más de un contraste. Por último con el botón se ingresa el
contraste deseado.
26
Análisis de la varianza
Variable N R² R² Aj CV
TCH 32 0.81 0.71 6.31
Contrastes
Nivel N*Nivel P*Nivel K SC gl CM F p-valor
Contraste1 215.64 1 215.64 2.67 0.1171
Contraste2 3611.86 1 3611.86 44.73 <0.0001
Contraste3 152.99 1 152.99 1.89 0.1832
Contraste4 434.46 1 434.46 5.38 0.0305
Contraste5 146.68 1 146.68 1.82 0.1921
Contraste6 30.99 1 30.99 0.38 0.5423
Contraste7 122.81 1 122.81 1.52 0.2311
Total 4715.44 7 673.63 8.34 0.0001
Conclusión:
El nivel 150 Kg de N/ha difieren estadísticamente del nivel 0 Kg de N/ha, con aplicaciones
iguales de PK.
Parcelas divididas
En este diseño se trabajan con todas las posibles combinaciones de los factores, lo que lo
diferencia del anterior es el arreglo, por lo que se puede adecuar de mejor forma a
condiciones reales de campo.
28
Siendo:
Ejemplo: Video.
Cuadro 14: Efecto de dos distintas mezclas de herbicidas, en 13 variedades, evaluando altura .
Bloque
Mezcla de herbicida Variedad I II III
CP72-2086 16.2 13.8 19
CP73-1312 21.8 22 23
CP88-1165 23.2 31 29.6
29
RB73-2577 17.8 17 15.6
SP79-1287 31.6 28.2 27
CG98-10 26.2 30.8 26.6
M1 CG96-78 15.6 16.4 20
CG98-78 20.4 17.2 14.8
CG99-048 33.8 30 30
MEX82-114 23 13.8 18.2
RB84-5210 21.2 29.2 28
RB87-2015 23.4 21.6 25
CG96-135 17 18.6 18.6
CP72-2086 24.8 22.4 30.6
CP73-1312 38.8 20 18.8
CP88-1165 21.4 40.8 31.2
RB73-2577 17.8 38.6 19.2
SP79-1287 25.8 20 30.4
CG98-10 19.8 21.8 26
M2 CG96-78 21.8 20.4 34
CG98-78 26.4 24.6 18
CG99-048 17.6 26.4 21.2
MEX82-114 36.6 25.2 15.4
RB84-5210 20.6 20.6 32.4
RB87-2015 21.2 32.4 36.8
CG96-135 20 19.4 21.2
Datos tomados de Ing. Gerardo Espinoza, Fisiólogo. CENGICAÑA.
Para este caso es importante el considerar las fuentes de variación del modelo y el error del
efecto A o parcela grande. Para este caso se debe de indicar el error apropiado de dicho
efecto (Factor A*Bloque), por medio de el carácter \ (diagonal invertida), para lo cual se
utiliza el comando Alt + 93, esto es importante pues en el momento de realizar la
comparación de medias se utiliza el error adecuado.
30
Análisis de la varianza
Variable N R² R² Aj CV
Altura 78 0.49 0.18 24.51
Franjas divididas
Cuando las condiciones del campo o la naturaleza de los tratamientos no permiten una
completa aleatorización de todas las combinaciones de los factores, este diseño es
recomendable.
31
Siendo:
Ejemplo: Video.
Cuadro 16: Evaluación de cuatro tipos de surco y tres densidades de siembra, midiendo % Pol.
Bloque
Densidad de
Tipo de surco I II III IV
siembra
4 TSH 17.67 17.23 17.43 17.61
Surco Simple 6 TSH 17.31 17.6 17.05 16.91
8 TSH 17.49 17.3 17.68 18.27
4 TSH 17.19 17.85 17.44 17.56 32
Surco doble 6 TSH 17.21 17.26 16.71 17.52
8 TSH 18.04 16.38 17.23 17.14
4 TSH 17.39 17.54 16.61 17.51
surco base
6 TSH 17.39 17.67 16.77 17.61
larga
8 TSH 17.69 17.02 17.34 18.02
4 TSH 17.19 17.57 17.72 17.73
surco base
6 TSH 16.78 17.57 17.79 18.27
corta
8 TSH 17.86 16.85 18.12 17.94
Datos tomados de López, E. 2008.
Para este caso se debe de considerar los errores de cada factor e indicarlos, pues es
necesario para que al realizar la comparación de medias se utilice el error adecuado.
Análisis de la varianza
Variable N R² R² Aj CV
% Pol 48 0.77 0.39 1.89
17.89
17.70 A AB
ABC
ABC
% Pol
ABC ABC
17.52 ABC
ABC
17.33
ABC
ABC
BC
C
17.14
Surco Simple:8 TSH
Ejemplo: Video.
Cuadro 17: Peso de tallos y rendimiento de caña en Kg.
1.12 7.74
1.21 8.02
0.99 8.16
1.02 8.46
0.93 6.3
1.14 10.01
0.86 4.79
1.03 7.04
1.22 7.62
1.17 7.54
35
Coeficientes de correlación
En la matriz podemos observar en la parte inferior de la diagonal conformada por unos, los
coeficientes de correlación que nos indica el grado de asociación, donde un número
negativo indica una asociación negativa, este valor se encuentra entre -1 y 1 y 0 indica que
no existe una correlación lineal entre variab les. En la parte superior de la diagonal se
muestra el valor de la probabilidad (p) de la prueba de hipótesis realizada, al evaluar que el
coeficiente de Pearson es igual a cero, se debe de tener en cuenta el valor de significancia
con el que se desea trabajar, pues al trabajar con un nivel de significancia del 5%, se acepta
la hipótesis alternativa (existe correlación entre ambas variables) si el valor de p≤ 0.05.
Regresión Lineal
Existen casos cuando se desea conocer la relación funcional que puede existir entre dos o
más variables cuantitativas, en estos casos la regresión es muy útil. También un análisis de
regresión nos puede servir para predecir o describir el comportamiento de una variable
respecto al comportamiento de otra, que por su naturaleza es difícil la observación directa,
por lo que con la ayuda de un modelo se puede entender lo anterior relacionando una o más
de una variable.
36
RL Simple
Cuando se relaciona una variable dependiente o explicada con una variable independiente o
explicativa realizamos un análisis de regresión simple, con la finalidad de generar un
modelo que exprese el comportamiento de la variable dependiente respecto a la
independiente.
1. El término de error ε es una variable aleatoria con media o valor esperado igual a cero,
esto es, E(ε). Esto implica que como α y β son constantes, E(α )= α y E(β)=β.
Ejemplo: Video.
Cuadro 18: Datos de tres variables de 10 híbridos de caña de azúcar.
39
1.33
1.07
Brix Kg
0.82 40
0.56
0.31
4.53 5.96 7.40 8.84 10.27
Rendimiento de caña
En base al análisis de varianza se acepta la hipótesis alterna, donde se dice que β es distinto
a 0, y por lo tanto la variable Y está explicada o relacionada con la variable X.
Utilizando los coeficientes de los parámetros, se puede generar un modelo que prediga el
comportamiento de la variable Brix Kg en función de rendimiento de caña en Kg.
Y= -0.103 + 0.125X
Donde:
Y= Kg Brix y X= Kg de caña.
RL Múltiple
En este caso se relaciona una variable dependiente (Y), con dos o más variables
independientes (X). El modelo que relaciona esta variable dependiente que debe de ser
aleatoria y variables independientes que son fijas y predeterminadas, medidas sin error, se
llama ecuación de regresión múltiple.
Este modelo se diferencia de la regresión lineal simple, ya que la adición de una o más 41
variables independientes, debe de contribuir significativamente a la predicción de la
variable dependiente (Y), después de haber tomado en cuenta la contribución de la variable
independiente de la RLS.
También es importante tener en cuenta un supuesto que se agrega a los de la RLS, este
considera que dos variables independientes no debes de tener correlación entre ellas, pues
al existir esta relación la variable dependiente es mejor explicada únicamente con una sola
variable independiente al presentar un modelo más simple, a este supuesto se le llama
multicolinalidad.
Para realizar una RLM en InfoStat, se siguen los mismo s pasos que para realizar una RLS,
únicamente se agrega las variables independientes deseadas en la casilla de “Regresoras”.
Ejemplo: Video.
Con las variables del ejemplo anterior (RLS), realice un análisis de regresión lineal
múltiple.
Coeficientes de correlación
Como se puede apreciar en la matriz anterior, se observa que existe correlación entre las
variables Brix Kg y rendimiento de caña y Brix Kg y % Brix mayor a un 10% de
significancia, por lo que son útiles en la elaboración de un modelo de RLM. También se
observa que no existe correlación entre las variables de Rendimiento de caña y % Brix, por
Donde:
Y= Brix Kg, X1 = Rendimiento de caña y X2 = % Brix.
Bibliografía
Anderson, E; Black, W; Hair, F; Tatham, R. (1999). Análisis Multivariado. Madrid. Prentice Hall Iberia.
InfoStat. (2009). In foStat versión 2009. Grupo InfoStat, FCA, Universidad Nacional de Córdova, Argentina.
42
Levin, R. (1981). Estadística para administradores. México. Prentice Hall.
López, E. (2008). Estadística, con aplicaciones en agronomía y ciencias forestales. Guatemala. USAC.
Pérez, O. (2002). Diplomado de estadística: experimentos factoriales. Santa Lucia Cotz. CENGICA ÑA.
Quemé, J. (2002). Introducción al uso del ayudante de datos MST y MSTAT-C. Santa Lucía Cotz.
CENGICAÑA.
Quemé, J. (2002). Sitematización de una prueba de hipótesis, diseños completamente al azar, bloques
completos al azar y prueba de medias. Santa Lucía Cotz. CENGICAÑA.
Anexos
Cuadro 19: Resumen. Términos a considerar en la definición del modelo, en InfoS tat.
(1)
Cuando se definen modelos con submuestro es importante que tengamos en cuenta las distintas
decisiones que debemos de tomar en el mo mento de aceptar o rechazar una hipótesis. InfoStat realiza
de forma parcial el análisis de este modelo, por lo que se debe de seguir los siguientes pasos:
Ho: σ2 e = 0
Ha: σ2 e > 0
En este caso si se acepta la Ho, se dice que el muestreo no fue efectivo, en caso contrario, si se rechaza la Ho
se dice que el muestreo fue efectivo. Para esto se debe realizar los siguientes cálculos:
Se considerar el cuadrado medio del error experimental (CM ee) y el cuadrado medio del error del muestreo
(CM e m). Se debe de encontrar el valor F, para esto se realiza la relación CM ee/CM em. Para realizar la toma de
decisión de rechazar o aceptar la Ho, se puede estimar, en Excel, el valor p (probabilidad), para esto se utiliza
la función DISTR.F donde se ingresa el grado de libertad del Error experimental (g l 1 ), los grados de libertad
del erro r de muestreo (gl2 ) y el valor F (CM ee/CM em), el cual es nombrado en Excel por la letra “X”.
Si el valor p estimado en Excel, es menor al nivel de significancia establecido, se rechaza la Ho, por lo que se
dice que el muestreo fue efectivo.
2. Prueba de hi pótesis para evaluar si existe diferencia entre tratameintos, cuando el muestreo es
efecti vo
En este caso, los valores de F y p utilizados en la toma de decisión de aceptar o rechazar la Ho, son los
proporcionados por la salida de InfoStat, de igual forma el coeficiente de variación.
Si el muestreo fue efectivo las prueba de medias se realiza de manera co mún, de igual forma co mo se presenta
en la sección de diseño completamente al azar.
3. Prueba de hi pótesis para evaluar si existe diferencia entre tratamietnos, cuando el muestreo no
es efectivo.
Al no ser el muestreo efectivo, se debe de unir los errores del error experimental y el error de muestreo de la
siguiente forma:
F= CM Tratamiento / CM ep
Para encontrar el valor p que se utiliza para realizar la to ma de decisión respecto a la segunda hipótesis,
relacionada al efecto de los tratamientos, se debe de seguir las instrucciones mencionadas anteriormente en el
inciso 1. Y el valor del coeficiente de variación debe de encontrarse de la siguiente forma:
Para esto, se debe de indicar el error y los grados de libertad a utilizar (estimados previamente, de la forma
explicada anteriormente en el inciso 3) en la comparación de medias, donde el error es el valor de CM ep y los
grados de libertad la suma de g lee y gle m.
45