Академический Документы
Профессиональный Документы
Культура Документы
4/25/2007
Regresión No Lineal
Resumen
El procedimiento Regresión No Lineal ajusta una función especificada por el usuario
relacionando una sola variable dependiente Y con una o más variables independientes X. El
modelo se estima usando cuadrados mínimos no lineales. Se puede graficar el modelo ajustado,
generar predicciones a partir del mismo e identificar residuos atípicos.
Datos de ejemplo:
El archivo nonlin.sf3 contiene datos de la cantidad de cloro en muestras de un producto en
función del número de semanas desde que se produjo. Los datos, de Draper y Smith (1998),
consisten de n = 44 muestras, una parte de los cuales se muestran a continuación:
Weeks Chlorine
(Semanas) (Cloro)
8 0.49
8 0.49
10 0.48
10 0.47
10 0.48
10 0.47
12 0.46
12 0.46
12 0.45
12 0.43
14 0.45
14 0.43
14 0.43
… …
Este modelo, sugerido por un experto en el área, contiene dos incógnitas: a, el valor asintótico
basal que se alcanza con valores grandes de weeks, y b, la tasa exponencial de decaimiento.
• Peso: una columna numérica opcional que contiene los pesos o ponderadores que se
aplicarán al cuadrado de los residuos cuando se realice un ajuste por mínimos cuadrados
ponderados.
Ingrese una estimación inicial para cada parámetro. El programa comenzará con los estimados
iniciales y realizará una búsqueda numérica para encontrar estimaciones que minimicen la suma
de cuadrados de los residuos.
Resultados de la Estimación
Intervalo Confianza a 95.0%
Error Estándar Asintótico
Parámetro Estimado Asintótico Inferior Superior
a 0.390144 0.00501534 0.380022 0.400265
b 0.101644 0.0133628 0.0746763 0.128611
Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio
Modelo 7.982 2 3.991
Residuo 0.00500168 42 0.000119088
Total 7.987 44
Total (Corr.) 0.0395 43
Análisis de Residuos
Estimación Validación
n 44
CME 0.000119088
MAE 0.00769665
MAPE 1.82283
ME -0.000097621
MPE -0.0826224
En la salida se incluyen:
Error Estándar de Est. – La desviación estándar estimada de los residuos (las desviaciones
alrededor del modelo). Este valor se usa para crear límites de predicción para nuevas
observaciones.
ei = y i − yˆ i (2)
Se incluyen el cuadrado medio del error (CME), el error absoluto medio (MAE), el error
porcentual absoluto medio (MAPE), el error medio (ME), y el error porcentual medio (MPE).
Estas estadísticas de validación pueden ser comparadas con las estadísticas del modelo
ajustado para determinar qué tan bien el modelo predice las observaciones fuera de los datos
usados para ajustarlo.
El modelo comienza con chlorine = 0.49 en weeks = 8 y cae exponencialmente a una línea base
de aproximadamente 0.39 conforme weeks crece.
0.5
0.48
0.46
chlorine
0.44
0.42
0.4
0.38
0 10 20 30 40 50
weeks
Seleccione cualquier variable, junto con su rango, para graficarla en el eje horizontal. Para las
otras variables, escriba los valores con los que se sustituirán en el modelo ajustado.
⎧⎪ ⎡ ⎛ 1 1 ⎞⎤ ⎫⎪
Y = exp⎨− θ 1 X 1 exp ⎢− θ 2 ⎜⎜ − ⎟⎟⎥ ⎬ (4)
⎪⎩ ⎣ ⎝ 2
X 620 ⎠⎦ ⎪⎭
1
0.8
material
0.6
0.4
0.2 640
630
0 620
0 30 610
60 90 120 600 temperature
150
time
640 material
0.1
0.2
630 0.3
temperature
0.4
0.5
620 0.6
0.7
0.8
610
0.9
600
0 30 60 90 120 150
time
• Tipo: escoja entre un Gráfico de Superficie 3-D, donde la altura de la superficie representa el
valor de Y versus dos variables independientes cualesquiera; un Gráfico de Contorno 2-D,
donde las líneas o regiones de color representan el valor de Y como una función de dos
variables independientes cualesquiera; un Gráfico Cuadrado 2-D, donde el valor predicho de
Y se muestra a diferentes combinaciones de 2 variables independientes; o un Gráfico Cúbico
3-D, en el cual el valor predicho de Y se muestra a diferentes combinaciones de 3 variables
independientes.
• Contornos: los límites y espaciamiento de las líneas de contorno o regiones. Los contornos
puedes dibujarse como Líneas sólidas representando un solo valor de Y, Regiones
Coloreadas representando intervalos, o usando un rango Continuo de colores.
• Resolución: el número de divisiones a lo largo de cada eje sobre los cuales se grafica el valor
de Y. Se puede mejorar la calidad del gráfico aumentando la resolución, pero también puede
aumentar el tiempo requerido para dibujarlo.
• Superficie: para un gráfico de superficie, el número de divisiones a lo largo de cada eje entre
las líneas empleadas para dibujar la superficie. La superficie puede dibujarse como un
Armazón de Alambre (malla transparente), como una superficie coloreada sólida, o de
contorno (coloreada de acuerdo a los valores de Y). Contornos Debajo coloca un gráfico de
contorno en la base del cubo. Mostrar Puntos grafica las observaciones con líneas dibujadas
hacia la superficie.
640 material
0.0
0.1
630 0.2
temperature
0.3
0.4
620 0.5
0.6
0.7
610
0.8
0.9
600 1.0
0 30 60 90 120 150
time
0.6 0.6
0.7
0.4
0.8
0.2 640
630 0.9
0 620 1.0
0 30 610
60 90 600 temperature
120 150
time
Opciones de Análisis
La caja de diálogo Opciones de Análisis controla el algoritmo usado para ajustar el modelo:
• Método: método usado para estimar los parámetros del modelo. El método Gauss-Newton
usa una técnica de linealización que ajusta una secuencia de modelos de regresión lineal para
localizar la mínima suma de cuadrados de los residuos. El método Descenso de Mayor
Pendiente sigue el gradiente de la superficie de la suma de cuadrados de los residuos. El
método de Marquardt, selección por omisión, es un rápido y confiable término medio entre
los otros dos.
• Nivel de Confianza: el porcentaje usado para calcular los intervalos de confianza asintóticos
para los coeficientes del modelo.
© 2006 by StatPoint, Inc. Regresión No Lineal - 11
STATGRAPHICS – Rev. 4/25/2007
Reportes
La ventana Reportes crea predicciones usando el modelo ajustado. Por omisión, la tabla incluye
una línea por cada fila en la hoja de datos que tenga información completa en las variables X y
un valor faltante para la variable Y. Esto le permite agregar columnas al final de la hoja de datos
correspondientes a los niveles en los que quiera tener predicciones sin afectar el modelo
ajustado.
Por ejemplo, suponga que se desea una predicción en Weeks = 50 (por cierto una extrapolación
del modelo). En la fila #45 de la hoja de datos, se agregaría el valor 50 a la columna Weeks pero
la columna Chlorine se dejaría en blanco. La tabla resultante se muestra a continuación:
Se incluye en la tabla:
• Fila – el número de la fila en la hoja de datos que contiene los valores de las variables
independientes.
• Error Estándar para Pronóstico – el error estándar estimado para predecir una sola
observación nueva.
Para la fila #45, el nivel predicho de cloro es aproximadamente 0.392 Una nueva muestra a
Weeks = 50 se esperaría fuera entre 0.369 y 0.416 con un 95% de confianza (dado que valga la
extrapolación). El nivel medio de cloro a la semana 50 se estima esté entre 0.385 y 0.400.
Se puede incluir en la tabla información adicional sobre los valores predichos y residuos para los
datos usados para ajustar el modelo, usando Opciones de Ventana.
Matriz de Correlación
La Matriz de Correlación presenta estimaciones de la correlación entre los coeficientes
estimados.
Esta tabla puede ser útil para determinar qué tan bien se han separado unos de otros los efectos
de diferentes variables independientes.
Gráfica de chlorine
0.5
0.48
0.46
observado
0.44
0.42
0.4
0.38
0.38 0.4 0.42 0.44 0.46 0.48 0.5
predicho
Si el modelo ajusta bien, los puntos debieran estar dispersos aleatoriamente alrededor de la línea
diagonal. A veces es posible apreciar curvatura en este gráfico, lo que indicaría la necesidad de
un modelo curvilíneo más que uno lineal. Cualquier cambio en variabilidad de valores bajos de
Y a valores altos de Y podría indicar la necesidad de transformar la variable dependiente antes de
ajustar un modelo a los datos.
Gráficas de Residuos
Al igual que con todos los modelos estadísticos, es una buena práctica examinar los residuos. En
una regresión, los residuos se definen por
ei = y i − yˆ i (5)
i.e., los residuos son las diferencias entre los valores de los datos observados y el modelo
ajustado.
Gráfica de Residuos
4.4
Residuo Estudentizado
2.4
0.4
-1.6
-3.6
0 10 20 30 40 50
weeks
99.9
99
95
porcentaje
80
50
20
5
1
0.1
-2.7 -0.7 1.3 3.3 5.3
Residuo Estudentizado
Si las desviaciones siguen una distribución normal, deben caer aproximadamente a lo largo de
una línea recta. En el gráfico anterior, los datos se desvían bastante de la línea recta, indicando
que las desviaciones siguen una distribución con colas más largas que las de una distribución
normal.
0.6
autocorrelación
0.2
-0.2
-0.6
-1
0 2 4 6 8 10 12
retraso
Sólo es relevante si los datos se colectaron secuencialmente. Cualquier barra extendiéndose más
allá de los límites de probabilidad indicaría dependencia significativa entre residuos separados
por el retraso indicado, lo que violaría el supuesto de independencia hecho cuando se ajustó el
modelo de regresión.
Optiones de Ventana
• Tipo: el tipo de gráfico a crear. Se usa un Diagrama de Dispersión para probar curvatura. Se
emplea un Gráfica de Probabilidad Normal para determinar si los residuos del modelo
provienen de una distribución normal. Se usa una Función de Autocorrelación para probar
dependencia entre residuos consecutivos.
• Nivel de Confianza: para una Función de Autocorrelación, el nivel usado para crear los
límites de probabilidad.
Residuos Atípicos
Una vez que el modelo ha sido ajustado, es útil estudiar los residuos para determinar si existe
algún valor atípico que debiera ser removido de los datos. La ventana Residuos Atípicos lista
todas las observaciones que tienen residuos Estudentizados de 2.0 o mayores en valor absoluto.
Nota: Los puntos pueden ser removidos del ajuste mientras se examina el Gráfico del Modelo
Ajustado haciendo clic sobre un punto y luego presionando el botón Excluir/Incluir en la barra
de herramientas del análisis. Los valores excluidos son marcados con una X.
Puntos Influyentes
Cuando se ajusta un modelo de regresión, no todas las observaciones tienen la misma influencia
en la estimación de los parámetros del modelo ajustado. En una regresión simple, los puntos
localizados a valores de X muy bajos o muy altos tienen mayor influencia que los localizados
más cerca de la media de X. La ventana Puntos Influyentes presenta cualquier observación que
tenga gran influencia en el modelo ajustado:
• Punto Leverage – mide cuán distante está una observación de la media de las n
observaciones en el espacio de las variables independientes. Entre más grande el punto
nivelador, mayor el impacto del punto en los valore ajustados ŷ. Los puntos son colocados
en la lista si el punto nivelados es mayor de tres veces el de un punto promedio.
• DFITS – mide la diferencia entre los valores predichos ŷ i cuando el modelo se ajusta con y
sin el i-ésimo dato. Los puntos se colocan en la lista si el valor absoluto de las DFITS excede
2 p / n , donde p es el número de coeficientes en el modelo ajustado.
Salvar Resultados
Se pueden salvar los siguientes resultados en la hoja de datos:
Cálculos
Las estimaciones de los parámetros se encuentran minimizando numéricamente la suma de
cuadrados de los residuos. La matriz de varianzas-covarianzas de los coeficientes se estima a
partir de las derivadas parciales en la vecindad de la solución de mínimos cuadrados.