Proyecto Final Modelos de regresión
Este proyecto presenta un análisis de los datos climatológicos de la región de estudio, obtenidos de PRISM [1] de la Universidad Estatal de Oregón. El objetivo principal es identificar las características de las variables climáticas, en particular la precipitación invernal media anual máxima de tres días y la temperatura media normal en invierno, y su posible relación con con las demás variables de estudio. Se lleva a cabo un análisis exploratorio de los datos, seguido por el ajuste de un modelo de regresión lineal simple para evaluar su desempeño, culminando en un modelo de regresión múltiple. Además, se incluye un análisis espacial de las variables climáticas y se generan mapas interactivos que permiten visualizar la distribución de la precipitación y la temperatura en la región de estudio.
El cambio climático es uno de los desafíos más importantes que enfrenta la humanidad en la actualidad. La variabilidad climática y los fenómenos extremos asociados con el cambio climático tienen un impacto significativo en los ecosistemas, la agricultura, la disponibilidad de agua dulce y la seguridad alimentaria. Por lo tanto, es fundamental comprender los patrones climáticos y las tendencias a largo plazo en las variables climáticas para poder tomar decisiones informadas y desarrollar estrategias de adaptación y mitigación.
En este contexto, el presente proyecto tiene como objetivo analizar los datos climatológicos de una región específica, obtenidos del sistema PRISM (Parameter-elevation Regressions on Independent Slopes Model) de la Universidad Estatal de Oregón.
Historia de PRISM
PRISM es una herramienta desarrollada en 1991 por el Dr. Christopher Daly [2] en la Universidad Estatal de Oregón. Este modelo se ha convertido en un estándar en la climatología para generar mapas climáticos de alta resolución en los Estados Unidos. PRISM utiliza algoritmos de regresión ponderada para estimar los valores de variables climáticas como la temperatura y la precipitación, basándose en la elevación geográfica y otros factores. Este enfoque permite una representación más precisa de las variaciones espaciales en el clima, especialmente en regiones montañosas donde la elevación juega un papel crucial.
Las principales variables de interés en este análisis son:
La precipitación es la cantidad de agua en forma líquida o sólida (como lluvia, nieve, granizo, etc.) que cae de la atmósfera y llega a la superficie terrestre en un período de tiempo específico. Es una variable clave en el ciclo hidrológico, influyendo significativamente en los ecosistemas, la agricultura, y la disponibilidad de agua dulce.
Análisis Exploratorio
El análisis exploratorio [4] de datos (EDA, por sus siglas en inglés) es un paso fundamental para comprender las características y relaciones entre las variables climáticas. Este análisis se divide en dos partes principales:
Análisis Univariado
El análisis univariado se centra en el estudio de cada variable de manera individual. Las medidas estadísticas descriptivas, como la media, mediana, desviación estándar, entre otras, son calculadas para cada variable.
Análisis Multivariado
El análisis multivariado [5] examina las relaciones entre múltiples variables simultáneamente. Una técnica comúnmente utilizada es el Análisis de Componentes Principales (PCA, por sus siglas en inglés), que ayuda a reducir la dimensionalidad de los datos y a identificar patrones subyacentes.
La fórmula general para PCA es:
\[ Z = XW \]
donde:
\(Z\) es la matriz de componentes principales.
\(X\) es la matriz de datos originales.
\(W\) es la matriz de pesos (eigenvectores).
Esta técnica será empleada con el fin de explorar la asociación entre variables y discernir patrones subyacentes en los datos climáticos.
Por lo tanto, el Análisis Exploratorio de Datos (EDA) desempeña un papel fundamental al permitir la identificación y comprensión de las posibles relaciones entre las variables. A través de técnicas de análisis univariado y multivariado, el EDA proporciona insights valiosos al descubrir patrones, tendencias y dependencias complejas presentes en los datos. Estas revelaciones son esenciales para la formulación de modelos predictivos y descriptivos más precisos y efectivos, así como para la toma de decisiones informadas en diversos campos de aplicación.
Modelos de Regresión
Regresión Lineal Simple
La regresión lineal simple [6] se utiliza para modelar la relación entre dos variables. En este caso, se busca una variable independiente la cual permitira explicar la variable predictora seleccionada a partir del EDA. La fórmula de la regresión lineal simple es:
\[ y = \beta_0 + \beta_1 x + \epsilon \]
donde:
\(y\) es la variable dependiente.
\(x\) es la variable independiente.
\(\beta_0\) es la intersección.
\(\beta_1\) es la pendiente.
\(\epsilon\) es el término de error.
Regresión Lineal Múltiple
Con una muestra de datos diferente, se busca construir un modelo de regresión lineal múltiple [7] para predecir una de las variables de interés. La fórmula de la regresión lineal múltiple es:
\[ y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_p x_p + \epsilon \]
donde:
\(y\) es la variable dependiente.
\(x_1, x_2, \ldots, x_p\) son las variables independientes.
\(\beta_0\) es la intersección.
\(\beta_1, \beta_2, \ldots, \beta_p\) son los coeficientes de regresión.
\(\epsilon\) es el término de error.
General
Analizar y modelar las variables climáticas de una región específica utilizando datos del sistema PRISM, con el fin de identificar patrones subyacentes y relaciones entre las variables, y desarrollar modelos predictivos que permitan comprender mejor los efectos del cambio climático en dicha región.
Específicos
Realizar un análisis exploratorio de los datos climatológicos para identificar las características y posibles relaciones entre las variables de interés.
Ajustar un modelo de regresión lineal simple para evaluar la relación entre la variable de interés y la predictora.
Revisar supuestos residuales.
Desarrollar un modelo de regresión lineal múltiple empleando tecnicas de selección de variables y evaluación del mismo.
Hacer una correcta selección de variables explicativas.
Realizar comparaciones entre modelos.
Variable | Descripción |
---|---|
name | Código de identificación de la estación |
n | Longitud total del registro, años |
l_1 | Precipitación invernal media anual máxima de 3 días (L-media), en L-media, la precipitación máxima anual media para el medidor, usando L-momentos, en mililitros. |
t | Coeficiente de variación L para la precipitación invernal máxima anual de 3 días |
t_3 | Coeficiente de asimetría L para la precipitación invernal máxima anual de 3 días |
t_4 | Coeficiente de L-kurtosis para la precipitación invernal máxima anual de 3 días |
Latitude | Latitud del sitio, grados decimales |
Longitude | Longitud del sitio, grados decimales |
Station_Na | Nombre de estación |
pm_wnt_ppt | Precipitación total normal en invierno desde PRISM, mm |
pm_wnt_tmp | Temperatura media normal en invierno desde PRISM, °C |
pm_elev | Elevación del sitio a partir de datos de elevación de PRISM, m |
DISTCOAST | Distancia desde la costa más cercana, km |
RFA_Region | Asignación de región final para el sitio en el análisis de frecuencia regional |
orig_reg | Asignación de región inicial para el sitio en el análisis de frecuencia regional |
El conjunto station cuenta con 295 registros y 15 variables.
Datos Númerico
El cual tiene 295 registros con 11 variables.
Datos categoricos
El cual tiene 295 registros con 4 variables.
En la siguiente tabla se presentan los valores atípicos detectados en el conjunto de datos.
La siguiente tabla muestra las estadísticas descriptivas de las variables numéricas.
n (Longitud total del registro, años)
Rango: Variando desde 15 hasta 120 años, indica que algunas estaciones tienen registros históricos extensos, mientras que otras son relativamente nuevas.
Media: 52.91 años sugiere que, en promedio, las estaciones tienen registros de más de medio siglo.
Desviación estándar: 27.86 años indica una variabilidad significativa en la longitud del registro entre estaciones.
l_1 (Precipitación invernal media anual máxima de 3 días, en mililitros)
Rango: De 1.33 a 11.99 mm, mostrando variabilidad en la precipitación máxima registrada durante períodos de tres días en invierno.
Media: 4.79 mm, lo que sugiere una precipitación máxima promedio relativamente moderada en el conjunto de estaciones analizadas.
Coeficientes L (t, t_3, t_4)
Latitud y Longitud
Rango de Latitud: De 42.95 a 49.00 grados, cubriendo un amplio espectro geográfico que puede influir en las condiciones climáticas observadas.
Rango de Longitud: De -124.53 a -120.25 grados, reflejando una diversidad geográfica similar.
pm_wnt_ppt (Precipitación total normal en invierno)
Rango: 226.48 a 2332.84 mm, reflejando una gran variabilidad en las condiciones de precipitación de invierno entre las estaciones.
Media: 929.74 mm, indicando una cantidad considerable de precipitación durante el invierno.
pm_wnt_tmp (Temperatura media normal en invierno)
pm_elev (Elevación del sitio)
DISTCOAST (Distancia desde la costa más cercana)
Imagen | Descripción |
---|---|
|
En el gráfico anterior se observa la disparidad entre los años considerados para la medida de la precipitación invernal media anual máxima de 3 días. |
|
En el histograma de precipitación invernal media anual máxima de 3 días se logra ver una centralidad entre las observaciones, a pesar de de la diferencia de n, de igual forma se aprecian unos valores atípicos. |
|
En el gráfico anterior se puede apreciar una centralidad en los coeficientes de variación, es decir, no hubo mucha variación en la precipitación media presentada en los n años en las diferentes estaciones. |
|
La gráfica anterior nos muestra que el comportamiento de la precipitación invernal máxima anual de 3 días tiende a tener un coeficiente de asimetría del 0.16, sin embargo, hay lugares de medición los cuales pueden presentar comportamientos sesgados de la precipitación anual de 3 días. |
|
De la anterior gráfica podemos concluir que la precipitación invernal máxima anual de 3 días tiende a tener un comportamiento leptocurtico, sin embargo, por factores externos, hay lugares en donde la medición de esta tiende a generar valores atípicos. |
|
La precipitación total en invierno es bimodal, con una kurtosis del 3.43 se puede observar que tiene una cola pesada que mediante el boxplot se pueden notar valores atípicos. |
|
La anterior gráfica presenta un comportamiento leptocurtico con un sesgo negativo. Lo que puede implicar que los valores extremos bajos de la temperatura media normal en invierno son más frecuentes. |
|
La gráfica anterior muestra un comportamiento leptocúrtico con un sesgo positivo. Además, al considerar el boxplot, podemos afirmar que la mayoría de los datos se obtuvieron a una altitud de 642 metros sobre el nivel del mar. Sin embargo, también se incluyeron lugares con elevaciones superiores a la mencionada. Por lo tanto, es probable que en estos lugares se presenten precipitaciones diferentes al percentil 75%. |
|
La gráfica anterior presenta un comportamiento platicúrtico, lo cual puede indicar una casi uniformidad en las distancias a las que se tomaron las medidas de precipitación, tomando como referencia la costa. |
Correlacionadas a destacar:
l_1 ~ pm_wnt_tmp: Tienen una correlación positiva fuerte con una fuerza de 0.95
pm_wnt_tmp ~ pm_elev: Tiene una correlación negativa fuerte con una fuerza del -0.95
pm_wnt_tmp ~ Longitud: Tiene una correlación negativa media fuerte
Considerando la matriz de correlación junto con el pariplot anterior, que muestra tanto la correlación bivariada como gráficos de dispersión con dos métodos de ajuste de regresión:
loess (Locally Estimated Scatterplot Smoothing)
lm (Linear Model)
Se observa que las variables pm_wnt_tmp y pm_elev presentan una relación inversa significativa, con una correlación alta de -0.897. Sin embargo, es importante notar que esta conclusión se basa en la visualización del gráfico, el análisis muestral de sus correlaciones y el análisis visual del ajuste de estos dos métodos. A partir de esta observación preliminar, parece que un modelo de regresión lineal simple podría explicar adecuadamente la relación entre estas dos variables. No obstante, esta hipótesis se verificará en secciones posteriores del informe.
Los mapas incluidos a continuación ilustran la distribución espacial de la precipitación y la temperatura en la región en estudio. En estos mapas, cada punto simboliza una estación de medición específica, mientras que el color asignado a cada uno de estos puntos refleja el valor correspondiente de la variable climática medida. Estos mapas interactivos están diseñados para facilitar el análisis detallado de la variabilidad espacial de la precipitación y la temperatura a lo largo de la región. Para una exploración más específica, especialmente en áreas donde las mediciones son extremadamente altas o bajas, se ha provisto un recuadro de selección. Este recuadro permite a los usuarios focalizar y seleccionar regiones particulares de interés, tanto regiones iniciales como finales, mejorando así la comprensión y análisis de los datos climáticos regionales.
Zonas Azules: Las áreas representadas con tonos más azules indican las regiones con mayores precipitaciones. Esto es evidente en algunas partes interiores y específicamente en áreas más alejadas de la costa.
Zonas Rojas y Anaranjadas: Las regiones con tonos rojos y anaranjados muestran niveles más bajos de precipitación. Estas áreas tienden a estar más cerca de la costa, como alrededor de Seattle, Portland y las áreas costeras directamente. Reevaluación del Gradiente de Precipitación:
A diferencia de lo que se podría esperar, las áreas costeras y cercanas a grandes cuerpos de agua, donde normalmente se anticiparía más lluvia, muestran menor precipitación en este mapa. Esto podría deberse a patrones climáticos particulares, factores geográficos locales, o la influencia de corrientes de aire secas.
Zonas de Alta Precipitación:
Las áreas más interiores, especialmente aquellas que están en elevaciones más altas o en el lado este de las montañas, como al este de las Cascadas, exhiben una mayor precipitación. Esto podría deberse al efecto de sombra de lluvia en reversa, donde las montañas atrapan la humedad en el lado de sotavento.
En los siguientes gráficos presentan los boxplots de las variables Precipitación invernal media anual máxima de 3 días y Temperatura media normal en invierno, en función del sitio del análisis de frecuencia regional.
Región inicial | Región final |
---|---|
|
|
|
|
Teniendo en cuenta el gráfico anterior en conjunto con los mapas anteiores, puede apreciar diferencias en el comportamiento entre las regiones, en donde se presentan valores extremos los cuales afectan su misma densidad haciendo más probables que sucedan eventos extremos en estas regiones, sin embargo, para confirmar esta hipótesis se debe realizar una prueba de hipotisis generalizada dado que estas mismas no siguen un comportamiento normal.
Dado que se realizó un análisis detallado de los resultados del modelo de regresión en la sección Modelo Lineal Múltiple, no se repetirá dicho análisis en esta sección. Se asumirá la interpretación exhaustiva presentada previamente y se procederá directamente a las conclusiones basadas en ese análisis.
X2.5.. | X97.5.. | |
---|---|---|
(Intercept) | 5.770600287 | 6.162676695 |
pm_elev | -0.005631292 | -0.005026164 |
modelo
Call:
lm(formula = pm_wnt_tmp ~ pm_elev)
Residuals:
Min 1Q Median 3Q Max
-5.8033 -0.4344 0.0614 0.6193 3.9733
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.9666385 0.0996082 59.90 <2e-16 ***
pm_elev -0.0053287 0.0001537 -34.66 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 1.289 on 293 degrees of freedom
Multiple R-squared: 0.8039, Adjusted R-squared: 0.8033
F-statistic: 1201 on 1 and 293 DF, p-value: < 2.2e-16
Shapiro-Wilk normality test
data: elayModel$residuals
W = 0.92756, p-value = 8.652e-11
Teniendo en cuenta los anteiores datos, a pesar de que el modelo tiene un ajuste bastante alto con errores cuadraticos medio bajos, el modelo no cumple con los supuestos de homocedasticidad, por lo que se recomienda hacer transformaciónes a las variables regresoras o utilizar otro tipo de modelo más complejo que logre explicar la relación existente entre estas dos variables.
El conjunto mlr_ws_data tiene 76 registros cojn 13 variables.
Datos Númerico
El cual tiene 76 registros con 11 variables.
Datos categoricos
El cual tiene 295 registros con 2 variables.
La siguiente tabla muestra las estadísticas descriptivas de las variables numéricas.
n (Longitud total del registro, años)
Rango: De 50 a 120 años, lo cual indica que todas las estaciones en esta muestra tienen un registro histórico significativo, mostrando una menor variabilidad en la antigüedad de las estaciones en comparación con la muestra anterior.
Media: 79.42 años, indicando un promedio de registro más alto que en la muestra previa.
Desviación estándar: 19.17 años, mostrando una dispersión menos pronunciada, lo que sugiere una consistencia mayor en la longitud del registro entre estaciones.
l_1 (Precipitación invernal media anual máxima de 3 días, en mililitros)
Rango: De 1.33 a 8.73 mm, con un rango más estrecho en comparación con la muestra anterior, lo que sugiere una menor variabilidad en eventos extremos de precipitación en esta muestra.
Media: 4.23 mm, similar a la muestra anterior, indicando que la precipitación máxima promedio es consistente a través de diferentes muestras.
Coeficientes L (t, t_3, t_4)
Variabilidad (t): Con una media de 0.18 y una desviación estándar muy baja (0.02), lo que indica que la variabilidad relativa de la precipitación es bastante consistente entre las estaciones.
Asimetría (t_3) y Kurtosis (t_4): Los valores muestran una distribución de la precipitación que tiene tendencia a ser levemente asimétrica hacia la izquierda (más valores hacia el extremo inferior) y una distribución con colas más pesadas comparado con una distribución normal, indicando mayor frecuencia de valores extremos.
Latitud y Longitud
winter_prcp (Precipitación total normal en invierno, en mm)
winter_temp (Temperatura media normal en invierno, en °C)
elev (Elevación del sitio, en metros)
dist_to_coast (Distancia a la costa más cercana, en km)
Imagen | Descripción |
---|---|
|
El anterior gráfico presenta una mejor distribución entre los años medidos que en la anterior muestra |
|
La distribución coeficiente de variación el cual muestra la imagen nos dice en esta muestra se presenta una distribución leptocurtica con un sesgo positivo, lo que implica que los eventos extremos de precipitación son más frecuentes y más intensos de lo esperado en una distribución normal. Esto puede llevar a una mayor volatilidad y riesgo de inundaciones, afectando la planificación de infraestructuras, la gestión de recursos hídricos y la agricultura. |
|
La gráfica nos muestra que entre estaciones puede presentar variaciones en los valores de l_1 |
|
La gráfica nos muestra que hay estaciones en donde el comportamiento de l_1 tiene un sesco negativo, sin embargo, sin tener en cuenta los valores extrmos se puede apreciar una uniformidad. |
|
Esta gráfica presenta unos valores extremos, sin embargo, en general el comportaiento de l_1 es leptocurtico dado que t_4 es mayor a cero |
|
La gráfica anterior nos muestra que las medidas se presentarion a una altura casi uniforme |
|
Al contario de la anteior gráfica, hubo un comportamiento platicurico |
|
La anterior gráfica nos muestra que la Precipitación total normal en invierno tiene un comportamento leptocurtico con un sesgo positivolo que puede indicar una mayor incidencia y variabilidad de eventos extremos de precipitación, lo que tiene implicaciones significativas para la gestión de recursos, la infraestructura, la agricultura, y la planificación urbana |
|
La gráfica anterior muestra que la Temperatura media normal en invierno tiene un comportamiento leptocurtico con un sesgo positivo lo que que indica que en algunos lugares tienen temperaturas más altas que al 50% |
|
La gráfica de elevación muestra un comportamiento leptocúrtico alto lo que indica que las mediciones se hicieron en lugares con altitudes concentradas en torno a una media con menos frecuencia en altitudes medias y una presencia significativa de valores extremos tanto bajos como altos. Esto sugiere que hay una gran cantidad de estaciones situadas en altitudes extremas, ya sean muy altas o muy bajas, más que un reparto uniforme a lo largo de un rango de elevación. |
|
La gráfica de la distancia de la costa muestra un comportamiento leptocúrtico alto, lo que indica que las mediciones se realizaron en ubicaciones que están concentradas en distancias específicas de la costa, con menos frecuencias en distancias intermedias y una presencia significativa de valores extremos tanto cercanos como lejanos a la costa. Esto sugiere que hay una gran cantidad de estaciones ubicadas muy cerca de la costa o a grandes distancias de ella, más que una distribución uniforme a lo largo de todo el rango de distancia. |
Correlacionadas a destacar:
l_1 ~ winter_temp: Tienen una correlación positiva fuerte con una fuerza de 0.88
longitud ~ elv: Tiene una correlación positiva moderada fuerte con una fuerza de 0.62
longitud ~ dist_to_coast: Tiene una correlación negativa moderada fuerte con una fuerza de 0.79
winter_temp ~ winter_prcp: Tiene una correlación negativa moderada fuerte con una fuerza de 0.61
dist_to_coast ~ elev: Tiene una correlación positiva moderada fuerte con una fuerza de 0.70
Los siguientes mapas representan la distribución espacial de las estaciones meteorológicas en la muestra mlr_ws_data, mostrando la Precipitación invernal media anual máxima de 3 días y la Temperatura media normal en invierno.
A continuación se presenta el análisis de componentes principales (PCA) para el conjunto de datos mlr_ws_data.
El siguiente gráfico muestra la varianza explicada por cada dimensión.
Los siguientes gráficos muestran la la relación entre las variables y su \(cos^2\) entre dimensiones.
De la gráfica anterior se puede apreciar que las variables winter_temp y winter_prcp tienen una relación fuerte con la dimensión 1 y, de igual manera, estas dos variables presentan una correlación significativa entre sí. En contraste, la relación más fuerte con la dimensión 2 se observa en las variables elev, dist_to_coast y longitude, las cuales también muestran colinealidad entre ellas. Además, se puede apreciar que entre longitude y winter_temp no existe una correlación significativa, indicando que estas variables no están relacionadas de manera directa en el contexto analizado.
La siguiente matriz muestra la contribución de cada variable con cada dimensión.
A continuación se presentan diferentes modelos de regresión, los cuales presentaron los mejores ajuestes teniendo en cuenta el conjunto de datos brindado.
El modelo siguiente tiene como formlula:
La cual explica la variable precipitación invernal media anual máxima de 3 días, mediante la relación:
\[\text{l_1} = \beta_0 + \beta_1\cdot \text{winter_prcp} + \beta_2 \cdot \text{longitude} + \beta_3 \cdot \text{winter_temp} + \epsilon\]
Las variables explicativas se seleccionaron mediante el método de selección hacia atrás.
La siguiente información expresa el resumen del modelo.
Call:
lm(formula = formula1, data = subconjunto)
Residuals:
Min 1Q Median 3Q Max
-1.72906 -0.34913 -0.06605 0.46123 1.20171
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 31.23023 8.96886 3.482 0.00085 ***
winter_prcp 0.32113 0.01369 23.450 < 2e-16 ***
longitude 0.22409 0.07315 3.064 0.00308 **
winter_temp -0.86231 0.09719 -8.872 3.61e-13 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.5923 on 72 degrees of freedom
Multiple R-squared: 0.8979, Adjusted R-squared: 0.8936
F-statistic: 211 on 3 and 72 DF, p-value: < 2.2e-16
La anterior salida de codigo muestra:
Información de la distribución de los residuos:
Min: Residuo mínimo (-1.72906)
1Q (Primer cuartil): Residuo en el primer cuartil (-0.34913)
Median: Residuo mediano (-0.06605)
3Q (Tercer cuartil): Residuo en el tercer cuartil (0.46123)
Max: Residuo máximo (1.20171)
La siguiente tabla muestra la información de los coeficientes:
Estimate: Valor estimado del coeficiente.
Std. Error: Error estándar del coeficiente.
t value: Valor t de la prueba de hipótesis que el coeficiente es igual a cero.
Pr(>|t|): Valor p asociado con el valor t.
(Intercept): El valor esperado de la variable dependiente cuando todas las variables independientes son cero es 31.23023, es decir, se espera que la precipitación invernal media anual maxima de tres días sea de 31.23023 con una variación del 8.96886, cuando las demás variables sean igual a cero.
winter_prcp: Un aumento de una unidad en winter_prcp se asocia con un aumento de 0.32113 unidades en la variable dependiente, con una variación del 0.01369.
longitude: Un aumento de una unidad en longitude se asocia con un aumento de 0.22409 unidades en la variable dependiente, con una variación del 0.07315.
winter_temp: Un aumento de una unidad en winter_temp se asocia con una disminución de 0.86231 unidades en la variable dependiente, con una variación del 0.09719.
Los valores p indican la significancia de los coeficientes. Un valor p bajo (generalmente < 0.05) sugiere que el coeficiente es significativamente diferente de cero. En este caso, todos los coeficientes son altamente significativos \((*** p < 0.001, ** p < 0.01)\). Esto significa que las variables independientes (winter_prcp, longitude, winter_temp) tienen un impacto significativo en la variabilidad de la variable dependiente.
Error estándar residual y grados de libertad:
El error estándar residual es 0.5923, lo que indica cuánto se desvían en promedio los valores observados de los valores predichos. Los grados de libertad (df) son 72, calculados como el número de observaciones menos el número de parámetros estimados.
Multiple R-squared: 0.8979, Adjusted R-squared: 0.8936
El coeficiente de determinación (\(R^2\)) representa la proporción de la variabilidad en la variable dependiente que es explicada por el modelo. El R-cuadrado ajustado (\(R_{adj}^2\)) tiene una interpretación similar, pero ajusta por el número de variables independientes y los grados de libertad, penalizando así por la inclusión de variables no significativas. Dado que en este caso ambas medidas (\(R^2\) y \(R_{adj}^2\)) son muy similares, se puede concluir que el modelo es robusto y que las variables presentes explican una buena parte de la variabilidad de la variable dependiente.
Interpretación de la Estadística F:
El valor de la estadística F es 211.
Esta medida compara la variabilidad explicada por el modelo con la variabilidad no explicada (residual). Un valor alto de F indica que el modelo explica una cantidad significativa de la variabilidad en la variable dependiente.
“on 3 and 72 DF” significa que hay 3 grados de libertad asociados con los regresores (variables independientes) y 72 grados de libertad asociados con los residuos.
Esto sugiere que se han usado 3 variables independientes en el modelo, y que el modelo se ajustó a 75 observaciones en total (75 = 3+72).
La combinación de una alta estadística F y un valor p extremadamente bajo nos permite concluir que el modelo en su conjunto es altamente significativo. Esto significa que al menos una de las variables independientes tiene una relación significativa con la variable dependiente.
En términos prácticos, el valor F de 211 y el valor p < 2.2e-16 sugieren que el modelo de regresión que has ajustado explica de manera significativa la variabilidad en la variable dependiente, y que las variables independientes utilizadas son relevantes para predecir dicha variable.
Df | Sum Sq | Mean Sq | F value | Pr(>F) | |
---|---|---|---|---|---|
winter_prcp | 1 | 193.6 | 193.6 | 552 | 1.722e-35 |
longitude | 1 | 0.7987 | 0.7987 | 2.277 | 0.1357 |
winter_temp | 1 | 27.61 | 27.61 | 78.72 | 3.613e-13 |
Residuals | 72 | 25.26 | 0.3508 | NA | NA |
Para finalizar la interpretación de la funcionalidad de este modelo, se realizó un ANOVA, el cual muestra que la variable longitude no es significativa (con un p-valor = 0.1357). Dado esto, se procederá a eliminar esta variable y a recalibrar el modelo.
Call:
lm(formula = formula1, data = subconjunto)
Residuals:
Min 1Q Median 3Q Max
-1.8622 -0.3780 -0.1275 0.5049 1.5010
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.76807 0.31389 12.004 < 2e-16 ***
winter_prcp 0.30700 0.01361 22.549 < 2e-16 ***
winter_temp -0.80933 0.10099 -8.014 1.32e-11 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.6254 on 73 degrees of freedom
Multiple R-squared: 0.8846, Adjusted R-squared: 0.8814
F-statistic: 279.7 on 2 and 73 DF, p-value: < 2.2e-16
Análisis
Estadístico F: Un aumento significativo en el estadístico F sugiere que el modelo sin longitud es más sencillo y tiene un mejor ajuste relativo a la varianza explicada.
\(R^2\) y \(R^2\) ajustado: La disminución de 0.01 unidades en \(R^2\) y \(R^2\) ajustado es pequeña, pero indica una ligera pérdida en la capacidad explicativa del modelo.
Recomendación
Dado el pequeño cambio en \(R^2\) y \(R^2\) ajustado, y el aumento significativo en el estadístico F, se recomienda eliminar la variable longitud del modelo. Aunque la contribución de longitud no es significativa, su exclusión simplifica el modelo sin una pérdida considerable en la capacidad explicativa. La simplificación del modelo contribuye a una mejor interpretabilidad y reduce el riesgo de sobreajuste.
Independientemente de las observaciones anteriores, es pertinente realizar una evaluación de los supuestos del modelo para evitar sesgos en las predicciones y asegurar que la aleatoriedad se comporte según lo esperado. Los supuestos a revisar son:
Linealidad: Verificada mediante la matriz de correlación.
Autocorrelación.
Normalidad.
Homocedasticidad.
Hipótesis Nula (H0)
\(H_0\): No hay autocorrelación de
primer orden en los residuos (\(\rho =
0\)).
Hipótesis Alternativa (H1)
\(H_1\): Hay autocorrelación de primer
orden en los residuos (\(\rho \neq
0\)).
Interpretación
Un valor de \(DW\) cercano a 2 sugiere que no hay autocorrelación.
Valores de \(DW\) significativamente menores que 2 indican autocorrelación positiva.
Valores de \(DW\) significativamente mayores que 2 indican autocorrelación negativa.
Durbin-Watson test
data: model1
DW = 2.437, p-value = 0.9654
alternative hypothesis: true autocorrelation is greater than 0
Con un p-valor de 0.9654, no rechazamos la hipótesis nula, indicando que no hay evidencia significativa de autocorrelación en los residuos del modelo.
Distribución residuales
El gráfico Q-Q genera sospechas de normalidad en los residuales. Para confirmar esta sospecha, se realiza la prueba de Shapiro-Wilk, la cual sigue la siguiente hipótesis:
Hipótesis Nula (H0)
\(H_0\): Los datos siguen una
distribución normal.
Hipótesis Alternativa (H1)
\(H_1\): Los datos no siguen una
distribución normal.
Shapiro-Wilk normality test
data: residuals(model1)
W = 0.98569, p-value = 0.552
Al momento de realizar la prueba de Shapiro-Wilk se obtiene un p-valor de 0.552, lo que sugiere que no hay evidencia significativa para rechazar la hipótesis nula de normalidad en los residuos.
Non-constant Variance Score Test
Variance formula: ~ fitted.values
Chisquare = 11.88522, Df = 1, p = 0.00056581
Como se puede apreciar en los gráficos anteriores, los residuos muestran fluctuaciones en su comportamiento. Además, a través de la prueba realizada, se ha rechazado la hipótesis nula de homocedasticidad (es decir, la varianza constante de los residuos). Esto indica que hay evidencia significativa de heterocedasticidad en los residuos del modelo. Por lo tanto, se recomienda realizar transformaciones a las variables regresoras o utilizar un modelo más robusto, lo cual permitirá entender mejor la relación entre las variables y aproximarnos de manera más precisa al valor esperado.
Posibles transformaciones:
Transformación logarítmica: No se pueden aplicar a datos que contengan ceros o valores negativos sin primero ajustar esos valores.
Transformación de Box-Cox: Puede ser necesario ajustar los datos para que sean positivos si hay valores negativos o ceros. Además, la elección del parámetro λ es crucial y debe optimizarse para cada conjunto de datos.
Transformación Inversa y Potencia Recíproca
Call:
lm(formula = l_1 ~ log(winter_prcp) + (winter_temp), data = fdata)
Residuals:
Min 1Q Median 3Q Max
-1.20848 -0.43015 0.00578 0.44937 1.36836
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.2468 0.3272 -0.754 0.453
log(winter_prcp) 3.2919 0.1483 22.194 < 2e-16 ***
winter_temp -0.7877 0.1019 -7.732 4.49e-11 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.6341 on 73 degrees of freedom
Multiple R-squared: 0.8813, Adjusted R-squared: 0.8781
F-statistic: 271 on 2 and 73 DF, p-value: < 2.2e-16
Durbin-Watson test
data: modelt
DW = 2.1144, p-value = 0.6484
alternative hypothesis: true autocorrelation is greater than 0
Shapiro-Wilk normality test
data: residuals(modelt)
W = 0.97788, p-value = 0.2059
Non-constant Variance Score Test
Variance formula: ~ fitted.values
Chisquare = 0.072791, Df = 1, p = 0.78732
Por medio de transformar las variables independientes, se logra una mejora en la homocedasticidad sin alterar los anteriores supuestos.
Este modelo usa PCR(principal components regresions) [8] el cual implementa cross validation para evitar un sobre ajuste de este mismo, de igual forma se usan los componentes principales como regresores para evitar problemas de colinealida adyacentes.
Data: X dimension: 76 6
Y dimension: 76 1
Fit method: svdpc
Number of components considered: 6
VALIDATION: RMSEP
Cross-validated using 10 random segments.
(Intercept) 1 comps 2 comps 3 comps 4 comps 5 comps 6 comps
CV 6.717 6.626 2.881 2.276 1.937 1.896 1.872
adjCV 6.717 6.618 2.867 2.228 1.925 1.883 1.857
TRAINING: % variance explained
1 comps 2 comps 3 comps 4 comps 5 comps 6 comps
X 99.996 100.00 100.00 100.00 100.00 100.00
winter_prcp 4.893 84.03 90.95 93.24 93.77 94.23
Data: X dimension: 61 6
Y dimension: 61 1
Fit method: svdpc
Number of components considered: 6
VALIDATION: RMSEP
Cross-validated using 10 random segments.
(Intercept) 1 comps 2 comps 3 comps 4 comps 5 comps 6 comps
CV 1.754 1.662 1.288 1.359 0.8872 0.8926 0.7873
adjCV 1.754 1.662 1.285 1.360 0.8802 0.8860 0.7762
TRAINING: % variance explained
1 comps 2 comps 3 comps 4 comps 5 comps 6 comps
X 39.04 70.20 83.99 93.31 98.11 100.00
l_1 15.09 50.57 50.59 78.88 79.92 88.41
Esta tabla nos indica la prueba RMSE(Error cuadrático medio) calculada por la validación cruzada de k veces. Podemos ver lo siguiente:
Error cuadrático medio en la predicción
R cuadrado
En conclusión, el proyecto presento características de la precipitación invernal media anual máxima de tres días mediante la implementación de Análisis Exploratorio de Datos (EDA). Además, se evidencio las diferentes característcas entre los modelos de regresión lineal múltiple y Análisis de Componentes Principales (PCR), los cuales permitieron captar de manera efectiva la variabilidad de la variable dependiente.
Se observó la dificultad de crear un modelo que cumpla con todos los supuestos estadísticos necesarios, destacando que en la actualidad muchas personas no consideran estos requisitos, lo cual puede generar sesgos en sus predicciones. Es importante tener en cuenta que no siempre es necesario utilizar modelos con muchas variables o técnicas complejas como el PCR para obtener un modelo robusto, como se demostró en la sección de regresión lineal múltiple. Sin embargo, estas técnicas son extremadamente valiosas en situaciones donde se presentan colinealidades o se requiere una selección precisa de variables. Esto enfatiza la importancia de elegir la metodología adecuada según las características específicas de los datos y los objetivos del análisis.