Área de estudio: Área geotérmica del Volcán
Azufral
Autor: Gilbert Fabian Rodriguez Rodriguez
Fecha: 16/11/2025
El área de estudio se localiza en el suroccidente de Colombia, específicamente en el departamento de Nariño, dentro de la zona volcánica correspondiente al área geotérmica del volcán Azufral. El objetivo principal del estudio consistió en caracterizar algunos de los componentes del sistema geotérmico asociados a este edificio volcánico, mediante la identificación de posibles anomalías térmicas superficiales. En el contexto del sistema geotérmico, se reconocen componentes fundamentales como la fuente de calor, el reservorio, la capa sello, las zonas de descarga y recarga, así como el sistema de circulación de fluidos. Para tal fin, se efectuaron mediciones de temperatura del subsuelo a una profundidad de 1,5 metros, complementadas con registros a 20 centímetros, con el propósito de evaluar la variación térmica vertical y su relación con otras propiedades físicas del terreno.
De manera simultánea, se adquirieron datos de métodos geofísicos complementarios con el fin de integrar la información térmica dentro de un marco de análisis multivariado. Entre las mediciones efectuadas se incluyeron observaciones gravimétricas, orientadas a estimar las variaciones en la densidad de los materiales del subsuelo, lo que permitió inferir el grado de compactación o fracturamiento de las rocas. Asimismo, se aplicó el método de magnetometría para identificar anomalías magnéticas asociadas con la mineralogía y la litología local, lo que contribuye a la interpretación de los contrastes composicionales que interactúan con el campo magnético terrestre. Finalmente, se implementaron sondeos eléctricos verticales (SEV) para determinar la resistividad eléctrica del subsuelo, propiedad que depende directamente de la composición mineralógica, el contenido de fluidos, la porosidad y el grado de alteración hidrotermal del medio rocoso. Cada observación fue georreferenciada registrando la altura sobre el nivel del mar y las coordenadas planas (X, Y), con el propósito de establecer la ubicación espacial precisa de los puntos de muestreo y facilitar su integración en modelos de correlación estadística y espacial. Por tanto, la aplicación de los diversos métodos geofísicos tuvo como propósito la caracterización integral de dichas componentes, permitiendo identificar sus posibles interrelaciones que vinculan las variaciones térmicas, gravimétricas, magnéticas y eléctricas del sistema geotérmico del volcán Azufral.
El propósito central del análisis consistió en evaluar si el comportamiento de la temperatura medida a 150 centímetros de profundidad puede ser explicado en función de diversas variables geofísicas y espaciales, consideradas como independientes dentro de un modelo de regresión lineal multivariada. En este sentido, se quizo determinar si las variaciones observadas en la densidad de las rocas (obtenidas a partir de la gravimetría), la susceptibilidad magnética (derivada de mediciones magnetométricas), la resistividad eléctrica del subsuelo, la altitud y las coordenadas planas (X, Y) permiten explicar de manera estadísticamente significativa el patrón espacial de la temperatura subsuperficial. Esta aproximación multivariada busca identificar correlaciones físicas que sustenten la existencia de procesos geotérmicos activos en el entorno del volcán Azufral (Zahedi et al., 2022; Dalampakis, Papachristou & Neofotistos, 2022; Cornejo-Triviño et al., 2024; Zheng et al., 2024).
En cuanto al planteamiento de la hipótesis, se espera, de manera ideal, identificar sectores donde los valores de temperatura del subsuelo presenten contrastes térmicos marcados entre zonas cálidas y frías, dado que, desde la perspectiva geotérmica, las anomalías positivas de temperatura suelen asociarse a flujos de calor o presencia de fluidos hidrotermales. Respecto a la gravimetría, se anticipa la presencia de valores bajos del campo gravitacional local, lo que reflejaría una menor densidad en el subsuelo, condición típica de rocas fracturadas o con elevada porosidad, capaces de facilitar la circulación de fluidos geotérmicos. En el caso de la magnetometría, se prevé que las zonas con baja magnetización correspondan a materiales que han experimentado desmagnetización térmica, producto de la exposición a altas temperaturas, lo cual constituye un posible indicador del tránsito de fluidos calientes en profundidad. Por su parte, en las mediciones de resistividad eléctrica se esperan valores reducidos, en el rango de 0 a 10 ohmios, lo que sugiere una alta conductividad eléctrica asociada al contenido de fluidos o a la presencia de arcillas conductoras generadas por alteración hidrotermal. Esta condición representaría otro indicio de actividad geotérmica. Finalmente, se considera que la altura y las coordenadas espaciales (X, Y) pueden ejercer una influencia sobre la distribución de la temperatura, al reflejar posibles gradientes topográficos y variaciones espaciales de tipo regional. En este marco, dichas variables se incorporan como componentes explicativas dentro del modelo estadístico, con el fin de evaluar su contribución relativa en la explicación del comportamiento térmico observado a 150 centímetros de profundidad.
El conjunto de datos analizado proviene de adquisiciones de campo realizadas por el Servicio Geológico Colombiano durante el periodo comprendido entre los años 2013 y 2019. En total, se obtuvieron 332 mediciones correspondientes a diferentes parámetros geofísicos, entre ellos la temperatura del subsuelo a profundidades de 150 centímetros y 20 centímetros, registradas mediante el uso de termocuplas acopladas a sondas térmicas insertadas en orificios previamente perforados en el terreno. Este procedimiento permitió asegurar un adecuado contacto térmico con el medio y garantizar la representatividad de las mediciones.
Los datos de densidad del subsuelo se obtuvieron a partir de mediciones gravimétricas empleando un gravímetro Scintrex, instrumento que basa su funcionamiento en el principio de variación de la aceleración de la gravedad local, a partir del desplazamiento de una masa suspendida por un resorte altamente sensible. Este tipo de medición permite inferir contrastes de densidad en los materiales rocosos y, por ende, identificar zonas de fracturamiento o presencia de cavidades.
Por otra parte, la información magnetométrica fue adquirida mediante un magnetómetro de precesión de protones, diseñado para registrar las variaciones del campo magnético terrestre en cada estación de observación, proporcionando datos sobre la susceptibilidad magnética de las rocas y sus posibles alteraciones térmicas o mineralógicas. En cuanto a la resistividad eléctrica, esta se midió utilizando equipos de prospección geoeléctrica, los cuales inyectan corriente continua en el subsuelo mediante electrodos de corriente, mientras que otros electrodos de potencial miden la diferencia de voltaje generada; con estos valores se calcula la resistividad aparente de los materiales, propiedad directamente relacionada con su contenido de fluidos, salinidad y grado de alteración hidrotermal. Finalmente, la altitud y las coordenadas planas (X, Y) de cada punto de medición fueron registradas con receptores GPS de alta precisión.
La adquisición de la totalidad de estos datos tuvo como propósito fundamental la construcción de un modelo conceptual descriptivo integral del área geotérmica asociada al volcán Azufral. Dicho modelo constituye una representación gráfica e interpretativa del comportamiento del sistema geotérmico, elaborada a partir de la integración de las distintas perspectivas obtenidas mediante los métodos geofísicos aplicados en campo.
Las variables descritas constituyen el conjunto de parámetros empleados para el desarrollo del modelo de regresión lineal multivariada, en el cual la temperatura del subsuelo a 150 cm se consideró como la variable dependiente. Las restantes variables corresponden a parámetros geofísicos y espaciales de naturaleza numérica continua, utilizadas como variables explicativas con el propósito de identificar relaciones estadísticas significativas que permitan interpretar el comportamiento térmico del sistema geotérmico del volcán Azufral.
| Variable | Unidades | Nº de muestras | Tipo de variable |
|---|---|---|---|
| Temperatura a 150 cm de profundidad | °C | 323 | Dependiente (numérica) |
| Temperatura a 20 cm de profundidad | °C | 323 | Independiente (numérica) |
| Densidad | g/cm³ | 323 | Independiente (numérica) |
| Magnetismo (susceptibilidad magnética) | nT (nanoteslas) | 323 | Independiente (numérica) |
| Resistividad eléctrica | Ω·m (Ohmio–metro) | 323 | Independiente (numérica) |
| Altura (elevación) | metro | 323 | Independiente (numérica) |
| Coordenada X (dirección este) | metro | 323 | Independiente (numérica) |
| Coordenada Y (dirección norte) | metro | 323 | Independiente (numérica) |
Durante la primera fase del análisis exploratorio se elaboraron los diagramas de dispersión entre la variable dependiente, temperatura a 150 cm de profundidad, y cada una de las variables explicativas, las cuales corresponden a la temperatura a 20 cm, densidad, magnetismo, resistividad, altitud, así como las coordenadas X y Y. Este procedimiento permitió identificar visualmente patrones de asociación y posibles tendencias lineales entre las variables involucradas, como paso previo al modelamiento estadístico (Figura 1).
Figura 1. Diagramas de dispersion entre la variable dependiente Tempe_a_150cm y cada una de las variables independientes
A partir de la inspección gráfica se evidenció que la temperatura a 20 cm presenta una correlación lineal positiva con la variable dependiente, mientras que la altitud exhibe una correlación lineal negativa, ambas de carácter claramente perceptible. En contraste, las demás variables no mostraron relaciones lineales aparentes, lo que sugiere la posibilidad de asociaciones más complejas o no lineales que no pueden ser determinadas únicamente mediante la inspección visual. Por tal motivo, se procedió a cuantificar el grado y la dirección de dichas asociaciones mediante la estimación de los coeficientes de correlación de Pearson y Spearman, herramientas estadísticas que permiten evaluar, respectivamente, la relación lineal y la relación monótona entre las variables analizadas (Figura2).
Figura 2. Coeficientes de correlacion de Pearson y Spearman para la relacion entre la variable dependiente (Temperatura a 150 cm de profundidad) y las variables independientes
| Variable | Pearson | Spearman |
|---|---|---|
| Tempe_a_20cm | 0.8993678 | 0.8328376 |
| Densidad | -0.1487777 | -0.3287844 |
| Magnetismo | 0.2127106 | 0.2274535 |
| Resistividad | -0.3974289 | -0.3488978 |
| Altura | -0.8477914 | -0.7131400 |
| X_Magna | 0.1717442 | 0.1752734 |
| Y_Magna | -0.1893386 | -0.1661384 |
De acuerdo con los resultados obtenidos en la estimación de los coeficientes de correlación de Pearson y Spearman, se evidenció que las relaciones más fuertes y consistentes corresponden a las variables temperatura a 20 centímetros de profundidad, altitud y resistividad. La temperatura a 20 centímetros presentó un coeficiente de correlación lineal cercano a 0.90, mientras que la altitud mostró una correlación negativa de aproximadamente -0.85 y la resistividad una correlación negativa moderada cercana a -0.40. Estas tres variables se consideran, por tanto, las mejores candidatas para explicar el comportamiento de la temperatura a 150 centímetros de profundidad dentro de un modelo de tipo lineal.
Por otra parte, las variables magnetismo y las coordenadas espaciales X y Y evidenciaron valores de correlación inferiores a 0.25, lo que indica asociaciones muy débiles o poco relevantes respecto a la variable dependiente, sugiriendo que su influencia podría ser indirecta o estadísticamente no significativa dentro del modelo. La variable densidad, en cambio, presentó un comportamiento particular: su coeficiente de correlación de Pearson resultó débil, mientras que el de Spearman fue más alto, lo que sugiere la existencia de una relación no estrictamente lineal que podría responder a patrones de tipo curvilíneo, umbrales o posibles interacciones entre variables.
En términos generales, el hecho de que el coeficiente de Pearson sea superior al de Spearman en el caso de la temperatura a 20 centímetros confirma que esta relación tiende a seguir un comportamiento predominantemente lineal. Sin embargo, para variables como el magnetismo, la resistividad y la altitud, en las cuales el coeficiente de Spearman supera al de Pearson, se infiere la posible presencia de relaciones no lineales, las cuales podrían ser mejor representadas mediante modelos que incluyan términos cuadráticos o transformaciones no lineales. Finalmente, las coordenadas espaciales X y Y mostraron correlaciones cercanas a cero, lo que indica una dependencia espacial mínima en el comportamiento térmico del subsuelo dentro del área de estudio, reafirmando que su contribución al modelo multivariado sería marginal.
Durante la etapa de análisis exploratorio, se construyeron tambien diagramas de caja para identificar la presencia de valores atípicos en todas las variables analizadas (Figura 3). En la temperatura medida a 150 centímetros de profundidad se observaron datos atípicos en múltiples puntos, situación que también se repite en la temperatura a 20 centímetros, en el magnetismo de las rocas, en la densidad, en la resistividad y en la altitud. Dichos valores se distribuyen tanto por encima como por debajo de los bigotes de las cajas, lo que evidencia la existencia de mediciones extremas que podrían corresponder a zonas con comportamientos anómalos del subsuelo o a condiciones geológicas particulares dentro del área de estudio.
Figura 3. Diagramas de cajas para cada una de las variables del modelo de regresion lineal multiple
Adicionalmente, el análisis visual del ancho de las cajas permitió inferir el grado de dispersión de los datos. Se observó que las variables densidad y coordenadas X y Y presentan una amplitud considerable, lo que indica una elevada variabilidad interna, mientras que otras variables, como la resistividad, exhiben cajas de menor tamaño, reflejando una dispersión reducida y una mayor homogeneidad en sus valores.
Otro aspecto relevante identificado a partir de los diagramas de caja fue la forma de la distribución de cada variable, la cual permite determinar si los datos presentan sesgo o simetría. En este sentido, la temperatura a 150 centímetros mostró una distribución aproximadamente simétrica, mientras que la temperatura a 20 centímetros, la densidad, el magnetismo y la resistividad evidenciaron un sesgo hacia la izquierda, aunque en el caso de la resistividad dicho comportamiento se presenta acompañado de una baja dispersión. Por su parte, las variables altitud y las coordenadas espaciales X y Y tienden a mostrar distribuciones más equilibradas, próximas a la simetría, lo cual sugiere una distribución relativamente uniforme de las mediciones en el espacio geográfico analizado.
Durante la siguiente fase del análisis exploratorio se generaron los denominados diagramas de interacción, los cuales permiten visualizar cómo el efecto de una variable explicativa sobre la variable dependiente puede modificarse en función del nivel o magnitud de otra variable explicativa.
En este caso, se construyeron diversos diagramas para evaluar las interacciones entre las variables magnetismo, resistividad y densidad, con respecto a la temperatura del subsuelo a 150 centímetros de profundidad. Inicialmente, se elaboró un gráfico del magnetismo frente a la temperatura a 150 centímetros, considerando la resistividad como variable moderadora. De manera recíproca, se generó un diagrama de resistividad versus temperatura, analizando la interacción con la variable de magnetismo. Posteriormente, se representó la relación entre resistividad y temperatura, incorporando la densidad como factor de interacción, y se examinó de forma inversa la relación entre densidad y temperatura, evaluando la influencia de la resistividad.
Finalmente, se exploró la interacción entre la densidad y el magnetismo, con el propósito de identificar posibles dependencias cruzadas entre ambas propiedades físicas del subsuelo. En conjunto, estos diagramas permitieron observar visualmente la existencia de posibles efectos de interacción, los cuales podrían ser considerados en etapas posteriores del modelamiento estadístico para mejorar la explicación del comportamiento térmico a 150 centímetros de profundidad dentro del sistema geotérmico del volcán Azufral.
Figura 4. Diagramas de interacción entre las variables independientes y la dependiente
Debido a que las variables independientes son de naturaleza numérica, fue necesario realizar un paso adicional para evaluar las posibles interacciones entre pares de variables explicativas con respecto a la variable dependiente. Este procedimiento consistió en clasificar las variables numéricas en categorías, lo cual permitió observar los patrones de interacción de manera más clara en los diagramas.
Por ejemplo, la variable densidad se dividió en tres grupos: el primero correspondiente a valores bajos, asociados a rocas fracturadas; el segundo, a valores intermedios que representan un grado medio de fracturamiento; y el tercero, a valores altos, que indican rocas compactas sin fracturas. De forma análoga, la variable magnetismo se categorizó también en tres grupos: uno que representa rocas alteradas térmicamente (de comportamiento diamagnético), otro que refleja un estado intermedio de alteración y un tercer grupo que corresponde a rocas con alta magnetización, es decir, poco afectadas por procesos externos.
Por último, la variable resistividad se clasificó en tres rangos: valores bajos asociados a materiales arcillosos; valores intermedios, entre 10 y 70 ohmios, vinculados a posibles reservorios geotérmicos; y valores altos, mayores a 70 ohmios, correspondientes a rocas más compactas, donde la corriente eléctrica encuentra mayor resistencia para propagarse.
Una vez realizadas estas clasificaciones, se elaboraron los diagramas de interacción, en los cuales se observó que las líneas que representan los diferentes niveles de las variables independientes no son paralelas, sino que se interceptan en distintos puntos del gráfico. Este comportamiento sugiere la existencia de una interacción significativa entre las variables explicativas, lo que indica que tanto la resistividad, como la densidad y el magnetismo pueden influir conjuntamente en la variabilidad de la temperatura a 150 cm de profundidad.
Con base en la información obtenida durante el análisis exploratorio de los datos, se procedió a construir un modelo de regresión lineal múltiple. En este modelo, las variables resistividad, densidad y magnetismo fueron elevadas al cuadrado, dado que al comparar los coeficientes de correlación de Spearman con los de Pearson se observó que los valores de Spearman eran consistentemente mayores. Esta diferencia sugería la presencia de relaciones no lineales entre dichas variables y la temperatura a 150 cm de profundidad, lo cual justificó la necesidad de incorporar términos cuadráticos en el modelo.
Adicionalmente, y considerando los resultados obtenidos en los diagramas de interacción, se incluyeron en el modelo los términos de interacción entre magnetismo y resistividad, magnetismo y densidad, así como entre resistividad y densidad.
Al finalizar el proceso de construcción del modelo de regresión lineal multivariada, los resultados obtenidos en el resumen de las estadísticas mostraron que todos los parámetros beta son estadísticamente significativos, ya que sus p-valores fueron inferiores al nivel de significancia seleccionado. Esto permite rechazar la hipótesis nula de que los parámetros beta son iguales a cero, lo cual valida la relevancia de las variables incluidas en el modelo para explicar la variabilidad de la temperatura a 150 cm de profundidad. De esta manera, el modelo construido proporciona una descripción robusta y explicativa del comportamiento térmico del subsuelo, considerando tanto las propiedades físicas del material rocoso como la influencia de las características geofísicas observadas en el área de estudio.
Modelo 1 de regresión lineal múltiple
##
## Call:
## lm(formula = Tempe_a_150cm ~ . + Magnetismo * Resistividad_cat +
## Magnetismo * Densidad_cat + Resistividad * Magnetismo_cat +
## Resistividad * Densidad_cat + Densidad * Magnetismo_cat +
## Densidad * Resistividad_cat + I(Resistividad^2) + I(Densidad^2) +
## I(Magnetismo^2), data = datos_mutivariados)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.33148 -0.54196 -0.01168 0.52051 2.28919
##
## Coefficients:
## Estimate Std. Error t value
## (Intercept) -1.426e+03 1.660e+03 -0.859
## Tempe_a_20cm 5.387e-01 3.660e-02 14.716
## Densidad 1.254e+00 1.427e+00 0.879
## Magnetismo 1.075e-03 7.158e-04 1.501
## Resistividad -1.366e-04 1.009e-04 -1.354
## Altura -3.295e-03 5.112e-04 -6.446
## X_Magna 6.472e-06 2.202e-05 0.294
## Y_Magna -1.119e-05 2.902e-05 -0.386
## Densidad_catMedia (intermedia) 6.023e-01 2.578e-01 2.336
## Densidad_catAlta (compacta) 1.554e+00 5.511e-01 2.820
## Magnetismo_catMagnético medio -2.567e+01 2.776e+01 -0.925
## Magnetismo_catMuy magnético -3.992e+01 6.852e+01 -0.583
## Resistividad_catBasamento 1.452e+01 5.498e+01 0.264
## I(Resistividad^2) 8.891e-09 5.666e-09 1.569
## I(Densidad^2) -2.721e-04 3.059e-04 -0.889
## I(Magnetismo^2) -3.107e-07 7.965e-07 -0.390
## Magnetismo:Resistividad_catBasamento 4.422e-04 7.804e-04 0.567
## Magnetismo:Densidad_catMedia (intermedia) -1.090e-03 6.909e-04 -1.577
## Magnetismo:Densidad_catAlta (compacta) -1.202e-03 1.330e-03 -0.904
## Resistividad:Magnetismo_catMagnético medio 1.739e-06 5.575e-05 0.031
## Resistividad:Magnetismo_catMuy magnético 8.141e-04 3.560e-03 0.229
## Resistividad:Densidad_catMedia (intermedia) -7.541e-06 5.523e-05 -0.137
## Resistividad:Densidad_catAlta (compacta) -1.014e-04 1.337e-04 -0.758
## Densidad:Magnetismo_catMagnético medio 1.085e-02 1.191e-02 0.911
## Densidad:Magnetismo_catMuy magnético 1.664e-02 2.948e-02 0.564
## Densidad:Resistividad_catBasamento -6.301e-03 2.364e-02 -0.267
## Pr(>|t|)
## (Intercept) 0.39103
## Tempe_a_20cm < 2e-16 ***
## Densidad 0.38020
## Magnetismo 0.13434
## Resistividad 0.17674
## Altura 4.57e-10 ***
## X_Magna 0.76898
## Y_Magna 0.70005
## Densidad_catMedia (intermedia) 0.02012 *
## Densidad_catAlta (compacta) 0.00512 **
## Magnetismo_catMagnético medio 0.35575
## Magnetismo_catMuy magnético 0.56065
## Resistividad_catBasamento 0.79194
## I(Resistividad^2) 0.11763
## I(Densidad^2) 0.37458
## I(Magnetismo^2) 0.69675
## Magnetismo:Resistividad_catBasamento 0.57134
## Magnetismo:Densidad_catMedia (intermedia) 0.11578
## Magnetismo:Densidad_catAlta (compacta) 0.36668
## Resistividad:Magnetismo_catMagnético medio 0.97513
## Resistividad:Magnetismo_catMuy magnético 0.81928
## Resistividad:Densidad_catMedia (intermedia) 0.89149
## Resistividad:Densidad_catAlta (compacta) 0.44889
## Densidad:Magnetismo_catMagnético medio 0.36314
## Densidad:Magnetismo_catMuy magnético 0.57289
## Densidad:Resistividad_catBasamento 0.79000
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.808 on 300 degrees of freedom
## (3 observations deleted due to missingness)
## Multiple R-squared: 0.8582, Adjusted R-squared: 0.8464
## F-statistic: 72.63 on 25 and 300 DF, p-value: < 2.2e-16
Posteriormente, con el propósito de mejorar el ajuste del modelo y lograr que las variables explicativas alcanzaran un nivel de significancia estadística más adecuado, se consideraron los resultados obtenidos en los diagramas de caja (boxplots). En estos gráficos se identificaron valores atípicos en las variables densidad, magnetismo y resistividad, tanto por encima del bigote superior como por debajo del bigote inferior. Con base en ello, se procedió a detectar los valores que excedían los límites establecidos por el rango intercuartílico (IQR), los cuales fueron eliminados de la base de datos. Los nuevos registros depurados se almacenaron en un objeto independiente dentro del entorno de R, con el fin de ajustar un nuevo modelo de regresión lineal multivariada bajo las mismas condiciones del modelo inicial y asi poder evaluar la influencia de estas variables depuradas en la temperatura a 150 cm de profundidad.
El segundo modelo de regresión lineal múltiple mantuvo las mismas variables explicativas, así como los términos cuadráticos e interacciones entre variables que se habían incorporado en el primer modelo. Sin embargo, al evaluar los resultados de las estimaciones de los parámetros beta, se observó que la variable dummy de la densidad, generada a partir de las nuevas categorías asignadas a la densidad, emergió como una variable estadísticamente significativa en el modelo.
Esta incorporación de la variable categórica dummy de densidad como significativa contribuyó a un aumento en el coeficiente de determinación (R² múltiple), que pasó de un 82.59% en el modelo 1 a un 85.82% en el modelo 2. Este incremento en R² refleja una mejora en la capacidad explicativa del modelo, sugiriendo que la clasificación de la densidad en diferentes rangos proporciona una mayor capacidad de predicción y ajuste en relación con la temperatura a 150 cm de profundidad.
Modelo 2 de regresión lineal múltiple
##
## Call:
## lm(formula = Tempe_a_150cm ~ . + I(Resistividad^2) + I(Densidad^2) +
## I(Magnetismo^2) + Magnetismo:Resistividad + Magnetismo:Densidad +
## Resistividad:Densidad, data = datos_sin_outliers)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.33928 -0.51089 -0.03308 0.49039 2.12959
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.740e+03 4.856e+03 0.770 0.4420
## Tempe_a_20cm 5.487e-01 3.809e-02 14.405 < 2e-16 ***
## Densidad -3.183e+00 4.173e+00 -0.763 0.4464
## Magnetismo -7.366e-02 1.061e-01 -0.694 0.4882
## Resistividad 9.754e-02 1.671e-01 0.584 0.5601
## Altura -3.636e-03 6.294e-04 -5.777 2.38e-08 ***
## X_Magna 7.647e-07 2.232e-05 0.034 0.9727
## Y_Magna -1.657e-05 2.993e-05 -0.554 0.5803
## Densidad_catMedia (intermedia) 3.706e-01 2.921e-01 1.269 0.2058
## Densidad_catAlta (compacta) 9.276e-01 7.407e-01 1.252 0.2117
## Magnetismo_catMagnético medio -3.927e-01 2.270e-01 -1.730 0.0849 .
## Magnetismo_catMuy magnético -9.879e-01 5.009e-01 -1.972 0.0497 *
## Resistividad_catBasamento -3.937e-02 1.634e-01 -0.241 0.8098
## I(Resistividad^2) 3.270e-07 1.135e-06 0.288 0.7735
## I(Densidad^2) 6.821e-04 8.964e-04 0.761 0.4474
## I(Magnetismo^2) 2.764e-07 3.118e-06 0.089 0.9294
## Magnetismo:Resistividad -3.028e-06 2.650e-06 -1.143 0.2543
## Densidad:Magnetismo 3.223e-05 4.547e-05 0.709 0.4791
## Densidad:Resistividad -4.183e-05 7.179e-05 -0.583 0.5607
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.7654 on 236 degrees of freedom
## Multiple R-squared: 0.824, Adjusted R-squared: 0.8105
## F-statistic: 61.37 on 18 and 236 DF, p-value: < 2.2e-16
Estos resultados sugieren, inicialmente, que una de las estrategias adecuadas podría ser eliminar los datos atípicos de la base de datos, lo cual aparentemente mejora el ajuste del modelo. Sin embargo, para validar la inclusión de los parámetros y evaluar la robustez del modelo, se decidió aplicar un método estadístico adicional: la función step() Este procedimiento se utilizó tanto en el modelo 1 como en el modelo 2 con el fin de observar cómo variaban los parámetros del modelo al aplicar este criterio de selección automatizado.
La función step() permite realizar una selección de variables basada en un criterio de información, como el criterio de Akaike (AIC), lo que permite evaluar qué variables se mantienen en el modelo para optimizar la capacidad explicativa sin comprometer la complejidad del modelo. El análisis de estos resultados proporcionó una visión adicional sobre la validez y relevancia de los parámetros incluidos en cada modelo, contribuyendo a una mayor precisión en la evaluación de la temperatura a 150 cm de profundidad.
Funcion Step para el modelo 1
## Start: AIC=-114.13
## Tempe_a_150cm ~ Tempe_a_20cm + Densidad + Magnetismo + Resistividad +
## Altura + X_Magna + Y_Magna + Densidad_cat + Magnetismo_cat +
## Resistividad_cat + Magnetismo * Resistividad_cat + Magnetismo *
## Densidad_cat + Resistividad * Magnetismo_cat + Resistividad *
## Densidad_cat + Densidad * Magnetismo_cat + Densidad * Resistividad_cat +
## I(Resistividad^2) + I(Densidad^2) + I(Magnetismo^2)
##
## Df Sum of Sq RSS AIC
## - Resistividad:Magnetismo_cat 2 0.035 195.87 -118.076
## - Resistividad:Densidad_cat 2 0.376 196.21 -117.508
## - Densidad:Magnetismo_cat 2 0.586 196.42 -117.159
## - Densidad:Resistividad_cat 1 0.046 195.88 -116.057
## - X_Magna 1 0.056 195.89 -116.040
## - Y_Magna 1 0.097 195.93 -115.972
## - I(Magnetismo^2) 1 0.099 195.94 -115.969
## - Magnetismo:Resistividad_cat 1 0.210 196.05 -115.785
## - Magnetismo:Densidad_cat 2 1.643 197.48 -115.410
## - I(Densidad^2) 1 0.516 196.35 -115.276
## <none> 195.84 -114.134
## - I(Resistividad^2) 1 1.608 197.44 -113.469
## - Altura 1 27.126 222.96 -73.844
## - Tempe_a_20cm 1 141.378 337.22 61.027
##
## Step: AIC=-118.08
## Tempe_a_150cm ~ Tempe_a_20cm + Densidad + Magnetismo + Resistividad +
## Altura + X_Magna + Y_Magna + Densidad_cat + Magnetismo_cat +
## Resistividad_cat + I(Resistividad^2) + I(Densidad^2) + I(Magnetismo^2) +
## Magnetismo:Resistividad_cat + Magnetismo:Densidad_cat + Resistividad:Densidad_cat +
## Densidad:Magnetismo_cat + Densidad:Resistividad_cat
##
## Df Sum of Sq RSS AIC
## - Resistividad:Densidad_cat 2 0.388 196.26 -121.431
## - Densidad:Magnetismo_cat 2 0.605 196.48 -121.071
## - X_Magna 1 0.045 195.92 -120.002
## - Densidad:Resistividad_cat 1 0.058 195.93 -119.980
## - Y_Magna 1 0.086 195.96 -119.933
## - I(Magnetismo^2) 1 0.101 195.97 -119.908
## - Magnetismo:Resistividad_cat 1 0.458 196.33 -119.315
## - I(Densidad^2) 1 0.506 196.38 -119.234
## - Magnetismo:Densidad_cat 2 1.787 197.66 -119.116
## <none> 195.87 -118.076
## - I(Resistividad^2) 1 1.740 197.61 -117.193
## - Altura 1 27.602 223.47 -77.099
## - Tempe_a_20cm 1 141.621 337.49 57.294
##
## Step: AIC=-121.43
## Tempe_a_150cm ~ Tempe_a_20cm + Densidad + Magnetismo + Resistividad +
## Altura + X_Magna + Y_Magna + Densidad_cat + Magnetismo_cat +
## Resistividad_cat + I(Resistividad^2) + I(Densidad^2) + I(Magnetismo^2) +
## Magnetismo:Resistividad_cat + Magnetismo:Densidad_cat + Densidad:Magnetismo_cat +
## Densidad:Resistividad_cat
##
## Df Sum of Sq RSS AIC
## - Densidad:Magnetismo_cat 2 0.589 196.85 -124.455
## - Densidad:Resistividad_cat 1 0.033 196.29 -123.376
## - Y_Magna 1 0.082 196.34 -123.294
## - X_Magna 1 0.088 196.35 -123.285
## - I(Magnetismo^2) 1 0.135 196.40 -123.206
## - Magnetismo:Resistividad_cat 1 0.485 196.75 -122.626
## - I(Densidad^2) 1 0.523 196.78 -122.563
## - Magnetismo:Densidad_cat 2 1.740 198.00 -122.554
## <none> 196.26 -121.431
## - I(Resistividad^2) 1 2.143 198.40 -119.891
## - Resistividad 1 3.432 199.69 -117.780
## - Altura 1 28.069 224.33 -79.854
## - Tempe_a_20cm 1 141.257 337.52 53.318
##
## Step: AIC=-124.45
## Tempe_a_150cm ~ Tempe_a_20cm + Densidad + Magnetismo + Resistividad +
## Altura + X_Magna + Y_Magna + Densidad_cat + Magnetismo_cat +
## Resistividad_cat + I(Resistividad^2) + I(Densidad^2) + I(Magnetismo^2) +
## Magnetismo:Resistividad_cat + Magnetismo:Densidad_cat + Densidad:Resistividad_cat
##
## Df Sum of Sq RSS AIC
## - Magnetismo:Densidad_cat 2 1.185 198.03 -126.499
## - Densidad:Resistividad_cat 1 0.000 196.85 -126.455
## - X_Magna 1 0.054 196.90 -126.366
## - Y_Magna 1 0.143 196.99 -126.217
## - I(Magnetismo^2) 1 0.193 197.04 -126.135
## - Magnetismo:Resistividad_cat 1 0.586 197.43 -125.486
## - I(Densidad^2) 1 0.758 197.61 -125.202
## <none> 196.85 -124.455
## - I(Resistividad^2) 1 2.116 198.96 -122.969
## - Resistividad 1 3.375 200.22 -120.913
## - Magnetismo_cat 2 4.840 201.69 -120.537
## - Altura 1 27.710 224.56 -83.521
## - Tempe_a_20cm 1 151.782 348.63 59.879
##
## Step: AIC=-126.5
## Tempe_a_150cm ~ Tempe_a_20cm + Densidad + Magnetismo + Resistividad +
## Altura + X_Magna + Y_Magna + Densidad_cat + Magnetismo_cat +
## Resistividad_cat + I(Resistividad^2) + I(Densidad^2) + I(Magnetismo^2) +
## Magnetismo:Resistividad_cat + Densidad:Resistividad_cat
##
## Df Sum of Sq RSS AIC
## - Densidad:Resistividad_cat 1 0.000 198.03 -128.499
## - X_Magna 1 0.102 198.14 -128.331
## - Magnetismo:Resistividad_cat 1 0.110 198.14 -128.319
## - Y_Magna 1 0.197 198.23 -128.175
## - I(Magnetismo^2) 1 0.225 198.26 -128.129
## - I(Densidad^2) 1 0.822 198.85 -127.149
## <none> 198.03 -126.499
## - I(Resistividad^2) 1 2.287 200.32 -124.756
## - Magnetismo_cat 2 4.148 202.18 -123.741
## - Resistividad 1 3.566 201.60 -122.681
## - Densidad_cat 2 4.939 202.97 -122.468
## - Altura 1 28.066 226.10 -85.292
## - Tempe_a_20cm 1 152.578 350.61 57.727
##
## Step: AIC=-128.5
## Tempe_a_150cm ~ Tempe_a_20cm + Densidad + Magnetismo + Resistividad +
## Altura + X_Magna + Y_Magna + Densidad_cat + Magnetismo_cat +
## Resistividad_cat + I(Resistividad^2) + I(Densidad^2) + I(Magnetismo^2) +
## Magnetismo:Resistividad_cat
##
## Df Sum of Sq RSS AIC
## - X_Magna 1 0.107 198.14 -130.323
## - Magnetismo:Resistividad_cat 1 0.110 198.14 -130.319
## - Y_Magna 1 0.201 198.23 -130.168
## - I(Magnetismo^2) 1 0.228 198.26 -130.124
## - Densidad 1 0.919 198.95 -128.990
## - I(Densidad^2) 1 0.936 198.97 -128.961
## <none> 198.03 -128.499
## - I(Resistividad^2) 1 2.288 200.32 -126.754
## - Magnetismo_cat 2 4.292 202.33 -125.508
## - Resistividad 1 3.576 201.61 -124.665
## - Densidad_cat 2 5.254 203.29 -123.962
## - Altura 1 28.323 226.36 -86.920
## - Tempe_a_20cm 1 153.059 351.09 56.173
##
## Step: AIC=-130.32
## Tempe_a_150cm ~ Tempe_a_20cm + Densidad + Magnetismo + Resistividad +
## Altura + Y_Magna + Densidad_cat + Magnetismo_cat + Resistividad_cat +
## I(Resistividad^2) + I(Densidad^2) + I(Magnetismo^2) + Magnetismo:Resistividad_cat
##
## Df Sum of Sq RSS AIC
## - Y_Magna 1 0.107 198.25 -132.147
## - Magnetismo:Resistividad_cat 1 0.126 198.27 -132.116
## - I(Magnetismo^2) 1 0.180 198.32 -132.028
## - Densidad 1 0.944 199.08 -130.774
## - I(Densidad^2) 1 0.965 199.11 -130.738
## <none> 198.14 -130.323
## - I(Resistividad^2) 1 2.747 200.89 -127.835
## - Magnetismo_cat 2 4.303 202.44 -127.319
## - Densidad_cat 2 5.281 203.42 -125.747
## - Resistividad 1 4.584 202.72 -124.867
## - Altura 1 28.873 227.01 -87.976
## - Tempe_a_20cm 1 164.241 362.38 64.490
##
## Step: AIC=-132.15
## Tempe_a_150cm ~ Tempe_a_20cm + Densidad + Magnetismo + Resistividad +
## Altura + Densidad_cat + Magnetismo_cat + Resistividad_cat +
## I(Resistividad^2) + I(Densidad^2) + I(Magnetismo^2) + Magnetismo:Resistividad_cat
##
## Df Sum of Sq RSS AIC
## - I(Magnetismo^2) 1 0.169 198.42 -133.870
## - Magnetismo:Resistividad_cat 1 0.243 198.49 -133.748
## - Densidad 1 0.837 199.08 -132.774
## - I(Densidad^2) 1 0.859 199.11 -132.738
## <none> 198.25 -132.147
## - I(Resistividad^2) 1 2.642 200.89 -129.832
## - Magnetismo_cat 2 5.005 203.25 -128.019
## - Densidad_cat 2 5.518 203.76 -127.198
## - Resistividad 1 4.478 202.72 -126.865
## - Altura 1 28.773 227.02 -89.967
## - Tempe_a_20cm 1 164.653 362.90 62.957
##
## Step: AIC=-133.87
## Tempe_a_150cm ~ Tempe_a_20cm + Densidad + Magnetismo + Resistividad +
## Altura + Densidad_cat + Magnetismo_cat + Resistividad_cat +
## I(Resistividad^2) + I(Densidad^2) + Magnetismo:Resistividad_cat
##
## Df Sum of Sq RSS AIC
## - Magnetismo:Resistividad_cat 1 0.197 198.61 -135.547
## - Densidad 1 0.813 199.23 -134.537
## - I(Densidad^2) 1 0.835 199.25 -134.500
## <none> 198.42 -133.870
## - I(Resistividad^2) 1 2.694 201.11 -131.473
## - Resistividad 1 4.479 202.89 -128.593
## - Densidad_cat 2 5.773 204.19 -128.520
## - Magnetismo_cat 2 6.118 204.53 -127.970
## - Altura 1 29.354 227.77 -90.892
## - Tempe_a_20cm 1 164.561 362.98 61.026
##
## Step: AIC=-135.55
## Tempe_a_150cm ~ Tempe_a_20cm + Densidad + Magnetismo + Resistividad +
## Altura + Densidad_cat + Magnetismo_cat + Resistividad_cat +
## I(Resistividad^2) + I(Densidad^2)
##
## Df Sum of Sq RSS AIC
## - Resistividad_cat 1 0.240 198.85 -137.153
## - Densidad 1 0.786 199.40 -136.258
## - I(Densidad^2) 1 0.809 199.42 -136.222
## <none> 198.61 -135.547
## - I(Resistividad^2) 1 2.651 201.26 -133.224
## - Magnetismo 1 3.565 202.18 -131.747
## - Resistividad 1 4.452 203.06 -130.320
## - Densidad_cat 2 5.713 204.33 -130.302
## - Magnetismo_cat 2 6.642 205.25 -128.823
## - Altura 1 29.157 227.77 -92.892
## - Tempe_a_20cm 1 167.068 365.68 61.445
##
## Step: AIC=-137.15
## Tempe_a_150cm ~ Tempe_a_20cm + Densidad + Magnetismo + Resistividad +
## Altura + Densidad_cat + Magnetismo_cat + I(Resistividad^2) +
## I(Densidad^2)
##
## Df Sum of Sq RSS AIC
## - Densidad 1 0.734 199.59 -137.952
## - I(Densidad^2) 1 0.756 199.61 -137.915
## <none> 198.85 -137.153
## - I(Resistividad^2) 1 2.917 201.77 -134.405
## - Magnetismo 1 3.619 202.47 -133.274
## - Densidad_cat 2 5.728 204.58 -131.894
## - Resistividad 1 4.859 203.71 -131.282
## - Magnetismo_cat 2 7.264 206.12 -129.457
## - Altura 1 30.077 228.93 -93.235
## - Tempe_a_20cm 1 166.859 365.71 59.473
##
## Step: AIC=-137.95
## Tempe_a_150cm ~ Tempe_a_20cm + Magnetismo + Resistividad + Altura +
## Densidad_cat + Magnetismo_cat + I(Resistividad^2) + I(Densidad^2)
##
## Df Sum of Sq RSS AIC
## <none> 199.59 -137.952
## - I(Resistividad^2) 1 2.781 202.37 -135.441
## - Densidad_cat 2 5.034 204.62 -133.832
## - Magnetismo 1 3.893 203.48 -133.655
## - I(Densidad^2) 1 3.902 203.49 -133.640
## - Resistividad 1 4.731 204.32 -132.315
## - Magnetismo_cat 2 7.355 206.94 -130.154
## - Altura 1 29.363 228.95 -95.208
## - Tempe_a_20cm 1 167.003 366.59 58.255
##
## Call:
## lm(formula = Tempe_a_150cm ~ Tempe_a_20cm + Magnetismo + Resistividad +
## Altura + Densidad_cat + Magnetismo_cat + I(Resistividad^2) +
## I(Densidad^2), data = datos_mutivariados)
##
## Coefficients:
## (Intercept) Tempe_a_20cm
## 3.911e+01 5.460e-01
## Magnetismo Resistividad
## 9.943e-04 -1.602e-04
## Altura Densidad_catMedia (intermedia)
## -3.246e-03 4.460e-01
## Densidad_catAlta (compacta) Magnetismo_catMagnético medio
## 1.025e+00 -4.025e-01
## Magnetismo_catMuy magnético I(Resistividad^2)
## -1.087e+00 1.025e-08
## I(Densidad^2)
## -4.112e-06
Funcion Step para el modelo 2
## Start: AIC=-118.11
## Tempe_a_150cm ~ Tempe_a_20cm + Densidad + Magnetismo + Resistividad +
## Altura + X_Magna + Y_Magna + Densidad_cat + Magnetismo_cat +
## Resistividad_cat + I(Resistividad^2) + I(Densidad^2) + I(Magnetismo^2) +
## Magnetismo:Resistividad + Magnetismo:Densidad + Resistividad:Densidad
##
## Df Sum of Sq RSS AIC
## - X_Magna 1 0.001 138.25 -120.106
## - I(Magnetismo^2) 1 0.005 138.26 -120.099
## - Resistividad_cat 1 0.034 138.29 -120.045
## - Densidad_cat 2 1.124 139.38 -120.042
## - I(Resistividad^2) 1 0.049 138.30 -120.018
## - Y_Magna 1 0.180 138.43 -119.777
## - Densidad:Resistividad 1 0.199 138.45 -119.741
## - Densidad:Magnetismo 1 0.294 138.55 -119.565
## - I(Densidad^2) 1 0.339 138.59 -119.483
## - Magnetismo:Resistividad 1 0.765 139.02 -118.701
## <none> 138.25 -118.108
## - Magnetismo_cat 2 3.204 141.46 -116.266
## - Altura 1 19.553 157.81 -86.375
## - Tempe_a_20cm 1 121.558 259.81 40.765
##
## Step: AIC=-120.11
## Tempe_a_150cm ~ Tempe_a_20cm + Densidad + Magnetismo + Resistividad +
## Altura + Y_Magna + Densidad_cat + Magnetismo_cat + Resistividad_cat +
## I(Resistividad^2) + I(Densidad^2) + I(Magnetismo^2) + Magnetismo:Resistividad +
## Densidad:Magnetismo + Densidad:Resistividad
##
## Df Sum of Sq RSS AIC
## - I(Magnetismo^2) 1 0.005 138.26 -122.096
## - Resistividad_cat 1 0.034 138.29 -122.044
## - Densidad_cat 2 1.124 139.38 -122.042
## - I(Resistividad^2) 1 0.051 138.30 -122.012
## - Densidad:Resistividad 1 0.204 138.46 -121.730
## - Densidad:Magnetismo 1 0.296 138.55 -121.561
## - I(Densidad^2) 1 0.355 138.61 -121.452
## - Y_Magna 1 0.534 138.79 -121.124
## - Magnetismo:Resistividad 1 0.768 139.02 -120.693
## <none> 138.25 -120.106
## - Magnetismo_cat 2 3.231 141.48 -118.215
## - Altura 1 20.410 158.66 -86.994
## - Tempe_a_20cm 1 124.899 263.15 42.024
##
## Step: AIC=-122.1
## Tempe_a_150cm ~ Tempe_a_20cm + Densidad + Magnetismo + Resistividad +
## Altura + Y_Magna + Densidad_cat + Magnetismo_cat + Resistividad_cat +
## I(Resistividad^2) + I(Densidad^2) + Magnetismo:Resistividad +
## Densidad:Magnetismo + Densidad:Resistividad
##
## Df Sum of Sq RSS AIC
## - Resistividad_cat 1 0.030 138.29 -124.041
## - Densidad_cat 2 1.119 139.38 -124.041
## - I(Resistividad^2) 1 0.055 138.31 -123.995
## - Densidad:Resistividad 1 0.201 138.46 -123.727
## - Densidad:Magnetismo 1 0.314 138.57 -123.519
## - I(Densidad^2) 1 0.350 138.61 -123.452
## - Y_Magna 1 0.529 138.79 -123.123
## - Magnetismo:Resistividad 1 0.771 139.03 -122.678
## <none> 138.26 -122.096
## - Magnetismo_cat 2 3.253 141.51 -120.166
## - Altura 1 20.582 158.84 -88.709
## - Tempe_a_20cm 1 124.903 263.16 40.033
##
## Step: AIC=-124.04
## Tempe_a_150cm ~ Tempe_a_20cm + Densidad + Magnetismo + Resistividad +
## Altura + Y_Magna + Densidad_cat + Magnetismo_cat + I(Resistividad^2) +
## I(Densidad^2) + Magnetismo:Resistividad + Densidad:Magnetismo +
## Densidad:Resistividad
##
## Df Sum of Sq RSS AIC
## - Densidad_cat 2 1.120 139.41 -125.984
## - I(Resistividad^2) 1 0.090 138.38 -125.876
## - Densidad:Resistividad 1 0.181 138.47 -125.708
## - Densidad:Magnetismo 1 0.319 138.61 -125.454
## - I(Densidad^2) 1 0.333 138.62 -125.428
## - Y_Magna 1 0.558 138.84 -125.015
## - Magnetismo:Resistividad 1 0.780 139.07 -124.606
## <none> 138.29 -124.041
## - Magnetismo_cat 2 3.499 141.79 -121.670
## - Altura 1 21.311 159.60 -89.493
## - Tempe_a_20cm 1 126.134 264.42 39.252
##
## Step: AIC=-125.98
## Tempe_a_150cm ~ Tempe_a_20cm + Densidad + Magnetismo + Resistividad +
## Altura + Y_Magna + Magnetismo_cat + I(Resistividad^2) + I(Densidad^2) +
## Magnetismo:Resistividad + Densidad:Magnetismo + Densidad:Resistividad
##
## Df Sum of Sq RSS AIC
## - I(Resistividad^2) 1 0.116 139.52 -127.773
## - Densidad:Resistividad 1 0.133 139.54 -127.742
## - Densidad:Magnetismo 1 0.361 139.77 -127.324
## - Y_Magna 1 0.652 140.06 -126.795
## - Magnetismo:Resistividad 1 1.045 140.45 -126.081
## <none> 139.41 -125.984
## - I(Densidad^2) 1 1.139 140.55 -125.909
## - Magnetismo_cat 2 3.636 143.04 -123.418
## - Altura 1 26.335 165.74 -83.861
## - Tempe_a_20cm 1 127.379 266.79 37.522
##
## Step: AIC=-127.77
## Tempe_a_150cm ~ Tempe_a_20cm + Densidad + Magnetismo + Resistividad +
## Altura + Y_Magna + Magnetismo_cat + I(Densidad^2) + Magnetismo:Resistividad +
## Densidad:Magnetismo + Densidad:Resistividad
##
## Df Sum of Sq RSS AIC
## - Densidad:Resistividad 1 0.028 139.55 -129.721
## - Densidad:Magnetismo 1 0.280 139.80 -129.261
## - Magnetismo:Resistividad 1 0.930 140.45 -128.078
## - Y_Magna 1 0.984 140.51 -127.981
## <none> 139.52 -127.773
## - I(Densidad^2) 1 1.305 140.83 -127.399
## - Magnetismo_cat 2 3.525 143.05 -125.411
## - Altura 1 30.270 169.79 -79.703
## - Tempe_a_20cm 1 127.277 266.80 35.536
##
## Step: AIC=-129.72
## Tempe_a_150cm ~ Tempe_a_20cm + Densidad + Magnetismo + Resistividad +
## Altura + Y_Magna + Magnetismo_cat + I(Densidad^2) + Magnetismo:Resistividad +
## Densidad:Magnetismo
##
## Df Sum of Sq RSS AIC
## - Densidad:Magnetismo 1 0.253 139.81 -131.259
## - Magnetismo:Resistividad 1 0.906 140.46 -130.070
## - Y_Magna 1 0.966 140.52 -129.962
## <none> 139.55 -129.721
## - Magnetismo_cat 2 3.510 143.06 -127.386
## - I(Densidad^2) 1 2.640 142.19 -126.942
## - Altura 1 30.405 169.96 -81.458
## - Tempe_a_20cm 1 127.325 266.88 33.609
##
## Step: AIC=-131.26
## Tempe_a_150cm ~ Tempe_a_20cm + Densidad + Magnetismo + Resistividad +
## Altura + Y_Magna + Magnetismo_cat + I(Densidad^2) + Magnetismo:Resistividad
##
## Df Sum of Sq RSS AIC
## - Magnetismo:Resistividad 1 0.658 140.46 -132.061
## <none> 139.81 -131.259
## - Y_Magna 1 1.418 141.22 -130.685
## - Densidad 1 2.363 142.17 -128.985
## - I(Densidad^2) 1 2.387 142.19 -128.942
## - Magnetismo_cat 2 3.612 143.42 -128.755
## - Altura 1 30.186 169.99 -83.408
## - Tempe_a_20cm 1 127.314 267.12 31.840
##
## Step: AIC=-132.06
## Tempe_a_150cm ~ Tempe_a_20cm + Densidad + Magnetismo + Resistividad +
## Altura + Y_Magna + Magnetismo_cat + I(Densidad^2)
##
## Df Sum of Sq RSS AIC
## - Resistividad 1 0.077 140.54 -133.920
## - Y_Magna 1 0.990 141.45 -132.269
## <none> 140.46 -132.061
## - Magnetismo 1 1.430 141.89 -131.477
## - Densidad 1 2.436 142.90 -129.675
## - I(Densidad^2) 1 2.462 142.93 -129.629
## - Magnetismo_cat 2 3.652 144.12 -129.515
## - Altura 1 30.757 171.22 -83.570
## - Tempe_a_20cm 1 126.980 267.44 30.149
##
## Step: AIC=-133.92
## Tempe_a_150cm ~ Tempe_a_20cm + Densidad + Magnetismo + Altura +
## Y_Magna + Magnetismo_cat + I(Densidad^2)
##
## Df Sum of Sq RSS AIC
## - Y_Magna 1 1.048 141.59 -134.026
## <none> 140.54 -133.920
## - Magnetismo 1 1.415 141.96 -133.365
## - Densidad 1 2.503 143.04 -131.419
## - I(Densidad^2) 1 2.527 143.07 -131.376
## - Magnetismo_cat 2 3.659 144.20 -131.365
## - Altura 1 31.005 171.55 -85.085
## - Tempe_a_20cm 1 127.443 267.98 28.664
##
## Step: AIC=-134.03
## Tempe_a_150cm ~ Tempe_a_20cm + Densidad + Magnetismo + Altura +
## Magnetismo_cat + I(Densidad^2)
##
## Df Sum of Sq RSS AIC
## <none> 141.59 -134.026
## - Magnetismo 1 1.916 143.50 -132.598
## - Densidad 1 3.739 145.33 -129.380
## - I(Densidad^2) 1 3.745 145.33 -129.368
## - Magnetismo_cat 2 5.700 147.29 -127.962
## - Altura 1 30.428 172.02 -86.386
## - Tempe_a_20cm 1 126.564 268.15 26.825
##
## Call:
## lm(formula = Tempe_a_150cm ~ Tempe_a_20cm + Densidad + Magnetismo +
## Altura + Magnetismo_cat + I(Densidad^2), data = datos_sin_outliers)
##
## Coefficients:
## (Intercept) Tempe_a_20cm
## 4.294e+03 5.373e-01
## Densidad Magnetismo
## -3.662e+00 1.014e-03
## Altura Magnetismo_catMagnético medio
## -3.774e-03 -4.735e-01
## Magnetismo_catMuy magnético I(Densidad^2)
## -1.172e+00 7.840e-04
Después de aplicar la función STEP tanto al modelo 1 como al modelo 2, se procedió a ajustar nuevos modelos tomando como base las variables que dicho procedimiento identificó como las más relevantes para explicar la variabilidad de la variable dependiente
Modelo 3 de regresión lineal múltiple
##
## Call:
## lm(formula = Tempe_a_150cm ~ Tempe_a_20cm + Magnetismo + Resistividad +
## Altura + Densidad_cat + Magnetismo_cat + I(Resistividad^2) +
## I(Densidad^2), data = datos_mutivariados)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.28474 -0.55294 -0.01425 0.50721 2.29888
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.911e+01 8.988e+00 4.351 1.83e-05 ***
## Tempe_a_20cm 5.460e-01 3.363e-02 16.235 < 2e-16 ***
## Magnetismo 9.943e-04 4.012e-04 2.479 0.013711 *
## Resistividad -1.602e-04 5.862e-05 -2.732 0.006641 **
## Altura -3.246e-03 4.768e-04 -6.807 5.03e-11 ***
## Densidad_catMedia (intermedia) 4.460e-01 1.988e-01 2.243 0.025560 *
## Densidad_catAlta (compacta) 1.025e+00 3.690e-01 2.777 0.005823 **
## Magnetismo_catMagnético medio -4.025e-01 1.560e-01 -2.580 0.010328 *
## Magnetismo_catMuy magnético -1.087e+00 3.192e-01 -3.406 0.000744 ***
## I(Resistividad^2) 1.025e-08 4.892e-09 2.095 0.036973 *
## I(Densidad^2) -4.112e-06 1.657e-06 -2.482 0.013599 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.796 on 315 degrees of freedom
## (3 observations deleted due to missingness)
## Multiple R-squared: 0.8555, Adjusted R-squared: 0.8509
## F-statistic: 186.5 on 10 and 315 DF, p-value: < 2.2e-16
Al generar el nuevo modelo empleando únicamente las variables independientes seleccionadas mediante la función STEP aplicada al modelo 1, y tras examinar el correspondiente resumen estadístico, se evidenció que todos los coeficientes asociados a dichas variables resultaron estadísticamente significativos. Este comportamiento contrasta con lo observado en el denominado modelo 4, construido a partir de las variables sugeridas por la función STEP aplicada al modelo 2 —modelo en el que previamente se habían depurado los datos siguiendo los criterios derivados de los diagramas de cajas para la detección de valores atípicos—, ya que en este último varios parámetros no alcanzaron significancia estadística. En consecuencia, y considerando el balance entre capacidad explicativa, parsimonia y significancia de los coeficientes estimados, se determinó que el modelo 3 constituye la alternativa más adecuada para representar el comportamiento del sistema y explicar la variabilidad de la temperatura a 150 cm de profundidad. Este modelo, por lo tanto, se seleccionó como la especificación óptima dentro del conjunto de modelos evaluados.
Modelo 4 de regresión lineal múltiple
##
## Call:
## lm(formula = Tempe_a_150cm ~ Tempe_a_20cm + Magnetismo + Altura +
## Y_Magna + Densidad_cat + Magnetismo_cat, data = datos_sin_outliers)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.31819 -0.51770 -0.01257 0.49623 2.16696
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.170e+01 6.423e+00 4.935 1.48e-06 ***
## Tempe_a_20cm 5.519e-01 3.617e-02 15.257 < 2e-16 ***
## Magnetismo 8.487e-04 5.536e-04 1.533 0.12656
## Altura -3.695e-03 5.429e-04 -6.806 7.63e-11 ***
## Y_Magna -2.244e-05 1.035e-05 -2.168 0.03112 *
## Densidad_catMedia (intermedia) 2.584e-01 1.848e-01 1.398 0.16330
## Densidad_catAlta (compacta) 9.696e-01 3.266e-01 2.968 0.00329 **
## Magnetismo_catMagnético medio -4.256e-01 1.738e-01 -2.449 0.01501 *
## Magnetismo_catMuy magnético -8.403e-01 3.978e-01 -2.112 0.03567 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.7542 on 246 degrees of freedom
## Multiple R-squared: 0.8218, Adjusted R-squared: 0.816
## F-statistic: 141.8 on 8 and 246 DF, p-value: < 2.2e-16
Modelo de regresion lineal multivariado seleccionado que corresponde a los coeficientes del modelo 3
\[\begin{align} \widehat{\text{Tempe}_{150}} =\;& \beta_0 + \beta_1 (\text{Tempe}_{20}) + \beta_2 (\text{Magnetismo}) - \beta_3 (\text{Resistividad}) - \beta_4 (\text{Altura}) \\[6pt] &+ \beta_5 (\text{Densidad_cat}_{\text{Media}}) + \beta_6 (\text{Densidad_cat}_{\text{Alta}}) \\[6pt] &- \beta_7 (\text{Magnetismo_cat}_{\text{Medio}}) - \beta_8 (\text{Magnetismo_cat}_{\text{MuyMag}}) \\[6pt] &+ \beta_9 (\text{Resistividad}^2) - \beta_{10} (\text{Densidad}^2) \tag{Ecuación 1} \end{align}\]
3.1. Estadistico DF Beta
Como primer paso para evaluar el impacto de cada observación sobre los coeficientes del modelo, se utilizó el estadístico Df 𝛽 y para determinar su umbral de influencia, se aplicó la relación 2/𝑛, donde 𝑛 es el número total de observaciones. Este procedimiento permitió identificar, para cada parámetro de manera individual, el grado de influencia que ejerce cada observación sobre los valores estimados de los coeficientes 𝛽. Los resultados obtenidos se presentan a continuación.
## Coeficiente: (Intercept) - Observaciones influyentes: 2 3 4 5 6 7 8 9 10 12 13 15 17 18 19 20 21 22 23 24 25 26 27 29 30 31 32 33 34 36 37 38 42 43 44 45 46 47 48 50 51 52 53 54 55 57 58 59 60 61 63 64 65 66 67 68 69 70 71 72 73 75 76 80 81 82 83 85 86 88 90 94 96 97 98 99 100 101 102 103 107 108 109 113 114 115 116 117 120 121 122 123 130 133 134 135 137 138 141 142 143 144 145 146 147 149 152 156 157 158 159 161 162 163 164 167 168 170 171 172 173 175 176 177 178 179 180 181 182 183 185 187 188 189 191 196 197 198 199 200 201 205 207 210 211 213 216 217 219 220 221 222 223 224 228 229 230 231 233 234 235 238 239 240 241 242 243 244 245 246 248 250 251 252 253 254 255 256 257 258 259 260 261 262 266 268 269 271 272 275 276 277 280 281 282 283 284 285 286 289 291 295 297 299 302 303 304 309 310 311 313 314 315 317 318 319 322 323 324 326
## Coeficiente: Tempe_a_20cm - Observaciones influyentes:
## Coeficiente: Magnetismo - Observaciones influyentes:
## Coeficiente: Resistividad - Observaciones influyentes:
## Coeficiente: Altura - Observaciones influyentes:
## Coeficiente: Densidad_catMedia (intermedia) - Observaciones influyentes:
## Coeficiente: Densidad_catAlta (compacta) - Observaciones influyentes:
## Coeficiente: Magnetismo_catMagnético medio - Observaciones influyentes:
## Coeficiente: Magnetismo_catMuy magnético - Observaciones influyentes:
## Coeficiente: I(Resistividad^2) - Observaciones influyentes:
## Coeficiente: I(Densidad^2) - Observaciones influyentes:
Después de visualizar las estimaciones de los DF-Beta y asignar cuáles observaciones son las más influyentes para cada uno de los parámetros, se pudo observar que la mayoría de las observaciones influyentes se asignan al coeficiente 𝛽0 (intercepto), mientras que para los demás coeficientes, de acuerdo con este estadístico, no se identifican observaciones influyentes. Este comportamiento es normal, dado que el intercepto representa el valor esperado de la variable dependiente cuando todas las variables independientes toman valor cero. Por su parte, la ausencia de observaciones influyentes en los demás coeficientes indica que ninguna observación, al ser eliminada, cambia significativamente dichos coeficientes más allá del umbral establecido. Esto evidencia que las estimaciones de los parámetros 𝛽 son robustas y que el modelo no depende de puntos específicos para su ajuste, mientras que el intercepto absorbe la mayor parte de la variabilidad inicial del conjunto de datos.
3.2. Distancia de Cook
Posteriormente se evaluo el impacto global de cada observación sobre los parámetros estimados del modelo de regresión lineal multivariado, es decir, sobre los diez coeficientes 𝛽 calculados, se aplicó el método de la distancia de Cook. Este análisis permitió identificar cuáles registros del conjunto de datos ejercen una mayor influencia tanto en la estimación de los parámetros 𝛽 como en las predicciones derivadas del modelo. A continuación, se presentan los índices correspondientes a los datos considerados influyentes.
## # A tibble: 20 × 11
## Tempe_a_150cm Tempe_a_20cm Densidad Magnetismo Resistividad Altura X_Magna
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 8.6 9.5 2346. 249. 469. 3706. 933111.
## 2 13.8 12.4 2343. -457. 469. 3518. 933705.
## 3 17.9 17.5 2364. 122. 512. 3019. 936334.
## 4 18.1 18.3 2357. 18.4 512. 3214. 937499.
## 5 17 16.7 2363. -161. 512. 3156. 938279.
## 6 16.6 19.8 2320. 280. 134. 2880. 942992.
## 7 9.8 10.5 2333. 2.74 13531. 3426. 930177.
## 8 9.9 10.9 2335. 45.5 5041. 3353. 929156.
## 9 10.1 7.4 2335. 11.9 4751. 3623. 931720.
## 10 14.1 15.9 2377. -617. 2808. 2969. 923599.
## 11 11.2 11.9 2371. 330. 2808. 3063. 924286.
## 12 15.3 19.3 2377. 22.8 2808. 2833. 922869.
## 13 13.8 14.6 2373. -50.4 2808. 2969. 923471.
## 14 15.4 13.4 2345. 194. 163. 3235. 923802.
## 15 14.8 14.2 2346. 369. 8706. 3141. 925501.
## 16 14.7 13.8 2361. 46.1 4382. 3258. 922877.
## 17 13.5 15.5 2366. 101. 2808. 3021. 923916.
## 18 18.5 17.3 2380. 74.7 2808. 2804. 921678.
## 19 19.2 19 2386. 240. 2808. 2289. 919812.
## 20 17.2 19.3 2386. 240. 2808. 2549. 920945.
## # ℹ 4 more variables: Y_Magna <dbl>, Densidad_cat <fct>, Magnetismo_cat <fct>,
## # Resistividad_cat <fct>
A partir de la identificación de las observaciones más influyentes sobre los parámetros 𝛽 , se construyó un diagrama que permitió visualizar gráficamente este comportamiento. En dicho diagrama, la línea acumulada roja representa el umbral definido como 4/𝑛-𝛽, donde 𝑛 corresponde al número de observaciones en la base de datos y 𝛽 al numero de parametros. Se observa que varias barras superan este umbral, indicando que dichas observaciones son las que ejercen una mayor influencia sobre los parámetros 𝛽 del modelo de regresión lineal múltiple m3.
Posteriormente, se generó una nueva base de datos excluyendo estas observaciones influyentes con el objetivo de reestimar el modelo de regresión lineal multivariado utilizando las mismas variables explicativas seleccionadas previamente. El ajuste del modelo con la nueva base de datos arrojó que todos los parámetros 𝛽 resultaron estadísticamente significativos. Además, tanto el coeficiente de determinación múltiple (R²) como el R² ajustado mostraron un incremento respecto a los valores obtenidos en el modelo anterior (modelo 3), antes de eliminar las observaciones influyentes.
Estos resultados proporcionan evidencia estadística de que la exclusión de las observaciones influyentes, identificadas mediante la distancia de Cook, mejora el ajuste del modelo y su capacidad para explicar la variabilidad de la temperatura a 150 cm de profundidad.
##
## Call:
## lm(formula = Tempe_a_150cm ~ Tempe_a_20cm + Magnetismo + Resistividad +
## Altura + Densidad_cat + Magnetismo_cat + I(Resistividad^2) +
## I(Densidad^2), data = datos_limpios)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.25205 -0.50998 -0.01245 0.49810 1.94574
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4.283e+01 8.375e+00 5.114 5.66e-07 ***
## Tempe_a_20cm 5.154e-01 3.207e-02 16.072 < 2e-16 ***
## Magnetismo 1.258e-03 3.837e-04 3.278 0.001168 **
## Resistividad -1.431e-04 5.571e-05 -2.568 0.010705 *
## Altura -3.759e-03 4.562e-04 -8.240 5.58e-15 ***
## Densidad_catMedia (intermedia) 4.305e-01 1.853e-01 2.323 0.020861 *
## Densidad_catAlta (compacta) 1.141e+00 3.475e-01 3.283 0.001148 **
## Magnetismo_catMagnético medio -5.107e-01 1.446e-01 -3.531 0.000479 ***
## Magnetismo_catMuy magnético -1.309e+00 2.981e-01 -4.392 1.56e-05 ***
## I(Resistividad^2) 1.074e-08 4.667e-09 2.302 0.022028 *
## I(Densidad^2) -4.412e-06 1.554e-06 -2.840 0.004823 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.7121 on 297 degrees of freedom
## (1 observation deleted due to missingness)
## Multiple R-squared: 0.8767, Adjusted R-squared: 0.8725
## F-statistic: 211.1 on 10 and 297 DF, p-value: < 2.2e-16
La interpretación de los coeficientes estimados para el modelo seleccionado se desarrolla a partir del comportamiento marginal de cada variable explicativa sobre la temperatura a 150 cm de profundidad, manteniendo constantes las demás covariables del sistema. En primer lugar, el intercepto, con un valor aproximado de 42.83 °C, representa la temperatura promedio esperada en el subsuelo cuando todas las variables independientes se mantienen constantes o igual a cero, constituyendo así el valor base del sistema térmico evaluado.
En cuanto a la temperatura a 20 cm de profundidad, su coeficiente indica que por cada incremento de un grado centígrado en el subsuelo, la temperatura a 150 cm aumenta en 0.51 °C, lo cual revela un gradiente térmico vertical altamente consistente y sugiere una fuerte dependencia lineal entre ambas profundidades. Para la susceptibilidad magnética, el coeficiente estimado señala que un aumento unitario en la magnetización de las rocas produce un incremento muy marginal, del orden de 0.001258 °C, efecto coherente con la escala de medición de esta propiedad física y con la influencia indirecta que el magnetismo suele ejercer sobre los procesos de transferencia de calor en medios geológicos.
En el caso de la resistividad eléctrica, el coeficiente lineal negativo implica que a medida que el material presenta mayor resistividad, la temperatura tiende a disminuir cerca de 0.0001431 °C por unidad, sugiriendo que medios más resistivos —comúnmente asociados a rocas más secas o compactas— favorecen un menor almacenamiento térmico. Por su parte, la variable altitud refleja que por cada metro adicional en elevación, la temperatura del subsuelo disminuye aproximadamente 0.003759 °C, lo cual se ajusta al gradiente térmico altitudinal típico observado en estudios geotérmicos superficiales.
Respecto a las variables categóricas derivadas de la densidad, se observa que, en comparación con la categoría base correspondiente a rocas fracturadas, las rocas de densidad intermedia presentan un aumento aproximado de 0.4305 °C, mientras que las rocas altamente compactas generan un incremento aún mayor, cercano a 1.141 °C. Esto sugiere que la compactación del medio favorece condiciones térmicas más elevadas, posiblemente por una mayor capacidad de retención de calor. Para las categorías asociadas al magnetismo, y tomando como referencia las rocas poco magnetizadas, se encontró que los materiales con magnetización intermedia producen una disminución cercana a 0.5107 °C, mientras que aquellos altamente magnetizados reducen la temperatura en alrededor de 1.309 °C, comportamiento que podría vincularse a modificaciones mineralógicas inducidas por eventos térmicos previos.
Finalmente, las variables cuadráticas permiten identificar curvaturas en la relación entre propiedades físicas y temperatura. Para la resistividad elevada al cuadrado, el coeficiente positivo evidencia un comportamiento cóncavo hacia arriba, donde valores bajos de resistividad se asocian con temperaturas relativamente mayores; sin embargo, a medida que la resistividad aumenta, la temperatura disminuye hasta alcanzar un punto mínimo, a partir del cual incrementos adicionales en la resistividad provocan nuevamente un aumento en la temperatura, describiendo la trayectoria característica de una parábola. En el caso de la densidad al cuadrado, el coeficiente negativo refleja el patrón inverso: rocas altamente fracturadas exhiben temperaturas reducidas, mientras que el incremento progresivo de la densidad conduce a un aumento térmico hasta alcanzar un valor crítico; superado este umbral, densidades más altas se relacionan nuevamente con temperaturas descendentes, configurando una curva cóncava hacia abajo y mostrando la naturaleza no lineal de las propiedades mecánicas en la disipación o acumulación de calor.
Ahora, con el propósito de validar la bondad de ajuste del modelo de regresión lineal, se llevó a cabo un análisis residual orientado a comprobar el cumplimiento de los principales supuestos estadísticos que garantizan la validez del modelo y la confiabilidad de las inferencias obtenidas. Dicho análisis permitió evaluar si el modelo ajustado representaba adecuadamente la relación entre la temperatura del subsuelo, medida a 150 cm de profundidad y las variables explicativas de temperatura a 20 cm, magnetismo, resistividad, altura, variables categorica de Densidad, variable categorica de magnetismo y trasnformaciones cuadraticas de las variables densidad y resistividad.
El procedimiento contempló la verificación de cuatro supuestos fundamentales
4.1 Esperanza de los residuales
\[\begin{equation} E[e_i] = 0 \tag{Ecuación 2} \end{equation}\]
En primer lugar, se evaluó que la esperanza matemática de los residuales fuera igual a cero, lo cual indicaría que el modelo no presenta sesgo sistemático en sus predicciones. Para comprobar este supuesto, se aplicó la prueba t de Student, la cual permitió determinar si el promedio de los residuales difería significativamente de cero.
Prueba estadística t-student para validar el supuesto 1 del análisis residual
##
## One Sample t-test
##
## data: residuales
## t = -2.8004e-16, df = 307, p-value = 1
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## -0.07852996 0.07852996
## sample estimates:
## mean of x
## -1.117626e-17
Tras aplicar el estadístico t de Student a los residuales obtenidos del modelo de regresión lineal simple, se observó que la probabilidad asociada a la prueba fue igual a 1. Dado que este valor es superior al nivel de significancia del 5%, el resultado se ubicó dentro de la región de aceptación de la hipótesis nula. En consecuencia, se consideró que la esperanza matemática de los residuales es estadísticamente igual a cero, indicando que no existe evidencia suficiente para rechazar dicha hipótesis.
Este resultado sugiere que el modelo ajustado cumple con el primer supuesto del análisis residual. Esto implica que el modelo no sobreestima ni subestima sistemáticamente las temperaturas registradas a 150 cm de profundidad en función de la altura. En otras palabras, el modelo describe adecuadamente el comportamiento térmico promedio del terreno, y cualquier desviación significativa observada puede atribuirse a efectos externos —como el albedo, la vegetación, la presencia de aguas subterráneas, entre otros— más que a deficiencias estadísticas del modelo.
4.2. Residuales Independientes e idénticamente distribuidos
\[\begin{equation} e_i \;\;\rightarrow\;\;\text{son independientes e identicamente distribuidos} \tag{Ecuación 3} \end{equation}\]
El segundo supuesto correspondió a la independencia e idéntica distribución de los residuales, condición necesaria para asegurar que los errores no estuvieran correlacionados entre sí. Para ello, se empleó la prueba estadística de Durbin-Watson, utilizada comúnmente para detectar la presencia de autocorrelación en los residuales de modelos de regresión
Prueba estadística Durbin-Watson para validar el supuesto 2 del análisis residual
##
## Durbin-Watson test
##
## data: m3_limpio
## DW = 1.7826, p-value = 0.016
## alternative hypothesis: true autocorrelation is greater than 0
La prueba estadística de Durbin-Watson aplicada a los residuales del modelo de regresión lineal multivariado m3_limpio arrojó un p-valor de 0.0016 y un estadístico de 1.7826. El valor de Durbin-Watson (DW) cercano a 2 sugiere ausencia de autocorrelación; por tanto, un valor de 1.7826 indica prácticamente independencia o, en su defecto, una autocorrelación positiva muy débil entre los residuales.
En cuanto al p-valor, su magnitud relativamente pequeña indica evidencia estadística de una ligera autocorrelación positiva. Sin embargo, es importante tener en cuenta que la prueba de Durbin-Watson es especialmente sensible en muestras grandes o en modelos con múltiples variables independientes, como ocurre en este caso particular. Debido a esta sensibilidad, la significancia estadística puede amplificarse incluso cuando la autocorrelación es mínima en términos prácticos.
En consecuencia, se concluye que, aunque no existe una independencia perfecta entre los residuales, el grado de dependencia detectado es muy pequeño y probablemente no afecta de manera seria la validez del modelo. Por lo tanto, y desde una perspectiva práctica, puede considerarse que los residuales son independientes e idénticamente distribuidos.
4.3. Varianza constante (homocedasticidad)
\[ \operatorname{Var}(e_i) = \sigma^2 \tag{Ecuación 4} \]
El tercer supuesto verificó la homocedasticidad (Ecuación 4), es decir, que la varianza de los residuales permaneciera constante a lo largo del rango de valores ajustados. Con el fin de validar este supuesto, se aplicaron las pruebas de Bartlett y de Levene, las cuales permiten identificar posibles problemas de heterocedasticidad en los datos
Pruebas estadísticas de Bartlett y Levene para validar el supuesto 3 del análisis residual
##
## Bartlett test of homogeneity of variances
##
## data: residuales by grupo
## Bartlett's K-squared = 0.20837, df = 1, p-value = 0.648
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 1 0.4447 0.5053
## 306
De acuerdo con los resultados de la prueba de Bartlett, cuyo p-valor fue 0.648, y de la prueba de Levene, con un p-valor de 0.5053, se observa que ambos valores son superiores al nivel de significancia del 5%. Dado que en estas pruebas de homoscedasticidad la hipótesis nula establece que las varianzas entre los grupos analizados son iguales, los resultados obtenidos no proporcionan evidencia suficiente para rechazar dicha hipótesis.
Esto implica que se acepta la hipótesis nula de igualdad de varianzas, es decir, que las variaciones de los grupos pueden considerarse constantes. En consecuencia, se concluye que existe homoscedasticidad en los residuales del modelo, cumpliéndose así el tercer supuesto fundamental del análisis residual.
4.4. Normalidad de los residuales
\[ e_i \sim N(0, \sigma^2) \tag{Ecuación 5} \]
El cuarto supuesto correspondió a la normalidad de los residuales (Ecuación 5), lo cual es esencial para la correcta aplicación de las pruebas inferenciales asociadas al modelo. Para comprobar este supuesto, se realizaron las pruebas de Kolmogorov-Smirnov, Shapiro-Wilk y Anderson-Darling, a partir de las cuales se evaluó si la distribución de los residuales se ajustaba a un comportamiento normal.
##
## Shapiro-Wilk normality test
##
## data: residuales
## W = 0.99561, p-value = 0.5413
##
## Asymptotic one-sample Kolmogorov-Smirnov test
##
## data: residuales
## D = 0.040097, p-value = 0.7051
## alternative hypothesis: two-sided
##
## Anderson-Darling normality test
##
## data: residuales
## A = 0.37502, p-value = 0.4123
Tras la aplicación de las pruebas de Shapiro–Wilk, Kolmogorov–Smirnov y Anderson–Darling, empleadas para evaluar la normalidad de los residuales del modelo de regresión lineal, se encontró que en todos los casos los valores p fueron superiores al nivel de significancia del 5%. En particular, la prueba de Shapiro–Wilk arrojó un p-valor de 0.5413, la Kolmogorov–Smirnov de 0.7051 y la Anderson–Darling de 0.4123.
Dado que ninguno de estos valores proporciona evidencia para rechazar la hipótesis nula de normalidad, se concluye que los residuales presentan un comportamiento estadísticamente compatible con una distribución normal. Por lo tanto, se considera que el supuesto de normalidad se cumple adecuadamente en el modelo ajustado.
4.5. Factor de inflacion de varianza
\[ \text{VIF} = \frac{1}{1 - R^{2}} \tag{Ecuación 6} \]
## GVIF Df GVIF^(1/(2*Df))
## Tempe_a_20cm 3.236401 1 1.799000
## Magnetismo 4.094335 1 2.023446
## Resistividad 8.544759 1 2.923142
## Altura 5.077724 1 2.253380
## Densidad_cat 9.138733 2 1.738687
## Magnetismo_cat 4.464777 2 1.453617
## I(Resistividad^2) 7.519789 1 2.742223
## I(Densidad^2) 5.742552 1 2.396362
Tras aplicar el factor de inflación de la varianza (VIF) con el propósito de evaluar la posible multicolinealidad entre las variables explicativas del modelo de regresión lineal multivariado, se observó que los valores obtenidos se encontraron en un rango entre 1 y 2.9 unidades. De acuerdo con el criterio estándar (O’Brien, 2007) —según el cual valores de VIF menores a 10 indican una multicolinealidad baja o aceptable— estos resultados sugieren que ninguna de las variables presenta problemas relevantes de colinealidad.
En consecuencia, todas las variables explicativas pueden considerarse estadísticamente adecuadas desde el punto de vista de la multicolinealidad, por lo que es apropiado mantenerlas dentro del modelo de regresión lineal multivariado.
Con el propósito de construir intervalos de confianza e intervalos de predicción asociados al modelo de regresión lineal multivariado, se definieron valores específicos para cada una de las variables explicativas. La selección de estos valores se orientó hacia la exploración geotérmica, dado que este fue el objetivo principal por el cual se adquirió el conjunto de datos en el área geotérmica del volcán Azufral.
Para la variable temperatura a 20 cm, se eligieron dos valores representativos: 6 °C, correspondiente a las temperaturas más bajas del sistema, típicamente asociadas a suelos fríos o presencia de aguas subterráneas; y 18 °C, que representan las temperaturas más altas observadas en la zona. Este contraste permite interpretar las diferencias entre condiciones frías y zonas donde predomina la transferencia de calor por conducción, fenómeno clave para identificar estructuras con potencial geotérmico, donde rocas más calientes transmiten calor a las rocas adyacentes.
En cuanto al magnetismo, se seleccionaron dos valores contrastantes: −500 nT, característico de rocas diamagnéticas o alteradas, y un valor representativo de un magnetismo intermedio. Ambos valores se asocian a escenarios donde se esperan temperaturas elevadas, ya que el aumento térmico genera procesos de desmagnetización en los minerales. Por esta razón se utilizaron las categorías más bajas de magnetización para evaluar la respuesta térmica del sistema.
Para la resistividad eléctrica, se eligió un valor de 14 Ω·m, que es típico de fluidos geotérmicos calientes con contenido de minerales disueltos (por ejemplo, sodio). La presencia de fluidos hidrotermales y procesos de alteración mineralógica tienden a disminuir la resistividad del medio, lo cual está estrechamente relacionado con zonas de mayor temperatura. Dado que la resistividad es inversamente proporcional a la conductividad eléctrica, en un sistema geotérmico se buscan valores de resistividad bajos (o conductividad alta), por lo que este valor es coherente con la interpretación física del entorno.
Respecto a la altura, se seleccionaron dos valores dentro del rango topográfico del volcán Azufral: 3000 m y 3800 m, con el fin de evaluar la respuesta térmica tanto en las zonas más bajas como en las más altas del edificio volcánico. Este análisis permite entender cómo varía la temperatura a 150 cm de profundidad a lo largo del gradiente altitudinal.
Finalmente, para la densidad se utilizó un valor de 2400 g/m³, asociado a rocas fracturadas. Esta elección se fundamenta en que las rocas fracturadas favorecen la circulación y el almacenamiento de fluidos geotérmicos. Dichos fluidos, al tener altas temperaturas, inducen alteraciones que afectan otras variables medidas, como la resistividad y el magnetismo. Por esta razón, tanto para densidad como para magnetismo se emplearon las categorías base consideradas por el modelo de regresión lineal, correspondientes a rocas fracturadas (densidad baja) y rocas diamagnéticas o alteradas (magnetismo bajo), las cuales son coherentes con la interpretación geotérmica buscada.
## fit lwr upr
## 1 8.598451 7.239889 9.957014
## 2 12.530434 11.245877 13.814991
\[\begin{align} \text{Intervalo de confianza 1} &= (\,7.239889,\; 9.957014\,) \tag{IC1} \\[6pt] \text{Intervalo de confianza 2} &= (\,11.245877,\; 13.814991\,) \tag{IC2} \\[6pt] \end{align}\]
## fit lwr upr
## 1 8.598451 6.646634 10.55027
## 2 12.530434 10.629385 14.43148
\[\begin{align}
\text{Intervalo de predicción 1} &= (\,6.646634,\; 10.55027\,)
\tag{IP1} \\[6pt]
\text{Intervalo de predicción 2} &= (\,10.629385,\; 14.43148\,)
\tag{IP2}
\end{align}\]
Para la construcción del primer intervalo de confianza, se utilizaron los siguientes valores para las variables explicativas del modelo:
Con esta configuración, el intervalo de confianza IC1 obtenido para la temperatura a 150 cm de profundidad fue de 7.2398 °C a 9.9570 °C. Esto indica que, con un nivel de confianza del 95%, el valor promedio poblacional verdadero de la temperatura a 150 cm se encuentra dentro de este rango, bajo las condiciones previamente especificadas para las variables independientes.
Para esa misma combinación de valores, el intervalo de predicción IP1 resultó ser de 6.6466 °C a 10.55027 °C. Este intervalo corresponde al rango dentro del cual se espera que caiga una nueva observación individual de la temperatura a 150 cm de profundidad, considerando las mismas condiciones definidas para las variables explicativas.
Para la construcción del segundo intervalo de confianza, se utilizaron los siguientes valores para las variables explicativas del modelo:
A partir de esta configuración, el intervalo de confianza IC2 del 95% para la temperatura a 150 cm de profundidad se estimó entre 11.2458 °C y 13.814 °C. Esto significa que, de manera análoga a la interpretación anterior, se puede afirmar que el verdadero valor promedio poblacional de la temperatura a 150 cm de profundidad, bajo las condiciones especificadas, se encuentra con un 95% de confianza dentro de este rango.
Por otra parte, el intervalo de predicción IP2 del 95% para una nueva observación individual de la temperatura a 150 cm de profundidad se ubicó entre 10.6293 °C y 14.43148 °C. Este intervalo representa el rango dentro del cual se espera que caiga una futura medición individual de la temperatura, considerando los valores previamente definidos para las variables explicativas.
El análisis exploratorio inicial, especialmente mediante diagramas de dispersión, permitió identificar que variables como la temperatura del subsuelo a 20 cm y la altitud presentaron relaciones lineales —positiva y negativa, respectivamente— con la temperatura medida a 150 cm de profundidad. Asimismo, las variables de densidad y resistividad mostraron comportamientos no lineales de tipo cuadrático, caracterizados por curvaturas cóncavas hacia arriba (densidad) y hacia abajo (resistividad). Estos patrones, corroborados mediante los coeficientes de correlación de Pearson y Spearman, facilitaron la selección de las transformaciones y la estructuración adecuada de las variables independientes que se incluyeron posteriormente en el modelo de regresión multivariado.
Los diagramas de interacción construidos para magnetismo, densidad y resistividad permitieron establecer que la conversión de predictores cuantitativos a factores categóricos resultó útil para interpretar adecuadamente los efectos combinados entre estas variables. Las gráficas revelaron interacciones claras, manifestadas en el cruce de curvas entre categorías, lo que indicó que el efecto de una variable sobre la temperatura dependía del nivel de la otra. Este comportamiento reforzó la pertinencia geofísica de estas relaciones, al reflejar procesos complejos en el subsuelo donde las propiedades térmicas se ven moduladas por estructuras fracturadas, alteración hidrotermal o variaciones mineralógicas.
El uso de diagramas de caja permitió diferenciar entre modelos construidos con y sin la eliminación de valores atípicos. Aunque la depuración de datos generó un aumento en el ajuste estadístico del modelo, la comparación entre ambas versiones evidenció que el modelo completo —sin eliminar observaciones— ofrecía un balance superior entre significancia estadística de los coeficientes y capacidad explicativa. Este modelo conservó un coeficiente de determinación del 85% y mantuvo todos los parámetros β como estadísticamente significativos al 5%. Con base en criterios estadísticos y geológicos, se concluyó que no resultaba adecuado eliminar observaciones únicamente por considerarlas atípicas, dado que ello podría implicar la pérdida de información geofísica relevante en un contexto natural altamente heterogéneo.
La validación residual del modelo depurado confirmó el cumplimiento de los supuestos fundamentales de la regresión lineal múltiple. Los residuales presentaron media cercana a cero, independencia según la prueba de Durbin-Watson, homocedasticidad y distribución normal validada mediante las pruebas de Shapiro–Wilk, Kolmogorov–Smirnov y Anderson–Darling. Adicionalmente, el factor de inflación de varianza (VIF) permaneció siempre por debajo del umbral crítico de 5, indicando que la multicolinealidad entre predictores fue baja y que los parámetros estimados eran confiables desde una perspectiva estadística y geofísica. Estos resultados respaldaron la validez del modelo para aplicaciones posteriores de estimación y predicción.
Los intervalos de confianza y predicción calculados para distintos escenarios geofísicos mostraron que, bajo condiciones de temperaturas superficiales bajas, anomalías magnéticas positivas o negativas, resistividades en el rango de 1 a 20 Ω·m, altitudes superiores a 3000 m s. n. m. y densidades de 2400 kg/m³, las temperaturas estimadas a 150 cm de profundidad permanecieron por debajo de 15 °C. Este comportamiento térmico se interpretó como indicativo de dominios subsuperficiales dominados por infiltración de aguas frías someras, típicas de sistemas hidrotermales periféricos o zonas no afectadas por flujos de calor ascendentes. En consecuencia, las predicciones del modelo resultaron coherentes con la dinámica geotérmica esperada en ambientes volcánicos activos, donde la variabilidad térmica superficial depende de la estructura de fracturamiento, la permeabilidad y la presencia de fluidos.
library(ggplot2)
library(patchwork)
library(readxl)
library(dplyr)
library(purrr)
library(knitr)
library(kableExtra)
datos_mutivariados <- read_excel("D:/15.UNAL_Estadistica/MetodosdeRegresion/Multivariado/Datos_Mutivariados.xlsx")
attach(datos_mutivariados)
View(datos_mutivariados)
#####################################################################################################################
#Diagrama de Dispersion Datos Originales
# Crear cada gráfico
g1 <- ggplot(datos_mutivariados, aes(x = Tempe_a_20cm, y = Tempe_a_150cm)) +
geom_point(color = "steelblue") +
labs(x = "Temperatura a 20 cm", y = "Temperatura a 150 cm")
g2 <- ggplot(datos_mutivariados, aes(x = Densidad, y = Tempe_a_150cm)) +
geom_point(color = "darkgreen") +
labs(x = "Densidad", y = "Temperatura a 150 cm")
g3 <- ggplot(datos_mutivariados, aes(x = Magnetismo, y = Tempe_a_150cm)) +
geom_point(color = "purple") +
labs(x = "Magnetismo", y = "Temperatura a 150 cm")
g4 <- ggplot(datos_mutivariados, aes(x = Resistividad, y = Tempe_a_150cm)) +
geom_point(color = "firebrick") +
labs(x = "Resistividad", y = "Temperatura a 150 cm")
g5 <- ggplot(datos_mutivariados, aes(x = Altura, y = Tempe_a_150cm)) +
geom_point(color = "orange") +
labs(x = "Altura", y = "Temperatura a 150 cm")
g6 <- ggplot(datos_mutivariados, aes(x = X_Magna, y = Tempe_a_150cm)) +
geom_point(color = "darkred") +
labs(x = "X Magna", y = "Temperatura a 150 cm")
g7 <- ggplot(datos_mutivariados, aes(x = Y_Magna, y = Tempe_a_150cm)) +
geom_point(color = "navy") +
labs(x = "Y Magna", y = "Temperatura a 150 cm")
# Combinar todos los gráficos en una sola figura
(g1 | g2 | g3) /
(g4 | g5 | g6) /
g7
#####################################################################################################################
#Coeficientes de correlacion de Datos Originales
# Variables a evaluar
vars <- c("Tempe_a_20cm", "Densidad", "Magnetismo", "Resistividad",
"Altura", "X_Magna", "Y_Magna")
# Calcular correlaciones de Pearson
cor_pearson <- map_dfr(vars, function(v) {
tibble(
Variable = v,
Pearson = cor(datos_mutivariados[[v]],
datos_mutivariados$Tempe_a_150cm,
use = "complete.obs",
method = "pearson")
)
})
# Calcular correlaciones de Spearman
cor_spearman <- map_dfr(vars, function(v) {
tibble(
Variable = v,
Spearman = cor(datos_mutivariados[[v]],
datos_mutivariados$Tempe_a_150cm,
use = "complete.obs",
method = "spearman")
)
})
# Unir ambas tablas por la columna "Variable"
tabla_correlaciones <- left_join(cor_pearson, cor_spearman, by = "Variable")
# Convertir tibble a data.frame para visualización más limpia
tabla_correlaciones <- as.data.frame(tabla_correlaciones)
# Mostrar tabla formateada
kable(tabla_correlaciones,
caption = "Coeficientes de correlación (Pearson y Spearman) con la Temperatura a 150 cm") %>%
kable_styling(full_width = FALSE, position = "center")
#####################################################################################################################
#Diagrama de cajas de Datos Originales
# Temperatura a 150 cm
g1_box <- ggplot(datos_mutivariados, aes(x = "", y = Tempe_a_150cm)) +
geom_boxplot(fill = "steelblue") +
labs(x = "", y = "Temperatura a 150 cm")
# Temperatura a 20 cm
g2_box <- ggplot(datos_mutivariados, aes(x = "", y = Tempe_a_20cm)) +
geom_boxplot(fill = "darkgreen") +
labs(x = "", y = "Temperatura a 20 cm")
# Densidad
g3_box <- ggplot(datos_mutivariados, aes(x = "", y = Densidad)) +
geom_boxplot(fill = "purple") +
labs(x = "", y = "Densidad")
# Magnetismo (susceptibilidad magnética)
g4_box <- ggplot(datos_mutivariados, aes(x = "", y = Magnetismo)) +
geom_boxplot(fill = "firebrick") +
labs(x = "", y = "Magnetismo")
# Resistividad
g5_box <- ggplot(datos_mutivariados, aes(x = "", y = Resistividad)) +
geom_boxplot(fill = "orange") +
labs(x = "", y = "Resistividad")
# Altura
g6_box <- ggplot(datos_mutivariados, aes(x = "", y = Altura)) +
geom_boxplot(fill = "darkred") +
labs(x = "", y = "Altura")
# Coordenadas X y Y
g7_box <- ggplot(datos_mutivariados, aes(x = "", y = X_Magna)) +
geom_boxplot(fill = "navy") +
labs(x = "", y = "X Magna")
g8_box <- ggplot(datos_mutivariados, aes(x = "", y = Y_Magna)) +
geom_boxplot(fill = "darkorange3") +
labs(x = "", y = "Y Magna")
# ---- FIGURA 1: 4 subgráficos ----
figura_1 <- (g1_box | g2_box) /
(g3_box | g4_box)
# Mostrar figura 1
figura_1
# ---- FIGURA 2: 4 subgráficos ----
figura_2 <- (g5_box | g6_box) /
(g7_box | g8_box)
# Mostrar figura 2
figura_2
#####################################################################################################################
#Diagrama de interaccion de Datos Originales
# --- Categorías predefinidas ---
# Densidad
breaks_densidad <- c(2315, 2335, 2360, 2386)
labels_densidad <- c("Baja (fracturada)",
"Media (intermedia)",
"Alta (compacta)")
# Magnetismo
breaks_magnetismo <- c(-Inf, 0, 500, Inf)
labels_magnetismo <- c("Diamagnético o alterado",
"Magnético medio",
"Muy magnético")
# Resistividad
breaks_resistividad <- c(-Inf, 10, 70, Inf)
labels_resistividad <- c("Arcilla",
"Reservorio",
"Basamento")
graf1<- ggplot(datos_mutivariados,
aes(x = Magnetismo,
y = Tempe_a_150cm,
color = cut(Resistividad,
breaks = breaks_resistividad,
labels = labels_resistividad))) +
geom_point() +
geom_smooth() +
labs(x = "Magnetismo",
y = "Temperatura a 150 cm",
color = "Categoría de Resistividad") +
theme_minimal()
graf2<- ggplot(datos_mutivariados,
aes(x = Resistividad,
y = Tempe_a_150cm,
color = cut(Magnetismo,
breaks = breaks_magnetismo,
labels = labels_magnetismo))) +
geom_point() +
geom_smooth() +
labs(x = "Resistividad",
y = "Temperatura a 150 cm",
color = "Categoría de Magnetismo") +
theme_minimal()
graf3 <- ggplot(datos_mutivariados,
aes(x = Resistividad,
y = Tempe_a_150cm,
color = cut(Densidad,
breaks = breaks_densidad,
labels = labels_densidad))) +
geom_point() +
geom_smooth() +
labs(x = "Resistividad",
y = "Temperatura a 150 cm",
color = "Categoría de Densidad") +
theme_minimal()
graf4 <- ggplot(datos_mutivariados,
aes(x = Densidad,
y = Tempe_a_150cm,
color = cut(Resistividad,
breaks = breaks_resistividad,
labels = labels_resistividad))) +
geom_point() +
geom_smooth() +
labs(x = "Densidad",
y = "Temperatura a 150 cm",
color = "Categoría de Resistividad") +
theme_minimal()
graf5 <- ggplot(datos_mutivariados,
aes(x = Densidad,
y = Tempe_a_150cm,
color = cut(Magnetismo,
breaks = breaks_magnetismo,
labels = labels_magnetismo))) +
geom_point() +
geom_smooth() +
labs(x = "Densidad",
y = "Temperatura a 150 cm",
color = "Categoría de Magnetismo") +
theme_minimal()
graf6 <- ggplot(datos_mutivariados,
aes(x = Magnetismo,
y = Tempe_a_150cm,
color = cut(Densidad,
breaks = breaks_densidad,
labels = labels_densidad))) +
geom_point() +
geom_smooth() +
labs(x = "Magnetismo",
y = "Temperatura a 150 cm",
color = "Categoría de Densidad") +
theme_minimal()
graf1
graf2
graf3
graf4
graf5
graf6
#####################################################################################################################
# ---- DENSIDAD ----
breaks_densidad <- c(2315, 2335, 2360, 2386)
labels_densidad <- c("Baja (fracturada)",
"Media (intermedia)",
"Alta (compacta)")
datos_mutivariados$Densidad_cat <- cut(
datos_mutivariados$Densidad,
breaks = breaks_densidad,
labels = labels_densidad,
include.lowest = TRUE
)
# ---- MAGNETISMO ----
breaks_magnetismo <- c(-Inf, 0, 500, Inf)
labels_magnetismo <- c("Diamagnético o alterado",
"Magnético medio",
"Muy magnético")
datos_mutivariados$Magnetismo_cat <- cut(
datos_mutivariados$Magnetismo,
breaks = breaks_magnetismo,
labels = labels_magnetismo,
include.lowest = TRUE
)
# ---- RESISTIVIDAD ----
breaks_resistividad <- c(-Inf, 10, 70, Inf)
labels_resistividad <- c("Arcilla",
"Reservorio",
"Basamento")
datos_mutivariados$Resistividad_cat <- cut(
datos_mutivariados$Resistividad,
breaks = breaks_resistividad,
labels = labels_resistividad,
include.lowest = TRUE
)
#####################################################################################################################
#Modelo de regresion lineal multivariado de los datos originales
m1 <- lm(
Tempe_a_150cm ~ . +
Magnetismo * Resistividad_cat +
Magnetismo * Densidad_cat +
Resistividad * Magnetismo_cat +
Resistividad * Densidad_cat +
Densidad * Magnetismo_cat +
Densidad * Resistividad_cat +
I(Resistividad^2) +
I(Densidad^2) +
I(Magnetismo^2),
data = datos_mutivariados
)
summary(m1)
#####################################################################################################################
# --- ELIMINAR OUTLIERS DE DENSIDAD, MAGNETISMO Y RESISTIVIDAD ---
# Función para identificar outliers usando el criterio del rango intercuartílico (IQR)
eliminar_outliers <- function(x) {
Q1 <- quantile(x, 0.25, na.rm = TRUE)
Q3 <- quantile(x, 0.75, na.rm = TRUE)
IQR <- Q3 - Q1
# Definir límites inferior y superior
limite_inferior <- Q1 - 1.5 * IQR
limite_superior <- Q3 + 1.5 * IQR
# Retornar TRUE si está dentro de los límites (no es outlier)
x >= limite_inferior & x <= limite_superior
}
# Aplicar la función a las tres variables y quedarnos solo con las filas sin outliers
datos_sin_outliers <- datos_mutivariados %>%
filter(
eliminar_outliers(Densidad),
eliminar_outliers(Magnetismo),
eliminar_outliers(Resistividad)
)
# Verificar cuántas observaciones quedaron
nrow(datos_sin_outliers)
# (Opcional) comparar con el número original de filas
nrow(datos_mutivariados)
#####################################################################################################################
# ---- DENSIDAD ----
breaks_densidad <- c(2315, 2335, 2360, 2386)
labels_densidad <- c("Baja (fracturada)",
"Media (intermedia)",
"Alta (compacta)")
datos_sin_outliers$Densidad_cat <- cut(
datos_sin_outliers$Densidad,
breaks = breaks_densidad,
labels = labels_densidad,
include.lowest = TRUE
)
# ---- MAGNETISMO ----
breaks_magnetismo <- c(-Inf, 0, 500, Inf)
labels_magnetismo <- c("Diamagnético o alterado",
"Magnético medio",
"Muy magnético")
datos_sin_outliers$Magnetismo_cat <- cut(
datos_sin_outliers$Magnetismo,
breaks = breaks_magnetismo,
labels = labels_magnetismo,
include.lowest = TRUE
)
# ---- RESISTIVIDAD ----
breaks_resistividad <- c(-Inf, 10, 70, Inf)
labels_resistividad <- c("Arcilla",
"Reservorio",
"Basamento")
datos_sin_outliers$Resistividad_cat <- cut(
datos_sin_outliers$Resistividad,
breaks = breaks_resistividad,
labels = labels_resistividad,
include.lowest = TRUE
)
#####################################################################################################################
#Modelo de regresion lineal multivariado de los datos sin outliers
m2 <- lm(
Tempe_a_150cm ~ . +
Magnetismo * Resistividad_cat +
Magnetismo * Densidad_cat +
Resistividad * Magnetismo_cat +
Resistividad * Densidad_cat +
Densidad * Magnetismo_cat +
Densidad * Resistividad_cat +
I(Resistividad^2) +
I(Densidad^2) +
I(Magnetismo^2),
data = datos_sin_outliers
)
summary(m2)
#####################################################################################################################
step(m1)
step(m2)
#####################################################################################################################
m3 <- lm(Tempe_a_150cm ~Tempe_a_20cm + Magnetismo + Resistividad +
Altura + Densidad_cat + Magnetismo_cat + I(Resistividad^2) +
I(Densidad^2), data = datos_mutivariados)
summary(m3)
#####################################################################################################################
m4 <- lm(Tempe_a_150cm ~ Tempe_a_20cm + Magnetismo + Altura +
Y_Magna + Densidad_cat + Magnetismo_cat, data = datos_sin_outliers)
summary(m4)
#####################################################################################################################
# Calcular DF-Beta para todas las observaciones y todos los coeficientes
dfb <- dfbeta(m3)
# Umbral empírico para DF-Beta
umbral <- 2 / sqrt(306)
# Lista vacía para guardar observaciones influyentes
obs_influyentes <- list()
# Recorrer todos los coeficientes
for (j in 1:ncol(dfb)) {
coef_name <- colnames(dfb)[j]
obs <- which(abs(dfb[, j]) > umbral)
obs_influyentes[[coef_name]] <- obs
if (length(obs) == 0) {
# Si no hay observaciones influyentes, usar Markdown/HTML para negrita
cat("Coeficiente:", coef_name, "- **NINGUNA OBSERVACIÓN INFLUYENTE**\n")
} else {
# Si hay observaciones influyentes, imprimir los índices normalmente
cat("Coeficiente:", coef_name, "- Observaciones influyentes:", obs, "\n")
}
}
#####################################################################################################################
# Calcular distancia de Cook
cooks_d <- cooks.distance(m3)
# 1️⃣ Guardar los índices únicos de observaciones influyentes
influyentes <- unique(which(cooks_d > 4 / length(cooks_d)))
# 2️⃣ Extraer las filas influyentes del data frame
datos_influyentes <- datos_mutivariados[influyentes, ]
# 3️⃣ Ver los resultados
View(datos_influyentes) # se abre en una pestaña en RStudio
# Graficar distancia de Cook
plot(cooks_d, type = "h", main = "Distancia de Cook", ylab = "D_i")
abline(h = 4/length(cooks_d), col = "red", lty = 2)
#####################################################################################################################
# 1️⃣ Crear una nueva base sin las observaciones influyentes
datos_limpios <- datos_mutivariados[-influyentes, ]
# 2️⃣ Verificar cuántas observaciones quedaron
nrow(datos_limpios)
# 3️⃣ Ajustar nuevamente el modelo con los datos depurados
m3_limpio <- lm(Tempe_a_150cm ~Tempe_a_20cm + Magnetismo + Resistividad +
Altura + Densidad_cat + Magnetismo_cat + I(Resistividad^2) +
I(Densidad^2), data = datos_limpios)
# 4️⃣ Ver el resumen del nuevo modelo
summary(m3_limpio)
#####################################################################################################################
# Calcular los residuales del modelo
residuales <- residuals(m3_limpio)
#####################################################################################################################
# Aplicar la prueba t para comparar la media de los residuales con cero
prueba_t <- t.test(residuales)
# Mostrar los resultados de la prueba
print(prueba_t)
#####################################################################################################################
# Prueba de Durbin-Watson para autocorrelación de los residuales
dw <- dwtest(m3_limpio)
# Mostrar resultado
print(dw)
#####################################################################################################################
datos_m3 <- model.frame(m3_limpio)
residuales <- residuals(m3_limpio)
grupo <- datos_m3$Tempe_a_150cm < mean(datos_m3$Tempe_a_150cm)
bartlett.test(residuales ~ grupo)
leveneTest(residuales ~ grupo)
#####################################################################################################################
# Prueba de Shapiro–Wilk
shapiro.test(residuales)
# Prueba de Kolmogorov–Smirnov
ks.test(residuales, "pnorm", 0, sd(residuales))
# Prueba de Anderson-Darling
ad.test(residuales)
#####################################################################################################################
#
# Factor de inflacion de varianza
factor_inflacion <- VIF(m3_limpio)
factor_inflacion
#####################################################################################################################
datos_geotermia <- data.frame(
Tempe_a_20cm = c(6,18),
Magnetismo = c(-500, 100),
Resistividad = 14,
Altura = c(3500, 3800),
Densidad = 2400,
Densidad_cat = factor(
"Baja (fracturada)",
levels = levels(datos_mutivariados$Densidad_cat)
),
Magnetismo_cat = factor(
"Diamagnético o alterado",
levels = levels(datos_mutivariados$Magnetismo_cat)
)
)
IC_media <- predict(
m3_limpio,
newdata = datos_geotermia,
interval = "confidence",
level = 0.95
)
IC_media
IP_prediccion <- predict(
m3_limpio,
newdata = datos_geotermia,
interval = "prediction",
level = 0.95
)
IP_prediccion
Zahedi, R., Daneshgar, S., Seraji, M. A. Nasle, & Asemi, H. (2022). Modeling and interpretation of geomagnetic data related to geothermal sources, northwest of Delijan. [Journal name unknown]. FAO AGRIS
Cornejo-Triviño, N., Liotta, D., Piccardi, L., Brogi, A., Kruszewski, M., Pérez-Flores, M. A., Carrillo, J., Calcagno, P., Sass, I., Schill, E., & al. (2024). Gravimetric and morpho-structural analyses in the superhot geothermal system Los Humeros: an example from central Mexico. Geothermal Energy, 12, Article 7. https://doi.org/10.1186/s40517-024-00285-7
Dalampakis, P., Papachristou, M., & Neofotistos, P. (2022). Geothermal resources assessment using temperature–depth relationships in the fault-controlled hydrothermal system of Aristino-Traianoupolis area, Northern Greece. Geothermal Energy, 10, Article 22. https://doi.org/10.1186/s40517-022-00232-4
O’Brien, R. M. (2007). A caution regarding rules of thumb for variance inflation factors. Quality & Quantity, 41(5), 673–690. https://doi.org/10.1007/s11135-006-9018-6
Zheng, G., Huang, J., Zhai, P., Wang, G., & al. (2024). Image of the five elements and prediction of the geothermal field based on gravity, magnetic and magnetotelluric data in the PanZ area. Geothermal Energy, 12, Article 15. https://doi.org/10.1186/s40517-024-00294-6