Trabajo 1 - Modelos de regresión lineal simple - Análisis de temperatura a 150 cm de profundidad en función de los cambios de altura

Área de estudio: Área geotérmica del Volcán Azufral
Variables analizadas: Sondeos superficiales de temperatura (SST) y observaciones de altura de cada registro de SST Autor: Gilbert Fabian Rodriguez Rodriguez
Fecha: 14/10/2025

1. Análisis descriptivo

1.1. Introducción y contexto general

El área de estudio se ubicó en el suroccidente de Colombia, en el departamento de Nariño, dentro de la zona volcánica conocida como el área geotérmica del volcán Azufral. Con el propósito de caracterizar algunos de los componentes del sistema geotérmico asociado a este edificio volcánico mediante la identificación de posibles anomalías térmicas superficiales, se realizaron mediciones de temperatura del subsuelo a una profundidad de 1,5 metros. Adicionalmente, se registró la altitud sobre el nivel del mar correspondiente a cada punto de medición, con el fin de analizar la posible relación entre la temperatura del terreno y la variación altitudinal (Figura 1). En total se adquirieron 353 mediciones, distribuidas aproximadamente cada 1 kilómetro, cubriendo una porción de cerca de 400 km² del sector de interés.

Figura 1. Diagrama de dispersion entre temperatura y altitud

Mapa de dispersion original

La elección de estas dos variables respondió al hecho de que las variaciones de temperatura superficial suelen estar influenciadas por factores topográficos, estructurales y por la circulación de fluidos térmicamente anómalos a lo largo de discontinuidades del subsuelo. Tal como se pudo comprobar con el coeficiente de correlación de Pearson y la covarianza (Figura 2), los cuales mostraron tener una relación lineal inversa moderada con un valor de -0.6737 y una relación negativa de -135.2986, respectivamente.

Figura 2. Resultados del Coeficiente de correlación de Pearson y la covarianza

Coeficiente de correlación de Pearson y la covarianza

1.2. Planteamiento de la hipótesis

La literatura muestra una relación sistemática entre temperatura de superficie y la altitud: en promedio la temperatura disminuye con la elevación debido al gradiente térmico (lapse rate) atmosférico y a efectos topográficos locales (radiación solar, orientación de laderas, cobertura vegetal, inversión térmica y acumulación de aire frío). Estudios con datos de teledetección han cuantificado descensos de temperatura de superficie del orden de ~3.8–6.1 °C por cada 1000 m de aumento de elevación (dependiendo de la estación y la hora del día), y trabajos de campo han reportado correlaciones negativas significativas entre temperatura del suelo y elevación en muestreos puntuales (Phan et. al., 2018; kattel et. al.,2022).

1.3. Descripcion de la base de datos

Los datos fueron adquiridos durante tres campañas geofísicas de campo ejecutadas por el Servicio Geológico Colombiano entre los años 2015 y 2017. La adquisición se efectuó mediante el uso de termocuplas, instrumentos empleados para registrar la temperatura del subsuelo, y sondas térmicas, consistentes en varillas metálicas equipadas en su extremo con un sensor que transforma las señales eléctricas en valores digitales de temperatura.

Para el uso de las sondas, se utilizó previamente un barreno manual que permitió realizar perforaciones de hasta 150 cm de profundidad en cada punto de medición. Una vez abierto el orificio, la sonda se introducía cuidadosamente y se mantenía en posición en el fondo del orificio hasta que las lecturas registradas por la termocupla se estabilizaban, garantizando así la precisión térmica de la medición. Posteriormente, los valores obtenidos se consignaban en un formato de registro de campo.

Dado que el propósito principal de las mediciones era generar mapas de distribución térmica mediante interpolación espacial, se definió previamente una malla de muestreo con una disposición lo más regular posible. En total, se efectuaron 353 mediciones con una separación promedio de aproximadamente un kilómetro entre estaciones, asegurando una adecuada cobertura espacial para el análisis geoestadístico y geotérmico posterior.

1.4. Descripcion de las variables

El objetivo del modelamiento fue analizar el comportamiento y la variabilidad de la temperatura del subsuelo, considerada como la variable dependiente, en función de las variaciones altitudinales del terreno, que se establece como la variable explicativa o independiente.

Variables Unidades Nº de muestras Tipo de variable
Temperatura a 150 cm grados centígrados (°C) 353 Dependiente
Altura de cada punto metros (m) 353 Independiente

1.5. Detección y análisis de valores atípicos (outliers)

La construcción del diagrama de cajas para la variable temperatura a 150 cm de profundidad permitió identificar la presencia de valores atípicos en el conjunto de datos. El análisis fue realizado en el entorno estadístico R, con el propósito de examinar la distribución de la variable y evaluar la consistencia de las mediciones.

A partir del gráfico, se evidenció que varios puntos se comportaban como valores anómalos, lo que podría afectar la representatividad del conjunto de datos y, por ende, el ajuste del modelo de regresión lineal simple (Figura 3). Por tal motivo, se consideró conveniente su eliminación para mejorar la calidad del modelo y la confiabilidad de los resultados.

Figura 3. Diagrama de cajas de la variable dependiente (Temperatura a 150 cm de profundidad)

Diagrama de cajas

Con el fin de identificar de manera precisa los registros correspondientes a los valores atípicos, se ejecutó una consulta adicional en R , cuyos resultados se presentan en la figura 4. Esta identificación permitió determinar los ID específicos de los datos anómalos y facilitar su depuración dentro de la base de datos antes de continuar con el proceso de construcción del modelo de regresión lineal simple.

Figura 4. Salida grafica de R mostrando los ID de los registros considerados como outliers

Datos atipicos identificados
Datos atipicos identificados

Después de la eliminación de los valores atípicos previamente identificados mediante el diagrama de cajas, se generó un grafico de dispersión de los puntos con valores de temperatura a 150 cm de profundidad y la altitud de cada uno de ellos, obteniendo un total de 303 mediciones (Figura 5) después de la depuración de la base de datos. En este grafico se observa la variabilidad de la temperatura dentro del área geotérmica del volcán Azufral en función a los cambios de altitud, permitiendo visualizar de manera más clara la relación lineal entre ambas variables.

Figura 5. Mapa de dispersión de los datos después de eliminar los valores atípicos de la base de datos

Mapa de dispersion filtrado

2. Ajustes del modelo

Después de realizar el primer modelo de regresión lineal simple, en el cual la variable independiente (Altura) buscó explicar la variabilidad de la variable dependiente (Temperatura a 150 cm de profundidad) (Ecuacion 1), se obtuvo el resumen estadístico correspondiente. Los resultados permitieron establecer, por un lado, la ecuación del modelo que se presenta a continuación, y por otro, la interpretación detallada de los principales parámetros estadísticos.

\[ T_{150\text{ cm}} = 36.2067 - 0.0069515 \times \text{Altura} \tag{Ecuacion 1} \]

Desde una perspectiva geotérmica, esta pendiente negativa refleja la influencia del gradiente topográfico sobre la distribución térmica superficial. Sin embargo, la magnitud del coeficiente sugiere que, aunque la altura explica una parte del comportamiento térmico, existen otros factores geológicos y geotérmicos que influyen localmente como la radiación solar o albedo, la vegetación, fluidos de aguas superficiales o aguas subterráneas someras o procesos de transferencia de calor convectivos y no solamente conductivos.

Figura 6. Resumen del modelo de regresion lineal simple

Resumen del modelo de regresion lineal

Como se pudo ver en la figura 6 el intercepto (β₀) presentó un valor estimado de 36.2067 °C, lo que implica que, teóricamente, a una altura de 0 metros sobre el nivel del mar, la temperatura promedio esperada del subsuelo a 150 cm de profundidad sería de 36.2067 °C. Este valor representa el punto de partida de la relación lineal y sirve como referencia para estimar la temperatura a diferentes altitudes dentro del modelo.

En cuanto a la estimación de los coeficientes, se identificó que el error estándar asociado al intercepto fue de 1.37, lo que indicó una alta precisión en la estimación del parámetro, dado que el error fue bajo y cercano a cero. El estadístico t, obtenido al dividir el coeficiente entre su error estándar, alcanzó un valor de 26.40, el cual, al ser positivo y mayor que el valor crítico de referencia de una distribución t de Student (≈2), permitió rechazar la hipótesis nula que establecía que el parámetro β₀ era igual a cero. En consecuencia, se aceptó la hipótesis alterna, concluyendo que el intercepto (β₀) es estadísticamente diferente de cero. Esto evidenció la existencia de significancia estadística en el modelo, indicando que dicho parámetro contribuyó de manera relevante a la explicación de la variable dependiente, es decir, la temperatura a 150 cm de profundidad.

De manera consistente, el valor p (p-value) asociado al intercepto fue considerablemente menor al nivel de significancia del 5 %, lo cual confirmó la conclusión anterior: el parámetro β₀ resultó estadísticamente significativo, y su inclusión en el modelo fue fundamental para representar adecuadamente la relación entre la temperatura del subsuelo y la altitud. En relación con el error estándar residual, se obtuvo un valor de 1.065 °C. Este resultado indicó que, en promedio, la desviación típica de los residuales fue baja, lo cual reflejó que las diferencias entre los valores observados y los estimados por el modelo fueron pequeñas. En términos generales, este comportamiento evidenció que el ajuste del modelo a los datos experimentales fue adecuado y que la relación entre las variables presentó una dispersión relativamente controlada.

Desde el punto de vista físico, el signo negativo del coeficiente β₁ indicó una relación lineal inversa entre la temperatura subsuperficial y la altitud. En otras palabras, la temperatura del suelo a 150 cm de profundidad disminuyó en aproximadamente 0.0069515 °C por cada metro de incremento en la altura. Este comportamiento resulta coherente con el gradiente térmico ambiental, en el cual el aumento de altitud suele asociarse con una disminución progresiva de la temperatura.

Por otro lado para el coeficiente β₁ de la variable Altura se determinó que este fue estadísticamente significativo, dado que el valor de p resultó considerablemente menor al nivel de significancia del 5 % (2 ×10-16). Asimismo, el estadístico t, correspondiente a la prueba de la distribución t de Student, presentó un valor absoluto superior (-15.79) al umbral crítico de referencia (≈ ±2), lo que indicó que el coeficiente se encontraba dentro de la zona de rechazo de la hipótesis nula. En consecuencia, se rechazó la hipótesis nula que establecía que el parámetro β₁ era igual a cero y se aceptó la hipótesis alterna, concluyendo que dicho parámetro era diferente de cero y, por tanto, estadísticamente significativo para explicar la variabilidad de la temperatura medida a 150 cm de profundidad.

Por otra parte, el coeficiente de determinación (R²) alcanzó un valor de 0.4539, es decir, aproximadamente el 45.39 % de la variabilidad total de la temperatura a 150 cm de profundidad fue explicada por la variable independiente Altura. El 54.61 % restante se atribuyó a otros factores no considerados en el modelo, posiblemente asociados a condiciones térmicas locales, variaciones en la conductividad térmica del subsuelo o a errores aleatorios de medición e instrumentación.

3. Validación del modelo

Con el propósito de validar la bondad de ajuste del modelo de regresión lineal, se llevó a cabo un análisis residual orientado a comprobar el cumplimiento de los principales supuestos estadísticos que garantizan la validez del modelo y la confiabilidad de las inferencias obtenidas. Dicho análisis permitió evaluar si el modelo ajustado representaba adecuadamente la relación entre la temperatura del subsuelo, medida a 150 cm de profundidad, y la variable altitud.

El procedimiento contempló la verificación de cuatro supuestos fundamentales.

  1. Esperanza de los residuales
\[E[e_i] = 0 \tag{Ecuacion 2} \]

En primer lugar, se evaluó que la esperanza matemática de los residuales fuera igual a cero, lo cual indicaría que el modelo no presenta sesgo sistemático en sus predicciones. Para comprobar este supuesto, se aplicó la prueba t de Student, la cual permitió determinar si el promedio de los residuales difería significativamente de cero.

Figura 7. Prueba estadística t-student para validar el supuesto 1 del análisis residual

Prueba t-student

Tras aplicar el estadístico t-student a los residuales obtenidos del modelo de regresión lineal simple, se observó que la probabilidad asociada a la prueba estadística fue igual a 1 (Figura 7). Dado que este valor resultó superior al nivel de significancia del 5%, el resultado se ubicó dentro de la región de aceptación de la hipótesis nula. En consecuencia, se consideró que la esperanza matemática de los residuales era estadísticamente igual a cero, indicando que no existía evidencia suficiente para rechazar dicha hipótesis. Este resultado sugiere que el modelo ajustado cumplió con el primer supuesto del análisis residual. Esto significa que el modelo no sobreestima ni subestima sistemáticamente las temperaturas registradas a 150 cm de profundidad en función de la altura. En otras palabras, el modelo describe adecuadamente el comportamiento promedio térmico del terreno y cualquier desviación significativa puede atribuirse más a efectos externos (albedo, vegetación, aguas subterráneas, etc) que a deficiencias estadísticas del modelo.

  1. Residuales Independientes e idénticamente distribuidos

\[e_i \;\;\rightarrow\;\;\text{son independientes entre sí} \]

El segundo supuesto correspondió a la independencia e idéntica distribución de los residuales, condición necesaria para asegurar que los errores no estuvieran correlacionados entre sí. Para ello, se empleó la prueba estadística de Durbin-Watson, utilizada comúnmente para detectar la presencia de autocorrelación en los residuales de modelos de regresión.

Figura 8. Prueba estadística Durbin-Watson para validar el supuesto 2 del análisis residual

Estadistico Durbin-Watson

Los resultados obtenidos a partir de la prueba de Durbin-Watson (Figura 8) evidenciaron que el valor p fue significativamente menor que el nivel de significancia establecido, mientras que el estadístico de Durbin-Watson alcanzó un valor de 1.5146, alejándose del punto crítico de 2, que representaría la ausencia de autocorrelación en los residuales. Este comportamiento indicó que no era posible aceptar la hipótesis nula que plantea la independencia de los errores. En consecuencia, se procedió a rechazar dicha hipótesis y a aceptar la hipótesis alternativa, concluyendo que los residuales del modelo no eran independientes ni idénticamente distribuidos.

Desde la perspectiva geotérmica, esto puede deberse a que las temperaturas medidas en puntos cercanos espacialmente están influenciadas por procesos térmicos continuos o conectados, como fracturas o procesos hidrotermales, zonas de recarga o descarga, o gradientes de calor asociados a estructuras volcánicas activas. En consecuencia, esta dependencia de los residuales podría interpretarse como una señal de la continuidad del campo térmico superficial del sistema geotérmico, lo que sugiere que el calor no se distribuye de forma aleatoria, sino que sigue patrones estructurales coherentes con la geología local del volcán Azufral.

  1. Varianza constante (homocedasticidad)

\[Var[e_i] = \sigma^2 = \text{constante} \tag{Ecuación 3}\]

El tercer supuesto verificó la homocedasticidad (Ecuación 3), es decir, que la varianza de los residuales permaneciera constante a lo largo del rango de valores ajustados. Con el fin de validar este supuesto, se aplicaron las pruebas de Bartlett y de Levene, las cuales permiten identificar posibles problemas de heterocedasticidad en los datos.

Figura 9. Pruebas estadísticas de Bartlett y Levene para validar el supuesto 3 del análisis residual

Prueba Barlett y Levene

De acuerdo con los resultados obtenidos de la Figura 9 a partir de las pruebas de Bartlett y Levene, aplicadas para evaluar la hipótesis nula de homogeneidad de varianzas entre los grupos analizados, se observó que el valor p en ambas pruebas fue superior al nivel de significancia del 5% (0.9515 para Barlett y 0.7659 para Levene). Este resultado permitió aceptar la hipótesis nula, lo que indicó que los residuales del modelo presentaron homocedasticidad y por lo tanto se estaría cumpliendo este tercer supuesto del análisis residual.

  1. Normalidad de los residuales

\[e_i \sim N(0, \sigma^2)\tag{Ecuación 4}\]

Finalmente, el cuarto supuesto correspondió a la normalidad de los residuales (Ecuación 4), lo cual es esencial para la correcta aplicación de las pruebas inferenciales asociadas al modelo. Para comprobar este supuesto, se realizaron las pruebas de Kolmogorov-Smirnov, Shapiro-Wilk y Anderson-Darling, a partir de las cuales se evaluó si la distribución de los residuales se ajustaba a un comportamiento normal.

Figura 10. Pruebas estadísticas de Shapiro-Wilk, Kolmogorov-Smirnov y Anderson-Darling para validar el supuesto 4 del análisis residual

Pruebas de normalidad

Tras la aplicación de las pruebas de Shapiro–Wilk, Kolmogorov–Smirnov y Anderson–Darling (Figura 10), utilizadas para evaluar la normalidad de los residuales del modelo de regresión lineal, se observó que en todos los casos los valores p fueron superiores al nivel de significancia del 5% (0.1178 para Shapiro-Wilk, 0.9537 para Kolmogorov-Smiurnov y 0.5317 para Anderson-Darling). Este resultado indicó que no existió evidencia estadísticamente suficiente para rechazar la hipótesis nula que plantea que los residuales se distribuyen de forma normal. En consecuencia, se aceptó dicha hipótesis, concluyéndose que los residuales del modelo presentaron un comportamiento compatible con una distribución normal.

4. Uso del modelo

Finalmente, con el propósito de construir los intervalos de confianza y de predicción asociados al modelo de regresión lineal, se definieron valores de altura desde los 2500 m.s.n.m hasta los 3500 m.s.n.m, la cual es la altura máxima del Volcán Azufral (altura máxima en la cual se hizo la adquisición de datos). En el caso del intervalo de confianza, este permitió determinar el rango donde probablemente se ubica el valor poblacional promedio verdadero de la temperatura a 150 cm de profundidad, correspondiente a valores específicos de la variable independiente, la altura. Por su parte, el intervalo de predicción permitió estimar el rango dentro del cual se esperó que cayera una nueva observación individual de temperatura para una altura determinada. Con base en lo anterior, se construyeron los intervalos respectivos, tal como se presenta a continuación.

4.1. Intervalos de confianza

Figura 11. Intervalos de confianza para valores de 2500 y 3500 m.s.n.m para la variable independiente Altura

Intervalos de confianza

4.2. Intervalos de predicción

Figura 12. Intervalos de predicción para valores de 2500 y 3500 m.s.n.m para la variable independiente Altura

Intervalos de prediccion

Después de construir los intervalos de confianza y de predicción al 95% (Figuras 11 y 12), se observó que, para una altura de 2500 metros sobre el nivel del mar, el intervalo de confianza indico que, en promedio, todas las temperaturas medidas a 150 centímetros de profundidad se situarían con un 95% de confianza entre 18.28 y 19.37 °C. Por su parte, el intervalo de predicción señalo que, si se realizara una nueva medición a esa misma altura, la temperatura registrada a 150 cm de profundidad se encontraría, con un 95% de confianza, entre 16.66 y 20.99 °C.

De manera análoga, para una altura de 3500 metros sobre el nivel del mar, el intervalo de confianza determinó que el valor verdadero promedio de la temperatura a 150 cm de profundidad se ubicaría entre 11.5 y 12.23 °C con un 95% de confianza. En cuanto al intervalo de predicción, una nueva medición en esa altitud presentaría, con un 95% de confianza, temperaturas comprendidas entre 9.74 y 14 °C.

En el contexto del sistema geotérmico del volcán Azufral, esta relación indica que el gradiente térmico negativo con la altura sigue el comportamiento esperado de enfriamiento ambiental. No obstante, los valores observados que se alejen significativamente de estos intervalos pueden interpretarse como puntos de anomalía térmica positiva, posiblemente vinculados a emanaciones de vapor, fracturas activas o zonas de flujo de calor elevado, las cuales son de especial interés en exploración geotérmica por indicar sectores de recarga o descarga de fluidos calientes.

5. Conclusiones

  • Al validar el modelo de regresión lineal tanto de forma individual como global, se evidenció que este explicaba de manera consistente la variabilidad de la temperatura del subsuelo a 150 cm de profundidad en función de las variaciones de la altitud. Se determinó una relación lineal negativa entre ambas variables, lo que indicó que, por cada incremento de una unidad en la altura, la temperatura del suelo tendía a disminuir aproximadamente 0.00695 °C, reflejando un comportamiento coherente con los gradientes térmicos esperados en zonas de mayor altitud, lo cual significa que la hipótesis inicial planteada se pudo comprobar estadísticamente.

  • La evaluación exploratoria inicial del conjunto de datos resultó fundamental, ya que permitió identificar y eliminar valores atípicos que, de haberse incluido, habrían generado un ajuste inadecuado del modelo y una posible distorsión en la relación estadística entre la temperatura y la altura.

  • Aunque no se cumplió plenamente el segundo supuesto del análisis residual —referido a la independencia o distribución ideal de los errores—, se decidió mantener el modelo de regresión lineal propuesto debido a que presentó características estadísticas sólidas que respaldaron su validez y confiabilidad predictiva. Entre ellas se destacaron la significancia de los coeficientes, los errores estándar bajos y próximos a cero, un coeficiente de determinación relativamente alto, y el cumplimiento de tres de los cuatro supuestos fundamentales del análisis residual. Estas evidencias estadísticas permitieron considerar este modelo como el más adecuado para explicar la variabilidad de la temperatura del subsuelo a 150 cm en función de los cambios altitudinales.

  • Con base en los resultados obtenidos de los intervalos de confianza y de predicción, se concluyó que el modelo de regresión lineal constituyó un estimador apropiado de las variaciones térmicas del suelo asociadas a la altitud. Dado que muchas de las zonas con potencial geotérmico en Colombia se localizan entre los 2500 y 3500 m s. n. m., el modelo podría emplearse como una herramienta de referencia para la estimación de temperaturas a 150 cm de profundidad en áreas geotérmicas con condiciones altitudinales y ambientales similares.

  • Es importante destacar que, aunque el modelo de regresión lineal propuesto explicó de manera adecuada la variabilidad de la temperatura del subsuelo en función de la altitud, se reconoce la necesidad de incorporar variables explicativas adicionales. La inclusión de información sobre alteración hidrotermal, fuentes de calor secundarias —como la desintegración de isótopos radiactivos—, o parámetros derivados de modelos hidrogeológicos, como el flujo de aguas subterráneas, podría mejorar significativamente el ajuste del modelo y aportar mayor precisión en la estimación de las temperaturas a 150 cm de profundidad.

6. Códigos Utilizados en R

# Instalación de paquetes
install.packages("MASS", type = "binary")
install.packages("lmtest", type = "binary")
install.packages("car", type = "binary")
install.packages("nortest", type = "binary")
install.packages("writexl", type = "binary")

#Librerias utilizadas
library(nortest)
library(writexl)
library(car)
library(readxl)
library(ggplot2)
library(dplyr)
library(MASS)
library(lmtest)

# Leer la base de datos original
SST <- read_excel("D:/15.UNAL_Estadistica/MetodosdeRegresion/Actividad1/SST_AZ.xls")

# --- Gráfico de dispersión ---
ggplot(SST, aes(x = Altura, y = T_150cm)) +
  geom_point(color = "darkorange", size = 3, alpha = 0.8) +
  labs(
    title = "Dispersión entre la temperatura a 150 cm y la altura",
    x = "Altura sobre el nivel del mar (m)",
    y = "Temperatura del subsuelo (°C)"
  ) +
  theme_minimal(base_size = 14) +
  theme(
    plot.title = element_text(face = "bold", hjust = 0.5),
    panel.grid.minor = element_blank()
  )

# Crear diagrama de cajas para temperatura
ggplot(SST, aes(y = T_150cm)) +
  geom_boxplot(fill = "skyblue", color = "darkblue",
               outlier.color = "red", outlier.shape = 16, outlier.size = 3) +
  labs(
    title = "Diagrama de cajas - Temperatura a 150 cm",
    y = "Temperatura (°C)"
  ) +
  theme_minimal(base_size = 14)

# Calcular los límites inferior y superior para detectar outliers
Q1 <- quantile(SST$T_150cm, 0.25, na.rm = TRUE)
Q3 <- quantile(SST$T_150cm, 0.75, na.rm = TRUE)
IQR <- Q3 - Q1

limite_inferior <- Q1 - 1.5 * IQR
limite_superior <- Q3 + 1.5 * IQR

# Identificar los outliers
outliers <- SST %>%
  filter(T_150cm < limite_inferior | T_150cm > limite_superior)

# Mostrar en consola los IDs de los outliers detectados
cat("IDs de outliers detectados:\n")
print(outliers$ID)

# Crear nueva base de datos eliminando outliers y valores vacíos
SST_ <- SST %>%
  filter(!(ID %in% outliers$ID)) %>%    # elimina los outliers
  filter(!is.na(T_150cm))               # elimina los registros con T_150cm en blanco o NA

# Guardar nueva base de datos en formato Excel (.xlsx)
write_xlsx(SST_, "D:/15.UNAL_Estadistica/MetodosdeRegresion/Actividad1/SST_.xlsx")

# Verificar IDs eliminados
cat("Número total de IDs eliminados:", nrow(SST) - nrow(SST_), "\n")

# Crear el diagrama de dispersión
ggplot(SST_, aes(x = Altura, y = T_150cm)) +
  geom_point(color = "darkorange", size = 3, alpha = 0.8) +
  labs(
    title = "Dispersión entre la temperatura a 150 cm y la altura",
    x = "Altura sobre el nivel del mar (m)",
    y = "Temperatura del subsuelo (°C)"
  ) +
  theme_minimal(base_size = 14) +
  theme(
    plot.title = element_text(face = "bold", hjust = 0.5),
    panel.grid.minor = element_blank()
  )

# Coeficiente de correlacion de Pearson y Covarianza
cor(SST_$Altura, SST_$T_150cm, method = "pearson")
cov(SST_$Altura, SST_$T_150cm)

#Modelo de regresion lineal simple
m1 <- lm(T_150cm ~ Altura,data = SST_)
summary(m1)

# --- Prueba t de Student para verificar si la media de los residuales es igual a cero ---

# Calcular los residuales del modelo
residuales <- residuals(m1)

# Aplicar la prueba t para comparar la media de los residuales con cero
prueba_t <- t.test(residuales)
# Mostrar los resultados de la prueba
print(prueba_t)

# Prueba de Durbin-Watson para autocorrelación de los residuales
dw <- dwtest(m1)
# Mostrar resultado
print(dw)

# Prueba de Bartlett
bartlett.test(residuales ~ SST_$T_150cm < mean(SST_$T_150cm))
# Prueba de Levene
leveneTest(residuales ~ SST_$T_150cm < mean(SST_$T_150cm))

# Prueba de Shapiro–Wilk
shapiro.test(residuales)
# Prueba de Kolmogorov–Smirnov
ks.test(residuales, "pnorm", 0, sd(residuales))
# Prueba de Anderson-Darling
ad.test(residuales)

# Alturas de interés
nuevas_alturas <- data.frame(Altura = c(0,4000))

# Intervalo de confianza (media estimada)
IC_media <- predict(m1, nuevas_alturas, interval = "confidence", level = 0.95)
IC_media

# Intervalo de predicción (nueva observación)
IP_prediccion <- predict(m1, nuevas_alturas, interval = "prediction", level = 0.95)
IP_prediccion

7. Referencias

  • Phan, T. N., & Kappas, M. (2018). Land surface temperature variation due to changes in elevation in northwest Vietnam. Climate, 6(2), 28. https://doi.org/10.3390/cli6020028. MDPI

  • Kattel, D. B., Salih, H. A. M., Yao, T., & Ullah, K. (2021). Near-surface air temperature dependence on elevation and geographical coordinates over tropical desert land surfaces. Frontiers in Earth Science, 9, 777381. https://doi.org/10.3389/feart.2021.777381