El propósito de este estudio fue analizar la relación entre la edad fósil y un conjunto de variables regresoras.
Objetivo: Construir un modelo de regresión lineal múltiple para identificar qué factores cuantitativos y cualitativos tienen un impacto estadísticamente significativo en la determinación de la edad de un fósil.
Datos: Se utilizó un conjunto de datos (edad_fosil) que incluye 5 variables cualitativas (como Periodo Geológico, Tipo de Roca) y 7 variables cuantitativas (como ratios de isótopos, profundidad).
📊 Definición de Variables
Variable dependientes
edad
Variables independientes
ratio_uranio
ratio_carbono_14
desintegracion_serie_radioactiva
profundidad_capa_estratigráfica
periodo_geologico
datos_paleomagnético
inclusion_otros_fosiles
composicion_isotopica
tipo_roca_circundante
posicion_estratigrafica
tamaño
peso
⛰️ Variables Cualitativas
✅ Periodo Geológico
✅ Dato Paleomagnético
✅ Inclusión de otros fósiles
✅ Tipo de roca circundante
✅ Posición estratigráfica
⚙️ Modelo y Estimación de Parámetros
A continuación, se define el modelo de regresión lineal y se extraen sus coeficientes.
Aquí se muestran las estimaciones de los coeficientes del modelo:
Término
Estimación
(Intercept)
3.723389e+03
ratio_uranio
5.252318e+04
ratio_carbono_14
7.849521e+03
desintegracion_serie_radioactiva
4.670984e+03
profundidad_capa_estratigráfica
6.096094e+01
periodo_geologicoCarboniferous
-1.933097e+03
periodo_geologicoCretaceous
-3.421895e+03
periodo_geologicoDevonian
-1.204128e+03
periodo_geologicoJurassic
-3.015361e+03
periodo_geologicoNeogene
-4.178468e+03
periodo_geologicoOrdovician
-5.973963e+02
periodo_geologicoPaleogene
-3.820298e+03
periodo_geologicoPermian
-2.157308e+03
periodo_geologicoSilurian
-6.444217e+02
periodo_geologicoTriassic
-2.644995e+03
dato_paleomagnéticoReversed polarity
1.803392e+03
inclusion_otros_fosilesTRUE
-1.027599e+02
composicion_isotopica
7.080248e+01
tipo_roca_circundanteLimestone
8.208685e+02
tipo_roca_circundanteSandstone
4.244183e+02
tipo_roca_circundanteShale
1.184572e+03
posicion_estratigraficaMiddle
-7.162551e+03
posicion_estratigraficaTop
-7.246158e+03
tamano
-8.713448e-01
peso
9.265674e-02
🔬 Inferencia sobre el Modelo Completo (Prueba F)
Esta prueba (Prueba F Global) determina si el modelo, en su conjunto, es estadísticamente significativo.
1. Planteamiento de las Hipótesis
Hipótesis Nula (\(H_0\)): El modelo no es significativo. Ninguna variable predictora explica la variabilidad de la edad.
\(H_0: \beta_1 = \beta_2 = \dots = \beta_k = 0\)
Hipótesis Alternativa (\(H_1\)): El modelo es significativo. Al menos una variable predictora sí explica la variabilidad de la edad.
\(H_1: \text{Al menos un } \beta_j \neq 0\)
2. Estadístico de Prueba
Se obtiene el estadístico F y su valor p del resumen del modelo.
Resultados de la Prueba F
Estadístico de prueba:13551.78
Valor-p:0
Estadistico teorico:1.519794
Comparando el estadistico de prueba con el estadistico teorico con un nivel de significancia de \(\alpha=0.05\), \(F_0=13551.78 > F_{\alpha,p-1,n-p}=1.519794\) se encuentra evidencia estadistica suficiente para rechazar la hipotesis nula por lo tanto al menos un \(\beta_k\neq0\) por lo tanto la variable respuesta edad esta relacionada con al menos una variable regresora.
(Estos valores se encuentran al final de la salida de summary(modelo) en R)
Inferencia para cada \(\beta_k\)
Para hacer la inferencia se realizo la comparacion del estadistico teorico de cada parametro con el estadistico teorico del modelo y tambien cada \(P\text{-value}\) se comparo con el nivel de significancia \(\alpha=0.05\) cuyos resultados se pueden observar a continuacion en Figura 1
Coeficientes
Valor
T_0
Estadistico_teorico
p_value
Significancia
Beta 0
3723.38900
22.89346
1.519794
2e-16
SI
Beta 1
52523.18000
508.97800
1.519794
2e-16
SI
Beta 2
7849.52100
69.01300
1.519794
2e-16
SI
Beta 3
4670.98400
50.74000
1.519794
2e-16
SI
Beta 4
60.96094
197.76900
1.519794
2e-16
SI
Beta 5
-1933.09700
-7.70600
1.519794
1.6e-14
SI
Beta 6
-3421.89500
-36.81600
1.519794
2e-16
SI
Beta 7
-1204.12800
-12.21700
1.519794
2e-16
SI
Beta 8
-3015.36100
-30.44100
1.519794
2e-16
SI
Beta 9
-4178.46800
-36.02400
1.519794
2e-16
SI
Beta 10
-597.39630
-3.21900
1.519794
0.00129
SI
Beta 11
-3820.29800
-36.16900
1.519794
2e-16
SI
Beta 12
-2157.30800
-19.70000
1.519794
2e-16
SI
Beta 13
-644.42170
-1.53900
1.519794
0.12393
No
Beta 14
-2644.99500
-29.43700
1.519794
2e-16
SI
Beta 15
1803.39200
30.54800
1.519794
2e-16
SI
Beta 16
-102.75990
-1.87900
1.519794
0.06031
NO
Beta 17
70.80000
1.39000
1.519794
0.16
NO
Beta 18
820.86000
9.23900
1.519794
2e-16
SI
Beta 19
424.41800
4.96400
1.519794
7.16e-07
SI
Beta 20
1184.57200
13.30000
1.519794
2e-16
SI
Beta 21
-7162.55100
-119.44900
1.519794
2e-16
SI
Beta 22
-7246.15800
-81.92800
1.519794
2e-16
SI
Beta 23
-87.13440
-1.22500
1.519794
0.22
NO
Beta 24
0.09260
0.65300
1.519794
0.51
NO
Figura 1: Tabla 1: Tabla de inferencias
Verificacion supuesto de normalidad
Figura 2: Figura 1: Gráfico de dispersión Cuantil-Cuantil
Por lo cual analizando los resultados obtenidos se puede concluir que si existe evidencia estadística suficiente para rechazar \(H_0\) por lo tanto los residuales no siguen una distribucion y en este modelo no cumple el supuesto de normalidad.
Verificaion del supuesto de homocedasticidad
Figura 3: Figura 2: Gráfico de dispersión: valores ajustados vs residuales
Verificacion formal
library(lmtest)#BP_0bptest(modelo)
studentized Breusch-Pagan test
data: modelo
BP = 144.56, df = 24, p-value < 2.2e-16
#estadistico de pruebaqchisq(0.05,24,lower.tail =FALSE)
[1] 36.41503
CW_0<-bptest(modelo,studentize =FALSE)CW_0
Breusch-Pagan test
data: modelo
BP = 218.64, df = 24, p-value < 2.2e-16
Una vez aplicado el test de Breuch-Pagan para un nivel de significancia de \(\alpha=0.05\) se encontro:
\(BP_0=144.56\)
\(\chi^2\alpha,\; 1=36.41503\)
\(P\text{-value}= 2.2e^{-16}\)
\(CW_0=218.64\)
Aplicando el estadístico de prueba:
\[BP_0=144.56 >\chi^2\alpha,\; 1=36.41503\] Usando el \(P\text{-value}\):
Por lo tanto aplicado el test de Breuch-Pagan se encontro evidencia estadistica suficiente para rechazar \(H_0\) lo que quiere decir que \(\gamma_k\neq0\), asi que podemos afirmar que las variables \(\sigma^2\) dependen de las varaiables regresoras y no se cumple el supuesto de homocedasticidad para este modelo.
Verificacion del supuesto de independencia
Figura 4: Figura 3: Gráfico de residuales vs orden temporal
Verificacion formal
library(car)DW<-durbinWatsonTest(modelo, alternative ="two.sided")D_0<- DW$dwD_l<-1.643D_u<-1.896if (0<=D_0 & D_0<=D_l){print("Rechazo la hipotesis nula")} elseif (D_l<=D_0 & D_0<= D_u){print("No concluyente para autocorrelacion")} elseif (D_u<=D_0 & D_0<=4-D_u){print("No rechazo la hipotesis nula")} elseif (4-D_u<= D_0 & D_0<=4-D_l){print("No concluyente para autocorrelacion")} elseif (4-D_l<=D_0 & D_0<=4){print("Rechazo la hipotesis nula")}
[1] "No rechazo la hipotesis nula"
Del resultado anterior tenemos que para \(\alpha =0.05\)
\(d_0=1.967451\)
Cantidad de variables regresoras = \(12\)
De la tabla Durbin-Watson[^4] se obtiene:
\(d_L=1.643\)
\(d_U=1.896\)
\(4-d_U=2.104\)
\(4-d_L=2.357\)
Como el estadístico de prueba \(d_0\) se encuentra entre \(d_u\) y \(4-d_u\) la prueba de Durbin-Watson afirma que no existe evidencia estadistica suficiente para rechazar \(H_0\) por lo tanto el modelo cumple con el supuesto de independencia.
Diagnostico de multicolinealidad
Para el diagnostico de multicolinealidad es necesario calcular el factor de inflacion de la varianza (VIF), para determinar si existen problemas de multicolinealidad en las variables regresoras presentes en el modelo sabemos que:
\(VIF_k \leq 5\) no existen problemas de multicolinealidad
\(5\leq VIF_k\leq 10\) existen problemas moderados de multicolinealidad
\(VIF_k \geq 10\) existen problemas de multicolinealidad graves
Tabla 1: Resultados del VIF para el modelo estimado.
Todos los VIF para cada variable regresora son cercanos a 1 lo que quiere decir que ninguna variable regresora tiene problemas de multicolinealidad dentro del modelo de regresion
el coeficiente de determinacion ajustado, en primera instancia el modelo exluye la variable peso del mejor modelo posible y alcanza un \(R^{2}_{ajustado} = 0.986662\)
El modelo explica la edad de un fosil casi a la perfeccion ya que tiene un 98,6% de determinacion, en conclusion el modelo representa adecuadamente la edad de un fosil pero eliminando la variable regresora peso.
el valor minimo entre todos los cp es igual a 22.83 el cual es cercano al numero de parametros presentes en el modelo, sin embargo cp de mallow excluye las variables (composicion isotopica, tamaño y peso) del mejor modelo posible. Siendo este el mas apropiado para determinar la variable respuesta edad
El modelo con el menor AIC= 78217.12, es el modelo que excluye las variables regresoras (composicion isotopica, tamaño y peso) reafirmando lo indicado por el Cp de mallow siendo este el modelo mas adecuado en terminos de ajuste.
Nuevamente el modelo que excluye las variables regresoras (composicion isotopica, tamaño y peso) resulto ser el modelo mas eficiente ya que representa el menor BIC= 65712.23 con respecto a todos los modelos posibles.
Durante el proceso de eliminacion progresiva el cual fue efectuado con el modelo completo, duarnte el proceso de elminacion progresiva fue removida la variable peso, definiendo el modelo resultante como:
En la aplicacion del metodo de introduccion progresiva se inicia con un modelo vacio en le cual se van introduccion variables segun el \(P\text{-value}\) ya que la variable regresora con este valor mas bajo sera elegida por el algoritmo para ser parte del modelo, a lo largo de la aplicacion de este metodo se agregaron las siguientes variables:
ratio_uranio
profundidad_capa_estratigráfica
posicion_estratigrafica
ratio_carbono_14
desintegracion_serie_radioactiva
dato_paleomagnético
periodo_geologico
tipo_roca_circundante
inclusion_otros_fosiles
composicion_isotopica
tamano
Fueron seleccionadas en ese orden y como se puede observar nuevamente no existe la presencia de la variable regresora peso dentro del modelo resultante, reafirmando que la variable peso no es significativa para el modelo y no tiene efecto sobre la variable respuesta edad
Obteniendo nuevamente un coeficiente de determinacion igual a 98.7% indicando que este modelo es significativo y explica en gran medida la varibilidad de la varible edad de un fosil
Conclusiones
**Sobre el Modelo y su Capacidad *Predictiva**
El modelo de regresión lineal múltiple desarrollado explica exitosamente la variabilidad en la edad de los fósiles, con un R² ajustado del 98.7%, indicando una capacidad predictiva excepcional.
La prueba F global confirmó que el modelo en su conjunto es estadísticamente significativo (F = 13551.78, p < 0.001), demostrando que al menos algunas variables regresoras tienen relación real con la edad fósil.
Variables Significativas Identificadas
Variables como ratio_uranio, ratio_carbono_14, desintegración radioactiva y profundidad estratigráfica mostraron alta significancia estadística, respaldando su importancia en la datación fósil.
Entre las variables cualitativas, el periodo geológico, tipo de roca circundante y posición estratigráfica resultaron altamente predictivas.
Limitaciones y Supuestos del Modelo
El modelo no cumple con los supuestos de normalidad y homocedasticidad, lo que sugiere posibles mejoras en la especificación del modelo o transformación de variables.
Sin embargo, sí cumple con el supuesto de independencia de los residuales y no presenta problemas de multicolinealidad.
Optimización del Modelo
Los criterios de Cp de Mallow, AIC y BIC coincidieron en identificar que las variables composición isotópica, tamaño y peso pueden excluirse del modelo sin afectar su capacidad predictiva.
Los métodos de eliminación progresiva e introducción progresiva confirmaron que la variable peso no aporta significativamente al modelo.
Recomendaciones Finales
Utilizar el modelo optimizado excluyendo variables no significativas para mejorar la parsimonia.
Considerar transformaciones de variables o métodos robustos para abordar los supuestos no cumplidos.
Validar externamente el modelo con nuevos datos para confirmar su generalizabilidad.
Priorizar las variables altamente significativas en futuros estudios de datación fósil.