Análisis de Regresión: Edad Fósil

Resultados Clave y Diagnóstico del Modelo

Oscar David Maturana Muñoz
Angel Luis Durango Padilla
Alan David Petro Hernandez
Jovvanis Andres Petro Maldonado
Jose Julian Pacheco Diaz

🎯 Introducción y Objetivo

El propósito de este estudio fue analizar la relación entre la edad fósil y un conjunto de variables regresoras.

Objetivo: Construir un modelo de regresión lineal múltiple para identificar qué factores cuantitativos y cualitativos tienen un impacto estadísticamente significativo en la determinación de la edad de un fósil.

Datos: Se utilizó un conjunto de datos (edad_fosil) que incluye 5 variables cualitativas (como Periodo Geológico, Tipo de Roca) y 7 variables cuantitativas (como ratios de isótopos, profundidad).

📊 Definición de Variables

Variable dependencia

  • edad

Variables independencias

  • ratio_uranio
  • ratio_carbono_14
  • desintegracion_serie_radioactiva
  • profundidad_capa_estratigráfica
  • periodo_geologico
  • datos_paleomagnético
  • inclusion_otros_fosiles
  • composicion_isotopica
  • tipo_roca_circundante
  • posicion_estratigrafica
  • tamaño
  • peso

⛰️ Variables Cualitativas

  • ✅ Periodo Geológico
  • ✅ Dato Paleomagnético
  • ✅ Inclusión de otros fósiles
  • ✅ Tipo de roca circundante
  • ✅ Posición estratigráfica

❌ Variables NO Significativas (Pruebas t)

Un hallazgo importante es identificar qué variables NO aportaron significancia al modelo (p > 0.05).

Variables Descartables

  • tamaño
  • peso
  • composicion_isotopica
  • inclusion_otros_fosiles (Nivel “No”)
  • periodo_geologico (Nivel “Silurian”)

⚙️ Modelo y Estimación de Parámetros

A continuación, se define el modelo de regresión lineal y se extraen sus coeficientes.

Definición del Modelo

library(readxl)
edad_fosil <- read_excel("C:/Users/OSCAR}/OneDrive - UPB/David/OneDrive - UPB/edad_fosil .xlsx", 
                          sheet = "datos")

edad_fosil$periodo_geologico<- as.factor(edad_fosil$periodo_geologico)
edad_fosil$dato_paleomagnético<- as.factor(edad_fosil$dato_paleomagnético)
edad_fosil$inclusion_otros_fosiles<- as.factor(edad_fosil$inclusion_otros_fosiles)
edad_fosil$tipo_roca_circundante<- as.factor(edad_fosil$tipo_roca_circundante)
edad_fosil$posicion_estratigrafica<- as.factor(edad_fosil$posicion_estratigrafica)
modelo <- lm(edad_fosil$edad ~ ., data = edad_fosil)

Estimación de Coeficientes

coeficientes <- modelo$coefficients

Tabla de Coeficientes

Aquí se muestran las estimaciones de los coeficientes del modelo:

Término Estimación
(Intercept) 3.723389e+03
ratio_uranio 5.252318e+04
ratio_carbono_14 7.849521e+03
desintegracion_serie_radioactiva 4.670984e+03
profundidad_capa_estratigráfica 6.096094e+01
periodo_geologicoCarboniferous -1.933097e+03
periodo_geologicoCretaceous -3.421895e+03
periodo_geologicoDevonian -1.204128e+03
periodo_geologicoJurassic -3.015361e+03
periodo_geologicoNeogene -4.178468e+03
periodo_geologicoOrdovician -5.973963e+02
periodo_geologicoPaleogene -3.820298e+03
periodo_geologicoPermian -2.157308e+03
periodo_geologicoSilurian -6.444217e+02
periodo_geologicoTriassic -2.644995e+03
dato_paleomagnéticoReversed polarity 1.803392e+03
inclusion_otros_fosilesTRUE -1.027599e+02
composicion_isotopica 7.080248e+01
tipo_roca_circundanteLimestone 8.208685e+02
tipo_roca_circundanteSandstone 4.244183e+02
tipo_roca_circundanteShale 1.184572e+03
posicion_estratigraficaMiddle -7.162551e+03
posicion_estratigraficaTop -7.246158e+03
tamano -8.713448e-01
peso 9.265674e-02

🔬 Inferencia sobre el Modelo Completo (Prueba F)

Esta prueba (Prueba F Global) determina si el modelo, en su conjunto, es estadísticamente significativo.

1. Planteamiento de las Hipótesis

  • Hipótesis Nula (\(H_0\)): El modelo no es significativo. Ninguna variable predictora explica la variabilidad de la edad.
    • \(H_0: \beta_1 = \beta_2 = \dots = \beta_k = 0\)
  • Hipótesis Alternativa (\(H_1\)): El modelo es significativo. Al menos una variable predictora sí explica la variabilidad de la edad.
    • \(H_1: \text{Al menos un } \beta_j \neq 0\)

2. Estadístico de Prueba

Se obtiene el estadístico F y su valor p del resumen del modelo.

Resultados de la Prueba F

  • Estadístico de prueba: 13551.78
  • Valor-p: 0
  • Estadistico teorico: 1.519794

Comparando el estadistico de prueba con el estadistico teorico con un nivel de significancia de \(\alpha=0.05\), \(F_0=13551.78 > F_{\alpha,p-1,n-p}=1.519794\) se encuentra evidencia estadistica suficiente para rechazar la hipotesis nula por lo tanto al menos un \(\beta_k\neq0\) por lo tanto la variable respuesta edad esta relacionada con al menos una variable regresora.

(Estos valores se encuentran al final de la salida de summary(modelo) en R)

Verificacion supuesto de normalidad

📈 Gráfico de Normalidad (Q-Q Plot)

Este gráfico compara los cuantiles de los residuos del modelo con los cuantiles de una distribución normal teórica.

Figura 1: Figura 1: Gráfico de dispersión Cuantil-Cuantil

Verificacion formal

library(nortest)
prueba<-lillie.test(residuales)
prueba

    Lilliefors (Kolmogorov-Smirnov) normality test

data:  residuales
D = 0.031285, p-value = 1.379e-10
KS <-0.895/(sqrt(4398)-0.01+(0.85/sqrt(4398)))
KS
[1] 0.01349513
D_0<-as.numeric(prueba$statistic)
D_0
[1] 0.03128498

La verificación formal del supuesto de normalidad aplicando el Test Kolmogorov-Smirnov con un nivel de significancia de \(\alpha=0.05\)nos dice que:

\[ Si\quad D_0 > KS \rightarrow Rechazo \quad H_0\]

En este caso:

  • \(D_0= 0.03128498\)

  • \(KS= 0.01349513\)

\[D_0=0.03128498>KS=0.01349513 \quad \]

Por lo cual analizando los resultados obtenidos se puede concluir que si existe evidencia estadística suficiente para rechazar \(H_0\) por lo tanto los residuales no siguen una distribucion y en este modelo no cumple el supuesto de normalidad.

Verificaion del supuesto de homocedasticidad

Verificacion grafica

Figura 2: Figura 2: Gráfico de dispersión: valores ajustados vs residuales

Verificacion formal

library(lmtest)
#BP_0
bptest(modelo)

    studentized Breusch-Pagan test

data:  modelo
BP = 144.56, df = 24, p-value < 2.2e-16
#estadistico de prueba
qchisq(0.05,24,lower.tail = FALSE)
[1] 36.41503
CW_0<-bptest(modelo,studentize = FALSE)
CW_0

    Breusch-Pagan test

data:  modelo
BP = 218.64, df = 24, p-value < 2.2e-16

Una vez aplicado el test de Breuch-Pagan para un nivel de significancia de \(\alpha=0.05\) se encontro:

  • \(BP_0=144.56\)
  • \(\chi^2\alpha,\; 1=36.41503\)
  • \(P\text{-value}= 2.2e^{-16}\)
  • \(CW_0=218.64\)

Aplicando el estadístico de prueba:

\[BP_0=144.56 >\chi^2\alpha,\; 1=36.41503\] Usando el \(P\text{-value}\):

\[Si \quad P\text{-value} < \alpha \quad \text{Rechazo} \quad H_0 \]

\[P\text{-value}= 2.2e^{-16}<\alpha=0.05\]

Por lo tanto aplicado el test de Breuch-Pagan se encontro evidencia estadistica suficiente para rechazar \(H_0\) lo que quiere decir que \(\gamma_k\neq0\), asi que podemos afirmar que las variables \(\sigma^2\) dependen de las varaiables regresoras y no se cumple el supuesto de homocedasticidad para este modelo.

Verificacion del supuesto de independencia

Verificacion grafica

Figura 3: Figura 3: Gráfico de residuales vs orden temporal

Verificacion formal

library(car)
DW<- durbinWatsonTest(modelo, alternative = "two.sided")
D_0<- DW$dw

D_l<- 1.643
D_u<- 1.896

if (0<=D_0 & D_0<=D_l){
  print("Rechazo la hipotesis nula")
} else if (D_l<=D_0 & D_0<= D_u){
  print("No concluyente para autocorrelacion")
} else if (D_u<=D_0 & D_0<= 4-D_u){
  print("No rechazo la hipotesis nula")
} else if (4-D_u<= D_0 & D_0<= 4-D_l){
  print("No concluyente para autocorrelacion")
} else if (4-D_l<=D_0 & D_0<=4){
  print("Rechazo la hipotesis nula")
}
[1] "No rechazo la hipotesis nula"

Del resultado anterior tenemos que para \(\alpha =0.05\)

  • \(d_0=1.967451\)
  • Cantidad de variables regresoras = \(12\)

De la tabla Durbin-Watson[^4] se obtiene:

  • \(d_L=1.643\)
  • \(d_U=1.896\)
  • \(4-d_U=2.104\)
  • \(4-d_L=2.357\)

Como el estadístico de prueba \(d_0\) se encuentra entre \(d_u\) y \(4-d_u\) la prueba de Durbin-Watson afirma que no existe evidencia estadistica suficiente para rechazar \(H_0\) por lo tanto el modelo cumple con el supuesto de independencia.

Diagnostico de multicolinealidad

Para el diagnostico de multicolinealidad es necesario calcular el factor de inflacion de la varianza (VIF), para determinar si existen problemas de multicolinealidad en las variables regresoras presentes en el modelo sabemos que:

  • \(VIF_k \leq 5\) no existen problemas de multicolinealidad
  • \(5\leq VIF_k\leq 10\) existen problemas moderados de multicolinealidad
  • \(VIF_k \geq 10\) existen problemas de multicolinealidad graves
library(car)
vif(modelo)
                                     GVIF Df GVIF^(1/(2*Df))
ratio_uranio                     1.004380  1        1.002188
ratio_carbono_14                 1.006490  1        1.003240
desintegracion_serie_radioactiva 1.002212  1        1.001105
profundidad_capa_estratigráfica  1.008812  1        1.004396
periodo_geologico                1.032246 10        1.001588
dato_paleomagnético              1.005744  1        1.002868
inclusion_otros_fosiles          1.005323  1        1.002658
composicion_isotopica            1.006760  1        1.003375
tipo_roca_circundante            1.014772  3        1.002447
posicion_estratigrafica          1.005290  2        1.001320
tamano                           1.007069  1        1.003528
peso                             1.005055  1        1.002524
Variable VIF
ratio_uranio 1.004380
ratio_carbono_14 1.006490
desintegracion_serie_radioactiva 1.002212
profundidad_capa_estratigrafica 1.008812
periodo_geologico 1.032246
dato_paleomagnético 1.005744
inclusion_otros_fosiles 1.005323
composicion_isotopica 1.006760
tipo_roca_circundante 1.014772
posicion_estratigrafica 1.005290
tamano 1.007069
peso 1.005055
Tabla 1: Resultados del VIF para el modelo estimado.

Todos los VIF para cada variable regresora son cercanos a 1 lo que quiere decir que ninguna variable regresora tiene problemas de multicolinealidad dentro del modelo de regresion

Seleccion del modelo

Coeficiente de determinacion

library(olsrr)
resultados_generales<- ols_step_all_possible(modelo)

R_2_todos<- c(resultados_generales$result[3], resultados_generales$result[5])

indice_maximo<- which.max(R_2_todos$adjr)
variables_max<- R_2_todos$predictors[indice_maximo]
max(R_2_todos$adjr)
[1] 0.986662

el coeficiente de determinacion ajustado, en primera instancia el modelo exluye la variable peso del mejor modelo posible y alcanza un \(R^{2}_{ajustado} = 0.986662\)

El modelo explica la edad de un fosil casi a la perfeccion ya que tiene un 98,6% de determinacion, en conclusion el modelo representa adecuadamente la edad de un fosil pero eliminando la variable regresora peso.

\(C_p\) de Mallow

library(olsrr)
cp_todos<- ols_step_all_possible(modelo)
cp_organizados<- c(cp_todos$result[8], cp_todos$result[3])
which.min(cp_organizados$cp)
[1] 3797
cp_organizados$predictors[3797]
[1] "ratio_uranio ratio_carbono_14 desintegracion_serie_radioactiva profundidad_capa_estratigráfica periodo_geologico dato_paleomagnético inclusion_otros_fosiles tipo_roca_circundante posicion_estratigrafica"
min(cp_organizados$cp)
[1] 22.83565

el valor minimo entre todos los cp es igual a 22.83 el cual es cercano al numero de parametros presentes en el modelo, sin embargo cp de mallow excluye las variables (composicion isotopica, tamaño y peso) del mejor modelo posible. Siendo este el mas apropiado para determinar la variable respuesta edad

Criterio de información de AKAIKE (AIC)

AIC_todos<- ols_step_all_possible(modelo)
AIC_organizados<- c(AIC_todos$result[9], AIC_todos$result[3])
which.min(AIC_organizados$aic)
[1] 3797
AIC_organizados$predictors[3797]
[1] "ratio_uranio ratio_carbono_14 desintegracion_serie_radioactiva profundidad_capa_estratigráfica periodo_geologico dato_paleomagnético inclusion_otros_fosiles tipo_roca_circundante posicion_estratigrafica"
min(AIC_organizados$aic)
[1] 78217.12

El modelo con el menor AIC= 78217.12, es el modelo que excluye las variables regresoras (composicion isotopica, tamaño y peso) reafirmando lo indicado por el Cp de mallow siendo este el modelo mas adecuado en terminos de ajuste.

Criterio de información Bayesiano (BIC)

BIC_todos<- ols_step_all_possible(modelo)
BIC_organizados<- c(BIC_todos$result[10], BIC_todos$result[3])
which.min(BIC_organizados$sbic)
[1] 3797
BIC_organizados$predictors[3797]
[1] "ratio_uranio ratio_carbono_14 desintegracion_serie_radioactiva profundidad_capa_estratigráfica periodo_geologico dato_paleomagnético inclusion_otros_fosiles tipo_roca_circundante posicion_estratigrafica"
min(BIC_organizados$sbic)
[1] 65712.23

Nuevamente el modelo que excluye las variables regresoras (composicion isotopica, tamaño y peso) resulto ser el modelo mas eficiente ya que representa el menor BIC= 65712.23 con respecto a todos los modelos posibles.

Eliminacion progresiva

library(olsrr)
ols_step_backward_p(modelo,details = TRUE)
Backward Elimination Method 
---------------------------

Candidate Terms: 

1. ratio_uranio 
2. ratio_carbono_14 
3. desintegracion_serie_radioactiva 
4. profundidad_capa_estratigráfica 
5. periodo_geologico 
6. dato_paleomagnético 
7. inclusion_otros_fosiles 
8. composicion_isotopica 
9. tipo_roca_circundante 
10. posicion_estratigrafica 
11. tamano 
12. peso 


Step   => 0 
Model  => edad_fosil$edad ~ ratio_uranio + ratio_carbono_14 + desintegracion_serie_radioactiva + profundidad_capa_estratigráfica + periodo_geologico + dato_paleomagnético + inclusion_otros_fosiles + composicion_isotopica + tipo_roca_circundante + posicion_estratigrafica + tamano + peso 
R2     => 0.987 

Initiating stepwise selection... 

Step     => 1 
Removed  => peso 
Model    => edad_fosil$edad ~ ratio_uranio + ratio_carbono_14 + desintegracion_serie_radioactiva + profundidad_capa_estratigráfica + periodo_geologico + dato_paleomagnético + inclusion_otros_fosiles + composicion_isotopica + tipo_roca_circundante + posicion_estratigrafica + tamano 
R2       => 0.98673 


No more variables to be removed.

Variables Removed: 

=> peso 

                                Stepwise Summary                                 
-------------------------------------------------------------------------------
Step    Variable         AIC          SBC         SBIC         R2       Adj. R2 
-------------------------------------------------------------------------------
 0      Full Model    78219.260    78385.372    65714.426    0.98673    0.98666 
 1      peso          78217.689    78377.412    65712.841    0.98673    0.98666 
-------------------------------------------------------------------------------

Final Model Output 
------------------

                            Model Summary                              
----------------------------------------------------------------------
R                          0.993       RMSE                  1750.738 
R-Squared                  0.987       MSE                3065084.414 
Adj. R-Squared             0.987       Coef. Var                4.325 
Pred R-Squared             0.987       AIC                  78217.689 
MAE                     1336.667       SBC                  78377.412 
----------------------------------------------------------------------
 RMSE: Root Mean Square Error 
 MSE: Mean Square Error 
 MAE: Mean Absolute Error 
 AIC: Akaike Information Criteria 
 SBC: Schwarz Bayesian Criteria 

                                       ANOVA                                         
------------------------------------------------------------------------------------
                       Sum of                                                       
                      Squares          DF        Mean Square        F          Sig. 
------------------------------------------------------------------------------------
Regression       1.002496e+12          23    43586796957.491    14142.822    0.0000 
Residual      13480241253.584        4374        3081902.436                        
Total            1.015977e+12        4397                                           
------------------------------------------------------------------------------------

                                                    Parameter Estimates                                                      
----------------------------------------------------------------------------------------------------------------------------
                               model         Beta    Std. Error    Std. Beta       t         Sig         lower        upper 
----------------------------------------------------------------------------------------------------------------------------
                         (Intercept)     3753.272       156.056                   24.051    0.000     3447.322     4059.221 
                        ratio_uranio    52523.405       103.186        0.888     509.016    0.000    52321.108    52725.702 
                    ratio_carbono_14     7849.372       113.732        0.121      69.017    0.000     7626.400     8072.343 
    desintegracion_serie_radioactiva     4670.525        92.048        0.088      50.740    0.000     4490.065     4850.985 
     profundidad_capa_estratigráfica       60.959         0.308        0.346     197.786    0.000       60.355       61.563 
      periodo_geologicoCarboniferous    -1935.134       250.825       -0.014      -7.715    0.000    -2426.878    -1443.390 
         periodo_geologicoCretaceous    -3422.181        92.938       -0.077     -36.822    0.000    -3604.386    -3239.975 
           periodo_geologicoDevonian    -1204.569        98.553       -0.025     -12.223    0.000    -1397.783    -1011.356 
           periodo_geologicoJurassic    -3015.379        99.051       -0.062     -30.443    0.000    -3209.568    -2821.189 
            periodo_geologicoNeogene    -4176.739       115.954       -0.070     -36.021    0.000    -4404.068    -3949.411 
         periodo_geologicoOrdovician     -597.659       185.549       -0.006      -3.221    0.001     -961.428     -233.889 
          periodo_geologicoPaleogene    -3819.873       105.616       -0.073     -36.168    0.000    -4026.934    -3612.813 
            periodo_geologicoPermian    -2155.636       109.470       -0.039     -19.692    0.000    -2370.252    -1941.019 
           periodo_geologicoSilurian     -645.326       418.752       -0.003      -1.541    0.123    -1466.293      175.640 
           periodo_geologicoTriassic    -2644.294        89.841       -0.063     -29.433    0.000    -2820.428    -2468.160 
dato_paleomagnéticoReversed polarity     1803.626        59.029        0.053      30.555    0.000     1687.899     1919.354 
         inclusion_otros_fosilesTRUE     -102.606        54.683       -0.003      -1.876    0.061     -209.813        4.601 
               composicion_isotopica       69.692        50.895        0.002       1.369    0.171      -30.089      169.472 
      tipo_roca_circundanteLimestone      822.705        88.796        0.024       9.265    0.000      648.620      996.791 
      tipo_roca_circundanteSandstone      425.581        85.471        0.013       4.979    0.000      258.015      593.148 
          tipo_roca_circundanteShale     1185.082        89.059        0.034      13.307    0.000     1010.482     1359.682 
       posicion_estratigraficaMiddle    -7162.929        59.957       -0.213    -119.469    0.000    -7280.474    -7045.383 
          posicion_estratigraficaTop    -7246.981        88.431       -0.146     -81.951    0.000    -7420.350    -7073.612 
                              tamano       -0.862         0.711       -0.002      -1.212    0.226       -2.256        0.533 
----------------------------------------------------------------------------------------------------------------------------

Durante el proceso de eliminacion progresiva el cual fue efectuado con el modelo completo, duarnte el proceso de elminacion progresiva fue removida la variable peso, definiendo el modelo resultante como:

edad~ ratio_uranio + ratio_carbono_14 + desintegracion_serie_radioactiva + profundidad_capa_estratigráfica + periodo_geologico + dato_paleomagnético + inclusion_otros_fosiles + composicion_isotopica + tipo_roca_circundante + posicion_estratigrafica + tamano

Arrojando un coeficiente de determinacion \(R^2\): 98.7%, indicando que este modelo explica casi a la perfeccion la variable respuesta edad

En conclusion la variable regresora peso no es relevante para el modelo

Introduccion progresiva

library(olsrr)
ols_step_forward_p(modelo,details = TRUE)
Forward Selection Method 
------------------------

Candidate Terms: 

1. ratio_uranio 
2. ratio_carbono_14 
3. desintegracion_serie_radioactiva 
4. profundidad_capa_estratigráfica 
5. periodo_geologico 
6. dato_paleomagnético 
7. inclusion_otros_fosiles 
8. composicion_isotopica 
9. tipo_roca_circundante 
10. posicion_estratigrafica 
11. tamano 
12. peso 


Step   => 0 
Model  => edad_fosil$edad ~ 1 
R2     => 0 

Initiating stepwise selection... 

                                Selection Metrics Table                                  
----------------------------------------------------------------------------------------
Predictor                           Pr(>|t|)    R-Squared    Adj. R-Squared       AIC    
----------------------------------------------------------------------------------------
ratio_uranio                         0.00000        0.780             0.780    90532.720 
profundidad_capa_estratigráfica      0.00000        0.111             0.111    96664.005 
posicion_estratigrafica              0.00000        0.049             0.048    96966.546 
ratio_carbono_14                     0.00000        0.018             0.018    97103.021 
desintegracion_serie_radioactiva     0.00000        0.011             0.011    97135.414 
periodo_geologico                      2e-05        0.009             0.007    97161.829 
dato_paleomagnético                  0.00107        0.002             0.002    97172.808 
tamano                               0.03701        0.001             0.001    97179.166 
tipo_roca_circundante                0.48990        0.001             0.000    97185.097 
inclusion_otros_fosiles              0.61274        0.000             0.000    97183.262 
composicion_isotopica                0.72988        0.000             0.000    97183.400 
peso                                 0.86434        0.000             0.000    97183.490 
----------------------------------------------------------------------------------------

Step      => 1 
Selected  => ratio_uranio 
Model     => edad_fosil$edad ~ ratio_uranio 
R2        => 0.78 

                                Selection Metrics Table                                  
----------------------------------------------------------------------------------------
Predictor                           Pr(>|t|)    R-Squared    Adj. R-Squared       AIC    
----------------------------------------------------------------------------------------
profundidad_capa_estratigráfica      0.00000        0.899             0.899    87108.888 
posicion_estratigrafica              0.00000        0.832             0.832    89337.952 
ratio_carbono_14                     0.00000        0.795             0.795    90214.207 
desintegracion_serie_radioactiva     0.00000        0.788             0.788    90361.427 
periodo_geologico                    0.00000        0.789             0.788    90364.491 
dato_paleomagnético                  0.00000        0.782             0.782    90485.616 
composicion_isotopica                0.20815        0.780             0.780    90533.134 
tipo_roca_circundante                0.24189        0.780             0.780    90534.528 
inclusion_otros_fosiles              0.54234        0.780             0.780    90534.348 
tamano                               0.82145        0.780             0.779    90534.669 
peso                                 0.91165        0.780             0.779    90534.707 
----------------------------------------------------------------------------------------

Step      => 2 
Selected  => profundidad_capa_estratigráfica 
Model     => edad_fosil$edad ~ ratio_uranio + profundidad_capa_estratigráfica 
R2        => 0.899 

                                Selection Metrics Table                                  
----------------------------------------------------------------------------------------
Predictor                           Pr(>|t|)    R-Squared    Adj. R-Squared       AIC    
----------------------------------------------------------------------------------------
posicion_estratigrafica              0.00000        0.952             0.952    83866.619 
ratio_carbono_14                     0.00000        0.913             0.913    86448.557 
desintegracion_serie_radioactiva     0.00000        0.907             0.907    86719.664 
periodo_geologico                    0.00000        0.908             0.908    86702.400 
dato_paleomagnético                  0.00000        0.901             0.901    86996.141 
tipo_roca_circundante                  3e-05        0.899             0.899    87091.540 
inclusion_otros_fosiles              0.53578        0.899             0.899    87110.505 
tamano                               0.57470        0.899             0.899    87110.573 
peso                                 0.62567        0.899             0.899    87110.650 
composicion_isotopica                0.79103        0.899             0.899    87110.818 
----------------------------------------------------------------------------------------

Step      => 3 
Selected  => posicion_estratigrafica 
Model     => edad_fosil$edad ~ ratio_uranio + profundidad_capa_estratigráfica + posicion_estratigrafica 
R2        => 0.952 

                                Selection Metrics Table                                  
----------------------------------------------------------------------------------------
Predictor                           Pr(>|t|)    R-Squared    Adj. R-Squared       AIC    
----------------------------------------------------------------------------------------
ratio_carbono_14                     0.00000        0.966             0.966    82286.812 
periodo_geologico                    0.00000        0.961             0.961    82894.120 
desintegracion_serie_radioactiva     0.00000        0.960             0.960    83052.895 
dato_paleomagnético                  0.00000        0.954             0.954    83635.096 
tipo_roca_circundante                0.00000        0.952             0.952    83804.217 
tamano                               0.33393        0.952             0.952    83867.684 
inclusion_otros_fosiles              0.48181        0.952             0.952    83868.124 
composicion_isotopica                0.75647        0.952             0.952    83868.523 
peso                                 0.76052        0.952             0.952    83868.526 
----------------------------------------------------------------------------------------

Step      => 4 
Selected  => ratio_carbono_14 
Model     => edad_fosil$edad ~ ratio_uranio + profundidad_capa_estratigráfica + posicion_estratigrafica + ratio_carbono_14 
R2        => 0.966 

                                Selection Metrics Table                                  
----------------------------------------------------------------------------------------
Predictor                           Pr(>|t|)    R-Squared    Adj. R-Squared       AIC    
----------------------------------------------------------------------------------------
periodo_geologico                    0.00000        0.975             0.975    80940.144 
desintegracion_serie_radioactiva     0.00000        0.975             0.974    81055.334 
dato_paleomagnético                  0.00000        0.969             0.969    81875.499 
tipo_roca_circundante                0.00000        0.967             0.967    82190.819 
inclusion_otros_fosiles              0.35847        0.966             0.966    82287.968 
composicion_isotopica                0.63043        0.966             0.966    82288.580 
tamano                               0.71761        0.966             0.966    82288.681 
peso                                 0.83125        0.966             0.966    82288.767 
----------------------------------------------------------------------------------------

Step      => 5 
Selected  => desintegracion_serie_radioactiva 
Model     => edad_fosil$edad ~ ratio_uranio + profundidad_capa_estratigráfica + posicion_estratigrafica + ratio_carbono_14 + desintegracion_serie_radioactiva 
R2        => 0.975 

                            Selection Metrics Table                             
-------------------------------------------------------------------------------
Predictor                  Pr(>|t|)    R-Squared    Adj. R-Squared       AIC    
-------------------------------------------------------------------------------
periodo_geologico           0.00000        0.983             0.983    79240.392 
dato_paleomagnético         0.00000        0.977             0.977    80517.014 
tipo_roca_circundante       0.00000        0.975             0.975    80933.045 
tamano                      0.39076        0.975             0.974    81056.596 
inclusion_otros_fosiles     0.59233        0.975             0.974    81057.047 
composicion_isotopica       0.86660        0.975             0.974    81057.306 
peso                        0.93024        0.975             0.974    81057.326 
-------------------------------------------------------------------------------

Step      => 6 
Selected  => dato_paleomagnético 
Model     => edad_fosil$edad ~ ratio_uranio + profundidad_capa_estratigráfica + posicion_estratigrafica + ratio_carbono_14 + desintegracion_serie_radioactiva + dato_paleomagnético 
R2        => 0.977 

                            Selection Metrics Table                             
-------------------------------------------------------------------------------
Predictor                  Pr(>|t|)    R-Squared    Adj. R-Squared       AIC    
-------------------------------------------------------------------------------
periodo_geologico           0.00000        0.986             0.986    78429.566 
tipo_roca_circundante       0.00000        0.978             0.978    80380.343 
tamano                      0.24279        0.977             0.977    80517.647 
inclusion_otros_fosiles     0.25478        0.977             0.977    80517.714 
composicion_isotopica       0.72893        0.977             0.977    80518.894 
peso                        0.95414        0.977             0.977    80519.011 
-------------------------------------------------------------------------------

Step      => 7 
Selected  => periodo_geologico 
Model     => edad_fosil$edad ~ ratio_uranio + profundidad_capa_estratigráfica + posicion_estratigrafica + ratio_carbono_14 + desintegracion_serie_radioactiva + dato_paleomagnético + periodo_geologico 
R2        => 0.986 

                            Selection Metrics Table                             
-------------------------------------------------------------------------------
Predictor                  Pr(>|t|)    R-Squared    Adj. R-Squared       AIC    
-------------------------------------------------------------------------------
tipo_roca_circundante       0.00000        0.987             0.987    78218.488 
inclusion_otros_fosiles     0.06393        0.986             0.986    78428.119 
composicion_isotopica       0.22612        0.986             0.986    78430.095 
tamano                      0.23502        0.986             0.986    78430.150 
peso                        0.51071        0.986             0.986    78431.132 
-------------------------------------------------------------------------------

Step      => 8 
Selected  => tipo_roca_circundante 
Model     => edad_fosil$edad ~ ratio_uranio + profundidad_capa_estratigráfica + posicion_estratigrafica + ratio_carbono_14 + desintegracion_serie_radioactiva + dato_paleomagnético + periodo_geologico + tipo_roca_circundante 
R2        => 0.987 

                            Selection Metrics Table                             
-------------------------------------------------------------------------------
Predictor                  Pr(>|t|)    R-Squared    Adj. R-Squared       AIC    
-------------------------------------------------------------------------------
inclusion_otros_fosiles     0.06703        0.987             0.987    78217.116 
composicion_isotopica       0.17210        0.987             0.987    78218.614 
tamano                      0.22967        0.987             0.987    78219.038 
peso                        0.56651        0.987             0.987    78220.158 
-------------------------------------------------------------------------------

Step      => 9 
Selected  => inclusion_otros_fosiles 
Model     => edad_fosil$edad ~ ratio_uranio + profundidad_capa_estratigráfica + posicion_estratigrafica + ratio_carbono_14 + desintegracion_serie_radioactiva + dato_paleomagnético + periodo_geologico + tipo_roca_circundante + inclusion_otros_fosiles 
R2        => 0.987 

                           Selection Metrics Table                            
-----------------------------------------------------------------------------
Predictor                Pr(>|t|)    R-Squared    Adj. R-Squared       AIC    
-----------------------------------------------------------------------------
composicion_isotopica     0.16354        0.987             0.987    78217.165 
tamano                    0.21550        0.987             0.987    78217.574 
peso                      0.56222        0.987             0.987    78218.779 
-----------------------------------------------------------------------------

Step      => 10 
Selected  => composicion_isotopica 
Model     => edad_fosil$edad ~ ratio_uranio + profundidad_capa_estratigráfica + posicion_estratigrafica + ratio_carbono_14 + desintegracion_serie_radioactiva + dato_paleomagnético + periodo_geologico + tipo_roca_circundante + inclusion_otros_fosiles + composicion_isotopica 
R2        => 0.987 

                     Selection Metrics Table                      
-----------------------------------------------------------------
Predictor    Pr(>|t|)    R-Squared    Adj. R-Squared       AIC    
-----------------------------------------------------------------
tamano        0.22576        0.987             0.987    78217.689 
peso          0.53060        0.987             0.987    78218.769 
-----------------------------------------------------------------

Step      => 11 
Selected  => tamano 
Model     => edad_fosil$edad ~ ratio_uranio + profundidad_capa_estratigráfica + posicion_estratigrafica + ratio_carbono_14 + desintegracion_serie_radioactiva + dato_paleomagnético + periodo_geologico + tipo_roca_circundante + inclusion_otros_fosiles + composicion_isotopica + tamano 
R2        => 0.987 

                     Selection Metrics Table                      
-----------------------------------------------------------------
Predictor    Pr(>|t|)    R-Squared    Adj. R-Squared       AIC    
-----------------------------------------------------------------
peso          0.51386        0.987             0.987    78219.260 
-----------------------------------------------------------------


No more variables to be added.

Variables Selected: 

=> ratio_uranio 
=> profundidad_capa_estratigráfica 
=> posicion_estratigrafica 
=> ratio_carbono_14 
=> desintegracion_serie_radioactiva 
=> dato_paleomagnético 
=> periodo_geologico 
=> tipo_roca_circundante 
=> inclusion_otros_fosiles 
=> composicion_isotopica 
=> tamano 

                                           Stepwise Summary                                            
-----------------------------------------------------------------------------------------------------
Step    Variable                               AIC          SBC         SBIC         R2       Adj. R2 
-----------------------------------------------------------------------------------------------------
 0      Base Model                          97181.519    97194.297    84696.615    0.00000    0.00000 
 1      ratio_uranio                        90532.720    90551.886    78046.213    0.77958    0.77953 
 2      profundidad_capa_estratigráfica     87108.888    87134.444    74621.189    0.89885    0.89881 
 3      posicion_estratigrafica             83866.619    83904.953    71376.795    0.95165    0.95161 
 4      ratio_carbono_14                    82286.812    82331.535    69797.052    0.96626    0.96622 
 5      desintegracion_serie_radioactiva    81055.334    81106.445    68566.178    0.97451    0.97447 
 6      dato_paleomagnético                 80517.014    80574.514    68027.984    0.97746    0.97742 
 7      periodo_geologico                   78429.566    78550.956    65927.870    0.98604    0.98598 
 8      tipo_roca_circundante               78218.488    78359.044    65713.578    0.98671    0.98665 
 9      inclusion_otros_fosiles             78217.116    78364.061    65712.230    0.98672    0.98666 
 10     composicion_isotopica               78217.165    78370.498    65712.298    0.98673    0.98666 
 11     tamano                              78217.689    78377.412    65712.841    0.98673    0.98666 
-----------------------------------------------------------------------------------------------------

Final Model Output 
------------------

                            Model Summary                              
----------------------------------------------------------------------
R                          0.993       RMSE                  1750.738 
R-Squared                  0.987       MSE                3065084.414 
Adj. R-Squared             0.987       Coef. Var                4.325 
Pred R-Squared             0.987       AIC                  78217.689 
MAE                     1336.667       SBC                  78377.412 
----------------------------------------------------------------------
 RMSE: Root Mean Square Error 
 MSE: Mean Square Error 
 MAE: Mean Absolute Error 
 AIC: Akaike Information Criteria 
 SBC: Schwarz Bayesian Criteria 

                                       ANOVA                                         
------------------------------------------------------------------------------------
                       Sum of                                                       
                      Squares          DF        Mean Square        F          Sig. 
------------------------------------------------------------------------------------
Regression       1.002496e+12          23    43586796957.491    14142.822    0.0000 
Residual      13480241253.584        4374        3081902.436                        
Total            1.015977e+12        4397                                           
------------------------------------------------------------------------------------

                                                    Parameter Estimates                                                      
----------------------------------------------------------------------------------------------------------------------------
                               model         Beta    Std. Error    Std. Beta       t         Sig         lower        upper 
----------------------------------------------------------------------------------------------------------------------------
                         (Intercept)     3753.272       156.056                   24.051    0.000     3447.322     4059.221 
                        ratio_uranio    52523.405       103.186        0.888     509.016    0.000    52321.108    52725.702 
     profundidad_capa_estratigráfica       60.959         0.308        0.346     197.786    0.000       60.355       61.563 
       posicion_estratigraficaMiddle    -7162.929        59.957       -0.213    -119.469    0.000    -7280.474    -7045.383 
          posicion_estratigraficaTop    -7246.981        88.431       -0.146     -81.951    0.000    -7420.350    -7073.612 
                    ratio_carbono_14     7849.372       113.732        0.121      69.017    0.000     7626.400     8072.343 
    desintegracion_serie_radioactiva     4670.525        92.048        0.088      50.740    0.000     4490.065     4850.985 
dato_paleomagnéticoReversed polarity     1803.626        59.029        0.053      30.555    0.000     1687.899     1919.354 
      periodo_geologicoCarboniferous    -1935.134       250.825       -0.014      -7.715    0.000    -2426.878    -1443.390 
         periodo_geologicoCretaceous    -3422.181        92.938       -0.077     -36.822    0.000    -3604.386    -3239.975 
           periodo_geologicoDevonian    -1204.569        98.553       -0.025     -12.223    0.000    -1397.783    -1011.356 
           periodo_geologicoJurassic    -3015.379        99.051       -0.062     -30.443    0.000    -3209.568    -2821.189 
            periodo_geologicoNeogene    -4176.739       115.954       -0.070     -36.021    0.000    -4404.068    -3949.411 
         periodo_geologicoOrdovician     -597.659       185.549       -0.006      -3.221    0.001     -961.428     -233.889 
          periodo_geologicoPaleogene    -3819.873       105.616       -0.073     -36.168    0.000    -4026.934    -3612.813 
            periodo_geologicoPermian    -2155.636       109.470       -0.039     -19.692    0.000    -2370.252    -1941.019 
           periodo_geologicoSilurian     -645.326       418.752       -0.003      -1.541    0.123    -1466.293      175.640 
           periodo_geologicoTriassic    -2644.294        89.841       -0.063     -29.433    0.000    -2820.428    -2468.160 
      tipo_roca_circundanteLimestone      822.705        88.796        0.024       9.265    0.000      648.620      996.791 
      tipo_roca_circundanteSandstone      425.581        85.471        0.013       4.979    0.000      258.015      593.148 
          tipo_roca_circundanteShale     1185.082        89.059        0.034      13.307    0.000     1010.482     1359.682 
         inclusion_otros_fosilesTRUE     -102.606        54.683       -0.003      -1.876    0.061     -209.813        4.601 
               composicion_isotopica       69.692        50.895        0.002       1.369    0.171      -30.089      169.472 
                              tamano       -0.862         0.711       -0.002      -1.212    0.226       -2.256        0.533 
----------------------------------------------------------------------------------------------------------------------------

En la aplicacion del metodo de introduccion progresiva se inicia con un modelo vacio en le cual se van introduccion variables segun el \(P\text{-value}\) ya que la variable regresora con este valor mas bajo sera elegida por el algoritmo para ser parte del modelo, a lo largo de la aplicacion de este metodo se agregaron las siguientes variables:

  • ratio_uranio
  • profundidad_capa_estratigráfica
  • posicion_estratigrafica
  • ratio_carbono_14
  • desintegracion_serie_radioactiva
  • dato_paleomagnético
  • periodo_geologico
  • tipo_roca_circundante
  • inclusion_otros_fosiles
  • composicion_isotopica
  • tamano

Fueron seleccionadas en ese orden y como se puede observar nuevamente no existe la presencia de la variable regresora peso dentro del modelo resultante, reafirmando que la variable peso no es significativa para el modelo y no tiene efecto sobre la variable respuesta edad

Obteniendo nuevamente un coeficiente de determinacion igual a 98.7% indicando que este modelo es significativo y explica en gran medida la varibilidad de la varible edad de un fosil