INTRODUCCIÓN
La estimación de la estatura es una de las tareas centrales en la antropología forense debido a su relevancia en el proceso de identificación humana. La estatura constituye un rasgo biológico relativamente estable que, en combinación con otros elementos del perfil antropológico, contribuye a reducir el universo de posibles identidades en contextos médico-legales y arqueológicos. Cuando el esqueleto se encuentra completo, la estimación puede realizarse con considerable precisión; sin embargo, en la práctica forense es común que solo se recuperen fragmentos, lo que obliga a depender de segmentos corporales específicos como huesos largos, diámetros articulares o proporciones corporales para inferir la talla original (Trotter & Gleser, 1952; Steele, 1970).
Las relaciones entre las dimensiones óseas y la estatura se fundamentan en patrones de proporcionalidad corporal que, aunque varían entre poblaciones, mantienen correlaciones suficientemente consistentes para su utilización. Por esta razón, múltiples investigaciones han desarrollado ecuaciones basadas en poblaciones específicas y en diversos elementos anatómicos, como el fémur, la tibia, el húmero o incluso mediciones del calcáneo y el astrágalo, para mejorar la fiabilidad en escenarios donde solo tengamos fragmentos (Raxter et al., 2006; Dayal et al., 2008). La elección de los segmentos a medir y de las ecuaciones a aplicar requiere considerar el dimorfismo sexual, la variación poblacional y el estado de preservación del material, factores que influyen de forma directa en la precisión de las estimaciones.
En este contexto, los modelos de regresión lineal han demostrado ser herramientas estadísticas esenciales, ya que permiten cuantificar la relación entre una variable predictora (la longitud del hueso o del segmento corporal) y una variable dependiente (la estatura). Al ajustar ecuaciones que maximizan la correlación entre ambas, la regresión lineal ofrece estimaciones objetivas, reproducibles y adecuadas para distintos niveles de completitud esquelética. Además, estos modelos permiten incorporar múltiples predictores cuando es necesario, aumentando la exactitud de la estimación y facilitando el desarrollo de ecuaciones específicas para distintas poblaciones, lo cual es indispensable en el ámbito de la antropología forense (Santos, 2019; Krishan et al., 2020).
El objetivo de este trabajo es aplicar modelos de regresión lineal para estimar la estatura a partir de longitud del miembro inferior tomando como referencia los datos contenidos en la matriz “Cholula”.
## [[1]]
## `geom_smooth()` using formula = 'y ~ x'
## Warning: Removed 2 rows containing non-finite outside the scale range
## (`stat_smooth()`).
## Warning: Removed 2 rows containing missing values or values outside the scale range
## (`geom_point()`).
##
## [[2]]
## `geom_smooth()` using formula = 'y ~ x'
## Warning: Removed 3 rows containing non-finite outside the scale range
## (`stat_smooth()`).
## Warning: Removed 3 rows containing missing values or values outside the scale range
## (`geom_point()`).
##
## [[3]]
## `geom_smooth()` using formula = 'y ~ x'
## Warning: Removed 5 rows containing non-finite outside the scale range
## (`stat_smooth()`).
## Warning: Removed 5 rows containing missing values or values outside the scale range
## (`geom_point()`).
##
## [[4]]
## `geom_smooth()` using formula = 'y ~ x'
## Warning: Removed 5 rows containing non-finite outside the scale range (`stat_smooth()`).
## Removed 5 rows containing missing values or values outside the scale range
## (`geom_point()`).
##
## [[5]]
## `geom_smooth()` using formula = 'y ~ x'
##
## [[6]]
## `geom_smooth()` using formula = 'y ~ x'
##
## [[7]]
## `geom_smooth()` using formula = 'y ~ x'
## Warning: Removed 2 rows containing non-finite outside the scale range
## (`stat_smooth()`).
## Warning: Removed 2 rows containing missing values or values outside the scale range
## (`geom_point()`).
##
## [[8]]
## `geom_smooth()` using formula = 'y ~ x'
## Warning: Removed 2 rows containing non-finite outside the scale range (`stat_smooth()`).
## Removed 2 rows containing missing values or values outside the scale range
## (`geom_point()`).
##
## Call:
## lm(formula = X11 ~ X18, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -112.55 -16.67 -1.31 15.67 106.19
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 547.5466 28.2615 19.37 <2e-16 ***
## X18 1.1798 0.0313 37.69 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 26.01 on 337 degrees of freedom
## Multiple R-squared: 0.8082, Adjusted R-squared: 0.8077
## F-statistic: 1420 on 1 and 337 DF, p-value: < 2.2e-16
Lo que obtenemos quiere decir que la estatura estimada es igual a: 547.5466 + 1.1798. El 1.1798 nos indica que por cada milímetro que aumenta la longitud del miembro inferior la estautra total aumenta en 1.1798 milímetros.
El R cuadrado es de 0.8082, es deicr la proporción de variabilidad que explica el modelo ajustado. La cual es considerablemente mayor respect de otras variables, como la longitud del pie.
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 547.5466 28.2615 19.3743 0
## X18 1.1798 0.0313 37.6865 0
## Warning in par(op): el parámetro del gráfico "cin" no puede ser especificado
## Warning in par(op): el parámetro del gráfico "cra" no puede ser especificado
## Warning in par(op): el parámetro del gráfico "csi" no puede ser especificado
## Warning in par(op): el parámetro del gráfico "cxy" no puede ser especificado
## Warning in par(op): el parámetro del gráfico "din" no puede ser especificado
## Warning in par(op): el parámetro del gráfico "page" no puede ser especificado
## `geom_smooth()` using formula = 'y ~ x'
El criterio es: valores mayores que 2 o menores que -2, son valores atípicos.Con la siguiente instrucción identificafemos estos valores.
## ---- OUTLIERS POR RESIDUALES ESTANDARIZADOS ----
## estatura pierna residuales residuales_est leverage cooks
## 2 1701 930 56.28517 2.168338 0.004112347 0.009707406
## 5 1611 969 -79.72511 -3.079707 0.009515963 0.045561095
## 39 1613 859 52.04748 2.006570 0.005586934 0.011310593
## 51 1697 924 59.36368 2.286429 0.003672087 0.009633767
## 90 1565 920 -67.91732 -2.615569 0.003436516 0.011795482
## 96 1488 853 -65.87402 -2.540635 0.006380704 0.020725403
## 105 1530 879 -54.54754 -2.100956 0.003694198 0.008183352
## 171 1559 904 -55.04131 -2.119191 0.002957718 0.006661212
## 194 1613 852 60.30573 2.326043 0.006523137 0.017762511
## 195 1679 915 51.98143 2.001630 0.003207230 0.006445596
## 230 1602 849 52.84499 2.038732 0.006967819 0.014582230
## 244 1622 865 53.96897 2.079928 0.004897448 0.010645562
## 253 1577 968 -112.54536 -4.347098 0.009322370 0.088912521
## 254 1778 994 57.78112 2.238574 0.015297246 0.038924321
## 308 1603 840 64.46274 2.488808 0.008458291 0.026419485
## 310 1639 851 87.48548 3.374636 0.006668468 0.038225727
## 334 1647 877 64.81196 2.496473 0.003831329 0.011985060
## 335 1699 886 106.19421 4.089384 0.003305486 0.027730582
##
## ---- PUNTOS CON ALTO LEVERAGE ----
## estatura pierna residuales residuales_est leverage cooks
## 4 1691 988 -22.140372 -0.8570937 0.01374462 0.0051188216
## 9 1734 985 24.398880 0.9441718 0.01300742 0.0058742059
## 30 1740 980 36.297634 1.4037896 0.01183668 0.0118025280
## 73 1438 768 -15.595201 -0.6083888 0.02882909 0.0054937344
## 119 1525 823 6.518506 0.2521092 0.01191382 0.0003831806
## 132 1501 800 9.652774 0.3744700 0.01792146 0.0012794735
## 170 1697 982 -9.061868 -0.3505439 0.01229628 0.0007648953
## 200 1517 812 11.495764 0.4452139 0.01459585 0.0014679877
## 224 1742 982 35.938132 1.3902094 0.01229628 0.0120303303
## 234 1740 989 25.679877 0.9942411 0.01399615 0.0070159000
## 254 1778 994 57.781123 2.2385741 0.01529725 0.0389243207
## 268 1736 1020 -14.892397 -0.5793041 0.02323035 0.0039906787
## 269 1793 1022 39.748101 1.5467215 0.02392170 0.0293157875
## 273 1836 1059 39.097322 1.5331286 0.03880167 0.0474421771
## 277 1717 1014 -26.813893 -1.0419735 0.02122582 0.0117724118
## 278 1788 1027 28.849347 1.1236418 0.02570076 0.0166524977
## 281 1739 998 14.062120 0.5451016 0.01639026 0.0024756432
## 282 1668 980 -35.702366 -1.3807680 0.01183668 0.0114185882
## 290 1483 815 -26.043488 -1.0082338 0.01382962 0.0071277243
## 305 1498 798 9.012275 0.3497285 0.01851628 0.0011537258
## 315 1735 992 17.140624 0.6638890 0.01476812 0.0033032971
## 318 1777 1038 4.872089 0.1901683 0.02986962 0.0005567318
## 337 1720 1003 -10.836634 -0.4203754 0.01782172 0.0016032595
## 339 1774 1026 16.029098 0.6241952 0.02533915 0.0050646495
##
## ---- PUNTOS INFLUYENTES (COOK'S DISTANCE) ----
## estatura pierna residuales residuales_est leverage cooks
## 5 1611 969 -79.72511 -3.079707 0.009515963 0.04556109
## 30 1740 980 36.29763 1.403790 0.011836675 0.01180253
## 96 1488 853 -65.87402 -2.540635 0.006380704 0.02072540
## 161 1572 830 45.26025 1.749133 0.010389565 0.01606012
## 194 1613 852 60.30573 2.326043 0.006523137 0.01776251
## 224 1742 982 35.93813 1.390209 0.012296281 0.01203033
## 230 1602 849 52.84499 2.038732 0.006967819 0.01458223
## 250 1741 970 49.09514 1.896688 0.009712453 0.01764125
## 253 1577 968 -112.54536 -4.347098 0.009322370 0.08891252
## 254 1778 994 57.78112 2.238574 0.015297246 0.03892432
## 269 1793 1022 39.74810 1.546722 0.023921696 0.02931579
## 273 1836 1059 39.09732 1.533129 0.038801673 0.04744218
## 278 1788 1027 28.84935 1.123642 0.025700761 0.01665250
## 308 1603 840 64.46274 2.488808 0.008458291 0.02641949
## 310 1639 851 87.48548 3.374636 0.006668468 0.03822573
## 334 1647 877 64.81196 2.496473 0.003831329 0.01198506
## 335 1699 886 106.19421 4.089384 0.003305486 0.02773058
## estatura pierna residuales residuales_est leverage cooks
## 253 1577 968 -112.54536 -4.347098 0.009322370 0.08891252
## 273 1836 1059 39.09732 1.533129 0.038801673 0.04744218
## 5 1611 969 -79.72511 -3.079707 0.009515963 0.04556109
## 254 1778 994 57.78112 2.238574 0.015297246 0.03892432
## 310 1639 851 87.48548 3.374636 0.006668468 0.03822573
## 269 1793 1022 39.74810 1.546722 0.023921696 0.02931579
## 335 1699 886 106.19421 4.089384 0.003305486 0.02773058
## 308 1603 840 64.46274 2.488808 0.008458291 0.02641949
## 96 1488 853 -65.87402 -2.540635 0.006380704 0.02072540
## 194 1613 852 60.30573 2.326043 0.006523137 0.01776251
##
## Adjuntando el paquete: 'MASS'
## The following object is masked from 'package:dplyr':
##
## select
##
## Call: rlm(formula = X11 ~ X18, data = datos)
## Residuals:
## Min 1Q Median 3Q Max
## -113.1497 -15.8765 -0.2116 16.2076 107.1939
##
## Coefficients:
## Value Std. Error t value
## (Intercept) 529.2163 26.5595 19.9257
## X18 1.1993 0.0294 40.7665
##
## Residual standard error: 24.02 on 337 degrees of freedom
## (Intercept) X18
## 547.546604 1.179751
## (Intercept) X18
## 529.216280 1.199311
## `geom_smooth()` using formula = 'y ~ x'
## `geom_smooth()` using formula = 'y ~ x'
## [1] 0.8343814
## Modelo Intercepto SE_Intercepto Pendiente SE_Pendiente R2 AIC
## 1 OLS 547.5466 28.26153 1.179751 0.03130437 0.8082252 3175.318
## 2 RLM 529.2163 26.55946 1.199311 0.02941904 0.8343814 3175.318
Comparando ambos modelos las diferencias en el intercepto, la pendiente y R2 son prácticamente nulas. El AIC es el mismo para ambos modelos.
Con esto me puedo quedar con el modelo original, ya que el modelo robusto realmente no me aporta mayores significancias.
## Analysis of Variance Table
##
## Response: X11
## Df Sum Sq Mean Sq F value Pr(>F)
## X18 1 960936 960936 1420.3 < 2.2e-16 ***
## Residuals 337 228010 677
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## [1] 26.01922
El error cuadrático de los residuales es de 677. Y la raíz cuadrada de 677 es 26.01922.
## [1] 43
En este caso son 43 datos a eliminar.
##
## Call:
## lm(formula = X11 ~ X18, data = datos_limpios)
##
## Residuals:
## Min 1Q Median 3Q Max
## -45.648 -14.711 -0.732 15.331 53.721
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 544.26548 29.59324 18.39 <2e-16 ***
## X18 1.18121 0.03293 35.88 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 20.5 on 294 degrees of freedom
## Multiple R-squared: 0.814, Adjusted R-squared: 0.8134
## F-statistic: 1287 on 1 and 294 DF, p-value: < 2.2e-16
## [1] 0.8082252
## [1] 0.8140481
Realmente no hay una diferencia significativa, la diferencia en los valores de R cuadrada es de 0.0058229. Pese a que se eliminaron muchos datos, los valores realmente no cambiaron de forma significativa.
En conclusión: el modelo robusto no modifica sustancialmente los coeficientes del modelo original, lo que indica que los datos no presentan valores atípicos severos ni puntos influyentes que afecten la estimación. Por lo tanto, seleecionaré el modelo original.
El modelo completo es:
Estatura = 547.5466 + 28.26153 (Longitud del miembro inferior) ± 26.01922.