1. Introducción

Este análisis explora el uso de modelos de regresión de Poisson para datos de conteo, específicamente el número de premios recibidos por estudiantes según su tipo de programa educativo y puntaje en matemáticas. También abordaremos el problema de sobredispersión mediante el modelo Binomial Negativo.

Los datos utilizados en este análisis provienen del repositorio de ejemplos estadísticos del Institute for Digital Research and Education (IDRE) de UCLA, disponibles en: https://stats.idre.ucla.edu/stat/data/poisson_sim.csv. Este conjunto de datos simulados contiene información sobre estudiantes de secundaria, incluyendo el número de premios académicos recibidos durante un año escolar, el tipo de programa educativo al que pertenecen y su puntaje en un examen estandarizado de matemáticas.

2. Descripción de los Datos

El conjunto de datos contiene información de 200 estudiantes de secundaria. Las variables incluidas son:

Variable dependiente: - num_awards: Número de premios académicos recibidos por el estudiante durante el año escolar. Es una variable de conteo (valores enteros no negativos: 0, 1, 2, …) que representa el resultado de interés en nuestro análisis.

Variables independientes:

  • prog: Tipo de programa educativo al que pertenece el estudiante. Es una variable categórica con tres niveles:
    • General: Programa educativo estándar
    • Académico: Programa orientado a la preparación universitaria
    • Vocacional: Programa orientado a la formación técnica-profesional
  • math: Puntaje obtenido en un examen estandarizado de matemáticas. Es una variable numérica continua que puede tomar valores entre 33 y 75 puntos.

Muestra de los datos:

Primeras 10 observaciones del dataset
id num_awards prog math
45 0 Vocacional 41
108 0 General 41
15 0 Vocacional 44
67 0 Vocacional 42
153 0 Vocacional 40
51 0 General 42
164 0 Vocacional 46
133 0 Vocacional 40
2 0 Vocacional 33
53 0 Vocacional 46

Esta estructura de datos es apropiada para modelar mediante regresión de Poisson, ya que la variable respuesta es un conteo de eventos (premios) y queremos entender cómo el tipo de programa educativo y el desempeño en matemáticas influyen en el número esperado de premios recibidos.

3. Exploración de Datos

3.1 Estructura del Dataset

#> Dimensiones del dataset: 200 observaciones y 4 variables
#>        id           num_awards           prog          math      
#>  Min.   :  1.00   Min.   :0.00   General   : 45   Min.   :33.00  
#>  1st Qu.: 50.75   1st Qu.:0.00   Académico :105   1st Qu.:45.00  
#>  Median :100.50   Median :0.00   Vocacional: 50   Median :52.00  
#>  Mean   :100.50   Mean   :0.63                    Mean   :52.65  
#>  3rd Qu.:150.25   3rd Qu.:1.00                    3rd Qu.:59.00  
#>  Max.   :200.00   Max.   :6.00                    Max.   :75.00

El dataset contiene 200 observaciones completas sin valores faltantes. Observamos que:

  • La variable num_awards (número de premios) varía entre 0 y 6, con una distribución concentrada en valores bajos
  • Los puntajes de math oscilan entre 33 y 75 puntos, con una media cercana a 52
  • La distribución de estudiantes entre los tres programas es relativamente equilibrada

3.2 Visualización Exploratoria

Los gráficos superiores revelan características importantes de la variable respuesta:

  1. Distribución asimétrica: La mayoría de los estudiantes (63.5%) no recibieron ningún premio, mientras que solo unos pocos obtuvieron 3 o más premios
  2. Naturaleza discreta: Los valores son conteos enteros, apropiados para modelado con Poisson
  3. Presencia de ceros: La alta proporción de ceros sugiere posible inflación de ceros

El gráfico de cajas muestra que: - Los estudiantes del programa Académico tienden a tener puntajes de matemáticas ligeramente superiores - Existe considerable superposición entre los grupos, sugiriendo que el tipo de programa por sí solo no determina el rendimiento en matemáticas - Los puntos negros representan las medias de cada grupo

La relación entre puntaje de matemáticas y número de premios muestra:

  • Una tendencia positiva débil general: mayor puntaje en matemáticas se asocia con más premios.
  • Esta relación parece ser más un poco pronunciada en el programa Académico, pero existe mayor dispersión
  • La variabilidad es alta, indicando que otros factores también influyen

3.3 Estadísticas Descriptivas por Grupo

Estadísticas descriptivas por tipo de programa
Programa N Media Premios Varianza Premios Ratio Var/Media Media Math SD Math
General 45 0.20 0.16 0.82 50.02 7.44
Académico 105 1.00 1.63 1.63 56.73 8.73
Vocacional 50 0.24 0.27 1.12 46.42 7.95

Observaciones clave para el modelado:

  1. Diferencias entre programas: Los estudiantes del programa Académico tienen en promedio 1.0 premio, el cuadruple que los otros programas (0.20-0.24)

  2. Sobredispersión potencial: La razón varianza/media es mayor que 1 en dos grupos (1.63-1.12), sugiriendo posible sobredispersión que deberemos evaluar formalmente

  3. Puntajes de matemáticas similares: Las medias de los puntajes de matemáticas son comparables entre programas dada su alta dispersión, indicando que las diferencias en premios no se deben únicamente a diferencias en habilidad matemática

Estos hallazgos sugieren que tanto el tipo de programa como el rendimiento en matemáticas podrían ser predictores importantes del número de premios, justificando su inclusión en el modelo de regresión.

4. Modelo de Regresión de Poisson

4.1 Especificación del Modelo

Modelo General de Regresión de Poisson

La regresión de Poisson es un modelo lineal generalizado (GLM) utilizado para modelar datos de conteo. El modelo asume que la variable respuesta \(Y_i\) sigue una distribución de Poisson:

\[Y_i \sim \text{Poisson}(\mu_i)\]

donde \(\mu_i = E[Y_i]\) es el valor esperado del conteo. El modelo utiliza una función de enlace logarítmica:

\[\log(\mu_i) = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \ldots + \beta_p x_{ip}\]

o equivalentemente:

\[\mu_i = \exp(\beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \ldots + \beta_p x_{ip})\]

Nuestro Modelo Específico

Para nuestro análisis, el modelo propuesto es:

\[\log(\mu_i) = \beta_0 + \beta_1 \cdot \text{Académico}_i + \beta_2 \cdot \text{Vocacional}_i + \beta_3 \cdot \text{Math}_i\]

donde:

  • \(\mu_i\) = número esperado de premios para el estudiante \(i\)
  • \(\text{Académico}_i\) = 1 si el estudiante pertenece al programa académico, 0 en otro caso
  • \(\text{Vocacional}_i\) = 1 si el estudiante pertenece al programa vocacional, 0 en otro caso
  • \(\text{Math}_i\) = puntaje de matemáticas del estudiante \(i\)
  • El programa General es la categoría de referencia

Supuestos del Modelo de Poisson

  1. Equidispersión: La media y la varianza son iguales: \(E[Y_i] = \text{Var}[Y_i] = \mu_i\)
  2. Independencia: Las observaciones son independientes entre sí
  3. Linealidad: Existe una relación lineal entre el logaritmo de la media y los predictores
  4. Distribución de Poisson: Los conteos siguen una distribución de Poisson

4.2 Ajuste del Modelo

#> 
#> Call:
#> glm(formula = num_awards ~ prog + math, family = poisson(link = "log"), 
#>     data = datos)
#> 
#> Coefficients:
#>                Estimate Std. Error z value Pr(>|z|)    
#> (Intercept)    -5.24712    0.65845  -7.969 1.60e-15 ***
#> progAcadémico   1.08386    0.35825   3.025  0.00248 ** 
#> progVocacional  0.36981    0.44107   0.838  0.40179    
#> math            0.07015    0.01060   6.619 3.63e-11 ***
#> ---
#> Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#> 
#> (Dispersion parameter for poisson family taken to be 1)
#> 
#>     Null deviance: 287.67  on 199  degrees of freedom
#> Residual deviance: 189.45  on 196  degrees of freedom
#> AIC: 373.5
#> 
#> Number of Fisher Scoring iterations: 6
Coeficientes del Modelo de Poisson
Variable β Error Std exp(β) IC 95% Inf IC 95% Sup p-valor
(Intercept) -5.2471 0.6585 0.0053 0.0014 0.0191 0.0000
progAcadémico 1.0839 0.3583 2.9561 1.4647 5.9658 0.0025
progVocacional 0.3698 0.4411 1.4475 0.6098 3.4360 0.4018
math 0.0702 0.0106 1.0727 1.0506 1.0952 0.0000

4.3 Interpretación de Coeficientes

Los coeficientes en el modelo de Poisson tienen una interpretación multiplicativa cuando se exponencian. El valor \(\exp(\beta_j)\) representa la razón de tasas de incidencia (IRR - Incidence Rate Ratio).

Intercepto (β₀ = -5.247)

El intercepto representa el logaritmo del número esperado de premios para un estudiante del programa General con puntaje 0 en matemáticas. Dado que un puntaje de 0 no es realista, este valor no tiene una interpretación práctica directa.

Efecto del Programa Académico (β₁ = 1.084, p = 0.002)

  • Los estudiantes en programas académicos tienen un efecto positivo y estadísticamente significativo sobre el número de premios
  • La razón de tasas de incidencia (IRR) es exp(1.084) = 2.956
  • Interpretación: Los estudiantes en programas académicos reciben, en promedio, 195.6% más premios que los estudiantes en programas generales, manteniendo constante el puntaje de matemáticas

Efecto del Programa Vocacional (β₂ = 0.370, p = 0.402)

  • El efecto del programa vocacional no es estadísticamente significativo al nivel del 5%
  • La razón de tasas de incidencia (IRR) es exp(0.370) = 1.448
  • Interpretación: Aunque los estudiantes vocacionales parecen recibir 44.8% más premios que los del programa general, esta diferencia no es estadísticamente significativa

Efecto del Puntaje de Matemáticas (β₃ = 0.070, p < 0.001)

  • El puntaje de matemáticas tiene un efecto positivo y altamente significativo
  • La razón de tasas de incidencia (IRR) es exp(0.070) = 1.073
  • Interpretación: Por cada punto adicional en el examen de matemáticas, el número esperado de premios aumenta en un 7.3%, manteniendo constante el tipo de programa

4.4 Implicaciones Prácticas

Para ilustrar la magnitud de estos efectos:

  1. Comparación entre programas: Un estudiante del programa académico con puntaje de 50 en matemáticas tendría un número esperado de premios aproximadamente 3 veces mayor que un estudiante del programa general con el mismo puntaje

  2. Efecto acumulativo de matemáticas: La diferencia de 10 puntos en matemáticas se asocia con un incremento del 100% en el número esperado de premios (1.073¹⁰ ≈ 2.01)

  3. Predicción específica: Para un estudiante del programa académico con puntaje de 60 en matemáticas: \[\mu = \exp(-5.247 + 1.084 + 0.070 \times 60) = \exp(0.037) \approx 1.04 \text{ premios esperados}\]

4.5 Bondad de Ajuste Inicial

El modelo muestra una reducción sustancial en la deviance:

  • Deviance nula: 287.67 (solo con intercepto)
  • Deviance residual: 189.45 (con predictores)
  • Reducción: 98.22 puntos

Esta reducción sugiere que las variables predictoras explican una parte importante de la variabilidad en el número de premios recibidos. Sin embargo, es necesario verificar los supuestos del modelo, particularmente el de equidispersión.

5. Diagnóstico de Sobredispersión

5.1 Evaluación de la Sobredispersión

Una de las principales preocupaciones al usar regresión de Poisson es la posible violación del supuesto de equidispersión (media = varianza). Cuando la varianza excede la media, tenemos sobredispersión, lo cual puede llevar a:

  • Subestimación de los errores estándar
  • Intervalos de confianza demasiado estrechos
  • Pruebas de hipótesis con tasas de error tipo I infladas

Indicadores de Sobredispersión

Indicadores de dispersión del modelo
Estadístico Valor
Deviance residual 189.450
Grados de libertad 196.000
Ratio Deviance/gl 0.967
Chi-cuadrado de Pearson 212.140
Ratio Pearson/gl 1.082

Interpretación:

  • Un ratio cercano a 1 indica que el supuesto de equidispersión es razonable
  • Valores superiores a 1.5 sugieren sobredispersión problemática
  • Nuestros ratios (0.967 y 1.082) están muy próximos a 1, indicando ausencia de sobredispersión

Test Formal de Cameron & Trivedi

Test de sobredispersión de Cameron & Trivedi
Componente Valor
Hipótesis nula Var(Y) = μ (equidispersión)
Hipótesis alternativa Var(Y) = μ + α·μ² (sobredispersión)
Estadístico z 1.623
p-valor 0.052
Parámetro α estimado 0.164
Decisión (α=0.05) No rechazar H₀

Conclusión del test: Con un p-valor de 0.052, que está justo en el límite del nivel de significancia del 5%, la evidencia de sobredispersión es marginal. Esto representa un caso interesante donde:

  • Técnicamente no rechazamos la hipótesis de equidispersión (p > 0.05)
  • Sin embargo, la proximidad al umbral sugiere prudencia en la interpretación
  • Es recomendable ajustar también un modelo Binomial Negativo como análisis de sensibilidad

5.2 Análisis de Residuos

El análisis de residuos nos permite evaluar visualmente el ajuste del modelo y detectar posibles violaciones de los supuestos.

5.3 Decisión sobre el Modelo

Basándonos en el diagnóstico realizado:

  1. Los indicadores de dispersión están muy cercanos a 1, sugiriendo que el modelo de Poisson es apropiado

  2. El test formal da un resultado marginal (p = 0.052), justo por encima del umbral de significancia

  3. Los gráficos de residuos muestran violaciones graves de los supuestos

Recomendación: Aunque el modelo de Poisson parece adecuado, la naturaleza marginal del test de sobredispersión justifica ajustar también un modelo Binomial Negativo como verificación de robustez. Si ambos modelos llevan a conclusiones similares, podemos estar más confiados en nuestros resultados.

6. Modelo Binomial Negativo

6.1 Especificación del Modelo Binomial Negativo

El modelo Binomial Negativo es una extensión del modelo de Poisson que relaja el supuesto de equidispersión. Este modelo permite que la varianza exceda la media mediante la introducción de un parámetro adicional de dispersión.

Formulación del Modelo

En el modelo Binomial Negativo, la varianza se expresa como:

\[\text{Var}(Y_i) = \mu_i + \frac{\mu_i^2}{\theta}\]

donde: - \(\mu_i\) es la media (como en Poisson) - \(\theta\) es el parámetro de dispersión (también llamado parámetro de forma)

Cuando \(\theta \to \infty\), el modelo converge al modelo de Poisson. Valores pequeños de \(\theta\) indican mayor sobredispersión.

6.2 Ajuste y Comparación con el Modelo de Poisson

#> 
#> Call:
#> glm.nb(formula = num_awards ~ prog + math, data = datos, init.theta = 6.114661779, 
#>     link = log)
#> 
#> Coefficients:
#>                Estimate Std. Error z value Pr(>|z|)    
#> (Intercept)    -5.29331    0.70416  -7.517 5.60e-14 ***
#> progAcadémico   1.07507    0.36699   2.929   0.0034 ** 
#> progVocacional  0.36696    0.45230   0.811   0.4172    
#> math            0.07107    0.01153   6.165 7.05e-10 ***
#> ---
#> Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#> 
#> (Dispersion parameter for Negative Binomial(6.1147) family taken to be 1)
#> 
#>     Null deviance: 257.93  on 199  degrees of freedom
#> Residual deviance: 169.76  on 196  degrees of freedom
#> AIC: 373.81
#> 
#> Number of Fisher Scoring iterations: 1
#> 
#> 
#>               Theta:  6.11 
#>           Std. Err.:  5.58 
#> 
#>  2 x log-likelihood:  -363.811

Comparación de Coeficientes

Comparación de Coeficientes: Poisson vs Binomial Negativo
term estimate_Poisson estimate_Binomial Negativo std.error_Poisson std.error_Binomial Negativo p.value_Poisson p.value_Binomial Negativo
(Intercept) -5.2471 -5.2933 0.6585 0.7042 0.0000 0.0000
progAcadémico 1.0839 1.0751 0.3583 0.3670 0.0025 0.0034
progVocacional 0.3698 0.3670 0.4411 0.4523 0.4018 0.4172
math 0.0702 0.0711 0.0106 0.0115 0.0000 0.0000

Observaciones clave: - Los coeficientes son muy similares entre ambos modelos - Los errores estándar del modelo Binomial Negativo son ligeramente mayores, reflejando la incertidumbre adicional por la sobredispersión - Las conclusiones sobre significancia estadística permanecen iguales

6.3 Criterios de Selección de Modelos

Comparación de criterios de ajuste
Modelo AIC BIC Log-Verosimilitud Deviance theta
Poisson 373.50 386.7 -182.75 189.45
Binomial Negativo 373.81 390.3 -181.91 169.76 6.115

Test de Razón de Verosimilitud

Test de Razón de Verosimilitud: Poisson vs Binomial Negativo
Concepto Valor
H0 Modelo Poisson es adecuado
H1 Modelo Binomial Negativo es necesario
Estadístico LR 1.694
Grados de libertad 1
p-valor 0.193
Decisión No rechazar H0 - Modelo Poisson es adecuado

Interpretación:

  • El parámetro θ estimado es 6.115, un valor relativamente grande que sugiere poca sobredispersión
  • Los criterios AIC y BIC son muy similares entre modelos (diferencias < 2)
  • El test de razón de verosimilitud con p-valor = 0.193 indica que no hay diferencia significativa entre los modelos

6.4 Comparación Visual de Residuos

Análisis de los residuos:

  • Ambos modelos muestran patrones de residuos muy similares
  • No hay diferencias sustanciales en la dispersión o patrones sistemáticos

6.5 Conclusión sobre la Selección del Modelo

Basándonos en el análisis comparativo:

  1. Similitud de resultados: Ambos modelos producen estimaciones y conclusiones prácticamente idénticas

  2. Evidencia estadística:

    • El test de sobredispersión original dio un resultado marginal (p = 0.052)
    • El test de razón de verosimilitud no favorece significativamente al modelo Binomial Negativo
    • Los criterios de información (AIC/BIC) son muy similares
  3. Principio de parsimonia: Dado que no hay evidencia fuerte a favor del modelo más complejo, es preferible mantener el modelo más simple (Poisson)

Recomendación final: Para estos datos, el modelo de Poisson es apropiado y suficiente. La ligera sobredispersión detectada no afecta las conclusiones sustantivas del análisis. Sin embargo, haber verificado con el modelo Binomial Negativo nos da confianza adicional en la robustez de nuestros resultados.

7. Conclusiones

7.1 Resumen de Hallazgos

Resumen de hallazgos principales del análisis
Aspecto Resultado
Sobredispersión detectada Marginal (p = 0.052)
Modelo seleccionado Poisson (por parsimonia)
Programa Académico (vs General) IRR = 2.956*** (p = 0.002)
Programa Vocacional (vs General) IRR = 1.448 (p = 0.402, no sig.)
Efecto de Matemáticas IRR = 1.073*** por punto (p < 0.001)
Bondad de ajuste Deviance reducida de 287.67 a 189.45

7.2 Interpretación de Resultados

Nuestro análisis de regresión de Poisson reveló los siguientes hallazgos clave:

1. Diagnóstico del Modelo

  • La evaluación de sobredispersión mostró resultados marginales (p = 0.052), sugiriendo que el modelo de Poisson es apropiado
  • El modelo Binomial Negativo confirmó la robustez de nuestros resultados, con estimaciones prácticamente idénticas
  • Los análisis de residuos no mostraron violaciones graves de los supuestos del modelo

2. Factores Determinantes de los Premios Académicos

Tipo de Programa Educativo:

  • Los estudiantes en programas académicos tienen casi 3 veces más probabilidad de recibir premios que aquellos en programas generales
  • Los estudiantes en programas vocacionales no muestran diferencias significativas con respecto al programa general
  • Esto sugiere que la orientación académica universitaria está fuertemente asociada con el reconocimiento mediante premios

Rendimiento en Matemáticas:

  • Cada punto adicional en el examen de matemáticas incrementa la probabilidad de recibir premios en un 7.3%
  • Este efecto es acumulativo: una diferencia de 10 puntos implica duplicar la probabilidad de premios
  • El rendimiento matemático es un predictor consistente y significativo, independiente del tipo de programa

3. Implicaciones Prácticas

Los resultados sugieren que tanto el tipo de programa como el rendimiento académico son determinantes importantes del éxito estudiantil medido a través de premios. La combinación de estar en un programa académico y tener alto rendimiento en matemáticas produce un efecto multiplicativo sustancial.

7.3 Validez del Modelo

Métricas de validez y ajuste del modelo
Métrica Valor
Pseudo R² (McFadden) 34.1%
Reducción en deviance 34.1%
Diferencia AIC (NB - Poisson) 0.31
Test de sobredispersión p = 0.052 (marginal)
Conclusión Modelo Poisson es apropiado

8. Recomendaciones

8.1 Recomendaciones Metodológicas

  1. Evaluación de la sobredispersión: Siempre verificar el supuesto de equidispersión en modelos de Poisson mediante:
    • Ratios de dispersión (Deviance/gl y Pearson/gl)
    • Test formal de Cameron & Trivedi
    • Comparación con modelo Binomial Negativo
  2. Selección del modelo apropiado:
    • Si no hay evidencia de sobredispersión → Modelo de Poisson
    • Si hay sobredispersión moderada → Modelo Binomial Negativo
    • Si hay exceso de ceros → Considerar modelos Zero-Inflated
  3. Interpretación cuidadosa:
    • Reportar los coeficientes en escala exponenciada (IRR)
    • Incluir intervalos de confianza
    • Considerar la significancia práctica además de la estadística

8.2 Recomendaciones para Futuras Investigaciones

Recomendaciones para futuras investigaciones
Área Recomendación
Variables adicionales Incluir variables como promedio general, participación en actividades extracurriculares, nivel socioeconómico
Diseño del estudio Realizar seguimiento longitudinal para capturar la evolución temporal de los premios
Análisis avanzados Explorar modelos mixtos si hay estructura jerárquica (estudiantes dentro de escuelas)
Validación Validar el modelo con datos de otros años o instituciones educativas

Referencias

Agresti, A. (2015). Foundations of Linear and Generalized Linear Models. John Wiley & Sons.

Cameron, A. C., & Trivedi, P. K. (2013). Regression Analysis of Count Data (2nd ed.). Cambridge University Press.

Hand, D. J., Daly, F., Lunn, A. D., McConway, K. J., & Ostrowski, E. (1994). A Handbook of Small Data Sets. Chapman and Hall.

Hosmer, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied Logistic Regression (3rd ed.). John Wiley & Sons.

James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An Introduction to Statistical Learning with Applications in R. Springer.

Kleinbaum, D. G., Kupper, L. L., Nizam, A., & Rosenberg, E. S. (2013). Applied Regression Analysis and Other Multivariable Methods (5th ed.). Cengage Learning.

Long, J. S. (1990). The origins of sex differences in science. Social Forces, 68(4), 1297-1316.

Morel, J. G., & Neerchal, N. K. (1997). Clustered binary logistic regression in teratology data using a finite mixture distribution. Statistics in Medicine, 16(23), 2843-2853.

Piegorsch, W. W., Weinberg, C. R., & Margolin, B. H. (1988). Exploring simple independent action in multifactor tables of proportions. Biometrics, 44(2), 595-603.

Prater, N. H. (1956). Estimate gasoline yields from crudes. Petroleum Refiner, 35(5), 236-238.

Ridout, M. S. (1990). Non-convergence of Fisher’s method of scoring - An example with grouped binary data. Institute of Mathematics and Statistics Technical Report.

Searle, S. R. (1971). Linear Models. John Wiley & Sons.

UCLA Statistical Consulting Group. (n.d.). Poisson Regression Dataset. Recuperado de https://stats.idre.ucla.edu/stat/data/poisson_sim.csv

Vanegas, L. H., & Rondón, L. M. (2023). Generalized Linear Models and some of their extensions using the library glmtoolbox. Universidad Nacional de Colombia.

Weisberg, S. (1982). An empirical comparison of the percentage points of W and W’. Technometrics, 24(3), 213-216.

Zhang, D., & Zelterman, D. (1999). Binary regression for risks in excess. Biometrics, 55(4), 1250-1257.

Análisis realizado con R versión 4.4.1