El seguro de gastos médicos se define como un plan de protección financiera ante los gastos clínicos que pueda erogar alguna enfermedad y/o accidente, a través de un respaldo económico que permite resguardar la salud y bienestar del asegurado.
Tiene por objetivo satisfacer la necesidad económica derivada de la atención médica, gastos hospitalarios y demás que sean necesarios para la recuperación de la salud del individuo, en el momento en que este haya sido afectado a causa de un accidente y/o enfermedad.
Esta publicación expone un análisis sobre los siniestros reportados y pagados del ramo de gastos médicos individuales en México para el año 2023. En primer lugar, se presenta una justificación teórica sobre el enfoque del análisis, posteriormente se exhibe un Análisis Exploratorio de los Datos (EDA), donde se localizan relaciones, similitudes, patrones e información relevante para su detallada interpretación. Finalmente, se hace una selección de los tres estados con mayor monto pagado para la realización del modelo que permita comprender y estimar el comportamiento de los siniestros de este sector.
Analizar y estimar el comportamiento de los pagos en las reclamaciones mediante una regresión de tipo cuantil que permita identificar qué variables influyen con mayor peso y cómo afectan a los distintos niveles de dicho monto pagado. Esta estimación no solo contribuye con el cálculo de reservas y su validación, sino que también resulta ser una herramienta clave a la hora de evaluar la solvencia, además, desempeña un papel estratégico en la tarificación, la gestión de riesgos y la toma de decisiones tanto financieras como operativas.
Usar una regresión cuantílica permite estudiar las características que poseen ciertos factores en escenarios de alto riesgo (valores extremos) o particularmente donde se concentra la mayor parte de información, para poder distinguir si la importancia de las variables cambia dependiendo del escenario, y de ser así, que tanto varía.
El impacto del seguro de gastos médicos en México es y ha sido una interrogante poco estudiada desde su origen, esto ha derivado de la poca cultura de la prevención que existe en el país, y en general, de la latente falta de educación financiera. Sin embargo esto se encuentra justificado medianamente en el hecho de que la mayoría de la población lo ve como un gasto no primordial, pues muchos mexicanos priorizan necesidades inmediatascomo la alimentación o la vivienda antes que la cobertura médica. Por ello, no es de sorprenderse que según la CONDUSEF, con base en datos de la INEGI, tan solo el 77% de la población mexicana está protegida por alguna institución de Seguridad Social, mientras que el resto no, y de ese porcentaje tan solo un 7% es el que cuenta con una póliza para cubrir los imprevistos ante alguna enfermedad y/O accidente que requiera atención médica.
En 2006, Illescas escribió sobre la complejidad del seguro de Gastos Médicos, y detalló como esta radica en la determinación adecuada de la prima, pues se trata de seguros que implican riesgos muy altos y por ende costos muy elevados. Un claro ejemplo de lo que la autora describe es como para 2015 las aseguradoras hicieron frente a un aproximado de 900 mil accidentes y enfermedades por un costo por encima de los 35 mil millones de pesos. Si bien, existen por lo menos 32 compañías con la capacidad de operar el ramo de salud, tan solo 9 son las que concentran la mayor parte del mercado, entonces, estas compañías fueron las que asumieron esa responsabilidad.
La AMIS informó que, en los últimos cuatro años, el gasto de las aseguradoras en atención médica ha superado en algunos casos el 100% de los pagos realizados por los clientes. En 2021, estos gastos representaron el 105% de las primas pagadas por los asegurados; en 2022 se redujeron al 98%, en 2023 aumentaron al 99% y en 2024 volvieron a superar los ingresos, alcanzando el 101%. Esta situación ha generado pérdidas operativas para las aseguradoras especializadas en salud, con márgenes de ganancia mínimos que no superan el 1% o 2% de los pagos realizados.
El incremento en los costos de atención médica se debe principalmente al encarecimiento de los servicios, tratamientos, materiales y dispositivos médicos, lo que ha puesto en riesgo la rentabilidad del sector asegurador. Es aquí donde surge nuestra detonante qué ajustes podrían realizarse en las pólizas con base a la siniestralidad, pues sin lugar a dudas los costos médicos seguirán aumentando en el futuro.
# Cargar los datos
base <- read_excel("gmi_clasif.xlsx")
# Revisar y limpiar los datos
# Verificar si existen vacíos
sum(is.na(base))
# Buscar y eliminar duplicados
base |>
janitor::get_dupes()## No variable names specified - using all columns.
El conjunto de datos consta de 14 variables, de las cuales 6 son categóricas y 8 numéricas.
Variables categóricas:
Variables numéricas:
La variable de interés a analizar es el monto pagado, pues resulta ser el efectivo ante el monto reclamado, lo cual permite conocer cuanto están pagando realmente las aseguradoras por los gastos médicos de los asegurados siniestrados.
El gráfico muestra una base poblacional joven bastante notable. La presencia de mujeres es más estable en edades mayores, lo que sugiere mayor longevidad en contraste con la de los hombres.
El gráfico sugiere que los seguros indemnizatorios parecen ser más populares entre personas jóvenes. Por otra parte, los planes amplios, internacionales y limitados están dirigidos a adultos mayores, lo cual puede deberse al tipo de cobertura y costo. Además, existe bastante dispersión en todos los planes, lo que sugiere diversidad etaria en cada tipo.
Destacan tres categorías con montos significativamente altos: hospitalización, honorarios de enfermeras y aparatos ortopédicos, lo que indica que estos servicios representan los principales costos promedio por siniestro. En contraste, servicios como rehabilitación, medicamentos y ambulancia muestran montos más bajos, sugiriendo menor impacto económico por caso en estas áreas específicas.
Se evidencia una mayor concentración de casos en entidades como Ciudad de México, Estado de México, Jalisco y Nuevo León, lo cual puede estar relacionado con factores como la densidad poblacional, acceso a servicios médicos, o incluso la naturaleza misma del seguro. Los estados con menos siniestros tienden a estar en zonas más rurales o con menor población asegurada.
Partiendo de la idea del gráfico anterior es evidente que si la mayor concentración de siniestros se encuentra en las entidades de Jalisco, Nuevo León y CDMX, el monto pagado también será mayor para estas entidades.
La categoría ‘Extranjero’ destaca visiblemente, presenta mayores costos reclamados y, por tanto, mayores aportes del asegurado. Esto sugiere gastos médicos significativamente más altos fuera del país. Ahora bien, entidades como CDMX, Nuevo León y Jalisco también tienen montos altos, indicando mayor concentración de servicios médicos costosos. Se puede argumentar que, donde se reclama más, también se paga más de deducible y coaseguro.
Como es fácil notar ‘Afecciones al Sistema Digestivo’ se presenta como la cateoría con mayor monto de reclamaciones, esto hace sentido dado que es una de las categorías más grandes. Engloba distintas afecciones tales como gastritis, cálculos biliares, apendicitis, solo por mencionar algunas. Dicha categoría es seguida por ‘Lesiones y envenenamientos’, nuevamente, su posición hace sentido pues esta categoría incluye esguinces, torceduras, intoxicaciones, entre otras; normalmente este tipo de situaciones son tratadas con calidad de urgencia en hospitales, esto permite asumir altos montos de reclamaciones.
Los nacidos pretérmino son aquellos recién nacidos que llegan al mundo antes de completar las 37 semanas de gestación. En este análisis dicha causa se presenta como la número 1 en reclamaciones, seguida del resfriado común que, como bien lo dice su numbre, al tratarse de una enfermedad común presentará alta incidencia.
ANÁLISIS DE CORRELACIÓN
## De forma tradicional con cuantiles
# Monto Pagado
umbral_mp <- quantile(base$MONTO_PAGADO, 0.95, na.rm = T)
atipicos_mp <-base$MONTO_PAGADO[base$MONTO_PAGADO>umbral_mp]
normales_mp <- base$MONTO_PAGADO[base$MONTO_PAGADO<=umbral_mp]
nor_mp <- as.data.frame(normales_mp)
ggplot(nor_mp, aes(normales_mp))+
geom_density(color = "paleturquoise4", linewidth = 1.2)+
theme_minimal() +
theme(plot.title = element_text(family = "serif", size = 17,
hjust = 0.5, vjust = 1,
color = "#00838f"),
plot.title.position = "plot",
axis.title.x = element_text(family = "serif"),
axis.title.y = element_text(family = "serif"),
axis.text.x = element_text(size = 7, angle = 45, hjust = 1),
axis.text.y = element_text(size = 7),
axis.line = element_line(color = "gray75")) +
labs(title = 'DATOS ATÍPICOS DEL MONTO PAGADO POR CUANTILES',
y = 'Densidad', x = "Monto Pagado")# Estos datos podrían seguir alguna distribución, por lo que valdría la pena revisar
#Edad
umbral_ed <- quantile(base$EDAD, 0.95, na.rm = T)
atipicos_ed <-base$EDAD[base$EDAD>umbral_ed]
normales_ed <- base$EDAD[base$EDAD<=umbral_ed]
nor_ed <- as.data.frame(normales_ed)
ggplot(nor_ed, aes(normales_ed)) +
geom_density(color = "paleturquoise4", linewidth = 1.2) +
theme_minimal() +
theme(plot.title = element_text(family = "serif", size = 17,
hjust = 0.5, vjust = 1,
color = "#00838f"),
plot.title.position = "plot",
axis.title.x = element_text(family = "serif"),
axis.title.y = element_text(family = "serif"),
axis.text.x = element_text(size = 7, angle = 45, hjust = 1),
axis.text.y = element_text(size = 7),
axis.line = element_line(color = "gray75")) +
labs(title = 'DATOS ATÍPICOS DE LA EDAD POR CUANTILES',
y = 'Densidad', x = "Edad")## Con la distancia de Mahalanobis
dist_mah <- mahalanobis(base_n, colMeans(base_n), cov(base_n))
out <- c(rep(NA, nrow(base_n)))
umbral_mah <- qchisq(0.95, df = ncol(base_n))
out<- ifelse(dist_mah>umbral_mah,'Si','No')
sum(out=='Si')## [1] 5204
base_nat <- data.frame(base_n, out)
base_nat <- base_nat |>
filter(out=='No')
# Vemos que con la distancia de Mahalanobis son 5204 datos, menos que si solo nos enfocamos en los atipicos de MONTO_PAGADO
ggplot(base_nat, aes(Mon.Pagado)) +
geom_density(color = "paleturquoise4", linewidth = 1.2)+
theme_minimal() +
theme(plot.title = element_text(family = "serif", size = 17,
hjust = 0.5, vjust = 1,
color = "#00838f"),
plot.title.position = "plot",
axis.title.x = element_text(family = "serif"),
axis.title.y = element_text(family = "serif"),
axis.text.x = element_text(size = 7, angle = 45, hjust = 1),
axis.text.y = element_text(size = 7),
axis.line = element_line(color = "gray75")) +
labs(title = 'DATOS ATÍPICOS DEL MONTO PAGADO POR\nDISTANCIA DE MAHALONOBIS',
y = 'Densidad', x = "Monto Pagado")Es posible reducir dimensiones, para ello se implementará un Análisis de Componentes Principales (PCA); sin embargo, no se descarta la posibilidad de utilizar algo un poco más especializado, como lo es un Análisis Factorial para Datos Mixtos (FAMD), para estudios posteriores.
Primeramente, se realizó un análisis de literatura para identificar los datos de interés. Una vez definido el tema, se procedió a buscar una base de datos adecuada, la cual se obtuvo de la página web de la CNSF, específicamente del conjunto de datos correspondiente al año 2023 sobre Gastos Médicos Individuales.
La base de datos fue importada a RStudio (donde se trabaja el lenguaje de programación R), y posteriormente se llevó a cabo su limpieza. Cabe destacar que este proceso fue facilitado por la ausencia de datos vacíos. En consecuencia, se eliminaron los registros duplicados y, como parte final del proceso de limpieza, se analizó la estructura de los datos. Durante este análisis, se identificó que algunas variables no contaban con la estructura adecuada, por lo que se realizaron las correcciones necesarias para seguir adelante con el trabajo.
Con la base de datos limpia, lo primero que se hizo fue obtener estadísticas descriptivas, incluyendo medidas como la media, la moda y el valor máximo, entre otras, con respecto a la variable de interés principal: ‘Monto Pagado’. Asimismo, se realizaron consultas en las que se promediaron o acumularon valores, y posteriormente se generaron gráficos que facilitaron la interpretación de los datos.
También se identificaron valores atípicos, lo cual se realizó mediante dos enfoques. El primero fue un método empírico, en el que se calculó el percentil 95 de los valores del monto pagado. El resultado indicó que poco más de 6,000 registros se encuentran por encima de este umbral. El segundo método fue la distancia de Mahalanobis, que mostró que hay poco más de 5,000 datos atípicos. Por lo tanto, se concluyó que la base de datos contiene entre 5,000 y 6,000 valores atípicos.
Finalmente, con base en la revisión previa, se determinó que lo ideal sería aplicar una regresión cuantílica. Sin embargo, para poder implementarla de forma eficiente, primero se busca reducir la cantidad de variables mediante un Análisis de Componentes Principales (PCA), el cual se aplicará únicamente a las variables cuantitativas de la base de datos. Esta técnica permite identificar los componentes principales que explican la mayor varianza entre los datos, a partir de la estandarización de las variables. Es importante mencionar que las variables categóricas no se incluirán en esta etapa de reducción dimensional, pero sí se utilizarán posteriormente en la aplicación del modelo.
La regresión cuantílica es una técnica estadística que permite estimar el efecto de una o más variables explicativas sobre diferentes cuantiles (percentiles) de la distribución condicional de una variable respuesta.
A diferencia de la regresión lineal tradicional, que estima el valor medio (esperado) de la variable dependiente dado un conjunto de variables predictoras, la regresión cuantílica permite modelar, por ejemplo, la mediana (cuantil 0.5), el percentil 25 (cuantil 0.25) o el percentil 90 (cuantil 0.9), proporcionando así una descripción más completa de la relación entre las variables.
Dada la naturaleza asimétrica de la variable dependiente, especialmente sus valores atípicos, surge la necesidad de analizar la relevancia de las variables independientes y como afectan directamente a los montos pagados. Este análisis observa diversas secciones de la distribución condicional, prestando atención de forma particular tanto a las regiones donde se concentra la mayor parte de la información como a los valores extremos (ubicados en la cola derecha). Si bien estos representan escenarios distintos, se busca abordarlos dentro de un mismo marco analítico, lo cual exige el uso de un modelo que sea flexible y capaz de capturar dicha heterogeneidad, sin las restricciones que implican los supuestos tradicionales de la regresión lineal.
Es por ello por lo que la regresión cuantílica se presenta como la herramienta más acertada, pues permite modelar diferentes cuantiles de la distribución. Esto facilita un análisis más detallado en cada punto de interés, elimina la necesidad de cumplir con los rigurosos supuestos de la regresión tradicional, tales como la normalidad o la homocedasticidad, y permite la comparación entre distintos escenarios, así como entre los estados más relevantes para la variable estudiada.
Como se mencionó con anterioridad, este modelo no impone supuestos rigurosos; sin embargo, eso no significa que no los posea, simplemente estos son más flexibles y, en general, más fáciles de cumplir en comparación con los de una regresión tradicional.
Los tres supuestos fundamentales que caracterizan al modelo son:
No multicolinealidad perfecta: la cual no debe existir entre las variables independientes, es decir, \(Corr(X)\approx 0\).
Linealidad condicional de los cuantiles: el modelo supone que el cuantil de orden \(\tau\) de Y, dado X, puede describirse como una combinación lineal del vector de variables X, es decir \(\beta_{\tau i} \neq 0\).
Independencia de las observaciones: se asume que son independientes entre sí, aunque no necesariamente idénticamente distribuidas.
Cabe mencionar que, en este tipo de relación, no se requiere asumir homocedasticidad ni que el error se distribuya de forma normal. Pero, aunque estos supuestos no son necesarios, si es posible realizar cálculos para estimar el intervalo de confianza y aplicar ciertas pruebas estadísticas.
Como en cualquier modelo de regresión, el parámetro fundamental es \(\beta\); sin embargo, algunos autores agregan un parámetro adicional, si bien este solo se utiliza para una prueba, se considera parte del modelo dado que se necesita hacer una estimación para obtenerlo.
Se calcula de la siguiente forma:
\[\hat{\beta}_\tau = \min_{\beta_\tau \in \mathbb{R}} \left[ \sum_{Y_i \geq X_i\beta_\tau} \tau(Y_i - X_i\beta_\tau) + \sum_{Y_i < X_i\beta_\tau} (\tau - 1)(Y_i - X_i^T\beta_\tau) \right]\]
Donde si usamos la función de pérdida, la expresión se escribe de la siguiente forma:
\[\hat{\beta}_\tau = \min_{\beta_\tau \in \mathbb{R}} \left[\sum_{i}^n \rho_\tau(Y_i - X_i^T\beta_\tau)\right]\]
Nota: La función de pérdida de un cuantil o función de chequeo se define de la siguiente manera:
\[\rho_\tau(u) = u(\tau - I(u < 0)) = \begin{cases} u\tau, & \text{si } u \geq 0\\ u(\tau - 1), & \text{si } u < 0 \end{cases}\]Cuenta con las mismas pruebas estadísticas esenciales propias de cualquier modelo de regresión, aunque presenta ciertas modificaciones acordes a su estructura y características:
Significancia del modelo: Validación de los coeficientes a través del estadístico tradicional \(t = \frac{\hat{\beta}_\tau}{SE[\hat{\beta}_\tau]}\) donde t sigue una distribución Normal (0,1).
Bondad de ajuste del modelo \(Pseudo-R^2\): Se calcula con la siguiente fórmula
\[pseudo-R^2 = R^1 = 1 - \frac{\hat{V}(\tau)}{\tilde{V}(\tau)}\]
Donde:
\(\hat{V}(\tau) = \left[\sum_{i}^n \rho_\tau(Y_i - X_i^T\hat{\beta}_\tau)\right]\) (Residuos del modelo propuesto)
\(\tilde{V}(\tau) = \left[\sum_{i}^n \rho_\tau(Y_i - 1)\right]\) (Residuos de un modelo nulo)Como fue mencionado en la sección de metodología, antes de proceder con la implementación del modelo es necesario realizar una preparación adicional los datos para llevar a cabo el análisis. En primer lugar, se seleccionarán tres entidades: Ciudad de México, Jalisco y Nuevo León. Estas entidades fueron elegidas por ser las que registran un mayor monto pagado acumulado, lo cual las posiciona como las más representativas para analizar el comportamiento observado. La selección hace sentido ya que se trata de las entidades con los niveles de desarrollo y estabilidad más altos del país, además, cuentan con una economía sólida y diversificada, permitiendo que su población esté asegurada en distintos ramos.
El objetivo de enfocarse en dichas entidades es que al ser las más representativas, si su comportamiento sigue cierto patrón, las demás también lo harán, lo que permite generalizar los resultados, no obstante, en caso de no ser así, se buscará encontrar los factores que provoquen dichas diferencias.
## Seleccionar los estados de interés de nuestra base original --------
b_CDMX <- base[base$ENTIDAD == "Ciudad de México",
!names(base) %in% c("ENTIDAD", "CAUSA_DEL_SINIESTRO") ]
b_NL <- base[base$ENTIDAD == "Nuevo León",
!names(base) %in% c("ENTIDAD", "CAUSA_DEL_SINIESTRO") ]
b_J <- base[base$ENTIDAD == "Jalisco",
!names(base) %in% c("ENTIDAD", "CAUSA_DEL_SINIESTRO") ]Después de seleccionar de la base de datos las entidades deseadas, se realiza una breve comparativa para discernir si la siniestralidad cambia dependiendo el estado, donde se revisa la variable “Categoría del siniestro”, en esta comparativa aparecen las categorías más comunes y su monto pagado promedio; además, se muestra la relación entre la edad y el número de siniestros que se presentan en esta.
## Consultas para comparar los estados
# Top 5 categorías de siniestros más comunes
##Ciudad de Mexico
sc_CDMX <- b_CDMX %>%
group_by(CATEGORIA_SINIESTRO) %>%
summarise(Cantidad = n()) %>%
arrange(desc(Cantidad)) %>%
head(5)
## Nuevo Leon
sc_NL <- b_NL %>%
group_by(CATEGORIA_SINIESTRO) %>%
summarise(Cantidad = n()) %>%
arrange(desc(Cantidad)) %>%
head(5)
##Jalisco
sc_J <- b_J %>%
group_by(CATEGORIA_SINIESTRO) %>%
summarise(Cantidad = n()) %>%
arrange(desc(Cantidad)) %>%
head(5)Como es posible observar, tan solo dos de las tres entidades seleccionadas comparten el mismo top 5; estas son Nuevo León y CDMX, para Jalisco la quinta posición difiere. Cabe destacar que existe una diferencia notable entre la cantidad de reportes de CDMX en contraste con los de las otras dos entidades, pues CDMX presenta poco más de 50 mil observaciones, mientras que los otros dos aproximadamente presentan 15 mil respectivamente.
# Monto promedio pagado por categoria
## Entidades
mp_CDMX <- b_CDMX %>%
group_by(CATEGORIA_SINIESTRO) %>%
summarise(mpp = mean(MONTO_PAGADO, na.rm = TRUE)) %>%
arrange(desc(mpp))
mp_NL <- b_NL %>%
group_by(CATEGORIA_SINIESTRO) %>%
summarise(mpp = mean(MONTO_PAGADO, na.rm = TRUE)) %>%
arrange(desc(mpp))
mp_J <- b_J %>%
group_by(CATEGORIA_SINIESTRO) %>%
summarise(mpp = mean(MONTO_PAGADO, na.rm = TRUE)) %>%
arrange(desc(mpp))Es fácil notar que, para las tres entidades las categorías con un mayor monto promedio pagado corresponden a ‘Malformaciones congénitas’ y ‘Condiciones perinatales’, lo cual, al ser contrastado con la gráfica anterior resulta interesante, pues la categoría con mayor número de siniestros reportados es ‘Lesiones y envenenamientos’ pero esta se encuentra casi al final de la gráfica actual.
#Relación entre edad y número de siniestros
# Ciudad de Mexico
es_CDMX <- b_CDMX %>%
group_by(EDAD) %>%
summarise(
Promedio_Siniestros = mean(NUMERO_DE_SINIESTROS, na.rm = TRUE),
No_Personas = n()
) %>%
arrange(EDAD)
# Nuevo León
es_NL <- b_NL %>%
group_by(EDAD) %>%
summarise(
Promedio_Siniestros = mean(NUMERO_DE_SINIESTROS, na.rm = TRUE),
No_Personas = n()
) %>%
arrange(EDAD)
#Jalisco
es_J <- b_J %>%
group_by(EDAD) %>%
summarise(
Promedio_Siniestros = mean(NUMERO_DE_SINIESTROS, na.rm = TRUE),
No_Personas = n()
) %>%
arrange(EDAD)Se observa que para las tres entidades las edades de 0 a 5 años presentan el mayor promedio de siniestros, esto puede deberse a que los niños pequeños son más propensos a enfermedades o accidentes o a que existe un mayor uso de servicios médicos cubiertos por seguros para esta etapa. A medida que aumenta la edad, el promedio disminuye y se estabiliza, indicando que los adultos jóvenes y de mediana edad son menos propensos a siniestros. Para las edades más avanzadas, el promedio disminuye aún más.
A manera de resumen, puede decirse que objetivamente se cumple la idea inicial, donde se supone que, si las tres entidades tienen el mismo comportamiento, puede decirse que los demás también. Si bien, las entidades difieren en algunos aspectos, la estructura es muy similar, manteniendo una misma tendencia.
Después de haber comparado las tres entidades, es posible empezar con la implementación del modelo, para esto se debe hacer un paso previo, el cual ayudará a cumplir uno de los supuestos de la regresión cuantílica, realizar una reducción de dimensiones con un PCA para las variables numéricas, esto con el objetivo de eliminar la colinealidad entre las variables dependientes y poder ajustar el modelo cumpliendo los supuestos.
## REDUCCIÓN DE DIMENSIONES CON PCA
#Normalizar datos
b1_CDMX <- scale(b_CDMX [,c(-2:-5, -11)])
b1_NL <- scale(b_NL [,c(-2:-5, -11)])
b1_J <- scale(b_J [,c(-2:-5, -11)])
#Prueba determinante
det(cor(b1_CDMX))## [1] 0.1967004
## [1] 0.2123374
## [1] 0.1551138
#Calcular factor de adecuacion muestral Kaiser-Meyer-Olkin
# De 0.5-0.6 mala, 0.6-0.7 adecuado y mayor de 0.7 bueno (MSA)
psych::KMO(b1_CDMX)## Registered S3 method overwritten by 'psych':
## method from
## plot.residuals rmutil
## Kaiser-Meyer-Olkin factor adequacy
## Call: psych::KMO(r = b1_CDMX)
## Overall MSA = 0.65
## MSA for each item =
## EDAD NUMERO_DE_SINIESTROS NUMERO_DE_RECLAMACIONES
## 0.74 0.63 0.57
## MONTO_RECLAMADO MONTO_DE_DEDUCIBLE MONTO_DE_COASEGURO
## 0.72 0.67 0.63
## MONTO_DE_REASEGURO
## 0.44
## Kaiser-Meyer-Olkin factor adequacy
## Call: psych::KMO(r = b1_NL)
## Overall MSA = 0.61
## MSA for each item =
## EDAD NUMERO_DE_SINIESTROS NUMERO_DE_RECLAMACIONES
## 0.72 0.58 0.53
## MONTO_RECLAMADO MONTO_DE_DEDUCIBLE MONTO_DE_COASEGURO
## 0.70 0.65 0.60
## MONTO_DE_REASEGURO
## 0.55
## Kaiser-Meyer-Olkin factor adequacy
## Call: psych::KMO(r = b1_J)
## Overall MSA = 0.6
## MSA for each item =
## EDAD NUMERO_DE_SINIESTROS NUMERO_DE_RECLAMACIONES
## 0.82 0.60 0.53
## MONTO_RECLAMADO MONTO_DE_DEDUCIBLE MONTO_DE_COASEGURO
## 0.61 0.70 0.58
## MONTO_DE_REASEGURO
## 0.28
Aunque el determinante no es aproximadamente cero, tampoco se trata de un número muy grande. Además, la prueba de KMO arroja que los datos son adecuados y todas las variables poseen un msa mayor a 0.5, por lo que es pertinente el pca para continuar con la reducción.
## Importance of components:
## Comp.1 Comp.2 Comp.3 Comp.4 Comp.5
## Standard deviation 1.578064 1.1207738 1.0084764 0.9851926 0.76991150
## Proportion of Variance 0.355762 0.1794511 0.1452920 0.1386604 0.08468215
## Cumulative Proportion 0.355762 0.5352131 0.6805051 0.8191656 0.90384771
## Comp.6 Comp.7
## Standard deviation 0.64240576 0.51026272
## Proportion of Variance 0.05895615 0.03719615
## Cumulative Proportion 0.96280385 1.00000000
## Importance of components:
## Comp.1 Comp.2 Comp.3 Comp.4 Comp.5
## Standard deviation 1.5438878 1.1605692 1.0190292 0.9553292 0.81022991
## Proportion of Variance 0.3405406 0.1924330 0.1483579 0.1303898 0.09378946
## Cumulative Proportion 0.3405406 0.5329736 0.6813315 0.8117213 0.90551080
## Comp.6 Comp.7
## Standard deviation 0.62163617 0.52434604
## Proportion of Variance 0.05520902 0.03928018
## Cumulative Proportion 0.96071982 1.00000000
## Importance of components:
## Comp.1 Comp.2 Comp.3 Comp.4 Comp.5
## Standard deviation 1.5919117 1.1182304 1.0072432 0.9846584 0.78499837
## Proportion of Variance 0.3620485 0.1786452 0.1449431 0.1385160 0.08803722
## Cumulative Proportion 0.3620485 0.5406937 0.6856368 0.8241528 0.91219005
## Comp.6 Comp.7
## Standard deviation 0.65150476 0.43608858
## Proportion of Variance 0.06064067 0.02716929
## Cumulative Proportion 0.97283071 1.00000000
ANÁLISIS DE LA VARIANZA Y LOS EIGENVALORES
En las tres entidades los primeros 4 componentes son los que poseen una varianza acumulada de aproximadamente el 0.82. Para CDMX aportan el 0.8191, para Jalisco el 0.8117 y para Nuevo León el 0.8241.
Aunque solo tres componentes tienen eigenvalores mayores a la unidad, el cuarto se aproxima, lo que confirma la elección de los 4 factores.
## Comp.1 Comp.2 Comp.3 Comp.4
## EDAD 0.11484159 0.01828479 0.596527575 0.782640616
## NUMERO_DE_SINIESTROS -0.39504594 -0.55269219 0.009961866 0.005355538
## NUMERO_DE_RECLAMACIONES -0.31771041 -0.65965381 0.112750381 0.023798350
## MONTO_RECLAMADO -0.45784563 0.27311390 0.074739741 0.105739754
## MONTO_DE_DEDUCIBLE -0.47978448 0.30700529 -0.029227672 -0.026289114
## MONTO_DE_COASEGURO -0.53788110 0.29569561 0.054089224 0.053011234
## MONTO_DE_REASEGURO -0.02604566 -0.05267362 -0.788655207 0.610079027
## Comp.1 Comp.2 Comp.3 Comp.4
## EDAD 0.17791786 0.02768672 0.66439904 0.6880555
## NUMERO_DE_SINIESTROS -0.38294653 -0.54203628 0.13156359 -0.1423208
## NUMERO_DE_RECLAMACIONES -0.30903123 -0.63521837 0.20435528 0.0209988
## MONTO_RECLAMADO -0.44725444 0.21228903 0.08703147 0.2219280
## MONTO_DE_DEDUCIBLE -0.49590232 0.28849190 -0.05060248 -0.0184057
## MONTO_DE_COASEGURO -0.52894714 0.33299766 0.01093163 0.1250039
## MONTO_DE_REASEGURO -0.02135795 -0.25049169 -0.69946356 0.6638273
## Comp.1 Comp.2 Comp.3 Comp.4
## EDAD 0.11883727 0.052130914 0.51147452 0.84250154
## NUMERO_DE_SINIESTROS -0.35851191 0.578759114 0.01912985 -0.04337961
## NUMERO_DE_RECLAMACIONES -0.32672865 0.647109534 0.01245071 0.02654887
## MONTO_RECLAMADO -0.50964384 -0.182927814 0.01687581 0.13925517
## MONTO_DE_DEDUCIBLE -0.44859620 -0.324677349 0.04045106 -0.03235122
## MONTO_DE_COASEGURO -0.53790282 -0.323455213 0.06958262 0.07805040
## MONTO_DE_REASEGURO -0.01674707 0.008262352 -0.85504972 0.51095407
Manteniendo un comportamiento similar por entidad, en el componente 1 tienen mayor peso las variables de monto de deducible, coaseguro y reclamado, por lo que puede ser llamado ‘componente de monto neto’. Por otra parte, el componente 2 está fuertemente representado por las variables de número de siniestros y de reclamaciones, resultando en el nombre de ‘componente de reclamaciones totales’. Finalmente, los componentes 3 y 4 se asemejan bastante, teniendo como variables principales a la edad y el monto de reaseguro, lo que las diferencia es que en el componente 3 reaseguro pesa más que edad, resultando en un comportamiento inverso para el 4, lo que ayuda a establecer que su nombre sea ‘componente de reaseguro’ y ‘componente de edad’.
Después de todo el análisis realizado, se pueden extraer los 4 componentes para agregarlos a las bases de cada entidad junto con sus variables categóricas y la variable independiente.
# Crear las bases -------------------------------------------------------
bf_CDMX <-pca_CDMX$scores[,1:4]
bf_NL <- pca_NL$scores[,1:4]
bf_J <- pca_J$scores[,1:4]
bf_CDMX <- as.data.frame(bf_CDMX)
bf_NL <- as.data.frame(bf_NL)
bf_J <- as.data.frame(bf_J)
bf_CDMX <- data.frame(bf_CDMX, b_CDMX [,c(2:5, 11)] )
bf_NL <- data.frame(bf_NL, b_NL [,c(2:5, 11)] )
bf_J <- data.frame(bf_J, b_J [,c(2:5, 11)] )Como se mencionó anteriormente, el modelo requiere de tres supuesto (no multicolinealidad perfecta, linealidad condicional de los cuantiles e independencia de las observaciones). Donde el primer supuesto se cumplió desde la realización del PCA, pues este elimina toda colinealidad posible, por otra parte, el tercero se cumplió desde un inicio ya que las reclamaciones se pueden interpretar independientes, por lo que resta comprobar la linealidad condicional, para hacerlo se usará la validación sobre la significancia del modelo, debido a que, si pasa esta prueba, se confirmará el supuesto restante.
Al ser una regresión, se puede entender que se tendrá una combinación lineal que estime los montos pagados. Partiendo de esta idea, se plantea un primer modelo que considera tres cuantiles, el 0.35, 0.70 y 0.95, esto se debe a que dichos cuantiles explican donde se acumula la mayor parte de la información, un intermedio de los datos y donde se concentran los valores atípicos, respectivamente.
## REGRESIÓN CUANTÍLICA ------------------------------------------------
## Primer Modelo: Tres cuantiles
m_CDMX <- rq(formula = MONTO_PAGADO ~ Comp.1 + Comp.2 + Comp.3 + Comp.4 +
TIPO_DE_SEGURO, tau = c(0.35, 0.70, 0.95),
data = bf_CDMX)
m_NL <- rq(formula = MONTO_PAGADO ~ Comp.1 + Comp.2 + Comp.3 + Comp.4 +
TIPO_DE_SEGURO, tau = c(0.35, 0.70, 0.95),
data = bf_NL)
m_J <- rq(formula = MONTO_PAGADO ~ Comp.1 + Comp.2 + Comp.3 + Comp.4 +
TIPO_DE_SEGURO, tau = c(0.35, 0.70, 0.95),
data = bf_J)En el modelo se consideran los componentes extraídos del PCA y una variable adicional que es ‘Tipo de seguro’, pues tras diversas pruebas con distintas variables se llega a la conclusión de que este es el mejor modelo para los cuantiles elegidos en conjunto. Se procede con la ejecución de las pruebas estadísticas para validar el modelo.
## Validación estadística
# 1.Significancia del modelo
# Ciudad de México
summary(m_CDMX, se = "ker")
# Nuevo León
summary(m_NL, se = "ker")
# Jalisco
summary(m_J, se = "ker")
# 2.Comparación entre cuantiles
# Ciudad de México
anova(m_CDMX, se = "ker")
# Nuevo León
anova(m_NL, se = "ker")
# Jalisco
anova(m_J, se = "ker")
# 3.Bondad de Ajuste
rho <- function(u,tau=.5)u*(tau- (u < 0))
# Ciudad de México
mn_CDMX <- rq(MONTO_PAGADO ~ 1, tau = c(0.35, 0.7,0.95) , data = bf_CDMX)
1-m_CDMX$rho/mn_CDMX$rho
# Nuevo Leon
mn_NL <- rq(MONTO_PAGADO ~ 1, tau = c(0.35, 0.7, 0.95) , data = bf_NL)
1-m_NL$rho/mn_NL$rho
# Jalisco
mn_J <- rq(MONTO_PAGADO ~ 1, tau = c(0.35, 0.7,0.95) , data = bf_J)
1-m_J$rho/mn_J$rhoLos resultados muestran lo siguiente en cuanto a la significancia del modelo:
De aquí es facil concluir que para Nuevo León y CDMX el modelo es significativamente adecuado para la mayor parte de los cuantiles, mientras que para Jalisco solo es significativo en el cuantil más pequeño.
Por otra parte, en cuanto a la comparación de cuantiles se obtiene que los coeficientes son diferentes estadísticamente hablando, es decir, cada coeficiente \(\beta_i\) difiere entre cada cuantil. Además el estadístico F respalda la idea de que al menos una de las variables explicativas varía significativamente entre los cuantiles.
Finalmente, el \(R^2\) ajustado para cada cuantil es:
Se puede concluir que el modelo se ajusta mejor para cuantiles altos, en otras palabras, en el cuantil 0.35 el valor del R ajustado es muy bajo para cada estado, es decir el modelo presenta un ajuste débil, mientras que para el cuantil 0.7 el ajuste es considerado moderado. Finalmente, para el cuantil 0.95, el ajuste puede considerarse relativamente bueno.
Con base en la premisa anterior, y tomando en cuenta la idea de que el modelado de riegos es clave para este estudio, se buscará establecer un segundo moddelo que considere únicamente cuantiles altos, pues es donde se concentran los valores extremos, por ende el mayor riesgo. Particularmente, se prestrá atención al caso de Jalisco, que si bien presentó un ajuste relativamente fuerte, la prueba de significancia arroja que el modelo no es el mejor para los cuantiles más altos, pues casi todas sus variables resultan ser NO significativas.
## Segundo Modelo: Cuantil 95, analizando una variable extra
m95_NL <- suppressWarnings(
rq(formula = MONTO_PAGADO ~ Comp.1 + Comp.2 + Comp.3 + Comp.4 +
TIPO_DE_SEGURO + CATEGORIA_SINIESTRO,
tau = c(0.85, 0.95),
data = bf_NL)
)
m95_CDMX <- suppressWarnings(
rq(formula = MONTO_PAGADO ~ Comp.1 + Comp.2 + Comp.3 + Comp.4 +
TIPO_DE_SEGURO + CATEGORIA_SINIESTRO,
tau = c(0.8, 0.95),
data = bf_CDMX)
)
m95_J <- suppressWarnings(
rq(formula = MONTO_PAGADO ~ Comp.1 + Comp.2 + Comp.3 + Comp.4 +
TIPO_DE_SEGURO + CATEGORIA_SINIESTRO,
tau = c(0.8, 0.95),
data = bf_J)
)En este nuevo modelo se consideran las mismas variables que en el anterior; sin embargo, se agrega la variable Categoría del Siniestro, principalmente por el interés de analizarla, pues esta no era una de las variables originales del modelo, sino una que fue creada con el objetivo de reducir las mas de 5 mil causas diferentes del siniestro. Además, los cuantiles a considerar en este modelo ahora serán el 0.8 y 0.95.
## Validación estadística
# 1.Significancia del modelo
# Nuevo León
summary(m95_NL, se = "ker")
# Ciudad de México
summary(m95_CDMX, se = "ker")
# Jalisco
summary(m95_J, se = "ker")
# 2.Comparacion entre cuantiles
# Nuevo León
anova(m95_NL, se = "ker")
# Ciudad de México
anova(m95_CDMX, se = "ker")
#Jalisco
anova(m95_J, se = "ker")
# 3.Bondad de Ajuste
# Nuevo León
mn95_NL <- rq(MONTO_PAGADO ~ 1, tau = c(0.8,0.95), data = bf_NL)
1-m95_NL$rho/mn95_NL$rho
# CDMX
mn95_CDMX <- suppressWarnings(rq(MONTO_PAGADO ~ 1, tau = c(0.8,0.95), data = bf_CDMX))
1-m95_CDMX$rho/mn95_CDMX$rho
#Jalisco
mn95_J <- rq(MONTO_PAGADO ~ 1, tau = c(0.8,0.95), data = bf_J)
1-m95_J$rho/mn95_J$rhoLos resultados arrojan lo siguiente en cuanto a la significancia del
modelo:
De aquí es facil concluir que para el cuantil 0.95 de CDMX el modelo anterior es más significativo, Nuevo León sigue presentando el mismo nivel de significancia, mientras que para el caso de Jalisco notamos una mejor estimación gracias a la nueva variable.
Ahora bien, en cuanto a la comparación de cuantiles se obtiene que cada coeficiente \(\beta_i\) difiere entre cada cuantil. Además, el estadístico F respalda el hecho de que en el nuevo modelo, específicamente para el caso de Jalisco, al menos una de las variables explicativas varía significativamente entre los cuantiles.
Finalmente, el \(R^2\) ajustado para cada cuantil es:
Se confirma que el modelo se ajusta mejor para cuantiles altos, es fácil notarlo en el cuantil 0.95, donde para cada entidad el ajuste es relativamente mayor.
Este proyecto ofrece una visión detallada del comportamiento del monto pagado en seguros de Gastos Médicos Individuales, con base en datos reales obtenidos de la CNSF correspondientes al año 2023. A través de la construcción de nuevas variables, el uso de técnicas de reducción de dimensionalidad (PCA) y el ajuste de modelos de regresión cuantílica, fue posible identificar patrones claros entre el monto pagado y el resto de las variables disponibles.
Tomando como referencia el objetivo general de estimar el comportamiento del monto en diversos cuantiles para las tres entidades más representativas del país, se desarrollaron dos modelos. El primero es más preciso para escenarios donde se concentra la mayor parte de la dispersión de los datos y el segundo se enfoca en los casos extremos, permitiendo así una estimación robusta según el contexto de análisis.
En general, ambos modelos comparten como variables independientes las componentes numéricas generadas mediante PCA. Esto implica que todas las variables cualitativas fueron transformadas previamente para eliminar su colinealidad. Una variable adicional compartida por ambos modelos es ‘Tipo de seguro’. El hecho de que las variables generadas por el PCA resulten significativas en todos los modelos sugiere un análisis bien estructurado, a su vez, un buen trabajo en la reducción de dimensiones. Esto permitió realizar estimaciones con menos variables de las que se tenían originalmente, pero sin perder información, lo cual corrobora que los cuatro componentes principales capturaron la varianza necesaria para explicar la variable de interés.
Profundizando en el primer modelo, un hallazgo interesante es que, para los cuantiles 0.35 y 0.65, la variable ‘Tipo de pago’ penaliza de forma positiva en todos sus niveles; sin embargo, en el cuantil 0.95, cuando se trata de planes amplios o limitados, la penalización es negativa. Esto indica que, si en una estimación la póliza es de tipo limitado, el monto pagado tiende a disminuir en comparación con una de tipo internacional, manteniendo constantes el resto de los factores.
Respecto al segundo modelo, es importante mencionar que se incorporó una variable adicional creada específicamente para reducir la alta variabilidad que generaba la variable original ‘Causas del siniestro’, la cual contaba con más de 5,000 categorías. Por tanto, esta nueva variable puede verse como un clúster manual que engloba la enorme diversidad de causas en solo 23 categorías, facilitando el análisis computacional. Precisando más sobre los resultados del este modelo, las categorías que generan la mayor penalización (es decir, incrementos en el monto pagado) son ‘Condiciones perinatales’ y ‘Malformaciones congénitas’, con coeficientes aproximados de 18,600 y 26,500 respectivamente. Esto significa que, en estimaciones donde la reclamación pertenece a alguna de estas categorías, el monto se incrementaría en dicha magnitud. Esta penalización tiene sentido, ya que dichas categorías fueron identificadas como las de mayor promedio pagado en el análisis exploratorio para las tres entidades.
Otro aspecto interesante es que el comportamiento de la variable ‘Tipo de seguro’ difiere entre los dos modelos. Mientras que en el primer modelo no mostró un efecto tan marcado, en el segundo modelo se observa que tener un tipo de seguro distinto al ‘Indemnizatorio’ implica una penalización positiva, incrementando el monto pagado.
Finalmente, es relevante señalar que, con base en los análisis y modelos realizados, el sexo del asegurado no influye de forma significativa en el monto pagado, lo cual podría deberse a que ambos géneros presentan tasas similares de siniestros, o bien, a que durante el periodo analizado no hubo diferencias significativas para llegar a conclusiones sólidas. Por otro lado, aunque en el análisis exploratorio se identificó que los conceptos ‘hospitalización’, ‘aparatos ortopédicos’ y ‘honorarios de enfermeras’ tenían altos montos pagados, la variable ‘Tipo de pago’ no resultó significativa en el modelo final. Esto puede deberse a la complejidad de dicha variable o a que la muestra no fue lo suficientemente representativa para obtener resultados concluyentes para dicha variable.
En resumen, después de analizar, presentar resultados, interpretarlos y ofrecer una conclusión general del proceso realizado, se puede afirmar que se cumplió el objetivo inicial: estimar el comportamiento del monto pagado en diversos cuantiles, identificando las variables más explicativas para cada uno de ellos. Se logró entender cómo estas variables influyen de manera positiva o negativa en el monto pagado, lo cual permite realizar estimaciones enfocadas en diferentes escenarios de interés. Este enfoque abre la puerta a un análisis detallado para diversos fines, ya sea en la diseño, aprobación o tarificación de pólizas, o en el análisis de valores extremos para la mitigación de riesgos y el cálculo de reservas.
Asociación Mexicana de Instituciones de Seguros. (s.f.). Seguro de gastos médicos – Seguros de salud. https://amissegurosdesalud.com.mx/seguro-gastos-medicos/
Comisión Nacional para la Protección y Defensa de los Usuarios de Servicios Financieros. (s.f.). Presenta CONDUSEF simulador de gastos médicos mayores. https://www.condusef.gob.mx/?p=contenido&idc=544&idcat=1
Illescas, A. (2006). Seguro de gastos médicos mayores y su actualidad en México. [Tesis de licenciatura]. Universidad Nacional Autónoma de México - Dirección General de Bibliotecas.
Martín Escura, A. (2019). Introducción a la regresión cuantil. Estimación y extensión a modelos no paramétricos [Trabajo de fin de grado en Matemáticas]. Universidad de Zaragoza.
Vicéns Otero, J., & Sánchez Reyes, B. (2012). Regresión cuantílica: estimación y contrastes. [Documento de trabajo N.º 21]. Instituto L.R. Klein – Centro GAUSS, Universidad Autónoma de Madrid. https://www.uam.es/uam/media/doc/1606862082401/regresion-cuantilica-estimacion-y-contrastes.pdf
Zárate, T. (2017). Modelo para evaluar la competitividad de productos de seguros de gastos médicos mayores individual en una aseguradora del mercado nacional. [Tesina]. Universidad Autónoma del Estado de México.