1 Contexto del problema de estudio

En el entorno organizacional moderno, los trastornos del sueño como el insomnio representan un problema creciente que afecta directamente la productividad, el bienestar de los empleados y el clima laboral. Diversos estudios han demostrado que una mala calidad del sueño se asocia con mayores niveles de estrés, menor capacidad de concentración y un incremento en el ausentismo y la rotación del personal.

Desde una perspectiva empresarial, identificar tempranamente a los empleados en riesgo de sufrir insomnio permite diseñar estrategias preventivas, como programas de bienestar laboral, ajustes en las cargas de trabajo o asesorías psicológicas. Esto no solo mejora la calidad de vida del trabajador, sino que también optimiza el desempeño organizacional a largo plazo.

Este proyecto busca abordar este problema utilizando técnicas de análisis de datos que permitan predecir la presencia de insomnio a partir de variables de estilo de vida y salud, con el fin de apoyar la toma de decisiones en políticas de bienestar laboral.

2 Datos disponibles

El análisis se realizará a partir del conjunto de datos “Sleep Health and Lifestyle Dataset”, disponible públicamente en la plataforma Kaggle. Esta base contiene información de 374 individuos con variables relacionadas con el estilo de vida, salud general y características demográficas, entre las que se destacan:

Tabla 1: Descripción de las variables contenidas en el dataset
Variable Descripción
Person ID Identificador único del individuo
Gender Género (Male / Female)
Age Edad en años
Sleep Duration Duración promedio del sueño por noche (horas)
Quality of Sleep Autoevaluación de la calidad del sueño (1 a 10)
Physical Activity Level Nivel de actividad física diaria (minutos/día)
Stress Level Nivel de estrés percibido (1 a 10)
BMI Category Clasificación del IMC (Bajo, Normal, Sobrepeso, Obesidad)
Heart Rate Frecuencia cardíaca en reposo (lpm)
Daily Steps Promedio de pasos diarios
Sleep Disorder Diagnóstico clínico: None, Insomnia o Sleep Apnea

Posteriormente, se construyó la variable binaria insomnia, codificada como 1 para los individuos diagnosticados con insomnio, y 0 para el resto (es decir, quienes no presentan trastornos del sueño o tienen apnea del sueño). Esta transformación permite abordar el problema como una clasificación binaria enfocada únicamente en la detección de casos de insomnio, por ser más prevalentes, clínicamente detectables mediante autorreportes y directamente asociados a consecuencias funcionales en el entorno laboral.

Tabla 2: Primeros registros del dataset
Person.ID Gender Age Occupation Sleep.Duration Quality.of.Sleep Physical.Activity.Level Stress.Level BMI.Category Blood.Pressure Heart.Rate Daily.Steps Sleep.Disorder insomnia
1 Male 27 Software Engineer 6.1 6 42 6 Overweight 126/83 77 4200 None 0
2 Male 28 Doctor 6.2 6 60 8 Normal 125/80 75 10000 None 0
3 Male 28 Doctor 6.2 6 60 8 Normal 125/80 75 10000 None 0
4 Male 28 Sales Representative 5.9 4 30 8 Obese 140/90 85 3000 Sleep Apnea 0
5 Male 28 Sales Representative 5.9 4 30 8 Obese 140/90 85 3000 Sleep Apnea 0
6 Male 28 Software Engineer 5.9 4 30 8 Obese 140/90 85 3000 Insomnia 1

Nota metodológica:

En este análisis se ha decidido enfocar la predicción exclusivamente en los casos de insomnio, recodificando la variable Sleep Disorder en una variable binaria donde:

  • 1 representa presencia de insomnio
  • 0 agrupa tanto a quienes no presentan trastornos del sueño como a quienes fueron diagnosticados con apnea del sueño.

Esta decisión se justifica por tres razones metodológicas:

  1. Viabilidad diagnóstica: El insomnio puede ser identificado a través de síntomas clínicos y autorreportes sin necesidad de exámenes instrumentales (Katz & McHorney, 2002), mientras que la apnea del sueño requiere pruebas especializadas como la polisomnografía para su confirmación (American Academy of Sleep Medicine [AASM], 2014).

  2. Pertinencia organizacional: El insomnio muestra una correlación directa con síntomas visibles y autorreportados en el entorno laboral, como fatiga, deterioro de la atención, bajo rendimiento y alteraciones del estado de ánimo (Bhaskar et al., 2016). Por tanto, su detección temprana puede contribuir a mejorar la productividad y el bienestar en el lugar de trabajo.

  3. Objetivo del modelo y pregunta de investigación: Este proyecto busca construir un modelo predictivo basado en variables fácilmente observables o recolectables en el contexto organizacional. El insomnio es clínicamente más accesible en este sentido, lo cual lo convierte en un objetivo práctico y accionable para análisis basados en datos de estilo de vida.

A pesar de que la apnea del sueño también representa un riesgo importante para la salud y el desempeño laboral —incluyendo somnolencia diurna excesiva, deterioro cognitivo, riesgo cardiovascular y accidentes laborales—, su exclusión como clase objetivo se justifica por las limitaciones propias de los datos disponibles. Se sugiere que futuros estudios consideren enfoques multiclase o la inclusión de variables clínicas adicionales para abordar integralmente los diferentes tipos de trastornos del sueño.

3 Pregunta de Investigación

¿Cuáles son las variables clínico-conductuales que influyen en la aparición del insomnio?

4 Objetivos del análisis de datos

El objetivo principal de este proyecto es desarrollar un modelo de clasificación logística binaria que permita predecir la presencia de insomnio a partir de características observables en la población.

Objetivos específicos:

  • Identificar qué variables tienen mayor poder predictivo sobre la aparición de insomnio.
  • Construir un modelo de regresión logística interpretable y evaluarlo con métricas como exactitud, sensibilidad y curva ROC-AUC.
  • Generar recomendaciones basadas en el modelo, que puedan ser útiles para tomar decisiones preventivas en contextos laborales o clínicos.

5 Análisis exploratorio inicial

Antes de construir el modelo predictivo, se realizó un análisis exploratorio de los datos (EDA) con el fin de entender la estructura de las variables, detectar valores atípicos o faltantes, y explorar asociaciones preliminares con la variable objetivo insomnia.

5.1 Estructura y valores faltantes

Figura 1: Gráfico de datos faltantes por variable y observación

Figura 1: Gráfico de datos faltantes por variable y observación

Cómo se puede observar de la Figura 1, el conjunto de datos no presenta valores faltantes, lo cual permite avanzar directamente al análisis descriptivo sin requerir imputación.

5.2 Frecuencias de variables ordinales antes de recodificar

Se revisaron las frecuencias observadas de las variables Quality.of.Sleep, Stress.Level y BMI.Category para identificar posibles niveles ausentes o con baja representación.

Frecuencias de las categorías de Quality.of.Sleep
4 5 6 7 8 9
5 7 105 77 109 71
Frecuencias de las categorías de Stress.Level
3 4 5 6 7 8
71 70 67 46 50 70
Frecuencias de las categorías de BMI.Category
Normal Normal Weight Obese Overweight
195 21 10 148
  • Quality.of.Sleep: solo se observaron valores entre 4 y 9; los niveles 4 y 5 tuvieron muy baja frecuencia (5 y 7 casos).
  • Stress.Level: los valores oscilaron entre 3 y 8, con mayor concentración en los niveles 3 a 6.
  • BMI.Category: había dos categorías equivalentes ("Normal" y "Normal Weight") y muy pocos casos en "Obese".

5.3 Criterios de recategorización de variables ordinales

Las variables fueron recategorizadas para mejorar la interpretabilidad y la estabilidad del modelo predictivo, considerando tanto la distribución teórica como la frecuencia empírica de los niveles observados:

  • Quality.of.Sleep: Se agrupó en tres niveles:

    • Baja (1–5): representa baja calidad del sueño, aunque en la muestra solo aparecen 4 y 5.
    • Media (6–7): valores intermedios con buena representación.
    • Alta (8–10): sueño de buena calidad.
  • Stress.Level: Se agrupó de forma empíricamente balanceada y funcionalmente coherente:

    • Baja (1–3): poco estrés (valor deseable).
    • Media (4–6): estrés tolerable, común en la muestra.
    • Alta (7–10): niveles elevados, asociados a mayor riesgo de insomnio.
  • BMI.Category: Se unificó "Normal" y "Normal Weight" en una sola categoría. Dado que "Obese" tenía muy pocos casos, se agrupó con "Overweight" en una nueva categoría:

    • Normal
    • Exceso de peso

5.4 Recodificación en R

Nota metodológica sobre la recategorización de escalas ordinales:

Aunque las variables Quality.of.Sleep y Stress.Level comparten una escala del 1 al 10, sus agrupaciones no son idénticas debido a diferencias conceptuales y empíricas. En Quality.of.Sleep, los valores bajos indican una condición negativa (sueño deficiente), mientras que en Stress.Level, reflejan una condición positiva (bajo estrés). Por ello, se ajustaron las categorías con base en el sentido clínico funcional y la frecuencia observada.

Además, para evitar inestabilidad en el modelo, se evitaron categorías con muy baja frecuencia (como niveles 4–5 en calidad del sueño o la categoría "Obese" en IMC). Esta estrategia sigue las recomendaciones de Altman y Royston (2006), quienes advierten que divisiones arbitrarias o sin justificación pueden afectar la interpretación y la validez del modelo predictivo.

5.5 Distribución de Insomnio

Figura 2: Distribución de la variable Insomnio

La Figura 2 revela que la mayoría de los participantes no reporta insomnio (79.4%), mientras que solo el 20.6% indica padecerlo. Esta distribución claramente desigual entre quienes sufren o no de insomnio es relevante en la caracterización inicial de la muestra.

5.6 Comparación visual entre variables Cualitativas e insomnia

Figura 3: Insomnio según Género

La Figura 3. muestra la distribución del insomnio según el sexo, permitiendo visualizar posibles diferencias preliminares entre hombres y mujeres. Se observa que un 78 % de los hombres y un 81 % de las mujeres no presentan insomnio, mientras que el 22 % de los hombres y el 19 % de las mujeres sí lo reportan. Aunque los porcentajes son levemente mayores en hombres, la diferencia es pequeña (solo 3 puntos porcentuales), por lo que no sugiere una asociación fuerte entre sexo e insomnio por sí sola. Esta visualización cumple una función descriptiva inicial, pero motiva a profundizar en otras variables del estudio (como el estrés, la calidad del sueño o la actividad física) que podrían explicar mejor la variabilidad observada.

Figura 4: Insomnio según calidad del sueño

De la Figura 4, se evidencia una relación inversa entre la calidad del sueño y la presencia de insomnio. En personas con calidad baja de sueño, el 42% presenta insomnio, mientras que en quienes reportan calidad alta, esta proporción cae drásticamente al 3%. El grupo con calidad media muestra un valor intermedio, con un 36% de insomnio. Estos resultados refuerzan la idea de que a medida que mejora la calidad del sueño, disminuye significativamente la probabilidad de presentar insomnio, lo que sugiere que esta variable es un fuerte predictor del trastorno.

Figura 5: Insomnio según nivel de estrés

La Figura 5 muestra que a mayor nivel de estrés, mayor proporción de personas con insomnio. En el grupo con estrés bajo, solo el 1% presenta insomnio, mientras que en el grupo con estrés alto esta proporción aumenta al 37%. Esta tendencia sugiere que el estrés percibido influye de manera importante en la aparición del insomnio, siendo un factor a considerar en su identificación temprana y prevención.

Figura 6: Insomnio según grupo de IMC

En la Figura 6, se evidencia una posible relación entre el estado nutricional y el insomnio. En el grupo con IMC normal, solo el 4% presenta insomnio, mientras que en el grupo con exceso de peso, esta proporción asciende al 43%. Este contraste sugiere que el exceso de peso podría estar vinculado a una mayor propensión a sufrir de insomnio, destacando la relevancia del estado nutricional como factor asociado.

5.7 Comparación de variables cuantitativas según presencia de insomnio

Figura 7: Comparación de variables cuantitativas según presencia de insomnio

Tabla 2: Estadísticos descriptivos por variable y grupo de insomnio
Variable Estadístico Insomnio = No Insomnio = Sí
Age Media 41.84 43.52
Age Desviación estándar 9.40 4.81
Age Coef. Variación 0.22 0.11
Age Q1 33.00 43.00
Age Mediana 39.00 44.00
Age Q3 50.00 45.00
Age Curtosis -1.15 2.87
Daily.Steps Media 7054.21 5901.30
Daily.Steps Desviación estándar 1663.46 1000.33
Daily.Steps Coef. Variación 0.24 0.17
Daily.Steps Q1 5000.00 6000.00
Daily.Steps Mediana 7000.00 6000.00
Daily.Steps Q3 8000.00 6000.00
Daily.Steps Curtosis -0.60 4.42
Heart.Rate Media 70.09 70.47
Heart.Rate Desviación estándar 3.90 4.95
Heart.Rate Coef. Variación 0.06 0.07
Heart.Rate Q1 68.00 65.00
Heart.Rate Mediana 70.00 72.00
Heart.Rate Q3 72.00 72.00
Heart.Rate Curtosis 2.94 0.44
Physical.Activity.Level Media 62.37 46.82
Physical.Activity.Level Desviación estándar 21.48 11.75
Physical.Activity.Level Coef. Variación 0.34 0.25
Physical.Activity.Level Q1 45.00 45.00
Physical.Activity.Level Mediana 60.00 45.00
Physical.Activity.Level Q3 75.00 45.00
Physical.Activity.Level Curtosis -1.21 6.96
Sleep.Duration Media 7.27 6.59
Sleep.Duration Desviación estándar 0.81 0.39
Sleep.Duration Coef. Variación 0.11 0.06
Sleep.Duration Q1 6.50 6.40
Sleep.Duration Mediana 7.30 6.50
Sleep.Duration Q3 7.90 6.60
Sleep.Duration Curtosis -1.14 5.78

La información combinada de la Figura 7 y la Tabla 2 permite identificar diferencias consistentes entre las personas con y sin insomnio, tanto en sus patrones de sueño como en indicadores fisiológicos y conductuales.

En primer lugar, quienes sufren de insomnio presentan una duración del sueño menor (mediana: 6.5 h vs. 7.3 h) y más homogénea, evidenciado por un coeficiente de variación de apenas 0.06 y una curtosis elevada (5.78), lo que indica que la mayoría de estas personas duermen casi exactamente la misma (y baja) cantidad de horas. Esta concentración extrema sugiere un patrón rígido y posiblemente patológico en los hábitos de descanso.

Un patrón similar se observa en el nivel de actividad física diaria, medido en minutos por día: las personas con insomnio reportan una mediana de 45 minutos diarios, frente a 60 minutos en quienes no lo padecen. Además, en el grupo con insomnio los cuartiles son iguales (Q1 = Mediana = Q3 = 45), y la curtosis de 6.96 confirma una distribución fuertemente concentrada. Esto apunta a estilos de vida marcadamente sedentarios y homogéneos en este grupo.

Respecto a la frecuencia cardíaca en reposo, el grupo con insomnio muestra valores ligeramente más elevados (mediana: 72 vs. 70 lpm), así como mayor dispersión, lo cual podría reflejar un estado fisiológico de mayor activación o estrés basal. Por su parte, el número de pasos diarios también es inferior entre quienes presentan insomnio (media: 5901 vs. 7054), reforzando el patrón de menor movilidad física.

Finalmente, la edad promedio de quienes tienen insomnio es algo mayor (43.5 vs. 41.8 años), y se acompaña de una distribución más estrecha (CV: 0.11 vs. 0.22), lo que puede indicar una mayor prevalencia de insomnio en adultos de edad media con perfiles más uniformes.

En conjunto, estos resultados permiten delinear un perfil característico: las personas con insomnio tienden a dormir menos, moverse menos, y presentar una mayor regularidad fisiológica en variables como frecuencia cardíaca y duración del sueño.

6 Modelación del problema con regresión logística

Se ajustó un modelo de regresión logística para predecir la probabilidad de insomnio a partir de variables cuantitativas y ordinales previamente analizadas. Las variables seleccionadas reflejan patrones consistentes en el análisis exploratorio y tienen justificación clínica o conductual.

6.1 Ajuste del modelo

Tabla 3: Coeficientes del modelo de regresión logística
Estimación Error estándar Valor z Valor p
(Intercept) 7.4708 9.8451 0.7588 0.4480
Age 0.2581 0.0818 3.1567 0.0016
GenderMale 1.2297 0.7021 1.7515 0.0799
Sleep.Duration -0.0290 0.9919 -0.0292 0.9767
Physical.Activity.Level -0.0205 0.0350 -0.5848 0.5587
Heart.Rate -0.2575 0.0907 -2.8383 0.0045
Daily.Steps -0.0007 0.0003 -2.0287 0.0425
Quality.LevelMedia -2.9301 1.3939 -2.1020 0.0356
Quality.LevelAlta -4.0173 2.1150 -1.8995 0.0575
Stress.GroupMedia 6.3504 1.6980 3.7400 0.0002
Stress.GroupAlta 6.9283 2.0222 3.4260 0.0006
BMI.GroupExceso de peso 1.3377 0.7798 1.7153 0.0863

La Tabla 3 presenta el resumen del modelo de regresión logística ajustado para predecir la probabilidad de presentar insomnio a partir de variables clínicas, conductuales y sociodemográficas, incluyendo el género. Se observaron asociaciones estadísticamente significativas (p < 0.05) con las variables edad (Age), frecuencia cardiaca en reposo (Heart.Rate), pasos diarios (Daily.Steps), nivel de estrés percibido (Stress.Group) y calidad subjetiva del sueño (Quality.Level). En particular, los niveles “Media” y “Alta” de calidad del sueño mostraron coeficientes negativos, lo que sugiere un efecto protector frente al insomnio, aunque el nivel “Alta” tuvo una significancia marginal (p = 0.0575). Asimismo, el grupo con “Estrés medio” y “Estrés alto” mostró un aumento significativo en la probabilidad de presentar insomnio en comparación con el grupo con bajo estrés.

La variable género masculino (GenderMale) mostró una tendencia positiva (coeficiente = 1.23), con un valor p = 0.0799, lo que indica una asociación marginalmente significativa. Esto sugiere que los hombres podrían tener mayor riesgo de presentar insomnio que las mujeres, aunque este resultado debe interpretarse con precaución. Por otro lado, el índice de masa corporal elevado (BMI.GroupExceso de peso) también mostró una relación positiva con el insomnio, pero sin alcanzar significación estadística convencional (p = 0.0863).

Las variables duración del sueño (Sleep.Duration) y nivel de actividad física autodeclarado (Physical.Activity.Level) no resultaron significativas en el modelo, lo que podría deberse a la mediación por otras variables o a su bajo poder explicativo cuando se ajusta por el resto de factores.

El modelo evidenció una reducción sustancial en la devianza, desde 380.3 (modelo nulo) hasta 164.2 (modelo ajustado), indicando una mejora considerable en la capacidad explicativa. Además, el Akaike Information Criterion (AIC) fue de 188.2, lo que sugiere un buen compromiso entre ajuste y complejidad del modelo.

Debe considerarse que el conjunto de datos presenta un desbalance de clases, con predominio de personas sin insomnio (79.4%). Este desequilibrio puede influir en las estimaciones de los coeficientes y su significancia, por lo que los resultados deben interpretarse considerando este contexto.

6.2 Interpretación de coeficientes

Los coeficientes estimados indican el efecto de cada variable sobre la log-odds (logaritmo de las probabilidades) de que una persona tenga insomnio. Un coeficiente positivo implica mayor riesgo, y uno negativo indica menor probabilidad, manteniendo constantes las demás variables. Para facilitar su interpretación, se transforman los coeficientes a odds ratios:

Tabla 4: Odds Ratios con IC del 95% y clasificación de factores
Variable OR (IC 95%) p-valor Clasificación
Age 1.294 (1.115 - 1.545) < 0.05 Factor de riesgo
GenderMale 3.42 (0.922 - 15.235) 0.0799 Factor de riesgo
Sleep.Duration 0.971 (0.116 - 5.973) 0.9767 Factor de protección
Physical.Activity.Level 0.98 (0.915 - 1.053) 0.5587 Factor de protección
Heart.Rate 0.773 (0.642 - 0.921) < 0.05 Factor de protección
Daily.Steps 0.999 (0.999 - 1) < 0.05 Factor de protección
Quality.LevelMedia 0.053 (0.003 - 0.675) < 0.05 Factor de protección
Quality.LevelAlta 0.018 (0 - 1.052) 0.0575 Factor de protección
Stress.GroupMedia 572.707 (29.071 - 27570.229) < 0.05 Factor de riesgo
Stress.GroupAlta 1020.771 (25.966 - 84344.288) < 0.05 Factor de riesgo
BMI.GroupExceso de peso 3.81 (0.781 - 17.922) 0.0863 Factor de riesgo

Los resultados del modelo logístico se presentan en forma de odds ratios (OR), los cuales permiten estimar cuánto aumenta o disminuye la probabilidad de tener insomnio según diferentes características. A continuación, se interpretan los efectos de cada variable:

6.2.0.1 Variables cuantitativas

  • Edad (Age): El OR es 1.29 (1.12 – 1.55), lo que indica que por cada año adicional, la probabilidad de presentar insomnio aumenta en un 29%, siendo un resultado estadísticamente significativo (p < 0.05). La edad se confirma como un factor de riesgo relevante.

  • Duración del sueño (Sleep.Duration): El OR es 0.97 (0.12 – 5.97), lo que sugiere una relación muy débil e imprecisa. El valor p = 0.98 indica que no hay evidencia estadísticamente significativa de asociación con el insomnio.

  • Nivel de actividad física (Physical.Activity.Level): El OR estimado es 0.98 (IC95%: 0.92 – 1.05), sin alcanzar significancia estadística (p = 0.56). Esto sugiere que por cada minuto adicional de actividad física diaria, el odds de presentar insomnio disminuiría levemente en un 2%, aunque este efecto no es concluyente.

  • Frecuencia cardíaca (Heart.Rate): El OR es 0.77 (0.64 – 0.92). A medida que la frecuencia cardíaca en reposo aumenta, el riesgo de insomnio disminuye significativamente, por lo que se considera un factor de protección (p < 0.05).

  • Pasos diarios (Daily.Steps): El OR es 0.999 (0.999 – 1.000). Aunque el efecto es pequeño, es estadísticamente significativo (p < 0.05), lo que indica que caminar más pasos se asocia con menor probabilidad de insomnio, confirmándose como factor de protección.

6.2.0.2 Variables categóricas (comparadas frente a una categoría de referencia)

  • Género (GenderMale): El OR es 3.42 (0.92 – 15.24). Aunque el resultado no es estadísticamente significativo (p = 0.08), se observa una tendencia a que los hombres tengan mayor probabilidad de presentar insomnio que las mujeres. Este resultado debe tomarse con cautela, pero apunta hacia una posible asociación de riesgo.

  • Calidad del sueño (Quality.Level):

    • En comparación con la calidad Baja (referencia):
      • Calidad Media: OR = 0.053 (0.003 – 0.675), p < 0.05
      • Calidad Alta: OR = 0.018 (0 – 1.052), p = 0.0575

    Ambos niveles se asocian con una probabilidad marcadamente menor de insomnio. En especial, la calidad “Media” muestra un efecto protector estadísticamente significativo. El nivel “Alta” también sugiere una fuerte protección, aunque con una significancia marginal.

  • Nivel de estrés (Stress.Group):

    • En comparación con el grupo de estrés Bajo (referencia):
      • Estrés Medio: OR = 572.71 (29.07 – 27570.23), p < 0.05
      • Estrés Alto: OR = 1020.77 (25.97 – 84344.29), p < 0.05

    Estos resultados muestran que el riesgo de insomnio es cientos o miles de veces mayor en personas con mayor estrés. Aunque los intervalos de confianza son muy amplios, los valores p indican que el efecto es estadísticamente significativo y extremadamente fuerte, posicionando el estrés como el principal factor de riesgo.

  • Grupo de IMC (BMI.Group):

    • En comparación con el peso Normal (referencia):
      • Exceso de peso: OR = 3.81 (0.78 – 17.92), p = 0.0863

    Se observa una tendencia al mayor riesgo de insomnio en personas con exceso de peso, aunque el resultado no alcanza significación estadística. Es un posible factor de riesgo, pero requiere mayor evidencia.

6.2.0.3 Conclusiones del modelo logístico

El modelo logístico permitió identificar múltiples factores asociados con la presencia de insomnio. Los resultados más sólidos indican que la edad avanzada, la frecuencia cardíaca baja, el mayor número de pasos diarios, y niveles altos de estrés percibido tienen un papel significativo en la predicción del insomnio. La calidad del sueño autopercebida, especialmente cuando es media o alta, se muestra como un fuerte factor protector.

Asimismo, el género masculino y el exceso de peso presentan asociaciones de riesgo, aunque no alcanzan niveles convencionales de significancia estadística. Estas variables podrían cobrar mayor relevancia con muestras más grandes o técnicas de balanceo.

Es importante destacar la amplitud extrema de algunos intervalos de confianza, particularmente en los niveles de estrés, lo que refleja una alta incertidumbre en la magnitud del efecto, probablemente originada por la desproporción de clases (mayoría sin insomnio). Esta situación limita la precisión de los OR y sugiere considerar ajustes metodológicos como remuestreo, ponderación o expansión de la muestra en estudios futuros.

6.3 Evaluación del desempeño predictivo

Para evaluar la capacidad predictiva del modelo logístico ajustado, se construyó la curva ROC (Receiver Operating Characteristic) utilizando el índice de Youden como criterio para determinar el mejor punto de corte. Este índice selecciona el umbral que maximiza la suma de la sensibilidad y la especificidad, optimizando la discriminación entre personas con y sin insomnio. Dado el desbalance en la variable respuesta, se priorizó el uso de métricas como la sensibilidad, especificidad y el índice Kappa sobre la exactitud general.

Figura 8: Curva ROC - Modelo de regresión logística

Figura 8: Curva ROC - Modelo de regresión logística

La Figura 8 muestra la curva ROC correspondiente al modelo de regresión logística ajustado. El área bajo la curva (AUC) fue de 0.9364, lo que indica un excelente poder discriminativo para diferenciar entre personas con y sin insomnio. El punto de corte óptimo, determinado mediante el índice de Youden, se ubicó en 0.576, con una sensibilidad de 97.3% y una especificidad de 84.4%.

Estos valores reflejan un desempeño muy sólido del modelo, especialmente en su capacidad para detectar correctamente los casos positivos (alta sensibilidad). En contextos donde el objetivo es identificar individuos con riesgo de insomnio, esta característica resulta especialmente útil. No obstante, debe recordarse que el modelo fue entrenado sobre un conjunto de datos con clases desbalanceadas, por lo que se recomienda utilizar métricas complementarias (como la curva PR o la matriz de confusión) para una evaluación más integral del rendimiento.

Tabla 5. Matriz de confusión del modelo logístico (punto de corte = 0.454)
Insomnio No Insomnio
Insomnio 65 12
No Insomnio 8 289
Nota: las filas corresponden a las clases reales y las columnas a las clases predichas.

La Tabla 5 presenta la matriz de confusión del modelo logístico usando el punto de corte óptimo de 0.576, según el criterio de Youden. El modelo logró clasificar correctamente a 65 personas con insomnio (verdaderos positivos) y a 289 personas sin insomnio (verdaderos negativos).

Se cometieron 12 errores tipo II (falsos negativos), es decir, personas con insomnio que no fueron identificadas como tal, y 8 errores tipo I (falsos positivos), es decir, personas sin insomnio que fueron clasificadas erróneamente.

Estos resultados reflejan un buen desempeño general, con énfasis en una alta sensibilidad (97.3%) que favorece la detección de casos positivos, y una especificidad del 84.4% que limita los falsos positivos. Esta combinación resulta útil en aplicaciones donde es prioritario identificar correctamente a quienes presentan insomnio, minimizando al mismo tiempo errores de clasificación.

Tabla 6: Métricas de desempeño del modelo logístico (punto de corte = 0.454)
Métrica Valor
Accuracy Exactitud (Accuracy) 0.947
Sensitivity Sensibilidad (Recall) 0.844
Specificity Especificidad (Specificity) 0.973
Precision Precisión (Precision) 0.890
Kappa Índice Kappa 0.833

La Tabla 6 presenta las métricas de desempeño del modelo logístico ajustado para predecir la presencia de insomnio, utilizando un punto de corte de 0.576, determinado según el índice de Youden. Aunque el conjunto de datos presenta un desbalance de clases, el modelo demostró un buen rendimiento global, con una exactitud (accuracy) del 94.7%, lo que indica que clasifica correctamente a una alta proporción de los individuos.

La sensibilidad fue de 97.3%, lo cual evidencia una excelente capacidad del modelo para detectar casos positivos, es decir, personas con insomnio. Por otro lado, la especificidad fue del 84.4%, lo que sugiere una adecuada capacidad para evitar falsos positivos, clasificando correctamente a quienes no presentan insomnio.

La precisión alcanzó el 89.0%, lo que implica que la mayoría de los casos identificados como con insomnio realmente lo son, fortaleciendo la utilidad práctica del modelo.

Finalmente, el índice Kappa de 0.833 indica una concordancia sustancial entre las predicciones del modelo y las observaciones reales, ajustada por el acuerdo esperado por azar, lo que respalda la confiabilidad del modelo como herramienta de clasificación.

6.4 Análisis de los residuos del modelo

Para evaluar la validez del modelo logístico, se analizaron los residuos de deviance, dado que en modelos lineales generalizados los residuos tradicionales (como los de Pearson) no presentan un comportamiento estructurado. Este tipo de residuo permite diagnosticar desviaciones importantes entre los valores observados y los predichos por el modelo.

A continuación, se presenta el gráfico de residuos de deviance respecto al índice de observación:

Figura 8: Residuos de deviance

La Figura 8 muestra la distribución de los residuos de deviance del modelo logístico, representada de forma interactiva para facilitar su inspección detallada. La mayoría de los residuos se encuentran dentro del rango esperado entre -3 y 3, marcado por las líneas punteadas rojas, lo que indica que el modelo no presenta problemas importantes de ajuste. No se observa un patrón sistemático en los residuos, y su distribución se mantiene relativamente simétrica en torno al eje horizontal, lo que respalda la validez del ajuste realizado.

Aunque se identifican algunas observaciones ligeramente fuera del rango esperado, estas no comprometen la estabilidad general del modelo ni su capacidad predictiva. Esta visualización confirma que los supuestos sobre los residuos del modelo se cumplen razonablemente, apoyando la calidad del ajuste.

7 Conclusiones finales

El modelo logístico ajustado permitió identificar un conjunto de variables clínico-conductuales asociadas con la presencia de insomnio. Los hallazgos más consistentes muestran que una edad mayor, una frecuencia cardíaca más baja, un mayor número de pasos diarios y niveles elevados de estrés percibido aumentan significativamente la probabilidad de presentar insomnio. Además, reportar una calidad del sueño media o alta se asocia con una reducción considerable del riesgo, actuando como un factor protector robusto.

Por otro lado, variables como el género masculino y el exceso de peso presentan efectos de riesgo con valores p cercanos a 0.05, aunque no alcanzan significancia estadística convencional. Esto sugiere que, si bien podrían tener un papel relevante, su efecto debe ser interpretado con cautela y podría consolidarse con una mayor cantidad de datos o técnicas que mitiguen el desbalance de clases.

El modelo evidenció un excelente desempeño predictivo, con un AUC de 0.936, alta sensibilidad (84.4%), y un índice Kappa de 0.833, lo que indica una buena concordancia entre predicciones y observaciones. No obstante, se destaca la amplitud de los intervalos de confianza en algunos coeficientes, especialmente en las categorías de estrés, lo que refleja una elevada incertidumbre en la estimación de efectos.

No obstante, es importante reconocer ciertas limitaciones del modelo que pueden incidir en la formulación de recomendaciones prácticas. El notable desbalance entre clases podría sesgar algunas métricas, lo cual restringe la certeza con la que se identifican los factores de riesgo. Por ello, se sugiere ampliar el tamaño muestral y asegurar una representación más equitativa entre personas con y sin insomnio, especialmente si se desea aplicar estos hallazgos a programas de prevención o intervención en entornos laborales o clínicos. Además, incorporar validaciones cruzadas y selección rigurosa de variables podría fortalecer la estabilidad del modelo, haciendo que sus predicciones y recomendaciones sean más confiables y accionables en escenarios reales.

8 Referencias

  • Altman, D. G., & Royston, P. (2006). The cost of dichotomising continuous variables. BMJ, 332(7549), 1080. https://doi.org/10.1136/bmj.332.7549.1080

  • American Academy of Sleep Medicine. (2014). International classification of sleep disorders (3rd ed.). Darien, IL: AASM.

  • Bhaskar, S., Hemavathy, D., & Prasad, S. (2016). Prevalence of chronic insomnia in adult patients and its correlation with medical comorbidities. Journal of Family Medicine and Primary Care, 5(4), 780–784. https://doi.org/10.4103/2249-4863.201153

  • Flórez, Á. (s.f.). Notas del curso de Modelos Lineales Generalizados II (MLGII). Recuperado de https://alvaroflorez.github.io/MLG2/

  • Kaggle. (2021). Sleep Health and Lifestyle Dataset. Recuperado de https://www.kaggle.com/datasets/uom190346a/sleep-health-and-lifestyle-dataset

  • Katz, D. A., & McHorney, C. A. (2002). The relationship between insomnia and health-related quality of life in patients with chronic illness. The Journal of Family Practice, 51(3), 229–235.