Limpieza de Datos

Esta sección se centró en la preparación y validación del Data Frame. Se seleccionaron las variables de interés, y se aplicó el método na.omit() para asegurar una muestra completa, manteniendo la integridad del análisis de regresión.

variables <- c("Age", "Depressed", "Gender", "Poverty", "HHIncome",
         "MaritalStatus", "SleepTrouble")

data <- NHANES[, variables]

clean_data <- na.omit(data)

Transformación a valores númericos

Se realizó una transformación de variables categóricas (factores) a numéricas para permitir la construcción de una matriz homogénea. Esto es un requisito técnico indispensable para ejecutar algoritmos que se basan en operaciones.

Guía de Traducción Simplificada: Números vs. Texto
Variable Valor_Numerico Original
Depressed 1 Deprimido
Depressed 2 No Deprimido
Gender 1 female
Gender 2 male
MaritalStatus 1 Casado
MaritalStatus 2 Soltero
SleepTrouble 1 No
SleepTrouble 2 Yes
HHIncome 1 0-4999
HHIncome 2 5000-9999
HHIncome 3 10000-14999
HHIncome 4 15000-19999
HHIncome 5 20000-24999
HHIncome 6 25000-34999
HHIncome 7 35000-44999
HHIncome 8 45000-54999
HHIncome 9 55000-64999
HHIncome 10 65000-74999
HHIncome 11 75000-99999
HHIncome 12 more 99999
Vista Preliminar de Datos Numéricos (Simplificados)
Age Depressed Gender Poverty HHIncome MaritalStatus SleepTrouble
34 1 2 1.36 6 1 2
34 1 2 1.36 6 1 2
34 1 2 1.36 6 1 2
49 1 1 1.91 7 2 2
45 2 1 5.00 11 1 1
45 2 1 5.00 11 1 1
45 2 1 5.00 11 1 1
66 2 2 2.20 6 1 1
58 2 2 5.00 12 2 1
54 2 2 2.20 10 1 2

Interpretación

La tabla confirma que la base de datos depurada cuenta con 5,995 observaciones válidas, lo cual constituye una muestra buena para el análisis. Se verifica que las variables originalmente categóricas (“Depressed”, “Gender”, “MaritalStatus”, “SleepTrouble”, “HHIncome”) han sido transformadas exitosamente a escala numérica, homogeneizándolas con las variables cuantitativas preexistentes (“Age”, “Poverty”). Esta estandarización de los datos permite la ejecución de algoritmos matemáticos complejos, facilitando la creación de matrices de correlación y modelos estadísticos multivariables.

Analísis Descriptivo

En esta fase se realiza una caracterización estadística de las siete variables seleccionadas. El objetivo es analizar su distribución y medidas de tendencia central para determinar su idoneidad técnica antes de incorporarlas al modelo de regresión lineal simple.

Resumen Estadístico Descriptivo: Variables Sociodemográficas y de Salud
Min. 1st Qu. Median Mean 3rd Qu. Max.
Age 20 33.00 47.00 47.47 60 80
Depressed 1 2.00 2.00 1.79 2 2
Gender 1 1.00 2.00 1.51 2 2
Poverty 0 1.39 3.06 3.00 5 5
HHIncome 1 6.00 9.00 8.31 11 12
MaritalStatus 1 1.00 1.00 1.44 2 2
SleepTrouble 1 1.00 1.00 1.27 2 2

Análisis de los Estadísticos Descriptivos

La tabla “Resumen Estadístico Descriptivo” revela el comportamiento de las 5,995 observaciones analizadas:

Variables Continuas: La variable Age muestra una distribución que abarca desde los 20 hasta los 80 años, con una media de 47-48 años. El índice de pobreza (Poverty) presenta un promedio de 3.00 (Tienen ingresos 3 veces superiores a lo necesario para no ser pobres), indicando el nivel socioeconómico general de la muestra.

Variables Categóricas Transformadas:

En Gender, un promedio cercano a 1.5 indicaría una muestra balanceada entre hombres y mujeres (dado que 1 y 2 son los valores posibles).

Para SleepTrouble, dado que “No”=1 y “Yes”=2, un promedio cercano a 1 sugiere que la mayoría de la población no reporta problemas de sueño, mientras que un promedio que se acerque a 2 indicaría una alta prevalencia de trastornos.

La variable Depressed (escala 1 a 3) muestra una media de 1.27, lo que sugiere que la tendencia central de la muestra se inclina hacia niveles Bajos/Medios de depresión reportada.

La variable HHIncome (Ingreso Familiar) se analiza como una escala ordinal numérica que representa rangos salariales ascendentes.

Un valor promedio de 8.31 sugiere que el hogar típico de la muestra se ubica aproximadamente en la 8-9 (45k a 65k) categoría de ingresos. Al observar la desviación estándar, podemos inferir la desigualdad económica dentro de la muestra: una desviación alta indicaría una mezcla heterogénea de hogares de muy bajos y muy altos ingresos, mientras que una desviación baja sugeriría que la mayoría de los participantes pertenecen a un estrato socioeconómico similar.”

La variable MaritalStatus presenta una media de 1.44. Dado que el valor intermedio de la escala es 1.5, este promedio inferior sugiere que la tendencia central de la muestra se inclina predominantemente hacia la categoría ‘Casado’, indicando que este grupo es más numeroso que el de los ‘Solteros/No Casados’.

VISUALIZACIÓN DE DISTRIBUCIONES INDIVIDUALES

Para la visualización de las variables categóricas, se utilizaron gráficos de barras basados en tablas de frecuencia absoluta. La altura de cada barra representa el número de observaciones (individuos) correspondientes a cada nivel de la variable, permitiendo comparar visualmente qué categorías son predominantes en la muestra.

Distribución Individual Edad

El histograma de la variable Edad muestra una distribución relativamente uniforme a lo largo de los rangos de edad adultos, aunque se observa una ligera disminución en las frecuencias hacia los grupos de adultos mayores (65-75 años). Esto indica que la muestra es representativa de diversos grupos etarios, sin concentrarse excesivamente en jóvenes o adultos mayores.

Distribución Individual Pobreza

La variable Ratio de Pobreza presenta una distribución asimétrica o sesgada. Se observa una concentración notable de datos en el extremo superior (valor 5.0), lo que sugiere que una gran parte de la muestra tiene ingresos que superan en 5 veces o más el umbral de pobreza federal (techo de la medición). Sin embargo, también existe una cola hacia la izquierda que representa a la población con menores recursos económicos.

Distribución Individual Depresión

La variable de respuesta muestra una fuerte asimetría positiva. La gran mayoría de las observaciones se concentran en el valor 1 (Sin Depresión), con frecuencias decrecientes para los valores 2 (Varios días) y 3 (La mayoría de los días). Esto confirma que la depresión severa es un fenómeno menos frecuente en la población general encuestada, lo cual es consistente con los hallazgos del gráfico Q-Q Plot.

Distribución Individual Income

La distribución de Ingresos Familiares muestra una variedad amplia de niveles económicos. Se observa una tendencia hacia frecuencias más altas en los rangos de ingresos medios y altos (ej. > $75,000), aunque existe representación en los estratos inferiores. La naturaleza ordinal de esta variable refuerza la utilidad de usar la variable numérica continua Poverty (Ratio de Pobreza) en los modelos de regresión para obtener una mayor precisión matemática.

Distribución Individual Género

El gráfico de barras para la variable Género muestra una distribución equilibrada entre hombres y mujeres en la muestra analizada. Esto es positivo para el estudio, ya que evita sesgos de selección por sexo y permite que las comparaciones de varianza (como la realizada en la Prueba de Levene) y los análisis de regresión sean representativos para ambos grupos.

Distribución Individual Problemas de sueño

El gráfico de barras para la variable Problemas de Sueño muestra la prevalencia de este trastorno en la muestra. Se observa que la categoría ‘No’ presenta una frecuencia mayor que la categoría ‘Yes’, indicando que la mayoría de los participantes no reportan dificultades crónicas para dormir. Sin embargo, la proporción de individuos con problemas de sueño es considerable, lo que justifica su inclusión como una variable de interés clínico y su posible relación con la salud mental.

Distribución Individual Estado Marital

Para el análisis del Estado Civil, se visualizó la distribución de la variable binaria recodificada. El gráfico revela las frecuencias absolutas de los dos grupos de interés: ‘Casados’ y ‘No Casados’ (que agrupa a solteros, divorciados, separados y viudos). Esta visualización confirma si la muestra está balanceada entre individuos que viven en matrimonio y aquellos que no, lo cual es fundamental para interpretar correctamente los coeficientes en los modelos de regresión posteriores, los cuales muestran que son más la gente casada que la gente soltera,aunque no hay tanta diferencia.

Matriz de Correlación de Pearson: Factores de la Depresión
Depressed Pobreza Edad Genero Estado_Civil Ingreso Sueno
Depressed 1.00 0.18 0.03 0.08 -0.17 0.17 -0.20
Pobreza 0.18 1.00 0.13 0.02 -0.28 0.88 -0.04
Edad 0.03 0.13 1.00 -0.05 -0.20 -0.01 0.09
Genero 0.08 0.02 -0.05 1.00 -0.04 0.05 -0.09
Estado_Civil -0.17 -0.28 -0.20 -0.04 1.00 -0.32 0.04
Ingreso 0.17 0.88 -0.01 0.05 -0.32 1.00 -0.08
Sueno -0.20 -0.04 0.09 -0.09 0.04 -0.08 1.00

Interpretación

Para cerrar el análisis de correlación, vimos que las variables que realmente destacan son los Problemas de Sueño (SleepTrouble), la Pobreza (Poverty) y el Estado Civil (MaritalStatus), ya que fueron las únicas con una correlación arriba de 0.15. Por eso, estas serán nuestras variables principales para la regresión.Por otro lado, la Edad (\(r=0.03\)) y el Género (\(r=0.08\)) mostraron una relación casi nula por sí solas. Aun así, decidí no descartarlas y mantenerlas en el Modelo Múltiple; nos servirán como variables de control para asegurarnos de que el análisis sea más completo y no dejar cabos sueltos.