UNIVERSIDAD DEL ATLÁNTICO

Especialización en Estadística Aplicada

INTRUDUCCIÓN

Tener un peso sano puede ayudar a prevenir problemas de salud, como la diabetes o la enfermedad del corazón. Si usted tiene un peso sano, tendrá más energía, dormirá mejor y se sentirá mejor que si tiene demasiado peso o es demasiado delgado.   Para la OMS (2011), el riesgo de sufrir Obesidad aumenta progresivamente a medida que lo hace el índice de masa corporal, causando algunas enfermedades cardiovasculares, diabetes, enfermedades del aparato locomotor y algunos tipos de cáncer, entre otros. A pesar de que la obesidad puede deberse a causas endocrinas, genéticas y metabólicas (Elizagárate, Escurra y Sánchez, 2001; Saldaña y Rossel, 1998), cada vez es más claro el papel que juega el comportamiento humano en el desarrollo y mantenimiento de esta problemática.\(^{1}\)

No todos crecen y se desarrollan al mismo ritmo, pero la mayoría de las personas atraviesan un período de crecimiento más rápido durante la adolescencia. Durante la pubertad, el cuerpo comienza a fabricar hormonas que desencadenan cambios físicos como un crecimiento más rápido de los músculos (especialmente en los varones) y estirones. Como la cantidad de músculos, grasa y huesos cambia durante este período, algunas personas podrían subir de peso más rápidamente. De ahí la importancia de mantener un buen peso, acorde a nuestra edad, al índice de masa corporal y a nuesta estatura.\(^{2}\)

La necesidad de mantener un peso de acuerdo con la edad, el género y la estatura, no solo tiene que ver con factores estéticos, sino también a nuestra salud física y mental, tener un peso saludable es esencial para tener una buena condición física. Esto es, poder salir a hacer la compra, pasear a nuestro perro, sin agotarnos ni ahogarnos, ayuda a tener una vida sexual activa, cuando hay un exceso de peso, habitualmente asociado a un exceso de grasa se tiene mayor riesgo de padecer lo que se conoce como apnea obstructiva del sueño, un peso adecuado puede evitar varias patologías y enfermedades asociadas tales como: Presión arterial alta, diabetes, enfermedades del corazón, hipercolesterolemia, hipertrigliceridemias, dolores musculares y articulares.

Además caracterizar la distribución de la población de acuerdo con las diferentes variables del estudio; el objetivo principal de este trabajo es generar un modelo que permita predecir el peso de una persona en función de algunas variables demográficas como la edad, IMC, sexo y talla.

Objetivos

Establecer la relación entre el peso de una persona y factores demográficos asociados como su género, su talla y su edad.

  1. Caracterizar las variables que puedan predecir el peso de una persona.  

  2. Determinar la influencia del genéro y la edad en el peso de un individuo.  

  3. Analizar mediante un modelo de regresión lineal múltiple la influencia de la talla, la edad y el género de una persona con respecto a su peso.

Regresiòn Lineal Multiple  

Existen muchas técnicas de regresión en función del tipo de variables y de la forma funcional supuesta entre ellas. Las más elementales (aunque las más potentes en el sentido de que se puede obtener más información) son las lineales. La regresión lineal supone que la relación entre dos variables tiene una forma lineal (o linealizable mediante alguna transformación de las variables). La regresión lineal tiene una versión “simple” que empareja dos variables, pero esta suele ser insuficiente para entender fenómenos mínimamente complejos en la que influyen más de dos variables, esta versión es la “múltiple”.En el modelo de regresión lineal múltiple suponemos que más de una variable tiene influencia o está correlacionada con el valor de una tercera variable. Por ejemplo en el peso de una persona pueden influir edad, género y estatura, en la renta pueden influir trabajo, capital físico, conocimientos, etc.

En el modelo de regresión lineal múltiple esperamos que los sucesos tengan una forma funcional como

  \(y_j=b_0\,+\,b_1x_{1j}\,+b_2x_{2j}\,+...+b_kx_{kj}\,+\,u\)  

donde \(y\) es la variable endógena, \(x\) las variables exógenas, \(u\) los residuos y \(b\) los coeficientes estimados del efecto marginal entre cada \(x\) e \(y\).En este tipo de modelos es importante testar la heterocedasticidad, la multicolinealidad y la especificación.\(^{3}\)

 
Uno de los aspectos que permite hacer inferencia sobre nuestro datos es determinar si existe o no asociación entre diferentes variables. Para realizar este proceso se suele partir de hipótesis, es decir, de unas suposiciones cuya validez cabe confirmar o rechazar. Y para llevar a cabo esta comprobación aplicamos unas pruebas estadísticas o tests, que permiten contrastar la veracidad o falsedad de las hipótesis enunciadas desde el punto de vista estadístico. Este tipo de pruebas se clasifican en pruebas paramétricas y pruebas no paramétricas, pero antes debemos verificar si nuestra variables se distribuyen de forma normal.\(^{4}\)
Datos  

A continuación se presenta la base de datos del Proyecto de investigación, en donde se muestran 341 observaciones y las 4 variables sometidas al estudio sobre la influencia de ciertos factores demográficos en el peso de una persona.

Los datos utilizados para el análisis fueron los siguientes:

Tabla 1: Base de datos, Proyecto de investigación.
Numero paciente Sexo Peso Talla IMC Edad
1 2 54.6 1.68 19.34524 14
2 1 72.5 1.75 23.67347 39
3 1 70.8 1.63 26.64760 25
4 1 85.0 1.70 29.41176 29
5 1 81.0 1.70 28.02768 24
6 2 70.4 1.65 25.85859 48
7 1 53.9 1.55 22.43496 28
8 2 81.9 1.61 31.59600 15
9 2 61.0 1.62 23.24341 53
10 1 59.1 1.68 20.93963 38
11 2 68.6 1.66 24.89476 46
12 2 49.0 1.54 20.66116 35
13 2 70.6 1.57 28.64214 44
14 2 52.6 1.61 20.29243 28
15 1 88.1 1.77 28.12091 33
16 2 60.0 1.60 23.43750 44
17 1 66.0 1.60 25.78125 23
18 2 89.0 1.70 30.79585 35
19 2 53.0 1.57 21.50189 47
20 2 67.3 1.60 26.28906 32
21 2 49.2 1.55 20.47867 10
22 2 34.0 1.35 18.65569 11
23 1 67.0 1.72 22.64738 20
24 2 50.0 1.56 20.54569 27
25 2 58.0 1.66 21.04805 21
26 2 55.0 1.61 21.21832 17
27 2 86.0 1.63 32.36855 42
28 2 60.8 1.58 24.35507 24
29 1 69.2 1.72 23.39102 29
30 2 46.5 1.55 19.35484 20
31 1 55.0 1.75 17.95918 24
32 2 100.0 1.70 34.60208 34
33 1 50.0 1.61 19.28938 15
34 2 55.0 1.51 24.12175 22
35 2 43.8 1.64 16.28495 22
36 2 71.0 1.60 27.73438 56
37 1 74.0 1.70 25.60554 49
38 1 55.0 1.62 20.95717 15
39 1 58.0 1.71 19.83516 15
40 2 49.3 1.46 23.12817 11
41 1 77.0 1.67 27.60945 44
42 1 53.0 1.43 25.91814 13
43 2 46.0 1.57 18.66201 21
44 1 28.9 1.30 17.10059 10
45 2 28.8 1.35 15.80247 11
46 1 81.7 1.69 28.60544 20
47 1 59.0 1.78 18.62139 22
48 1 95.0 1.75 31.02041 60
49 1 73.0 1.78 23.04002 25
50 1 54.6 1.74 18.03409 22
  Análisis y resultados

En el siguiente histograma se puede observar la distribución de nuestros datos de acuerdo con la variable edad, donde se evidencia que nuestras observaciones se hicieron en un grupo de personas menores de 70 años, la edad que más predominó está en un rango entre 10 a 15 años seguido de aquellos que tenían entre 20 a 25 años.

Para evaluar la relación que existe entre el peso de un grupo de personas, inicialmente se valora el cumplimiento de los supuestos de normalidad, homcedasticidad e independencia, teniendo en cuenta que en este caso se compara una variable cuantitativa continua y las variables predictoras que son de la misma naturaleza en el caso de talla, IMC, y edad, también se evaluó una variable predictora cualitativa nominal como lo es el género, se utilizó la prueba de Lilliefors, la cual evalúa la normalidad basada en la prueba de Kolmogorov-Smirnov, donde se pretende probar la hipótesis nula de que los datos provienen de una población con distribución normal.

La influencia que tiene la estatura, el género y la edad de una persona sobre su peso, se analizó mediante un modelo de regresión lineal multiple para identificar los factores de riesgo que influyen y crear estrategias de prevención basadas en la evidencia.

La hipótesis nula general y la hipótesis alternativa general para cada prueba consistió en:

\[\begin{aligned} H_0&: \mbox{La variable predictora en la población en estudio tiene distribución normal } \hspace{0.1cm} vs\\ H_1&: \mbox{La variable predictora en la población no tiene distribución normal } \end{aligned}\]
Tabla 1: Prueba de normalidad
Variables Estadístico P_value
IMC 0.059 0.005
Talla 0.074 <0.05
Edad 0.089 <0.05
Sexo 0.347 <0.05
Note:
Proyecto de investigación

La prueba de normalidad Lilliefors con cada una de las variables predictoras teniendo en cuenta el peso del sujeto, evidenció p-valores menores a un nivel de significancia del 5% por tanto se rechaza la hipótesis nula de que las variables predictoras para este caso se distribuyen normalmente.

Prueba de homocedasticidad  

En la base de datos en nuestro estudio, se registraron \(341\) observaciones, de los cuales \(166\) son hombres que corresponden al \(48.68\%\) y \(1751\) son mujeres correspondientes al \(51.31\%\).

Ahora bien, se evaluó la igualdad de varianza entre las mujeres y los hombres teniendo en cuenta su peso.

La hipótesis nula y la hipótesis alternativa consistió en:

\[\begin{aligned} H_0&: \mbox{La varianza del grupo de las mujeres con respecto a su peso es igual al grupo de los hombres.} vs\\ H_1&: \mbox{La varianza del grupo de las mujeres con respecto a su peso es diferente al grupo de los hombres. } \end{aligned}\]

Tabla 1: Prueba de homocedasticidad
Variables Estadístico P-valor
Test de Levene 2.618 0.1066

A partir de los resultados obtenidos y tomando un nivel de significancia del 5%, se puede afirmar que con una confianza del \(95\%\), no hay evidencia estadística para rechazar la hipótesis nula con esta variable predictora, es decir que se confirma que la varianza entre hombres y mujeres es igual.

 

Prueba de independencia

En los modelos lineales múltiples los predictores deben ser independientes, no debe de haber colinialidad entre ellos. La colinialidad ocurre cuando un predictor está linealmente relacionado con uno o varios de los otros predictores del modelo o cuando es la combinación lineal de otros predictores. Como consecuencia de la colinialidad no se puede identificar de forma precisa el efecto individual que tiene cada una de las variables colineales sobre la variable respuesta, lo que se traduce en un incremento de la varianza de los coeficientes de regresión estimados hasta el punto que resulta prácticamente imposible establecer su significancia estadística.\(^{5}\)

Finalmente se evalúa la independencia entre cada una de las variables predictoras y el peso, por lo que se utilizó una prueba no paramétrica, el Test de Wilcoxon como alternativa a la prueba de t-student, debido a que no se cumple con el supuesto de normalidad.

La hipótesis nula general y la hipótesis alternativa general para cada prueba consistió en: \[\begin{aligned} H_0&: \mbox{La variable predictora es independiente al peso del sujeto} \hspace{0.1cm} vs\\ H_1&: \mbox{La variable predictora es dependiente al peso del sujeto} \end{aligned}\]

####Me falta crear el modelo y realizar la prueba de indepencia ##sacar conclusiones

Referencias

  1. Montero Granados. R (2016): Modelos de regresión lineal múltiple.

  2. https://kidshealth.org/LAWW/es/teens/weight-height-esp.html

  3. Montero Granados. R (2016): Modelos de regresión lineal múltiple.

  4. María José Rubio Hurtado y Vanesa Berlanga Silvente; 2011, Cómo aplicar las pruebas paramétricas bivariadas t de Student y ANOVA en SPSS. Caso práctico.

  5. https://rpubs.com/Joaquin_AR/226291