INTRODUCCIÓN

Nivel de obesidad

La obesidad es un problema de salud pública global, caracterizado por una acumulación excesiva de grasa corporal que incrementa el riesgo de desarrollar enfermedades crónicas como diabetes, hipertensión, enfermedades cardiovasculares, entre otras. Su origen es multifactorial, incluyendo componentes genéticos, ambientales, de comportamiento y socioeconómicos. En este contexto, la presente base de datos ofrece información detallada sobre factores que pueden influir en el desarrollo de obesidad, tales como hábitos alimentarios, actividad física, consumo de sustancias y características sociodemográficas.

Calidad Vino Tinto

La calidad del vino es un atributo esencial en la industria vitivinícola, determinado por múltiples factores fisicoquímicos durante el proceso de producción. Este conjunto de datos contiene mediciones de diferentes propiedades químicas de muestras de vino tinto, con el objetivo de predecir o clasificar su calidad. El análisis estadístico de estas características puede ayudar a identificar los factores más relevantes que influyen en la percepción sensorial del vino y orientar prácticas de producción más eficaces.

BASE DE DATOS Y VARIABLES

Nivel de obesidad:

library(readxl)
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.4.3
## 
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
obesidad <- read_excel("C:/Users/David Rivera/OneDrive/5/io/ObesityDataSet_en_espanol.xlsx")

head(obesidad)
## # A tibble: 6 × 17
##   Género  Edad `Estatura (m)` `Peso (kg)` `Antecedentes familiares de sobrepeso`
##   <chr>  <dbl>          <dbl>       <dbl> <chr>                                 
## 1 Female    21           1.62        64   yes                                   
## 2 Female    21           1.52        56   yes                                   
## 3 Male      23           1.8         77   yes                                   
## 4 Male      27           1.8         87   no                                    
## 5 Male      22           1.78        89.8 no                                    
## 6 Male      29           1.62        53   no                                    
## # ℹ 12 more variables:
## #   `¿Consume frecuentemente alimentos altos en calorías?` <chr>,
## #   `Frecuencia del consumo de vegetales (1-3)` <dbl>,
## #   `Número de comidas principales al día` <dbl>,
## #   `¿Consume alimentos entre comidas?` <chr>, `¿Fuma?` <chr>,
## #   `Consumo diario de agua (1-3)` <dbl>,
## #   `¿Monitorea su consumo calórico?` <chr>, …
summary(obesidad)
##     Género               Edad        Estatura (m)     Peso (kg)     
##  Length:2111        Min.   :14.00   Min.   :1.450   Min.   : 39.00  
##  Class :character   1st Qu.:19.95   1st Qu.:1.630   1st Qu.: 65.47  
##  Mode  :character   Median :22.78   Median :1.700   Median : 83.00  
##                     Mean   :24.31   Mean   :1.702   Mean   : 86.59  
##                     3rd Qu.:26.00   3rd Qu.:1.768   3rd Qu.:107.43  
##                     Max.   :61.00   Max.   :1.980   Max.   :173.00  
##  Antecedentes familiares de sobrepeso
##  Length:2111                         
##  Class :character                    
##  Mode  :character                    
##                                      
##                                      
##                                      
##  ¿Consume frecuentemente alimentos altos en calorías?
##  Length:2111                                         
##  Class :character                                    
##  Mode  :character                                    
##                                                      
##                                                      
##                                                      
##  Frecuencia del consumo de vegetales (1-3) Número de comidas principales al día
##  Min.   :1.000                             Min.   :1.000                       
##  1st Qu.:2.000                             1st Qu.:2.659                       
##  Median :2.386                             Median :3.000                       
##  Mean   :2.419                             Mean   :2.686                       
##  3rd Qu.:3.000                             3rd Qu.:3.000                       
##  Max.   :3.000                             Max.   :4.000                       
##  ¿Consume alimentos entre comidas?    ¿Fuma?         
##  Length:2111                       Length:2111       
##  Class :character                  Class :character  
##  Mode  :character                  Mode  :character  
##                                                      
##                                                      
##                                                      
##  Consumo diario de agua (1-3) ¿Monitorea su consumo calórico?
##  Min.   :1.000                Length:2111                    
##  1st Qu.:1.585                Class :character               
##  Median :2.000                Mode  :character               
##  Mean   :2.008                                               
##  3rd Qu.:2.477                                               
##  Max.   :3.000                                               
##  Frecuencia de actividad física (hrs/semana)
##  Min.   :0.0000                             
##  1st Qu.:0.1245                             
##  Median :1.0000                             
##  Mean   :1.0103                             
##  3rd Qu.:1.6667                             
##  Max.   :3.0000                             
##  Horas diarias en dispositivos tecnológicos Frecuencia de consumo de alcohol
##  Min.   :0.0000                             Length:2111                     
##  1st Qu.:0.0000                             Class :character                
##  Median :0.6253                             Mode  :character                
##  Mean   :0.6579                                                             
##  3rd Qu.:1.0000                                                             
##  Max.   :2.0000                                                             
##  Medio de transporte habitual Nivel de obesidad 
##  Length:2111                  Length:2111       
##  Class :character             Class :character  
##  Mode  :character             Mode  :character  
##                                                 
##                                                 
## 
str(obesidad)
## tibble [2,111 × 17] (S3: tbl_df/tbl/data.frame)
##  $ Género                                              : chr [1:2111] "Female" "Female" "Male" "Male" ...
##  $ Edad                                                : num [1:2111] 21 21 23 27 22 29 23 22 24 22 ...
##  $ Estatura (m)                                        : num [1:2111] 1.62 1.52 1.8 1.8 1.78 1.62 1.5 1.64 1.78 1.72 ...
##  $ Peso (kg)                                           : num [1:2111] 64 56 77 87 89.8 53 55 53 64 68 ...
##  $ Antecedentes familiares de sobrepeso                : chr [1:2111] "yes" "yes" "yes" "no" ...
##  $ ¿Consume frecuentemente alimentos altos en calorías?: chr [1:2111] "no" "no" "no" "no" ...
##  $ Frecuencia del consumo de vegetales (1-3)           : num [1:2111] 2 3 2 3 2 2 3 2 3 2 ...
##  $ Número de comidas principales al día                : num [1:2111] 3 3 3 3 1 3 3 3 3 3 ...
##  $ ¿Consume alimentos entre comidas?                   : chr [1:2111] "Sometimes" "Sometimes" "Sometimes" "Sometimes" ...
##  $ ¿Fuma?                                              : chr [1:2111] "no" "yes" "no" "no" ...
##  $ Consumo diario de agua (1-3)                        : num [1:2111] 2 3 2 2 2 2 2 2 2 2 ...
##  $ ¿Monitorea su consumo calórico?                     : chr [1:2111] "no" "yes" "no" "no" ...
##  $ Frecuencia de actividad física (hrs/semana)         : num [1:2111] 0 3 2 2 0 0 1 3 1 1 ...
##  $ Horas diarias en dispositivos tecnológicos          : num [1:2111] 1 0 1 0 0 0 0 0 1 1 ...
##  $ Frecuencia de consumo de alcohol                    : chr [1:2111] "no" "Sometimes" "Frequently" "Frequently" ...
##  $ Medio de transporte habitual                        : chr [1:2111] "Public_Transportation" "Public_Transportation" "Public_Transportation" "Walking" ...
##  $ Nivel de obesidad                                   : chr [1:2111] "Normal_Weight" "Normal_Weight" "Normal_Weight" "Overweight_Level_I" ...

Variable dependiente (Y):

Nivel de obesidad (categórica multinomial):

Categorías: Bajo peso, Peso normal, Sobrepeso I y II, Obesidad I, II y III

Variables independientes (X):

  • Género (categórica)

  • Edad (numérica continua)

  • Estatura (m) (numérica continua)

  • Peso (kg) (numérica continua)

  • Antecedentes familiares de sobrepeso (categórica binaria)

  • ¿Consume frecuentemente alimentos altos en calorías? (categórica binaria)

  • Frecuencia del consumo de vegetales (1-3) (ordinal)

  • Número de comidas principales al día (numérica discreta)

  • ¿Consume alimentos entre comidas? (ordinal)

  • ¿Fuma? (binaria)

  • Consumo diario de agua (1-3) (ordinal)

  • ¿Monitorea su consumo calórico? (binaria)

  • Frecuencia de actividad física (numérica continua)

  • Horas diarias en dispositivos tecnológicos (numérica continua)

  • Frecuencia de consumo de alcohol (ordinal)

  • Medio de transporte habitual (categórica)

Calidad Vino Tinto

library(readxl)
library(dplyr)

vino <- read_excel("C:/Users/David Rivera/OneDrive/5/io/vino_tinto_calidad_tt.xlsx")

head(vino)
## # A tibble: 6 × 12
##   acidez_fija acidez_volatil acido_citrico azucar_residual cloruros
##         <dbl>          <dbl>         <dbl>           <dbl>    <dbl>
## 1         7.4           0.7           0                1.9    0.076
## 2         7.8           0.88          0                2.6    0.098
## 3         7.8           0.76          0.04             2.3    0.092
## 4        11.2           0.28          0.56             1.9    0.075
## 5         7.4           0.7           0                1.9    0.076
## 6         7.4           0.66          0                1.8    0.075
## # ℹ 7 more variables: dioxido_azufre_libre <dbl>, dioxido_azufre_total <dbl>,
## #   densidad <dbl>, ph <dbl>, sulfitos <dbl>, alcohol <dbl>, calidad <dbl>
summary(vino)
##   acidez_fija    acidez_volatil   acido_citrico   azucar_residual 
##  Min.   : 4.60   Min.   :0.1200   Min.   :0.000   Min.   : 0.900  
##  1st Qu.: 7.10   1st Qu.:0.3900   1st Qu.:0.090   1st Qu.: 1.900  
##  Median : 7.90   Median :0.5200   Median :0.260   Median : 2.200  
##  Mean   : 8.32   Mean   :0.5278   Mean   :0.271   Mean   : 2.539  
##  3rd Qu.: 9.20   3rd Qu.:0.6400   3rd Qu.:0.420   3rd Qu.: 2.600  
##  Max.   :15.90   Max.   :1.5800   Max.   :1.000   Max.   :15.500  
##     cloruros       dioxido_azufre_libre dioxido_azufre_total    densidad     
##  Min.   :0.01200   Min.   : 1.00        Min.   :  6.00       Min.   :0.9901  
##  1st Qu.:0.07000   1st Qu.: 7.00        1st Qu.: 22.00       1st Qu.:0.9956  
##  Median :0.07900   Median :14.00        Median : 38.00       Median :0.9968  
##  Mean   :0.08747   Mean   :15.87        Mean   : 46.47       Mean   :0.9967  
##  3rd Qu.:0.09000   3rd Qu.:21.00        3rd Qu.: 62.00       3rd Qu.:0.9978  
##  Max.   :0.61100   Max.   :72.00        Max.   :289.00       Max.   :1.0037  
##        ph           sulfitos         alcohol         calidad     
##  Min.   :2.740   Min.   :0.3300   Min.   : 8.40   Min.   :3.000  
##  1st Qu.:3.210   1st Qu.:0.5500   1st Qu.: 9.50   1st Qu.:5.000  
##  Median :3.310   Median :0.6200   Median :10.20   Median :6.000  
##  Mean   :3.311   Mean   :0.6581   Mean   :10.42   Mean   :5.636  
##  3rd Qu.:3.400   3rd Qu.:0.7300   3rd Qu.:11.10   3rd Qu.:6.000  
##  Max.   :4.010   Max.   :2.0000   Max.   :14.90   Max.   :8.000
str(vino)
## tibble [1,599 × 12] (S3: tbl_df/tbl/data.frame)
##  $ acidez_fija         : num [1:1599] 7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
##  $ acidez_volatil      : num [1:1599] 0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
##  $ acido_citrico       : num [1:1599] 0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
##  $ azucar_residual     : num [1:1599] 1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
##  $ cloruros            : num [1:1599] 0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
##  $ dioxido_azufre_libre: num [1:1599] 11 25 15 17 11 13 15 15 9 17 ...
##  $ dioxido_azufre_total: num [1:1599] 34 67 54 60 34 40 59 21 18 102 ...
##  $ densidad            : num [1:1599] 0.998 0.997 0.997 0.998 0.998 ...
##  $ ph                  : num [1:1599] 3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
##  $ sulfitos            : num [1:1599] 0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
##  $ alcohol             : num [1:1599] 9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
##  $ calidad             : num [1:1599] 5 5 5 6 5 5 5 7 7 5 ...

Variable dependiente (Y):

calidad: Escala ordinal de 0 a 10 (en esta base, usualmente entre 3 y 8). Se refiere a una evaluación sensorial del vino.

Variables independientes (X):

  • acidez_fija

  • acidez_volatil

  • acido_citrico

  • azucar_residual

  • cloruros

  • dioxido_azufre_libre

  • dioxido_azufre_total

  • densidad

  • ph

  • sulfitos

  • alcohol

PROBLEMAS ESTADISTICOS

Nivel de obesidad:

Multicolinealidad: variables como peso y estatura podrían estar correlacionadas entre sí o influir juntas en el IMC, lo que puede distorsionar modelos paramétricos.

Datos ordinales tratados como nominales: variables como consumo de vegetales, agua o alcohol tienen un orden implícito que debe respetarse en el modelado.

Posible redundancia: peso y estatura podrían ser sustituidos por el IMC calculado.

Calidad Vino Tinto:

Distribución sesgada de la variable calidad: Si hay muchas observaciones con una sola calificación (ej. mayoría en 5 o 6), los modelos pueden sobreajustarse.

Multicolinealidad entre variables fisicoquímicas: Algunas propiedades pueden estar correlacionadas, como alcohol y azúcar residual, o densidad y ph.

Rango limitado de la variable Y: La variable calidad puede tener un rango estrecho, lo que puede afectar la capacidad predictiva de modelos lineales.