La obesidad es un problema de salud pública global, caracterizado por una acumulación excesiva de grasa corporal que incrementa el riesgo de desarrollar enfermedades crónicas como diabetes, hipertensión, enfermedades cardiovasculares, entre otras. Su origen es multifactorial, incluyendo componentes genéticos, ambientales, de comportamiento y socioeconómicos. En este contexto, la presente base de datos ofrece información detallada sobre factores que pueden influir en el desarrollo de obesidad, tales como hábitos alimentarios, actividad física, consumo de sustancias y características sociodemográficas.
La calidad del vino es un atributo esencial en la industria vitivinícola, determinado por múltiples factores fisicoquímicos durante el proceso de producción. Este conjunto de datos contiene mediciones de diferentes propiedades químicas de muestras de vino tinto, con el objetivo de predecir o clasificar su calidad. El análisis estadístico de estas características puede ayudar a identificar los factores más relevantes que influyen en la percepción sensorial del vino y orientar prácticas de producción más eficaces.
library(readxl)
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.4.3
##
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
obesidad <- read_excel("C:/Users/David Rivera/OneDrive/5/io/ObesityDataSet_en_espanol.xlsx")
head(obesidad)
## # A tibble: 6 × 17
## Género Edad `Estatura (m)` `Peso (kg)` `Antecedentes familiares de sobrepeso`
## <chr> <dbl> <dbl> <dbl> <chr>
## 1 Female 21 1.62 64 yes
## 2 Female 21 1.52 56 yes
## 3 Male 23 1.8 77 yes
## 4 Male 27 1.8 87 no
## 5 Male 22 1.78 89.8 no
## 6 Male 29 1.62 53 no
## # ℹ 12 more variables:
## # `¿Consume frecuentemente alimentos altos en calorías?` <chr>,
## # `Frecuencia del consumo de vegetales (1-3)` <dbl>,
## # `Número de comidas principales al día` <dbl>,
## # `¿Consume alimentos entre comidas?` <chr>, `¿Fuma?` <chr>,
## # `Consumo diario de agua (1-3)` <dbl>,
## # `¿Monitorea su consumo calórico?` <chr>, …
summary(obesidad)
## Género Edad Estatura (m) Peso (kg)
## Length:2111 Min. :14.00 Min. :1.450 Min. : 39.00
## Class :character 1st Qu.:19.95 1st Qu.:1.630 1st Qu.: 65.47
## Mode :character Median :22.78 Median :1.700 Median : 83.00
## Mean :24.31 Mean :1.702 Mean : 86.59
## 3rd Qu.:26.00 3rd Qu.:1.768 3rd Qu.:107.43
## Max. :61.00 Max. :1.980 Max. :173.00
## Antecedentes familiares de sobrepeso
## Length:2111
## Class :character
## Mode :character
##
##
##
## ¿Consume frecuentemente alimentos altos en calorías?
## Length:2111
## Class :character
## Mode :character
##
##
##
## Frecuencia del consumo de vegetales (1-3) Número de comidas principales al día
## Min. :1.000 Min. :1.000
## 1st Qu.:2.000 1st Qu.:2.659
## Median :2.386 Median :3.000
## Mean :2.419 Mean :2.686
## 3rd Qu.:3.000 3rd Qu.:3.000
## Max. :3.000 Max. :4.000
## ¿Consume alimentos entre comidas? ¿Fuma?
## Length:2111 Length:2111
## Class :character Class :character
## Mode :character Mode :character
##
##
##
## Consumo diario de agua (1-3) ¿Monitorea su consumo calórico?
## Min. :1.000 Length:2111
## 1st Qu.:1.585 Class :character
## Median :2.000 Mode :character
## Mean :2.008
## 3rd Qu.:2.477
## Max. :3.000
## Frecuencia de actividad física (hrs/semana)
## Min. :0.0000
## 1st Qu.:0.1245
## Median :1.0000
## Mean :1.0103
## 3rd Qu.:1.6667
## Max. :3.0000
## Horas diarias en dispositivos tecnológicos Frecuencia de consumo de alcohol
## Min. :0.0000 Length:2111
## 1st Qu.:0.0000 Class :character
## Median :0.6253 Mode :character
## Mean :0.6579
## 3rd Qu.:1.0000
## Max. :2.0000
## Medio de transporte habitual Nivel de obesidad
## Length:2111 Length:2111
## Class :character Class :character
## Mode :character Mode :character
##
##
##
str(obesidad)
## tibble [2,111 × 17] (S3: tbl_df/tbl/data.frame)
## $ Género : chr [1:2111] "Female" "Female" "Male" "Male" ...
## $ Edad : num [1:2111] 21 21 23 27 22 29 23 22 24 22 ...
## $ Estatura (m) : num [1:2111] 1.62 1.52 1.8 1.8 1.78 1.62 1.5 1.64 1.78 1.72 ...
## $ Peso (kg) : num [1:2111] 64 56 77 87 89.8 53 55 53 64 68 ...
## $ Antecedentes familiares de sobrepeso : chr [1:2111] "yes" "yes" "yes" "no" ...
## $ ¿Consume frecuentemente alimentos altos en calorías?: chr [1:2111] "no" "no" "no" "no" ...
## $ Frecuencia del consumo de vegetales (1-3) : num [1:2111] 2 3 2 3 2 2 3 2 3 2 ...
## $ Número de comidas principales al día : num [1:2111] 3 3 3 3 1 3 3 3 3 3 ...
## $ ¿Consume alimentos entre comidas? : chr [1:2111] "Sometimes" "Sometimes" "Sometimes" "Sometimes" ...
## $ ¿Fuma? : chr [1:2111] "no" "yes" "no" "no" ...
## $ Consumo diario de agua (1-3) : num [1:2111] 2 3 2 2 2 2 2 2 2 2 ...
## $ ¿Monitorea su consumo calórico? : chr [1:2111] "no" "yes" "no" "no" ...
## $ Frecuencia de actividad física (hrs/semana) : num [1:2111] 0 3 2 2 0 0 1 3 1 1 ...
## $ Horas diarias en dispositivos tecnológicos : num [1:2111] 1 0 1 0 0 0 0 0 1 1 ...
## $ Frecuencia de consumo de alcohol : chr [1:2111] "no" "Sometimes" "Frequently" "Frequently" ...
## $ Medio de transporte habitual : chr [1:2111] "Public_Transportation" "Public_Transportation" "Public_Transportation" "Walking" ...
## $ Nivel de obesidad : chr [1:2111] "Normal_Weight" "Normal_Weight" "Normal_Weight" "Overweight_Level_I" ...
Variable dependiente (Y):
Nivel de obesidad (categórica multinomial):
Categorías: Bajo peso, Peso normal, Sobrepeso I y II, Obesidad I, II y III
Variables independientes (X):
Género (categórica)
Edad (numérica continua)
Estatura (m) (numérica continua)
Peso (kg) (numérica continua)
Antecedentes familiares de sobrepeso (categórica binaria)
¿Consume frecuentemente alimentos altos en calorías? (categórica binaria)
Frecuencia del consumo de vegetales (1-3) (ordinal)
Número de comidas principales al día (numérica discreta)
¿Consume alimentos entre comidas? (ordinal)
¿Fuma? (binaria)
Consumo diario de agua (1-3) (ordinal)
¿Monitorea su consumo calórico? (binaria)
Frecuencia de actividad física (numérica continua)
Horas diarias en dispositivos tecnológicos (numérica continua)
Frecuencia de consumo de alcohol (ordinal)
Medio de transporte habitual (categórica)
library(readxl)
library(dplyr)
vino <- read_excel("C:/Users/David Rivera/OneDrive/5/io/vino_tinto_calidad_tt.xlsx")
head(vino)
## # A tibble: 6 × 12
## acidez_fija acidez_volatil acido_citrico azucar_residual cloruros
## <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 7.4 0.7 0 1.9 0.076
## 2 7.8 0.88 0 2.6 0.098
## 3 7.8 0.76 0.04 2.3 0.092
## 4 11.2 0.28 0.56 1.9 0.075
## 5 7.4 0.7 0 1.9 0.076
## 6 7.4 0.66 0 1.8 0.075
## # ℹ 7 more variables: dioxido_azufre_libre <dbl>, dioxido_azufre_total <dbl>,
## # densidad <dbl>, ph <dbl>, sulfitos <dbl>, alcohol <dbl>, calidad <dbl>
summary(vino)
## acidez_fija acidez_volatil acido_citrico azucar_residual
## Min. : 4.60 Min. :0.1200 Min. :0.000 Min. : 0.900
## 1st Qu.: 7.10 1st Qu.:0.3900 1st Qu.:0.090 1st Qu.: 1.900
## Median : 7.90 Median :0.5200 Median :0.260 Median : 2.200
## Mean : 8.32 Mean :0.5278 Mean :0.271 Mean : 2.539
## 3rd Qu.: 9.20 3rd Qu.:0.6400 3rd Qu.:0.420 3rd Qu.: 2.600
## Max. :15.90 Max. :1.5800 Max. :1.000 Max. :15.500
## cloruros dioxido_azufre_libre dioxido_azufre_total densidad
## Min. :0.01200 Min. : 1.00 Min. : 6.00 Min. :0.9901
## 1st Qu.:0.07000 1st Qu.: 7.00 1st Qu.: 22.00 1st Qu.:0.9956
## Median :0.07900 Median :14.00 Median : 38.00 Median :0.9968
## Mean :0.08747 Mean :15.87 Mean : 46.47 Mean :0.9967
## 3rd Qu.:0.09000 3rd Qu.:21.00 3rd Qu.: 62.00 3rd Qu.:0.9978
## Max. :0.61100 Max. :72.00 Max. :289.00 Max. :1.0037
## ph sulfitos alcohol calidad
## Min. :2.740 Min. :0.3300 Min. : 8.40 Min. :3.000
## 1st Qu.:3.210 1st Qu.:0.5500 1st Qu.: 9.50 1st Qu.:5.000
## Median :3.310 Median :0.6200 Median :10.20 Median :6.000
## Mean :3.311 Mean :0.6581 Mean :10.42 Mean :5.636
## 3rd Qu.:3.400 3rd Qu.:0.7300 3rd Qu.:11.10 3rd Qu.:6.000
## Max. :4.010 Max. :2.0000 Max. :14.90 Max. :8.000
str(vino)
## tibble [1,599 × 12] (S3: tbl_df/tbl/data.frame)
## $ acidez_fija : num [1:1599] 7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
## $ acidez_volatil : num [1:1599] 0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
## $ acido_citrico : num [1:1599] 0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
## $ azucar_residual : num [1:1599] 1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
## $ cloruros : num [1:1599] 0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
## $ dioxido_azufre_libre: num [1:1599] 11 25 15 17 11 13 15 15 9 17 ...
## $ dioxido_azufre_total: num [1:1599] 34 67 54 60 34 40 59 21 18 102 ...
## $ densidad : num [1:1599] 0.998 0.997 0.997 0.998 0.998 ...
## $ ph : num [1:1599] 3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
## $ sulfitos : num [1:1599] 0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
## $ alcohol : num [1:1599] 9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
## $ calidad : num [1:1599] 5 5 5 6 5 5 5 7 7 5 ...
Variable dependiente (Y):
calidad: Escala ordinal de 0 a 10 (en esta base, usualmente entre 3 y 8). Se refiere a una evaluación sensorial del vino.
Variables independientes (X):
acidez_fija
acidez_volatil
acido_citrico
azucar_residual
cloruros
dioxido_azufre_libre
dioxido_azufre_total
densidad
ph
sulfitos
alcohol
Multicolinealidad: variables como peso y estatura podrían estar correlacionadas entre sí o influir juntas en el IMC, lo que puede distorsionar modelos paramétricos.
Datos ordinales tratados como nominales: variables como consumo de vegetales, agua o alcohol tienen un orden implícito que debe respetarse en el modelado.
Posible redundancia: peso y estatura podrían ser sustituidos por el IMC calculado.
Distribución sesgada de la variable calidad: Si hay muchas observaciones con una sola calificación (ej. mayoría en 5 o 6), los modelos pueden sobreajustarse.
Multicolinealidad entre variables fisicoquímicas: Algunas propiedades pueden estar correlacionadas, como alcohol y azúcar residual, o densidad y ph.
Rango limitado de la variable Y: La variable calidad puede tener un rango estrecho, lo que puede afectar la capacidad predictiva de modelos lineales.