library("readr")

PROYECTO_ESTADISTICA_Y_PROBABILIDADES <- read_csv("INTEGRANTES.csv")
## Rows: 5 Columns: 2
## -- Column specification --------------------------------------------------------
## Delimiter: ","
## chr (2): Integrantes, Correo
## 
## i Use `spec()` to retrieve the full column specification for this data.
## i Specify the column types or set `show_col_types = FALSE` to quiet this message.
PROYECTO_ESTADISTICA_Y_PROBABILIDADES

Título del trabajo

Estimación de la cantidad de estudiantes de 2do a 6to ciclo en UTEC (Lima-Barranco) que presentan sobrepeso y su influencia en su rendimiento académico. Mayo, 2022.

Introducción

Relevancia

La pandemia ha generado graves efectos en diferentes ámbitos de nuestra vida, sobre todo en la salud. A raíz de la cuarentena, las instituciones académicas optaron por una modalidad virtual en donde los alumnos se conectaban mediante dispositivos electrónicos desde sus casas asistiendo a sus clases online. Este nuevo estilo de vida generó sedentarismo y una mala alimentación causando una enfermedad compleja que en los últimos años ha incrementado, nos referimos a la obesidad. Esta no solo indica un número en la balanza, sino que causa problemas respiratorios, diabetes, sueño, entre otros que son perjudiciales para el desempeño académico. Es por ello, que creemos crucial conocer este tipo de información para determinar si la obesidad afecta el rendimiento académico en los estudiantes de UTEC y la cantidad de estudiantes que padecen de esta enfermedad compleja.

Planificación

Objetivos

Según la problemática de nuestro tema a investigar hemos planteado los siguientes objetivos:

  • Determinar el IMC según el peso de los estudiantes del segundo al sexto ciclo de UTEC. Mayo, 2022.

  • Identificar a los alumnos por género con sobrepeso del segundo al sexto ciclo de UTEC. Mayo, 2022.

  • Identificar el género predominante según las categorías del IMC de los estudiantes del segundo al sexto ciclo de UTEC. Mayo, 2022

  • Determinar la correlación entre el promedio de los alumnos con sobrepeso del segundo al sexto ciclo de UTEC. Mayo, 2022.

  • Comparar si las opiniones acerca de la obesidad de los alumnos es acorde a la realidad según los resultados obtenidos. Mayo, 2022.

Factores

¿Cuáles son los principales factores que influyen del sobrepeso hacia el rendimiento académico de los estudiantes de 2do a 6to ciclo de UTEC?

Los principales factores que influyen en el sobrepeso u obesidad son causados por los efectos del sedentarismo. Ejemplos claros de estos efectos son: la falta de una vida saludable, los desarreglos en las comidas al día, ingesta desproporcionada de “fast food” que no solo daña la salud de nuestro organismo sino que también puede perjudicar la autoestima y el rendimiento académico de los estudiantes. Este último es reflejado en las notas obtenidas de los alumnos indicando una relación entre su rendimiento académico con los estragos de esta enfermedad compleja.Mayo, 2022.

Factibilidad

Se obtendrán los datos a través de la encuesta para poder obtener los datos personales, la encuesta se realizará a 220 estudiantes de UTEC DE 2do a 6to ciclo de manera aleatoria con un formato virtual (google form) que se enviará al correo u otras plataformas favoritas.

Aportes

Diagrama de labores

data <- data.frame(Nombres = c('Evelyn Catalina Zavala Cuya', 'Yerson Andre Ramos Padin','Katherin Yohana Villanueva Campos','Andrés López Vega','Franco Nilson Carrasco Martinez'), 
Inicio = c(17, 24, 26, 1 , 3), Mes.inicio = c("Abril","Abril", "Abril", "Mayo", "Mayo"),
Fin = c(24, 25, 1, 3,4), Mes.fin = c("Abril","Abril", "Mayo", "Mayo", "Mayo"),
Trabajo = c('Plantilla de entrevista', 'Revisión y creación de entrevista', 'Recolección de datos', 'Limpieza de datos', 'Descripción'))
data

Datos

Recolección de datos

Enlace a cuestionario

Cuestionario - El sobrepeso y su relación con el desempeño académico

En primer lugar se realizará una plantilla para la encuesta considerando la mejor forma de medición de las variables; es decir, buscar las respuestas posibles para poder plasmarla en la encuesta como alternativas y así facilitar la limpieza de datos.

En segundo lugar, terminada la plantilla se realizará una reevaluación y será creada en el formato google encuestas agregando imágenes y una breve descripción, ya que debido a la coyuntura de la pandemia este método es la mejor vía de comunicación a distancia permitiéndonos evitar el trabajo presencial de encuestar persona por persona.

Luego, la encuesta será enviada por los correos electrónicos de los estudiantes de 2do a 6to ciclo, para ello se busca los cursos que generalmente corresponden a los alumnos de 2do a 6to ciclo habitualmente, y al acceder a la lista de participantes que cursan estas materias se les puede incitar a completar y difundir la encuesta. Por otro lado, en las salas zoom de las mentorías de dichos cursos se difundirá el enlace como mensaje en el chat, también se publicará en las vías de difusión de las redes sociales (estados de WhatsApp, stories en Instagram).

Evidencias de la difusión de encuestas

Población, muestra y muestreo

Para la población de estudio tomamos en cuenta a los estudiantes de UTEC que estén cursando de segundo a sexto ciclo; en el cuál, un estudiante de UTEC representa a la unidad muestral al cumplir con los requisitos mencionados previamente. El tamaño de la muestra para nuestro estudio es de 200 observaciones como mínimo, la representatividad se demuestra en base a la cantidad información que obtuvimos, realizada a través de una encuesta respondida voluntariamente por los estudiantes de segundo a sexto ciclo de UTEC, el cual nos indica que nuestro muestreo es probabilístico y usamos un muestreo aleatorio simple (MAS).

Variables

variables <- data.frame(variables = c('Edad','Genero','Peso','Estatura','Ciclo','Promedio', 'Tiempo de estudio', 'Desayunos a la semana', 'Hora de desayuno', 'Almuerzos a la semana', 'Hora de almuerzo', 'Cantidad de veces que cena a la semana','Hora de cena', 'Comida Rápida', 'Vegano','Sobrepeso','Carrera que estudia','Cantidad de cursos','Cambio horas', 'Dolores','Hábitos alimenticios', 'Deporte', 'Dieta'),
tipo = c('Cuantitativa (Discreta)','Cualitativa (Nominal)','Cuantitativa (Continua)','Cuantitativa (Continua)','Cuantitativa (Ordinal)','Cuantitativa (Continua)','Cuantitativa (Continua)','Cuantitativa (Discreta)','Cualitativa (Nominal)','Cuantitativa (Discreta)','Cualitativa (Nominal)','Cuantitativa (Discreta)','Cualitativa (Nominal)','Cualitativa (Nominal)','Cualitativa (Nominal)','Cualitativa (Nominal)','Cualitativa (Nominal)','Cuantitativa (Continua)','Cuantitativa (Continua)','Cuantitativa (Continua)','Cuantitativa (Continua)','Cuantitativa (discreta)','Cuantitativa (Continua)'),
Restricciones=c('tiene que ser un entero no negativo','solo puede escoger una opción de las dos disponibles','tiene que ser un entero no negativo mayor a 40','tiene que ser un entero no negativo mayor 140 cm','tiene que ser un entero no negativo mayor que 1 y menor que 7','tiene que ser un entero no negativo menor que 20','tiene que ser un entero no negativo','tiene que ser un entero no negativo menor o igual que 7','tiene que ser un rango de tiempo menor a las 11:00 am','tiene que ser un entero no negativo menor o igual que 7','tiene que ser un rango de tiempo menor a las 4:00 pm','tiene que ser un entero no negativo menor o igual que 7','tiene que ser un rango de tiempo menor a las 11:00 pm','solo puede escoger una opción de las dos disponibles','solo puede escoger una opción de las dos disponibles','solo puede escoger una opción de las dos disponibles','tiene que ser una carrera disponible en la universidad','tiene que ser un entero no negativo','tiene que ser un entero no negativo que represente una escala de menor a mayor','tiene que ser un entero no negativo que represente una escala de menor a mayor','tiene que ser un entero no negativo que represente una escala de menor a mayor','tiene que ser un entero no negativo que represente una escala de menor a mayor','tiene que ser un entero no negativo que represente una escala de menor a mayor'))
variables

Limpieza de base de datos

Al llegar a las 215 observaciones, el primer paso a realizar fue la descarga de los datos en formato .csv desde Excel. Luego, creamos un nuevo proyecto donde realizaremos el trabajo con los archivos correspondientes; de esta manera, podremos colocar el archivo descargado en la misma carpeta para utilizar de manera adecuada el RStudio.

Antes de realizar el análisis de datos, instalamos la librería “readr”, para poder leer el archivo “encuesta_p1.csv”, y así poder tener mejor organización de la información. Luego, usamos la función “str” que nos permite visualizar como el RStudio lee los tipos de variable para examinar si lo que nos retorna el R es correcto, y así poder empezar con la limpieza de datos.

Para empezar con nuestra limpieza de datos, eliminamos las variables que no fueron factores determinantes en nuestro estudio y se crearon por defecto en la plataforma de la encuesta Google Forms. Estas son: correo electrónico y marca temporal.En un siguiente plano de la limpieza de datos, usamos la función “is.na()”, para saber si hay datos faltantes; del mismo modo, aplicamos la función “!complete.cases()” que nos indica si hay casos faltantes. En nuestro caso no tuvimos ni datos ni casos faltantes; asi que, procedimos con la limpieza, descargamos la librería “dplyr”, para poder usar funciones como “names()”, que nos retornaba como estaban escritas las variables. Observamos que los nombres de las variables eran muy largos, generando sobre carga de trabajo al momento de extraer información a partir de ellos;es por ello que, utilizamos la función “rename()” encargada de renombrar las variables a nombres más cortos con el fin de un eficiente manejo de la información.

Todo este procedimiento lo hicimos en “DD” que almacena los datos del archivo .csv. Luego, redirigimos la información a “DDL”, pero con la diferencia de las dos variables innecesarias de “DD”. A continuación, los valores de las distintas variables deben de ser limpiados, para esto usamos la función “unique()” que nos permite conocer todas las formas posibles de escritura de determinadas variables. Hicimos este procedimiento con todas las variables y observamos que para cada variable, los valores tenían una sola forma de escritura; sin embargo, al corroborar esto usamos otra función, la cual es “table()” en conjunto con las funciones “group_by()” y “summarise(n=n())”, que como resultado nos devuelve una tabla que contiene los valores de la variable escogida y la frecuencia que representan, corroborando que no hay un valor por forma de escritura repetido.

Finalmente, para verificar que no haya datos incoherentes usamos la función “filter()” donde indicamos que solo nos retornen los casos completos de los valores que cumplan con las condiciones apropiadas. Por ejemplo: la variable edad debe representar a estudiantes mayores o igual a 18 años; del mismo modo, las variables horas de estudio mayor a 0, ya que no puede existir un número negativo, estatura mayor igual a 140 cm y menor igual a 250 cm; por último, el peso mayor a igual de 40 kg.

Cargando librerías para la limpieza de datos
library(readr)
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(car)
## Loading required package: carData
## 
## Attaching package: 'car'
## The following object is masked from 'package:dplyr':
## 
##     recode
library(ggplot2)
DD<-read.csv("encuesta_p1.csv",header=T,sep=',')
Tipo de variables de RStudio
str(DD)
## 'data.frame':    215 obs. of  26 variables:
##  $ Marca.temporal                                                                               : chr  "26/04/2022 23:26:12" "27/04/2022 14:05:41" "27/04/2022 14:11:03" "27/04/2022 14:55:23" ...
##  $ Dirección.de.correo.electrónico                                                            : chr  "" "sergio.porras@utec.edu.pe" "naomi.moreno@utec.edu.pe" "nicolas.llerena@utec.edu.pe" ...
##  $ Edad..aÃ.os.cumplidos.                                                                       : int  19 19 18 18 19 22 21 20 20 18 ...
##  $ Genero                                                                                       : chr  "Mujer" "Hombre" "Mujer" "Hombre" ...
##  $ Peso..Kg...usar.decimales...Ej..76.42..solo.cifra.numerica.                                  : num  60.5 53 57.9 57.5 59 70 61.3 80 85 80 ...
##  $ Talla..cm..Ej..175..solo.cifra.numÃ.rica.                                                    : int  167 173 153 165 162 170 161 170 170 178 ...
##  $ Talla.de.polo                                                                                : chr  "S" "L" "M" "S" ...
##  $ Carrera.que.estudia                                                                          : chr  "Bioingenieria" "Ingenieria Mecatronica" "Ingenieria Mecatronica" "Ingenieria Electrónica" ...
##  $ NroÂ..de.Ciclo                                                                               : int  3 3 3 3 2 2 3 3 4 3 ...
##  $ Cantidad..de.cursos.que.lleva.actualmente                                                    : int  5 5 6 5 6 7 5 5 7 5 ...
##  $ Ingrese.su.promedio.ponderado.exacto.de.la.carrera..actual..Ej..15.28.                       : num  15.5 16 16.9 12.9 17.2 ...
##  $ Cantidad.de.tiempo.que.estudia.en.la.semana.fuera.de.la.Universidad..En.horas....Ej..3.5     : num  5.5 12 9.5 4.5 4 5 4 4 20 8 ...
##  $ Â.Con.que.frecuencia.desayuna..a.la.semana...Solo.respuesta.numÃ.rica.del.1.al.7.            : int  7 7 5 5 7 5 6 3 7 7 ...
##  $ Â.En.que.rango.de.horas.suele.desayunar...Ej..8.00...8.30..am.                               : chr  "9:00 - 9:30 am" "9:30 - 10:00 am" "9:30 - 10:00 am" "6:00 - 6:30 am" ...
##  $ Â.Con.que.frecuencia.almuerza..a.la.semana...Solo.respuesta.numÃ.rica.del.1.al.7.            : int  7 7 7 5 7 7 7 1 7 7 ...
##  $ Â.En.que.rango.de.horas.suele.almorzar...Ej..13.30.14.00.pm..                                : chr  "14:30 - 15:00 pm" "15:00 - 15:30 pm" "14:00 - 14:30 pm" "13:30 - 14:00 pm" ...
##  $ Â.Con.que.frecuencia.cena..a.la.semana...Solo.respuesta.numÃ.rica.del.1.al.7.                : int  6 7 5 3 7 5 5 5 7 7 ...
##  $ Â.En.que.rango.de.horas.suele.cenar...Ej..19.30...20.00.pm.                                  : chr  "20:00 - 20:30 pm" "21:00 - 21:30 pm" "20:30 - 21:00 pm" "20:30 - 21:00 pm" ...
##  $ Â.quÃ..tan.seguido.cambias.tu.rango.de.horas.de.almuerzo..desayuno.y.o.cena.a.la.semana.     : int  4 3 3 3 3 4 1 3 3 2 ...
##  $ Â.QuÃ..tan.seguido.sufres.de.dolores.en.el.estómago..molestias..gastritis.o.dolor.de.cabeza.: int  2 1 2 2 2 5 2 2 3 1 ...
##  $ Â.Del.1.al.5..QuÃ..tanto.crees.que.influyen.tus.hÃ.bitos.alimenticios.en.tus.calificaciones. : int  4 4 3 4 5 4 5 3 3 1 ...
##  $ Â.Suele.comer.comida.rapida.                                                                 : chr  "SI" "NO" "NO" "SI" ...
##  $ Â.Del.1.al.5.que.tan.seguido.practicas.algún.deporte.o.haces.ejercicios.                    : int  3 4 2 3 1 1 1 5 3 3 ...
##  $ Â.Es.vegano.                                                                                 : chr  "NO" "NO" "NO" "NO" ...
##  $ Â.Tienes.Sobrepeso.                                                                          : chr  "NO" "NO" "SI" "NO" ...
##  $ Â.Del.1.al.5.quÃ..tan.saludable.crees.que.es.tu.dieta.                                       : int  4 4 4 3 2 2 3 4 3 1 ...
Limpieza de la base de datos
#datos faltantes?
sum(is.na(DD))
## [1] 0
sum(!is.na(DD))
## [1] 5590
#casos completos?
sum(complete.cases(DD))
## [1] 215
sum(!complete.cases(DD))
## [1] 0
Usaremos la función rename
names(DD)
##  [1] "Marca.temporal"                                                                               
##  [2] "Dirección.de.correo.electrónico"                                                            
##  [3] "Edad..aÃ.os.cumplidos."                                                                       
##  [4] "Genero"                                                                                       
##  [5] "Peso..Kg...usar.decimales...Ej..76.42..solo.cifra.numerica."                                  
##  [6] "Talla..cm..Ej..175..solo.cifra.numÃ.rica."                                                    
##  [7] "Talla.de.polo"                                                                                
##  [8] "Carrera.que.estudia"                                                                          
##  [9] "NroÂ..de.Ciclo"                                                                               
## [10] "Cantidad..de.cursos.que.lleva.actualmente"                                                    
## [11] "Ingrese.su.promedio.ponderado.exacto.de.la.carrera..actual..Ej..15.28."                       
## [12] "Cantidad.de.tiempo.que.estudia.en.la.semana.fuera.de.la.Universidad..En.horas....Ej..3.5"     
## [13] "Â.Con.que.frecuencia.desayuna..a.la.semana...Solo.respuesta.numÃ.rica.del.1.al.7."            
## [14] "Â.En.que.rango.de.horas.suele.desayunar...Ej..8.00...8.30..am."                               
## [15] "Â.Con.que.frecuencia.almuerza..a.la.semana...Solo.respuesta.numÃ.rica.del.1.al.7."            
## [16] "Â.En.que.rango.de.horas.suele.almorzar...Ej..13.30.14.00.pm.."                                
## [17] "Â.Con.que.frecuencia.cena..a.la.semana...Solo.respuesta.numÃ.rica.del.1.al.7."                
## [18] "Â.En.que.rango.de.horas.suele.cenar...Ej..19.30...20.00.pm."                                  
## [19] "Â.quÃ..tan.seguido.cambias.tu.rango.de.horas.de.almuerzo..desayuno.y.o.cena.a.la.semana."     
## [20] "Â.QuÃ..tan.seguido.sufres.de.dolores.en.el.estómago..molestias..gastritis.o.dolor.de.cabeza."
## [21] "Â.Del.1.al.5..QuÃ..tanto.crees.que.influyen.tus.hÃ.bitos.alimenticios.en.tus.calificaciones." 
## [22] "Â.Suele.comer.comida.rapida."                                                                 
## [23] "Â.Del.1.al.5.que.tan.seguido.practicas.algún.deporte.o.haces.ejercicios."                    
## [24] "Â.Es.vegano."                                                                                 
## [25] "Â.Tienes.Sobrepeso."                                                                          
## [26] "Â.Del.1.al.5.quÃ..tan.saludable.crees.que.es.tu.dieta."
DD<- rename(DD, tiempo= 'Marca.temporal',correo= 'Dirección.de.correo.electrónico',edad='Edad..aÃ.os.cumplidos.',genero= 'Genero',peso='Peso..Kg...usar.decimales...Ej..76.42..solo.cifra.numerica.',estatura='Talla..cm..Ej..175..solo.cifra.numÃ.rica.',polo='Talla.de.polo',carrera='Carrera.que.estudia',ciclo='NroÂ..de.Ciclo',cursos='Cantidad..de.cursos.que.lleva.actualmente',promedio='Ingrese.su.promedio.ponderado.exacto.de.la.carrera..actual..Ej..15.28.',t_estudio='Cantidad.de.tiempo.que.estudia.en.la.semana.fuera.de.la.Universidad..En.horas....Ej..3.5',desayuno='Â.Con.que.frecuencia.desayuna..a.la.semana...Solo.respuesta.numÃ.rica.del.1.al.7.',desayuno_intervalo='Â.En.que.rango.de.horas.suele.desayunar...Ej..8.00...8.30..am.',almuerzo='Â.Con.que.frecuencia.almuerza..a.la.semana...Solo.respuesta.numÃ.rica.del.1.al.7.',almuerzo_intervalo='Â.En.que.rango.de.horas.suele.almorzar...Ej..13.30.14.00.pm..',cena='Â.Con.que.frecuencia.cena..a.la.semana...Solo.respuesta.numÃ.rica.del.1.al.7.',cena_intervalo='Â.En.que.rango.de.horas.suele.cenar...Ej..19.30...20.00.pm.',cambio_rango='Â.quÃ..tan.seguido.cambias.tu.rango.de.horas.de.almuerzo..desayuno.y.o.cena.a.la.semana.',dolores='Â.QuÃ..tan.seguido.sufres.de.dolores.en.el.estómago..molestias..gastritis.o.dolor.de.cabeza.',habitos_alimenticios='Â.Del.1.al.5..QuÃ..tanto.crees.que.influyen.tus.hÃ.bitos.alimenticios.en.tus.calificaciones.',comida_rapida='Â.Suele.comer.comida.rapida.',deporte='Â.Del.1.al.5.que.tan.seguido.practicas.algún.deporte.o.haces.ejercicios.',vegano='Â.Es.vegano.',sobrepeso='Â.Tienes.Sobrepeso.',dieta='Â.Del.1.al.5.quÃ..tan.saludable.crees.que.es.tu.dieta.')
names(DD)
##  [1] "tiempo"               "correo"               "edad"                
##  [4] "genero"               "peso"                 "estatura"            
##  [7] "polo"                 "carrera"              "ciclo"               
## [10] "cursos"               "promedio"             "t_estudio"           
## [13] "desayuno"             "desayuno_intervalo"   "almuerzo"            
## [16] "almuerzo_intervalo"   "cena"                 "cena_intervalo"      
## [19] "cambio_rango"         "dolores"              "habitos_alimenticios"
## [22] "comida_rapida"        "deporte"              "vegano"              
## [25] "sobrepeso"            "dieta"
Limpieza de datos
(DDL<-DD[,3:26])# DE ESTA MANERA DESCARTAMOS LAS VARIABLES DE MARCA TEMPORAL Y CORREO QUE FUERON AGREGADAS POR EL DOCUMENTO DE FORMS POR DEFECTO
Verificar variables
unique(DDL$edad)# Permite conocer todas las formas en las que se escribio la variable edad
## [1] 19 18 22 21 20 23 25 27
unique(DDL$genero)
## [1] "Mujer"  "Hombre"
unique(DDL$peso)
##   [1]  60.50  53.00  57.90  57.50  59.00  70.00  61.30  80.00  85.00  60.03
##  [11]  55.00  69.00  71.00  58.00  56.00  94.40  48.00  75.00  70.25  87.00
##  [21]  85.50  70.30  79.15  57.00  60.20  60.00  66.50  50.00  78.50  73.00
##  [31]  63.00  61.00  44.00  64.70  75.35  49.50  52.00  70.20  86.40  78.00
##  [41]  60.45  49.00  64.50  65.00  74.00  67.89  64.00  67.00  61.50  55.60
##  [51]  66.20  60.04  57.70  58.70  90.00  79.50  79.00  54.00  80.20  43.20
##  [61]  62.00  84.60  49.70  82.50  58.20  70.36  65.92  54.12  72.20  60.10
##  [71]  73.15  65.34  65.44  74.10  59.70  56.23  95.00  82.00  52.45  50.80
##  [81]  59.60  68.00  73.20  67.70  56.40  97.00  76.50  67.50  66.00  89.00
##  [91]  72.00  76.00  46.00  90.50  73.54  74.20  45.00  56.50 100.23  55.20
## [101]  53.98  70.40  83.51  40.32  71.70
unique(DDL$estatura)
##  [1] 167 173 153 165 162 170 161 178 169 159 168 172 157 148 185 163 176 175 186
## [20] 154 156 160 177 174 180 187 150 158 171 181 179 166 152 164 155 182 183 184
unique(DDL$polo)
## [1] "S"  "L"  "M"  "XL" "XS"
unique(DDL$carrera)
##  [1] "Bioingenieria"                       
##  [2] "Ingenieria Mecatronica"              
##  [3] "Ingenieria Electrónica"             
##  [4] "Ingenieria Industrial"               
##  [5] "Ingeniería Civil"                   
##  [6] "Ingenieria Mecánica"                
##  [7] "Ciencias de la Computación"         
##  [8] "Ingeniería Química"                
##  [9] "Ingenieria Ambiental"                
## [10] "Administración y Negocios Digitales"
## [11] "Ingenieria de la Energía"           
## [12] "Ciencia de Datos"
unique(DDL$ciclo)
## [1] 3 2 4 5 6
unique(DDL$cursos)
##  [1]  5  6  7  4  8  1 10  9  2  3
unique(DDL$promedio)
##   [1] 15.50 15.96 16.89 12.91 17.24 11.30 14.32 14.00 11.50 16.88 15.00 16.55
##  [13] 11.29 16.01 15.95 12.34 15.23 13.05 17.55 15.51 15.57 13.45 16.79 14.14
##  [25] 15.35 13.30 15.02 16.69 16.40 13.69 16.90 13.00 13.20 17.00 10.97 14.11
##  [37] 15.68 18.40 15.56 14.61 13.63 17.40 14.50 15.14 12.74 11.23 13.52 13.40
##  [49] 14.20 16.20 16.00  0.00 13.02 13.50 16.91 15.28 13.94 16.45 14.80 16.38
##  [61] 14.48 15.18 15.37 17.10 14.06 16.75 14.16 16.97 15.62 16.78 13.49 14.30
##  [73] 14.70 19.55 17.15 15.30 14.02 14.66 14.58 18.34 12.00 17.58 12.67 12.50
##  [85] 15.04 16.84 13.43 15.36 17.21 15.89 14.54 11.00 16.66 17.64 13.38 16.15
##  [97] 15.60 14.78 15.34 14.23 12.27 16.72 18.36 18.03 17.78 16.48 13.67  9.00
## [109] 12.36 15.49 14.56 17.17 18.11 17.32 14.53 16.02 14.40 14.83 16.80 16.10
## [121] 13.48 15.05 10.00 16.44 13.28 14.36 13.80 14.43 15.52 17.85 11.98 13.23
unique(DDL$t_estudio)
##  [1]  5.5 12.0  9.5  4.5  4.0  5.0 20.0  8.0  5.4 10.0  2.0 18.0 30.0 36.0  1.0
## [16]  7.0  3.0 28.0  8.5  6.0  3.5 15.0 50.0 14.0 12.8  2.5  6.5  4.7  0.5 38.0
## [31] 40.0 25.0 10.5 11.0 52.0 21.0 24.0  5.2  5.3 26.0 35.0  4.6 17.0 32.0
unique(DDL$desayuno)
## [1] 7 5 6 3 4 2 1
unique(DDL$desayuno_intervalo)
## [1] "9:00 - 9:30 am"  "9:30 - 10:00 am" "6:00 - 6:30 am"  "8:00 - 8:30 am" 
## [5] "8:30 - 9:00 am"  "7:00 - 7:30 am"  "6:30 - 7:00 am"  "7:30 - 8:00 am" 
## [9] "5:30 - 6:00 am"
unique(DDL$almuerzo)
## [1] 7 5 1 6 4 2 3
unique(DDL$almuerzo_intervalo)
## [1] "14:30 - 15:00 pm" "15:00 - 15:30 pm" "14:00 - 14:30 pm" "13:30 - 14:00 pm"
## [5] "13:00 - 13:30 pm" "12:30 - 13:00 pm" "15:30 - 16:00 pm" "12:00 - 12:30 pm"
## [9] "16:00 - 16:30 pm"
unique(DDL$cena)
## [1] 6 7 5 3 4 1 2
unique(DDL$cena_intervalo)
## [1] "20:00 - 20:30 pm" "21:00 - 21:30 pm" "20:30 - 21:00 pm" "22:00 - 22:30 pm"
## [5] "21:30 - 22:00 pm" "18:30 - 19:00 pm" "19:00 - 19:30 pm" "19:30 - 20:00 pm"
## [9] "18:00 - 18:30 pm"
unique(DDL$cambio_rango)
## [1] 4 3 1 2 5
unique(DDL$dolores)
## [1] 2 1 5 3 4
unique(DDL$habitos_alimenticios)
## [1] 4 3 5 1 2
unique(DDL$comida_rapida)
## [1] "SI" "NO"
unique(DDL$deporte)
## [1] 3 4 2 1 5
unique(DDL$vegano)
## [1] "NO" "SI"
unique(DDL$sobrepeso)
## [1] "NO" "SI"
unique(DDL$dieta)
## [1] 4 3 2 1 5
# CON ESTO CORROBORAMOS QUE POR CADA VARIABLE SOLO HAY UNA FORMA DE ESCRITURA
Segunda verificación de variables
#edad
table(DDL$edad)
## 
## 18 19 20 21 22 23 25 27 
## 85 56 37 16 14  5  1  1
DDL %>% group_by(edad) %>% summarise(n=n())
#estatura
table(DDL$estatura)
## 
## 148 150 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 
##   2   6   3   2   3   2   6   5   8   2  14   3   5   9   2  20   2   6   7   5 
## 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 
##  23   7  14   6   5  13   5   3   7   2   4   1   1   2   1   6   1   2
DDL %>% group_by(estatura) %>% summarise(n=n())
table(DDL$genero)
## 
## Hombre  Mujer 
##    144     71
DDL %>% group_by(genero) %>% summarise(n=n())
table(DDL$peso)
## 
##  40.32   43.2     44     45     46     48     49   49.5   49.7     50   50.8 
##      1      1      2      1      1      1      3      1      1      5      1 
##     52  52.45     53  53.98     54  54.12     55   55.2   55.6     56  56.23 
##      1      2      5      1      2      1      7      1      1     11      1 
##   56.4   56.5     57   57.5   57.7   57.9     58   58.2   58.7     59   59.6 
##      1      1      3      1      1      1      4      1      1      3      1 
##   59.7     60  60.03  60.04   60.1   60.2  60.45   60.5     61   61.3   61.5 
##      1     13      1      1      1      1      1      2      4      1      1 
##     62     63     64   64.5   64.7     65  65.34  65.44  65.92     66   66.2 
##      3      3      4      1      1      8      1      1      1      1      1 
##   66.5     67   67.5   67.7  67.89     68     69     70   70.2  70.25   70.3 
##      2      2      2      1      1      5      5     11      1      1      1 
##  70.36   70.4     71   71.7     72   72.2     73  73.15   73.2  73.54     74 
##      1      1      1      1      1      1      2      1      1      1      3 
##   74.1   74.2     75  75.35     76   76.5     78   78.5     79  79.15   79.5 
##      1      1      4      1      1      1      4      2      1      1      1 
##     80   80.2     82   82.5  83.51   84.6     85   85.5   86.4     87     89 
##      9      1      1      1      1      1      2      1      1      3      1 
##     90   90.5   94.4     95     97 100.23 
##      3      1      1      1      1      1
DDL %>% group_by(peso) %>% summarise(n=n())
table(DDL$polo)
## 
##  L  M  S XL XS 
## 42 99 60 11  3
DDL %>% group_by(polo) %>% summarise(n=n())
table(DDL$carrera)
## 
## Administración y Negocios Digitales                        Bioingenieria 
##                                    9                                   22 
##                     Ciencia de Datos          Ciencias de la Computación 
##                                    1                                   23 
##                    Ingeniería Civil                 Ingeniería Química 
##                                   43                                   15 
##                 Ingenieria Ambiental            Ingenieria de la Energía 
##                                    5                                    9 
##              Ingenieria Electrónica                Ingenieria Industrial 
##                                    7                                   32 
##                 Ingenieria Mecánica               Ingenieria Mecatronica 
##                                   13                                   36
DDL %>% group_by(carrera) %>% summarise(n=n())
table(DDL$ciclo)
## 
##  2  3  4  5  6 
## 43 82 26 30 34
DDL %>% group_by(ciclo) %>% summarise(n=n())
table(DDL$cursos)
## 
##  1  2  3  4  5  6  7  8  9 10 
##  1  2  6 25 66 73 30 10  1  1
DDL %>% group_by(cursos) %>% summarise(n=n())
table(DDL$promedio)
## 
##     0     9    10 10.97    11 11.23 11.29  11.3  11.5 11.98    12 12.27 12.34 
##     4     1     1     1     2     1     1     1     1     1     2     2     1 
## 12.36  12.5 12.67 12.74 12.91    13 13.02 13.05  13.2 13.23 13.28  13.3 13.38 
##     1     1     1     1     1    10     3     1     1     1     1     1     1 
##  13.4 13.43 13.45 13.48 13.49  13.5 13.52 13.63 13.67 13.69  13.8 13.94    14 
##     2     1     5     1     1     2     1     1     1     1     1     1    17 
## 14.02 14.06 14.11 14.14 14.16  14.2 14.23  14.3 14.32 14.36  14.4 14.43 14.48 
##     1     1     1     1     1     2     1     2     2     1     1     1     2 
##  14.5 14.53 14.54 14.56 14.58 14.61 14.66  14.7 14.78  14.8 14.83    15 15.02 
##     6     1     1     1     1     1     1     2     3     1     2    10     1 
## 15.04 15.05 15.14 15.18 15.23 15.28  15.3 15.34 15.35 15.36 15.37 15.49  15.5 
##     1     1     1     1     1     1     2     1     2     1     1     1     5 
## 15.51 15.52 15.56 15.57  15.6 15.62 15.68 15.89 15.95 15.96    16 16.01 16.02 
##     1     1     1     1     2     1     1     1     2     1     5     2     1 
##  16.1 16.15  16.2 16.38  16.4 16.44 16.45 16.48 16.55 16.66 16.69 16.72 16.75 
##     1     1     3     1     2     1     2     1     1     1     1     1     1 
## 16.78 16.79  16.8 16.84 16.88 16.89  16.9 16.91 16.97    17  17.1 17.15 17.17 
##     1     1     1     1     2     1     1     1     1     4     1     1     1 
## 17.21 17.24 17.32  17.4 17.55 17.58 17.64 17.78 17.85 18.03 18.11 18.34 18.36 
##     1     1     1     1     2     1     1     1     1     1     1     1     1 
##  18.4 19.55 
##     1     1
DDL %>% group_by(promedio) %>% summarise(n=n())
table(DDL$t_estudio)
## 
##  0.5    1    2  2.5    3  3.5    4  4.5  4.6  4.7    5  5.2  5.3  5.4  5.5    6 
##    1    2   11    1   11    6   37    1    1    1   21    1    1    1    1   20 
##  6.5    7    8  8.5  9.5   10 10.5   11   12 12.8   14   15   17   18   20   21 
##    2    9   14    1    1   14    1    1    6    1    2    6    3    3   10    2 
##   24   25   26   28   30   32   35   36   38   40   50   52 
##    1    1    1    1    7    1    2    2    2    2    1    1
DDL %>% group_by(t_estudio) %>% summarise(n=n())
table(DDL$desayuno)
## 
##   1   2   3   4   5   6   7 
##   5   5  10  15  20  24 136
DDL %>% group_by(desayuno) %>% summarise(n=n())
table(DDL$desayuno_intervalo)
## 
##  5:30 - 6:00 am  6:00 - 6:30 am  6:30 - 7:00 am  7:00 - 7:30 am  7:30 - 8:00 am 
##               1               6               8              35              25 
##  8:00 - 8:30 am  8:30 - 9:00 am  9:00 - 9:30 am 9:30 - 10:00 am 
##              45              30              27              38
DDL %>% group_by(desayuno_intervalo) %>% summarise(n=n())
table(DDL$almuerzo)
## 
##   1   2   3   4   5   6   7 
##   4   1   2   1   7  13 187
DDL %>% group_by(almuerzo) %>% summarise(n=n())
table(DDL$almuerzo_intervalo)
## 
## 12:00 - 12:30 pm 12:30 - 13:00 pm 13:00 - 13:30 pm 13:30 - 14:00 pm 
##                7               14               45               65 
## 14:00 - 14:30 pm 14:30 - 15:00 pm 15:00 - 15:30 pm 15:30 - 16:00 pm 
##               35               29               12                3 
## 16:00 - 16:30 pm 
##                5
DDL %>% group_by(almuerzo_intervalo) %>% summarise(n=n())
table(DDL$cena)
## 
##   1   2   3   4   5   6   7 
##   6   5   6  12  35  25 126
DDL %>% group_by(cena) %>% summarise(n=n())
table(DDL$cambio_rango)
## 
##  1  2  3  4  5 
## 33 46 75 49 12
DDL %>% group_by(cambio_rango) %>% summarise(n=n())
table(DDL$habitos_alimenticios)
## 
##  1  2  3  4  5 
## 15 29 68 66 37
DDL %>% group_by(habitos_alimenticios) %>% summarise(n=n())
table(DDL$vegano)
## 
##  NO  SI 
## 204  11
DDL %>% group_by(vegano) %>% summarise(n=n())
table(DDL$sobrepeso)
## 
##  NO  SI 
## 160  55
DDL %>% group_by(sobrepeso) %>% summarise(n=n())
#CON ESTO COMPROBAMOS QUE PARA CADA VALOR DE UNA VARIABLE NO HAY UNA FORMA DE ESCRITURA DISTINTA
Convertiendo la estatura de cm a metros
DDL$estatura<-(DDL$estatura)/100
Eliminando dato atípico en promedio
DDL <-filter(DDL,edad>=18 & peso>=40 & estatura>=1.40 & estatura<=2.50 & t_estudio>=0 & promedio>0)

Análisis descriptivo

Cada variable relevante debe tener una descripción con descriptores numéricos o gráficos aprendidos en clase. La idea es describir la variable de manera relevante, ofreciendo detalles que permitan entender su estructura y los patrones que puedan tener. Es fundamental recordar que las variables podrían podrían obtener diferentes descriptores. En el caso de utilizar descriptores gráficos, se debe prestar especial atención a todos los detalles, desde la relevancia de la gráfica para el tipo de variable hasta selección de escala, ejes, unidades, leyenda, título descriptivo y manejo apropiado del color. El resultado final debe ser una gráfica descriptiva que transmita efectivamente la información y patrones relevantes observables en la muestra de la variable. Presentar las figuras de mérito (descriptores apropiados para cada variable o combinación de variables) que describen de la mejor manera posible los datos obtenidos.

Objetivo 1

Determinar el IMC según el peso de los estudiantes del segundo al sexto ciclo de UTEC. Mayo, 2022.

library(dplyr)
DDL$IMC <- round((DDL$peso)/(DDL$estatura**2),2)
select(DDL,estatura,peso,IMC)
Histograma del IMC
max(DDL$IMC)
## [1] 31.67
min(DDL$IMC)
## [1] 14.81
hist(DDL$IMC,breaks =seq(12,32,by=4),ylab = "frecuencia",xlab="indice de masa corporal",adj=0.5,main = "histograma indice de masa corporal ")

Objetivo 2

Identificar a los alumnos por género con sobrepeso y obesidad del segundo al sexto ciclo de UTEC. Mayo, 2022.

Re-codificando la variable IMC según la tabla de la OMS que se encuentra en la siguiente imagen

Tabla de Organización Mundial de la Salud

DDL$IMC2 <-car::recode(DDL$IMC,"0:18.49='peso bajo';18.5:24.99='peso normal';25:29.99='sobrepeso';30:40='obesidad'")
dato_sobrepeso<-filter(DDL,IMC2=="sobrepeso" | IMC2 =="obesidad")
table(dato_sobrepeso$genero,dato_sobrepeso$IMC2)
##         
##          obesidad sobrepeso
##   Hombre        3        37
##   Mujer         0        13
genero <-c(rep("Hombre",2),rep("Mujer",2))
peso<-rep(c("obesidad","sobrepeso"),2)
fr<-c(3,37,0,13)
dat<-data.frame(genero,peso,fr)
library(ggplot2)
ggplot(dat,aes(x=genero, y=fr, fill=peso))+ geom_bar(position = "dodge", stat = "identity")+ theme_minimal() + labs(title = "Cantidad de alumnos con sobrepeso y obesidad") + ylab("cantidad alumnos")+xlab("genero") + geom_text(aes(label=fr))

Objetivo 3

Identificar el género predominante según las categorías del IMC de los estudiantes del segundo al sexto ciclo de UTEC. Mayo, 2022.

Re-codificando la variable IMC
DDL$IMC2 <-car::recode(DDL$IMC,"0:18.49='peso bajo';18.5:24.99='peso normal';25:29.99='sobrepeso';30:40='obesidad'")
Tabla cruzada de contingencia de genero y IMC2
table(DDL$genero,DDL$IMC2)
##         
##          obesidad peso bajo peso normal sobrepeso
##   Hombre        3         7          96        37
##   Mujer         0         2          53        13
Crearemos una dataframe a apartir de la tabla anterior
genero <- c(rep("Hombre",4),rep("Mujer",4))
imc<-rep(c("obesidad","peso bajo","peso normal","sobrepeso"),2) 
frecuencia <- c(3,7,96,37,0,2,53,13)
dato1<- data.frame(genero,imc,frecuencia)
dato1
Realizando grafica de barras a partir del dataframe dato1
library(ggplot2)
ggplot(dato1,aes(x=imc, y=frecuencia, fill=genero))+ geom_bar(position = "dodge", stat = "identity")+ theme_minimal() + labs(title = "Cantidad de alumnos por IMC") + ylab("cantidad alumnos")+xlab("Indice de Masa Corporal") + geom_text(aes(label=frecuencia))

Cuarto objetivo

Determinar la correlación entre el promedio de los alumnos con IMC del segundo al sexto ciclo de UTEC. Mayo, 2022.

Calculamos las covarianza y la correlación
cov(DDL$IMC,DDL$promedio)
## [1] -0.1429653
cor(DDL$IMC,DDL$promedio)
## [1] -0.02695995
La correlación entre el promedio de notas de los alumnos y el Indice de Masa Corporal es -0.026, esto nos dice que no habria una relacion entre estas variables
plot(DDL$IMC,DDL$promedio,ylab="Nota promedio de cada alumno",xlab="Indice de masa corporal",main = "Diagram de dispersion nota-Imc")

library(ggplot2)
ggplot(DDL,aes(IMC,promedio,colour=IMC2))+geom_point()+labs(title = "Gráfica de dispersión a colores")

Quinto objetivo

Comparar si las opiniones acerca de la obesidad de los alumnos es acorde a la realidad según los resultados obtenidos. Mayo 2022.

library(dplyr)
dato_sobrepeso2<-filter(DDL,IMC2=="sobrepeso" | IMC2 =="obesidad")%>%select(genero,sobrepeso,IMC2)
dato_sobrepeso2
table(dato_sobrepeso2$sobrepeso,dato_sobrepeso2$IMC2)
##     
##      obesidad sobrepeso
##   NO        0        12
##   SI        3        38
respuesta<-c(rep("NO",2),rep("SI",2))
peso22<-rep(c("obesidad","sobrepeso"),2)
f <- c(0,12,3,38)
dta <- data.frame(respuesta,peso22,f)
library(ggplot2)
ggplot(dta,aes(x=peso22, y=f, fill=respuesta))+ geom_bar(position = "dodge", stat = "identity")+ theme_minimal() + xlab("Resultados de IMC") + ylab("Número de alumnos") + geom_text(aes(label = f)) + labs(title = "Realidad vs. Respuestas de los alumnos")