library("readr")
PROYECTO_ESTADISTICA_Y_PROBABILIDADES <- read_csv("INTEGRANTES.csv")
## Rows: 5 Columns: 2
## -- Column specification --------------------------------------------------------
## Delimiter: ","
## chr (2): Integrantes, Correo
##
## i Use `spec()` to retrieve the full column specification for this data.
## i Specify the column types or set `show_col_types = FALSE` to quiet this message.
PROYECTO_ESTADISTICA_Y_PROBABILIDADES
Estimación de la cantidad de estudiantes de 2do a 6to ciclo en UTEC (Lima-Barranco) que presentan sobrepeso y su influencia en su rendimiento académico. Mayo, 2022.
La pandemia ha generado graves efectos en diferentes ámbitos de nuestra vida, sobre todo en la salud. A raíz de la cuarentena, las instituciones académicas optaron por una modalidad virtual en donde los alumnos se conectaban mediante dispositivos electrónicos desde sus casas asistiendo a sus clases online. Este nuevo estilo de vida generó sedentarismo y una mala alimentación causando una enfermedad compleja que en los últimos años ha incrementado, nos referimos a la obesidad. Esta no solo indica un número en la balanza, sino que causa problemas respiratorios, diabetes, sueño, entre otros que son perjudiciales para el desempeño académico. Es por ello, que creemos crucial conocer este tipo de información para determinar si la obesidad afecta el rendimiento académico en los estudiantes de UTEC y la cantidad de estudiantes que padecen de esta enfermedad compleja.
Según la problemática de nuestro tema a investigar hemos planteado los siguientes objetivos:
Determinar el IMC según el peso de los estudiantes del segundo al sexto ciclo de UTEC. Mayo, 2022.
Identificar a los alumnos por género con sobrepeso del segundo al sexto ciclo de UTEC. Mayo, 2022.
Identificar el género predominante según las categorías del IMC de los estudiantes del segundo al sexto ciclo de UTEC. Mayo, 2022
Determinar la correlación entre el promedio de los alumnos con sobrepeso del segundo al sexto ciclo de UTEC. Mayo, 2022.
Comparar si las opiniones acerca de la obesidad de los alumnos es acorde a la realidad según los resultados obtenidos. Mayo, 2022.
¿Cuáles son los principales factores que influyen del sobrepeso hacia el rendimiento académico de los estudiantes de 2do a 6to ciclo de UTEC?
Los principales factores que influyen en el sobrepeso u obesidad son causados por los efectos del sedentarismo. Ejemplos claros de estos efectos son: la falta de una vida saludable, los desarreglos en las comidas al día, ingesta desproporcionada de “fast food” que no solo daña la salud de nuestro organismo sino que también puede perjudicar la autoestima y el rendimiento académico de los estudiantes. Este último es reflejado en las notas obtenidas de los alumnos indicando una relación entre su rendimiento académico con los estragos de esta enfermedad compleja.Mayo, 2022.
Se obtendrán los datos a través de la encuesta para poder obtener los datos personales, la encuesta se realizará a 220 estudiantes de UTEC DE 2do a 6to ciclo de manera aleatoria con un formato virtual (google form) que se enviará al correo u otras plataformas favoritas.
Zuniga Jara, S., Pizarro Díaz, R., Escudero López, M., & Honores Marín, G. (2018, abril). Rendimiento Académico Universitario y Conductas Alimentarias. SciELO - Scientific electronic library online. Recuperado 3 de mayo de 2022, de https://www.scielo.cl/scielo.php?script=sci_arttext&pid=S0718-50062018000200057
De Hernán Herrera, V. (2016). Efecto de la obesidad en el rendimiento académico,[grado de magíster de economía]. Universidad de Chile. https://repositorio.uchile.cl/bitstream/handle/2250/143992/Herrera%20Velásquez%20Hernán.pdf?sequence=1&isAllowed=y
De Elizabeth Espinoza, H. (2017). Estado nutricional y rendimiento académico de los estudiantes de obstetricia de la Universidad Nacional de Huancavelica,[tesis para título profesional de obstetra]. Universidad Nacional de Huancavelica. https://repositorio.unh.edu.pe/bitstream/handle/UNH/1362/TP%20-%20UNH%20OBST.%200043.pdf?sequence=1&isAllowed=y
data <- data.frame(Nombres = c('Evelyn Catalina Zavala Cuya', 'Yerson Andre Ramos Padin','Katherin Yohana Villanueva Campos','Andrés López Vega','Franco Nilson Carrasco Martinez'),
Inicio = c(17, 24, 26, 1 , 3), Mes.inicio = c("Abril","Abril", "Abril", "Mayo", "Mayo"),
Fin = c(24, 25, 1, 3,4), Mes.fin = c("Abril","Abril", "Mayo", "Mayo", "Mayo"),
Trabajo = c('Plantilla de entrevista', 'Revisión y creación de entrevista', 'Recolección de datos', 'Limpieza de datos', 'Descripción'))
data
Enlace a cuestionario
Cuestionario - El sobrepeso y su relación con el desempeño académico
En primer lugar se realizará una plantilla para la encuesta considerando la mejor forma de medición de las variables; es decir, buscar las respuestas posibles para poder plasmarla en la encuesta como alternativas y así facilitar la limpieza de datos.
En segundo lugar, terminada la plantilla se realizará una reevaluación y será creada en el formato google encuestas agregando imágenes y una breve descripción, ya que debido a la coyuntura de la pandemia este método es la mejor vía de comunicación a distancia permitiéndonos evitar el trabajo presencial de encuestar persona por persona.
Luego, la encuesta será enviada por los correos electrónicos de los estudiantes de 2do a 6to ciclo, para ello se busca los cursos que generalmente corresponden a los alumnos de 2do a 6to ciclo habitualmente, y al acceder a la lista de participantes que cursan estas materias se les puede incitar a completar y difundir la encuesta. Por otro lado, en las salas zoom de las mentorías de dichos cursos se difundirá el enlace como mensaje en el chat, también se publicará en las vías de difusión de las redes sociales (estados de WhatsApp, stories en Instagram).
Para la población de estudio tomamos en cuenta a los estudiantes de UTEC que estén cursando de segundo a sexto ciclo; en el cuál, un estudiante de UTEC representa a la unidad muestral al cumplir con los requisitos mencionados previamente. El tamaño de la muestra para nuestro estudio es de 200 observaciones como mínimo, la representatividad se demuestra en base a la cantidad información que obtuvimos, realizada a través de una encuesta respondida voluntariamente por los estudiantes de segundo a sexto ciclo de UTEC, el cual nos indica que nuestro muestreo es probabilístico y usamos un muestreo aleatorio simple (MAS).
variables <- data.frame(variables = c('Edad','Genero','Peso','Estatura','Ciclo','Promedio', 'Tiempo de estudio', 'Desayunos a la semana', 'Hora de desayuno', 'Almuerzos a la semana', 'Hora de almuerzo', 'Cantidad de veces que cena a la semana','Hora de cena', 'Comida Rápida', 'Vegano','Sobrepeso','Carrera que estudia','Cantidad de cursos','Cambio horas', 'Dolores','Hábitos alimenticios', 'Deporte', 'Dieta'),
tipo = c('Cuantitativa (Discreta)','Cualitativa (Nominal)','Cuantitativa (Continua)','Cuantitativa (Continua)','Cuantitativa (Ordinal)','Cuantitativa (Continua)','Cuantitativa (Continua)','Cuantitativa (Discreta)','Cualitativa (Nominal)','Cuantitativa (Discreta)','Cualitativa (Nominal)','Cuantitativa (Discreta)','Cualitativa (Nominal)','Cualitativa (Nominal)','Cualitativa (Nominal)','Cualitativa (Nominal)','Cualitativa (Nominal)','Cuantitativa (Continua)','Cuantitativa (Continua)','Cuantitativa (Continua)','Cuantitativa (Continua)','Cuantitativa (discreta)','Cuantitativa (Continua)'),
Restricciones=c('tiene que ser un entero no negativo','solo puede escoger una opción de las dos disponibles','tiene que ser un entero no negativo mayor a 40','tiene que ser un entero no negativo mayor 140 cm','tiene que ser un entero no negativo mayor que 1 y menor que 7','tiene que ser un entero no negativo menor que 20','tiene que ser un entero no negativo','tiene que ser un entero no negativo menor o igual que 7','tiene que ser un rango de tiempo menor a las 11:00 am','tiene que ser un entero no negativo menor o igual que 7','tiene que ser un rango de tiempo menor a las 4:00 pm','tiene que ser un entero no negativo menor o igual que 7','tiene que ser un rango de tiempo menor a las 11:00 pm','solo puede escoger una opción de las dos disponibles','solo puede escoger una opción de las dos disponibles','solo puede escoger una opción de las dos disponibles','tiene que ser una carrera disponible en la universidad','tiene que ser un entero no negativo','tiene que ser un entero no negativo que represente una escala de menor a mayor','tiene que ser un entero no negativo que represente una escala de menor a mayor','tiene que ser un entero no negativo que represente una escala de menor a mayor','tiene que ser un entero no negativo que represente una escala de menor a mayor','tiene que ser un entero no negativo que represente una escala de menor a mayor'))
variables
Al llegar a las 215 observaciones, el primer paso a realizar fue la descarga de los datos en formato .csv desde Excel. Luego, creamos un nuevo proyecto donde realizaremos el trabajo con los archivos correspondientes; de esta manera, podremos colocar el archivo descargado en la misma carpeta para utilizar de manera adecuada el RStudio.
Antes de realizar el análisis de datos, instalamos la librería “readr”, para poder leer el archivo “encuesta_p1.csv”, y así poder tener mejor organización de la información. Luego, usamos la función “str” que nos permite visualizar como el RStudio lee los tipos de variable para examinar si lo que nos retorna el R es correcto, y así poder empezar con la limpieza de datos.
Para empezar con nuestra limpieza de datos, eliminamos las variables que no fueron factores determinantes en nuestro estudio y se crearon por defecto en la plataforma de la encuesta Google Forms. Estas son: correo electrónico y marca temporal.En un siguiente plano de la limpieza de datos, usamos la función “is.na()”, para saber si hay datos faltantes; del mismo modo, aplicamos la función “!complete.cases()” que nos indica si hay casos faltantes. En nuestro caso no tuvimos ni datos ni casos faltantes; asi que, procedimos con la limpieza, descargamos la librería “dplyr”, para poder usar funciones como “names()”, que nos retornaba como estaban escritas las variables. Observamos que los nombres de las variables eran muy largos, generando sobre carga de trabajo al momento de extraer información a partir de ellos;es por ello que, utilizamos la función “rename()” encargada de renombrar las variables a nombres más cortos con el fin de un eficiente manejo de la información.
Todo este procedimiento lo hicimos en “DD” que almacena los datos del archivo .csv. Luego, redirigimos la información a “DDL”, pero con la diferencia de las dos variables innecesarias de “DD”. A continuación, los valores de las distintas variables deben de ser limpiados, para esto usamos la función “unique()” que nos permite conocer todas las formas posibles de escritura de determinadas variables. Hicimos este procedimiento con todas las variables y observamos que para cada variable, los valores tenían una sola forma de escritura; sin embargo, al corroborar esto usamos otra función, la cual es “table()” en conjunto con las funciones “group_by()” y “summarise(n=n())”, que como resultado nos devuelve una tabla que contiene los valores de la variable escogida y la frecuencia que representan, corroborando que no hay un valor por forma de escritura repetido.
Finalmente, para verificar que no haya datos incoherentes usamos la función “filter()” donde indicamos que solo nos retornen los casos completos de los valores que cumplan con las condiciones apropiadas. Por ejemplo: la variable edad debe representar a estudiantes mayores o igual a 18 años; del mismo modo, las variables horas de estudio mayor a 0, ya que no puede existir un número negativo, estatura mayor igual a 140 cm y menor igual a 250 cm; por último, el peso mayor a igual de 40 kg.
library(readr)
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(car)
## Loading required package: carData
##
## Attaching package: 'car'
## The following object is masked from 'package:dplyr':
##
## recode
library(ggplot2)
DD<-read.csv("encuesta_p1.csv",header=T,sep=',')
str(DD)
## 'data.frame': 215 obs. of 26 variables:
## $ Marca.temporal : chr "26/04/2022 23:26:12" "27/04/2022 14:05:41" "27/04/2022 14:11:03" "27/04/2022 14:55:23" ...
## $ Dirección.de.correo.electrónico : chr "" "sergio.porras@utec.edu.pe" "naomi.moreno@utec.edu.pe" "nicolas.llerena@utec.edu.pe" ...
## $ Edad..aÃ.os.cumplidos. : int 19 19 18 18 19 22 21 20 20 18 ...
## $ Genero : chr "Mujer" "Hombre" "Mujer" "Hombre" ...
## $ Peso..Kg...usar.decimales...Ej..76.42..solo.cifra.numerica. : num 60.5 53 57.9 57.5 59 70 61.3 80 85 80 ...
## $ Talla..cm..Ej..175..solo.cifra.numÃ.rica. : int 167 173 153 165 162 170 161 170 170 178 ...
## $ Talla.de.polo : chr "S" "L" "M" "S" ...
## $ Carrera.que.estudia : chr "Bioingenieria" "Ingenieria Mecatronica" "Ingenieria Mecatronica" "Ingenieria Electrónica" ...
## $ NroÂ..de.Ciclo : int 3 3 3 3 2 2 3 3 4 3 ...
## $ Cantidad..de.cursos.que.lleva.actualmente : int 5 5 6 5 6 7 5 5 7 5 ...
## $ Ingrese.su.promedio.ponderado.exacto.de.la.carrera..actual..Ej..15.28. : num 15.5 16 16.9 12.9 17.2 ...
## $ Cantidad.de.tiempo.que.estudia.en.la.semana.fuera.de.la.Universidad..En.horas....Ej..3.5 : num 5.5 12 9.5 4.5 4 5 4 4 20 8 ...
## $ Â.Con.que.frecuencia.desayuna..a.la.semana...Solo.respuesta.numÃ.rica.del.1.al.7. : int 7 7 5 5 7 5 6 3 7 7 ...
## $ Â.En.que.rango.de.horas.suele.desayunar...Ej..8.00...8.30..am. : chr "9:00 - 9:30 am" "9:30 - 10:00 am" "9:30 - 10:00 am" "6:00 - 6:30 am" ...
## $ Â.Con.que.frecuencia.almuerza..a.la.semana...Solo.respuesta.numÃ.rica.del.1.al.7. : int 7 7 7 5 7 7 7 1 7 7 ...
## $ Â.En.que.rango.de.horas.suele.almorzar...Ej..13.30.14.00.pm.. : chr "14:30 - 15:00 pm" "15:00 - 15:30 pm" "14:00 - 14:30 pm" "13:30 - 14:00 pm" ...
## $ Â.Con.que.frecuencia.cena..a.la.semana...Solo.respuesta.numÃ.rica.del.1.al.7. : int 6 7 5 3 7 5 5 5 7 7 ...
## $ Â.En.que.rango.de.horas.suele.cenar...Ej..19.30...20.00.pm. : chr "20:00 - 20:30 pm" "21:00 - 21:30 pm" "20:30 - 21:00 pm" "20:30 - 21:00 pm" ...
## $ Â.quÃ..tan.seguido.cambias.tu.rango.de.horas.de.almuerzo..desayuno.y.o.cena.a.la.semana. : int 4 3 3 3 3 4 1 3 3 2 ...
## $ Â.QuÃ..tan.seguido.sufres.de.dolores.en.el.estómago..molestias..gastritis.o.dolor.de.cabeza.: int 2 1 2 2 2 5 2 2 3 1 ...
## $ Â.Del.1.al.5..QuÃ..tanto.crees.que.influyen.tus.hÃ.bitos.alimenticios.en.tus.calificaciones. : int 4 4 3 4 5 4 5 3 3 1 ...
## $ Â.Suele.comer.comida.rapida. : chr "SI" "NO" "NO" "SI" ...
## $ Â.Del.1.al.5.que.tan.seguido.practicas.algún.deporte.o.haces.ejercicios. : int 3 4 2 3 1 1 1 5 3 3 ...
## $ Â.Es.vegano. : chr "NO" "NO" "NO" "NO" ...
## $ Â.Tienes.Sobrepeso. : chr "NO" "NO" "SI" "NO" ...
## $ Â.Del.1.al.5.quÃ..tan.saludable.crees.que.es.tu.dieta. : int 4 4 4 3 2 2 3 4 3 1 ...
#datos faltantes?
sum(is.na(DD))
## [1] 0
sum(!is.na(DD))
## [1] 5590
#casos completos?
sum(complete.cases(DD))
## [1] 215
sum(!complete.cases(DD))
## [1] 0
names(DD)
## [1] "Marca.temporal"
## [2] "Dirección.de.correo.electrónico"
## [3] "Edad..aÃ.os.cumplidos."
## [4] "Genero"
## [5] "Peso..Kg...usar.decimales...Ej..76.42..solo.cifra.numerica."
## [6] "Talla..cm..Ej..175..solo.cifra.numÃ.rica."
## [7] "Talla.de.polo"
## [8] "Carrera.que.estudia"
## [9] "NroÂ..de.Ciclo"
## [10] "Cantidad..de.cursos.que.lleva.actualmente"
## [11] "Ingrese.su.promedio.ponderado.exacto.de.la.carrera..actual..Ej..15.28."
## [12] "Cantidad.de.tiempo.que.estudia.en.la.semana.fuera.de.la.Universidad..En.horas....Ej..3.5"
## [13] "Â.Con.que.frecuencia.desayuna..a.la.semana...Solo.respuesta.numÃ.rica.del.1.al.7."
## [14] "Â.En.que.rango.de.horas.suele.desayunar...Ej..8.00...8.30..am."
## [15] "Â.Con.que.frecuencia.almuerza..a.la.semana...Solo.respuesta.numÃ.rica.del.1.al.7."
## [16] "Â.En.que.rango.de.horas.suele.almorzar...Ej..13.30.14.00.pm.."
## [17] "Â.Con.que.frecuencia.cena..a.la.semana...Solo.respuesta.numÃ.rica.del.1.al.7."
## [18] "Â.En.que.rango.de.horas.suele.cenar...Ej..19.30...20.00.pm."
## [19] "Â.quÃ..tan.seguido.cambias.tu.rango.de.horas.de.almuerzo..desayuno.y.o.cena.a.la.semana."
## [20] "Â.QuÃ..tan.seguido.sufres.de.dolores.en.el.estómago..molestias..gastritis.o.dolor.de.cabeza."
## [21] "Â.Del.1.al.5..QuÃ..tanto.crees.que.influyen.tus.hÃ.bitos.alimenticios.en.tus.calificaciones."
## [22] "Â.Suele.comer.comida.rapida."
## [23] "Â.Del.1.al.5.que.tan.seguido.practicas.algún.deporte.o.haces.ejercicios."
## [24] "Â.Es.vegano."
## [25] "Â.Tienes.Sobrepeso."
## [26] "Â.Del.1.al.5.quÃ..tan.saludable.crees.que.es.tu.dieta."
DD<- rename(DD, tiempo= 'Marca.temporal',correo= 'Dirección.de.correo.electrónico',edad='Edad..aÃ.os.cumplidos.',genero= 'Genero',peso='Peso..Kg...usar.decimales...Ej..76.42..solo.cifra.numerica.',estatura='Talla..cm..Ej..175..solo.cifra.numÃ.rica.',polo='Talla.de.polo',carrera='Carrera.que.estudia',ciclo='NroÂ..de.Ciclo',cursos='Cantidad..de.cursos.que.lleva.actualmente',promedio='Ingrese.su.promedio.ponderado.exacto.de.la.carrera..actual..Ej..15.28.',t_estudio='Cantidad.de.tiempo.que.estudia.en.la.semana.fuera.de.la.Universidad..En.horas....Ej..3.5',desayuno='Â.Con.que.frecuencia.desayuna..a.la.semana...Solo.respuesta.numÃ.rica.del.1.al.7.',desayuno_intervalo='Â.En.que.rango.de.horas.suele.desayunar...Ej..8.00...8.30..am.',almuerzo='Â.Con.que.frecuencia.almuerza..a.la.semana...Solo.respuesta.numÃ.rica.del.1.al.7.',almuerzo_intervalo='Â.En.que.rango.de.horas.suele.almorzar...Ej..13.30.14.00.pm..',cena='Â.Con.que.frecuencia.cena..a.la.semana...Solo.respuesta.numÃ.rica.del.1.al.7.',cena_intervalo='Â.En.que.rango.de.horas.suele.cenar...Ej..19.30...20.00.pm.',cambio_rango='Â.quÃ..tan.seguido.cambias.tu.rango.de.horas.de.almuerzo..desayuno.y.o.cena.a.la.semana.',dolores='Â.QuÃ..tan.seguido.sufres.de.dolores.en.el.estómago..molestias..gastritis.o.dolor.de.cabeza.',habitos_alimenticios='Â.Del.1.al.5..QuÃ..tanto.crees.que.influyen.tus.hÃ.bitos.alimenticios.en.tus.calificaciones.',comida_rapida='Â.Suele.comer.comida.rapida.',deporte='Â.Del.1.al.5.que.tan.seguido.practicas.algún.deporte.o.haces.ejercicios.',vegano='Â.Es.vegano.',sobrepeso='Â.Tienes.Sobrepeso.',dieta='Â.Del.1.al.5.quÃ..tan.saludable.crees.que.es.tu.dieta.')
names(DD)
## [1] "tiempo" "correo" "edad"
## [4] "genero" "peso" "estatura"
## [7] "polo" "carrera" "ciclo"
## [10] "cursos" "promedio" "t_estudio"
## [13] "desayuno" "desayuno_intervalo" "almuerzo"
## [16] "almuerzo_intervalo" "cena" "cena_intervalo"
## [19] "cambio_rango" "dolores" "habitos_alimenticios"
## [22] "comida_rapida" "deporte" "vegano"
## [25] "sobrepeso" "dieta"
(DDL<-DD[,3:26])# DE ESTA MANERA DESCARTAMOS LAS VARIABLES DE MARCA TEMPORAL Y CORREO QUE FUERON AGREGADAS POR EL DOCUMENTO DE FORMS POR DEFECTO
unique(DDL$edad)# Permite conocer todas las formas en las que se escribio la variable edad
## [1] 19 18 22 21 20 23 25 27
unique(DDL$genero)
## [1] "Mujer" "Hombre"
unique(DDL$peso)
## [1] 60.50 53.00 57.90 57.50 59.00 70.00 61.30 80.00 85.00 60.03
## [11] 55.00 69.00 71.00 58.00 56.00 94.40 48.00 75.00 70.25 87.00
## [21] 85.50 70.30 79.15 57.00 60.20 60.00 66.50 50.00 78.50 73.00
## [31] 63.00 61.00 44.00 64.70 75.35 49.50 52.00 70.20 86.40 78.00
## [41] 60.45 49.00 64.50 65.00 74.00 67.89 64.00 67.00 61.50 55.60
## [51] 66.20 60.04 57.70 58.70 90.00 79.50 79.00 54.00 80.20 43.20
## [61] 62.00 84.60 49.70 82.50 58.20 70.36 65.92 54.12 72.20 60.10
## [71] 73.15 65.34 65.44 74.10 59.70 56.23 95.00 82.00 52.45 50.80
## [81] 59.60 68.00 73.20 67.70 56.40 97.00 76.50 67.50 66.00 89.00
## [91] 72.00 76.00 46.00 90.50 73.54 74.20 45.00 56.50 100.23 55.20
## [101] 53.98 70.40 83.51 40.32 71.70
unique(DDL$estatura)
## [1] 167 173 153 165 162 170 161 178 169 159 168 172 157 148 185 163 176 175 186
## [20] 154 156 160 177 174 180 187 150 158 171 181 179 166 152 164 155 182 183 184
unique(DDL$polo)
## [1] "S" "L" "M" "XL" "XS"
unique(DDL$carrera)
## [1] "Bioingenieria"
## [2] "Ingenieria Mecatronica"
## [3] "Ingenieria Electrónica"
## [4] "Ingenieria Industrial"
## [5] "IngenierÃa Civil"
## [6] "Ingenieria Mecánica"
## [7] "Ciencias de la Computación"
## [8] "IngenierÃa QuÃmica"
## [9] "Ingenieria Ambiental"
## [10] "Administración y Negocios Digitales"
## [11] "Ingenieria de la EnergÃa"
## [12] "Ciencia de Datos"
unique(DDL$ciclo)
## [1] 3 2 4 5 6
unique(DDL$cursos)
## [1] 5 6 7 4 8 1 10 9 2 3
unique(DDL$promedio)
## [1] 15.50 15.96 16.89 12.91 17.24 11.30 14.32 14.00 11.50 16.88 15.00 16.55
## [13] 11.29 16.01 15.95 12.34 15.23 13.05 17.55 15.51 15.57 13.45 16.79 14.14
## [25] 15.35 13.30 15.02 16.69 16.40 13.69 16.90 13.00 13.20 17.00 10.97 14.11
## [37] 15.68 18.40 15.56 14.61 13.63 17.40 14.50 15.14 12.74 11.23 13.52 13.40
## [49] 14.20 16.20 16.00 0.00 13.02 13.50 16.91 15.28 13.94 16.45 14.80 16.38
## [61] 14.48 15.18 15.37 17.10 14.06 16.75 14.16 16.97 15.62 16.78 13.49 14.30
## [73] 14.70 19.55 17.15 15.30 14.02 14.66 14.58 18.34 12.00 17.58 12.67 12.50
## [85] 15.04 16.84 13.43 15.36 17.21 15.89 14.54 11.00 16.66 17.64 13.38 16.15
## [97] 15.60 14.78 15.34 14.23 12.27 16.72 18.36 18.03 17.78 16.48 13.67 9.00
## [109] 12.36 15.49 14.56 17.17 18.11 17.32 14.53 16.02 14.40 14.83 16.80 16.10
## [121] 13.48 15.05 10.00 16.44 13.28 14.36 13.80 14.43 15.52 17.85 11.98 13.23
unique(DDL$t_estudio)
## [1] 5.5 12.0 9.5 4.5 4.0 5.0 20.0 8.0 5.4 10.0 2.0 18.0 30.0 36.0 1.0
## [16] 7.0 3.0 28.0 8.5 6.0 3.5 15.0 50.0 14.0 12.8 2.5 6.5 4.7 0.5 38.0
## [31] 40.0 25.0 10.5 11.0 52.0 21.0 24.0 5.2 5.3 26.0 35.0 4.6 17.0 32.0
unique(DDL$desayuno)
## [1] 7 5 6 3 4 2 1
unique(DDL$desayuno_intervalo)
## [1] "9:00 - 9:30 am" "9:30 - 10:00 am" "6:00 - 6:30 am" "8:00 - 8:30 am"
## [5] "8:30 - 9:00 am" "7:00 - 7:30 am" "6:30 - 7:00 am" "7:30 - 8:00 am"
## [9] "5:30 - 6:00 am"
unique(DDL$almuerzo)
## [1] 7 5 1 6 4 2 3
unique(DDL$almuerzo_intervalo)
## [1] "14:30 - 15:00 pm" "15:00 - 15:30 pm" "14:00 - 14:30 pm" "13:30 - 14:00 pm"
## [5] "13:00 - 13:30 pm" "12:30 - 13:00 pm" "15:30 - 16:00 pm" "12:00 - 12:30 pm"
## [9] "16:00 - 16:30 pm"
unique(DDL$cena)
## [1] 6 7 5 3 4 1 2
unique(DDL$cena_intervalo)
## [1] "20:00 - 20:30 pm" "21:00 - 21:30 pm" "20:30 - 21:00 pm" "22:00 - 22:30 pm"
## [5] "21:30 - 22:00 pm" "18:30 - 19:00 pm" "19:00 - 19:30 pm" "19:30 - 20:00 pm"
## [9] "18:00 - 18:30 pm"
unique(DDL$cambio_rango)
## [1] 4 3 1 2 5
unique(DDL$dolores)
## [1] 2 1 5 3 4
unique(DDL$habitos_alimenticios)
## [1] 4 3 5 1 2
unique(DDL$comida_rapida)
## [1] "SI" "NO"
unique(DDL$deporte)
## [1] 3 4 2 1 5
unique(DDL$vegano)
## [1] "NO" "SI"
unique(DDL$sobrepeso)
## [1] "NO" "SI"
unique(DDL$dieta)
## [1] 4 3 2 1 5
# CON ESTO CORROBORAMOS QUE POR CADA VARIABLE SOLO HAY UNA FORMA DE ESCRITURA
#edad
table(DDL$edad)
##
## 18 19 20 21 22 23 25 27
## 85 56 37 16 14 5 1 1
DDL %>% group_by(edad) %>% summarise(n=n())
#estatura
table(DDL$estatura)
##
## 148 150 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169
## 2 6 3 2 3 2 6 5 8 2 14 3 5 9 2 20 2 6 7 5
## 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187
## 23 7 14 6 5 13 5 3 7 2 4 1 1 2 1 6 1 2
DDL %>% group_by(estatura) %>% summarise(n=n())
table(DDL$genero)
##
## Hombre Mujer
## 144 71
DDL %>% group_by(genero) %>% summarise(n=n())
table(DDL$peso)
##
## 40.32 43.2 44 45 46 48 49 49.5 49.7 50 50.8
## 1 1 2 1 1 1 3 1 1 5 1
## 52 52.45 53 53.98 54 54.12 55 55.2 55.6 56 56.23
## 1 2 5 1 2 1 7 1 1 11 1
## 56.4 56.5 57 57.5 57.7 57.9 58 58.2 58.7 59 59.6
## 1 1 3 1 1 1 4 1 1 3 1
## 59.7 60 60.03 60.04 60.1 60.2 60.45 60.5 61 61.3 61.5
## 1 13 1 1 1 1 1 2 4 1 1
## 62 63 64 64.5 64.7 65 65.34 65.44 65.92 66 66.2
## 3 3 4 1 1 8 1 1 1 1 1
## 66.5 67 67.5 67.7 67.89 68 69 70 70.2 70.25 70.3
## 2 2 2 1 1 5 5 11 1 1 1
## 70.36 70.4 71 71.7 72 72.2 73 73.15 73.2 73.54 74
## 1 1 1 1 1 1 2 1 1 1 3
## 74.1 74.2 75 75.35 76 76.5 78 78.5 79 79.15 79.5
## 1 1 4 1 1 1 4 2 1 1 1
## 80 80.2 82 82.5 83.51 84.6 85 85.5 86.4 87 89
## 9 1 1 1 1 1 2 1 1 3 1
## 90 90.5 94.4 95 97 100.23
## 3 1 1 1 1 1
DDL %>% group_by(peso) %>% summarise(n=n())
table(DDL$polo)
##
## L M S XL XS
## 42 99 60 11 3
DDL %>% group_by(polo) %>% summarise(n=n())
table(DDL$carrera)
##
## Administración y Negocios Digitales Bioingenieria
## 9 22
## Ciencia de Datos Ciencias de la Computación
## 1 23
## IngenierÃa Civil IngenierÃa QuÃmica
## 43 15
## Ingenieria Ambiental Ingenieria de la EnergÃa
## 5 9
## Ingenieria Electrónica Ingenieria Industrial
## 7 32
## Ingenieria Mecánica Ingenieria Mecatronica
## 13 36
DDL %>% group_by(carrera) %>% summarise(n=n())
table(DDL$ciclo)
##
## 2 3 4 5 6
## 43 82 26 30 34
DDL %>% group_by(ciclo) %>% summarise(n=n())
table(DDL$cursos)
##
## 1 2 3 4 5 6 7 8 9 10
## 1 2 6 25 66 73 30 10 1 1
DDL %>% group_by(cursos) %>% summarise(n=n())
table(DDL$promedio)
##
## 0 9 10 10.97 11 11.23 11.29 11.3 11.5 11.98 12 12.27 12.34
## 4 1 1 1 2 1 1 1 1 1 2 2 1
## 12.36 12.5 12.67 12.74 12.91 13 13.02 13.05 13.2 13.23 13.28 13.3 13.38
## 1 1 1 1 1 10 3 1 1 1 1 1 1
## 13.4 13.43 13.45 13.48 13.49 13.5 13.52 13.63 13.67 13.69 13.8 13.94 14
## 2 1 5 1 1 2 1 1 1 1 1 1 17
## 14.02 14.06 14.11 14.14 14.16 14.2 14.23 14.3 14.32 14.36 14.4 14.43 14.48
## 1 1 1 1 1 2 1 2 2 1 1 1 2
## 14.5 14.53 14.54 14.56 14.58 14.61 14.66 14.7 14.78 14.8 14.83 15 15.02
## 6 1 1 1 1 1 1 2 3 1 2 10 1
## 15.04 15.05 15.14 15.18 15.23 15.28 15.3 15.34 15.35 15.36 15.37 15.49 15.5
## 1 1 1 1 1 1 2 1 2 1 1 1 5
## 15.51 15.52 15.56 15.57 15.6 15.62 15.68 15.89 15.95 15.96 16 16.01 16.02
## 1 1 1 1 2 1 1 1 2 1 5 2 1
## 16.1 16.15 16.2 16.38 16.4 16.44 16.45 16.48 16.55 16.66 16.69 16.72 16.75
## 1 1 3 1 2 1 2 1 1 1 1 1 1
## 16.78 16.79 16.8 16.84 16.88 16.89 16.9 16.91 16.97 17 17.1 17.15 17.17
## 1 1 1 1 2 1 1 1 1 4 1 1 1
## 17.21 17.24 17.32 17.4 17.55 17.58 17.64 17.78 17.85 18.03 18.11 18.34 18.36
## 1 1 1 1 2 1 1 1 1 1 1 1 1
## 18.4 19.55
## 1 1
DDL %>% group_by(promedio) %>% summarise(n=n())
table(DDL$t_estudio)
##
## 0.5 1 2 2.5 3 3.5 4 4.5 4.6 4.7 5 5.2 5.3 5.4 5.5 6
## 1 2 11 1 11 6 37 1 1 1 21 1 1 1 1 20
## 6.5 7 8 8.5 9.5 10 10.5 11 12 12.8 14 15 17 18 20 21
## 2 9 14 1 1 14 1 1 6 1 2 6 3 3 10 2
## 24 25 26 28 30 32 35 36 38 40 50 52
## 1 1 1 1 7 1 2 2 2 2 1 1
DDL %>% group_by(t_estudio) %>% summarise(n=n())
table(DDL$desayuno)
##
## 1 2 3 4 5 6 7
## 5 5 10 15 20 24 136
DDL %>% group_by(desayuno) %>% summarise(n=n())
table(DDL$desayuno_intervalo)
##
## 5:30 - 6:00 am 6:00 - 6:30 am 6:30 - 7:00 am 7:00 - 7:30 am 7:30 - 8:00 am
## 1 6 8 35 25
## 8:00 - 8:30 am 8:30 - 9:00 am 9:00 - 9:30 am 9:30 - 10:00 am
## 45 30 27 38
DDL %>% group_by(desayuno_intervalo) %>% summarise(n=n())
table(DDL$almuerzo)
##
## 1 2 3 4 5 6 7
## 4 1 2 1 7 13 187
DDL %>% group_by(almuerzo) %>% summarise(n=n())
table(DDL$almuerzo_intervalo)
##
## 12:00 - 12:30 pm 12:30 - 13:00 pm 13:00 - 13:30 pm 13:30 - 14:00 pm
## 7 14 45 65
## 14:00 - 14:30 pm 14:30 - 15:00 pm 15:00 - 15:30 pm 15:30 - 16:00 pm
## 35 29 12 3
## 16:00 - 16:30 pm
## 5
DDL %>% group_by(almuerzo_intervalo) %>% summarise(n=n())
table(DDL$cena)
##
## 1 2 3 4 5 6 7
## 6 5 6 12 35 25 126
DDL %>% group_by(cena) %>% summarise(n=n())
table(DDL$cambio_rango)
##
## 1 2 3 4 5
## 33 46 75 49 12
DDL %>% group_by(cambio_rango) %>% summarise(n=n())
table(DDL$habitos_alimenticios)
##
## 1 2 3 4 5
## 15 29 68 66 37
DDL %>% group_by(habitos_alimenticios) %>% summarise(n=n())
table(DDL$vegano)
##
## NO SI
## 204 11
DDL %>% group_by(vegano) %>% summarise(n=n())
table(DDL$sobrepeso)
##
## NO SI
## 160 55
DDL %>% group_by(sobrepeso) %>% summarise(n=n())
#CON ESTO COMPROBAMOS QUE PARA CADA VALOR DE UNA VARIABLE NO HAY UNA FORMA DE ESCRITURA DISTINTA
DDL$estatura<-(DDL$estatura)/100
DDL <-filter(DDL,edad>=18 & peso>=40 & estatura>=1.40 & estatura<=2.50 & t_estudio>=0 & promedio>0)
Cada variable relevante debe tener una descripción con descriptores numéricos o gráficos aprendidos en clase. La idea es describir la variable de manera relevante, ofreciendo detalles que permitan entender su estructura y los patrones que puedan tener. Es fundamental recordar que las variables podrían podrían obtener diferentes descriptores. En el caso de utilizar descriptores gráficos, se debe prestar especial atención a todos los detalles, desde la relevancia de la gráfica para el tipo de variable hasta selección de escala, ejes, unidades, leyenda, título descriptivo y manejo apropiado del color. El resultado final debe ser una gráfica descriptiva que transmita efectivamente la información y patrones relevantes observables en la muestra de la variable. Presentar las figuras de mérito (descriptores apropiados para cada variable o combinación de variables) que describen de la mejor manera posible los datos obtenidos.
library(dplyr)
DDL$IMC <- round((DDL$peso)/(DDL$estatura**2),2)
select(DDL,estatura,peso,IMC)
max(DDL$IMC)
## [1] 31.67
min(DDL$IMC)
## [1] 14.81
hist(DDL$IMC,breaks =seq(12,32,by=4),ylab = "frecuencia",xlab="indice de masa corporal",adj=0.5,main = "histograma indice de masa corporal ")
Tabla de Organización Mundial de la Salud
DDL$IMC2 <-car::recode(DDL$IMC,"0:18.49='peso bajo';18.5:24.99='peso normal';25:29.99='sobrepeso';30:40='obesidad'")
dato_sobrepeso<-filter(DDL,IMC2=="sobrepeso" | IMC2 =="obesidad")
table(dato_sobrepeso$genero,dato_sobrepeso$IMC2)
##
## obesidad sobrepeso
## Hombre 3 37
## Mujer 0 13
genero <-c(rep("Hombre",2),rep("Mujer",2))
peso<-rep(c("obesidad","sobrepeso"),2)
fr<-c(3,37,0,13)
dat<-data.frame(genero,peso,fr)
library(ggplot2)
ggplot(dat,aes(x=genero, y=fr, fill=peso))+ geom_bar(position = "dodge", stat = "identity")+ theme_minimal() + labs(title = "Cantidad de alumnos con sobrepeso y obesidad") + ylab("cantidad alumnos")+xlab("genero") + geom_text(aes(label=fr))
DDL$IMC2 <-car::recode(DDL$IMC,"0:18.49='peso bajo';18.5:24.99='peso normal';25:29.99='sobrepeso';30:40='obesidad'")
table(DDL$genero,DDL$IMC2)
##
## obesidad peso bajo peso normal sobrepeso
## Hombre 3 7 96 37
## Mujer 0 2 53 13
genero <- c(rep("Hombre",4),rep("Mujer",4))
imc<-rep(c("obesidad","peso bajo","peso normal","sobrepeso"),2)
frecuencia <- c(3,7,96,37,0,2,53,13)
dato1<- data.frame(genero,imc,frecuencia)
dato1
library(ggplot2)
ggplot(dato1,aes(x=imc, y=frecuencia, fill=genero))+ geom_bar(position = "dodge", stat = "identity")+ theme_minimal() + labs(title = "Cantidad de alumnos por IMC") + ylab("cantidad alumnos")+xlab("Indice de Masa Corporal") + geom_text(aes(label=frecuencia))
cov(DDL$IMC,DDL$promedio)
## [1] -0.1429653
cor(DDL$IMC,DDL$promedio)
## [1] -0.02695995
plot(DDL$IMC,DDL$promedio,ylab="Nota promedio de cada alumno",xlab="Indice de masa corporal",main = "Diagram de dispersion nota-Imc")
library(ggplot2)
ggplot(DDL,aes(IMC,promedio,colour=IMC2))+geom_point()+labs(title = "Gráfica de dispersión a colores")
library(dplyr)
dato_sobrepeso2<-filter(DDL,IMC2=="sobrepeso" | IMC2 =="obesidad")%>%select(genero,sobrepeso,IMC2)
dato_sobrepeso2
table(dato_sobrepeso2$sobrepeso,dato_sobrepeso2$IMC2)
##
## obesidad sobrepeso
## NO 0 12
## SI 3 38
respuesta<-c(rep("NO",2),rep("SI",2))
peso22<-rep(c("obesidad","sobrepeso"),2)
f <- c(0,12,3,38)
dta <- data.frame(respuesta,peso22,f)
library(ggplot2)
ggplot(dta,aes(x=peso22, y=f, fill=respuesta))+ geom_bar(position = "dodge", stat = "identity")+ theme_minimal() + xlab("Resultados de IMC") + ylab("Número de alumnos") + geom_text(aes(label = f)) + labs(title = "Realidad vs. Respuestas de los alumnos")