R Markdown

This is an R Markdown document. Markdown is a simple formatting syntax for authoring HTML, PDF, and MS Word documents. For more details on using R Markdown see http://rmarkdown.rstudio.com.

When you click the Knit button a document will be generated that includes both content as well as the output of any embedded R code chunks within the document. You can embed an R code chunk like this:

summary(cars)
##      speed           dist       
##  Min.   : 4.0   Min.   :  2.00  
##  1st Qu.:12.0   1st Qu.: 26.00  
##  Median :15.0   Median : 36.00  
##  Mean   :15.4   Mean   : 42.98  
##  3rd Qu.:19.0   3rd Qu.: 56.00  
##  Max.   :25.0   Max.   :120.00

Including Plots

You can also embed plots, for example:

Note that the echo = FALSE parameter was added to the code chunk to prevent printing of the R code that generated the plot.

Cargar los datos

# Para transformar la base de datos

library(readr)
#file.choose()
diabetes2 <- read.csv("G:\\cuantitativos\\diabetes2.txt", sep=";")
View(diabetes2)
# diabetes2

Introducción

Las enfermedades crónicas, un desafío omnipresente en las sociedades contemporáneas, han despertado una creciente atención debido a su aumento sostenido en incidencia y prevalencia a nivel global. Este fenómeno, identificado por el Nobel en 1991 y posteriormente respaldado por Avellaneda y otros, resalta la complejidad multifactorial de estas afecciones y su impacto significativo en poblaciones vulnerables. La calidad de vida y el estado funcional de quienes enfrentan enfermedades crónicas, como la Diabetes Mellitus, se ven considerablemente afectados, creando un auténtico reto en los ámbitos económico, político, social y personal.

En este contexto, nos sumergimos en la profunda comprensión de la Diabetes Mellitus, una enfermedad crónica que plantea desafíos particulares en el metabolismo de carbohidratos, proteínas y grasas debido a la insuficiente secreción o resistencia a la insulina. Utilizando el software R Studio como aliado en nuestro estudio estadístico descriptivo, buscamos arrojar luz sobre los patrones y características que definen esta condición.

A pesar de los avances en la comprensión de la diabetes, su origen sigue siendo un misterio, involucrando factores genéticos, ambientales, obesidad y falta de ejercicio. Esta enfermedad se asocia con complicaciones tanto microvasculares, que afectan vasos sanguíneos de menor tamaño, como macrovasculares, que comprometen estructuras vitales como el corazón y las extremidades. La incidencia y prevalencia de estas enfermedades, en gran medida atribuibles a factores de riesgo como el tabaquismo, el consumo nocivo de alcohol, la inactividad física y hábitos alimentarios inadecuados, afectan el proceso de envejecimiento y la calidad de vida.

La detección temprana, el tratamiento y la rehabilitación se revelan como pilares cruciales para abordar las enfermedades no transmisibles, mientras que la implementación de programas preventivos emerge como una estrategia clave para favorecer el continuo desarrollo y mejorar la calidad de vida de la población afectada. A través del análisis estadístico descriptivo respaldado por R Studio, nos embarcamos en un viaje hacia una comprensión más profunda y contextualizada de estas complejas realidades de salud.

Descripción de las variables

En este estudio, se seleccionan un total de 952 participantes de 18 años o más, de los cuales 580 son hombres y 372 son mujeres. Se pidé a los participantes que respondieran un cuestionario que fue preparado por ellos mismos en función de las limitaciones que podrán conducir a la diabetes. Para verificar la validez del modelo, se realizaron los mismos experimentos en otra base de datos llamada PIMA Indian Diabetes Database. ### Variables de la base de datos:

Edad: La edad de las personas diagnosticadas. Tipo:Cuantitativa-continua

Género: Indica si las personas son hombres o mujeres. Tipo:Cualitativa-nominal

Historia familiar con diabetes: Indica si algún familiar ha sido diagnosticado con diabetes en el pasado. Tipo:Cualitativa-nominal

Diagnóstico de presión arterial alta: Indica si la persona tiene presión arterial alta. Tipo:Cualitativa-nominal

Actividad física : Describe si la persona realiza actividades físicas como caminar, correr o estar activo. Tipo:Cualitativa-nominal

Indice de Masa Corporal(IMC): Un número calculado a partir del peso y la estatura de la persona. Tipo:Cuantitativa-continua

Hábito de fumar: Indica si la persona fuma y su posible relación con la diabetes. Tipo:Cualitativa-nominal

Consumo de alcohol: Registro del consumo de alcohol por parte de las personas diagnosticadas con diabetes. Tipo:Cualitativa-nominal

Horas de sueño: La cantidad de horas que la persona duerme. Tipo:Cuantitativa-continua

Horas de sueño profundo: Horas de sueño sin interrupciones o incomodidades. Tipo:Cuantitativa-continua

Ingesta regular de medicamentos: Si la persona toma medicamentos de manera regular. Tipo:Cualitativa-nominal

Consumo de comida chatarra: Indica si la persona consume comida chatarra. Tipo:Cualitativa-ordinal

Nivel de estrés: Evaluación del nivel de estrés que experimentan las personas. Tipo:Cualitativa-ordinal

Nivel de presión arterial: Indica el nivel de presión arterial que tienen las personas. Tipo:Cualitativa-ordinal

Número de embarazos: Para mujeres, el número de embarazos que han tenido. Tipo:Cuantitativa-discreta

Diabetes gestacional: Indica si la persona ha tenido diabetes gestacional. Tipo:Cualitativa-nomial

Frecuencia de orinar: Determina con qué frecuencia las personas van al baño a orinar. Tipo:Cualitativa-ordinal

Diabetes (diagnóstico): Indica si la persona está diagnosticada con diabetes o no. Tipo:Cualitativa-nominal

Nombres de las varibales que tiene nuestra base de datos

classes<-sapply(diabetes2,class);classes
##              Age           Gender  Family_Diabetes           highBP 
##      "character"      "character"      "character"      "character" 
## PhysicallyActive              BMI          Smoking          Alcohol 
##      "character"        "integer"      "character"      "character" 
##            Sleep       SoundSleep  RegularMedicine         JunkFood 
##        "integer"        "integer"      "character"      "character" 
##           Stress          BPLevel       Pregancies        Pdiabetes 
##      "character"      "character"        "integer"      "character" 
##     UriationFreq         Diabetic 
##      "character"      "character"

Convertir las variables caracter a factor

Convertir la varibale edad a factor

edadfactor<-factor(diabetes2$Age)
levels(edadfactor)=c("40-49","50-59","60 or older","less than 40")
class(edadfactor)
## [1] "factor"
#edadfactor

Convertir la varibale genero a factor

generofactor<-factor(diabetes2$Gender)
levels(generofactor)=c("Male","Female")
class(generofactor)
## [1] "factor"
#generofactor

Convertir la varibale Family_Diabetes a factor

familiadiabetes<-factor(diabetes2$Family_Diabetes)
levels(familiadiabetes)=c("yes","no")
class(familiadiabetes)
## [1] "factor"
#familiadiabetes

convertir la varibale highBP a factor

altoBP<-factor(diabetes2$highBP)
levels(altoBP)=c("yes","no")
class(altoBP)
## [1] "factor"
#altoBP

Convertir la varibale PhysicallyActive a factor

activifisica<-factor(diabetes2$PhysicallyActive)
levels(activifisica)=c("less than half an hr ","more than half an hr","none
","one hr or more")
class(activifisica)
## [1] "factor"
#activifisica

Convertir la varibale smoking a factor

fumafactor<-factor(diabetes2$Smoking)
levels(fumafactor)=c("yes","no")
class(fumafactor)
## [1] "factor"
#fumafactor

Convertir la varibale alchol a factor

alcolfactor<-factor(diabetes2$Alcohol)
levels(alcolfactor)=c("yes","no")
class(alcolfactor)
## [1] "factor"
#alcolfactor

Convertir la varibale regular medicine a factor

tomamedicina<-factor(diabetes2$RegularMedicine)
levels(tomamedicina)=c("yes","no")
class(tomamedicina)
## [1] "factor"
#tomamedicina

Convertir la varibale Junkfood a factor

comidacha<-factor(diabetes2$JunkFood)
levels(comidacha)=c("often","occasionally","very often", "always")
class(comidacha)
## [1] "factor"
#junkfoodfactor

Convertir la varibale Stress a factor

estresfactor<-factor(diabetes2$Stress)
levels(estresfactor)=c("not at all","sometimes","very often", "always")
class(estresfactor)
## [1] "factor"
#estresfactor

Convertir la varibale BPlevel a factor

nivelbp<-factor(diabetes2$BPLevel)
levels(nivelbp)=c("normal","high","low")
class(nivelbp)
## [1] "factor"
#nivelbp

Convertir la varibale Uriationfreq a factor

orinarfrec<-factor(diabetes2$UriationFreq)
levels(orinarfrec)=c("not much","quite often")
class(orinarfrec)
## [1] "factor"
#orinarfrec

Convertir la varibale Diabecic a factor

diabeticofac<-factor(diabetes2$UriationFreq)
levels(diabeticofac)=c("yes","no")
class(diabeticofac)
## [1] "factor"
#diabeticofac

Convertir la varibale Pdiabetes a factor

diabeticop<-factor(diabetes2$Pdiabetes)
levels(diabeticop)=c("0","1")
class(diabeticop)
## [1] "factor"
#diabeticop

Nueva base

# Creamos la nueva base datos con las variables transformadas a factor
datos2 <- data.frame(edadfactor, generofactor, familiadiabetes, altoBP, activifisica, diabetes2$BMI, fumafactor, alcolfactor, diabetes2$Sleep, diabetes2$SoundSleep, tomamedicina, comidacha, estresfactor, nivelbp, diabetes2$Pregancies, diabeticop, orinarfrec, diabeticofac)

class(datos2)
## [1] "data.frame"
# Verificacion de tipo de variables
clase2<-sapply(datos2,class);clase2
##           edadfactor         generofactor      familiadiabetes 
##             "factor"             "factor"             "factor" 
##               altoBP         activifisica        diabetes2.BMI 
##             "factor"             "factor"            "integer" 
##           fumafactor          alcolfactor      diabetes2.Sleep 
##             "factor"             "factor"            "integer" 
## diabetes2.SoundSleep         tomamedicina            comidacha 
##            "integer"             "factor"             "factor" 
##         estresfactor              nivelbp diabetes2.Pregancies 
##             "factor"             "factor"            "integer" 
##           diabeticop           orinarfrec         diabeticofac 
##             "factor"             "factor"             "factor"
# -----------------------------------------------------------------------------------
# Variables tipo numericas
# diabetes2$BMI,diabetes2$Sleep,diabetes2$SoundSleep,diabetes2$Pregancies
# -----------------------------------------------------------------------------------
# Caracteristicas de la base 
summary(datos2)
##         edadfactor  generofactor familiadiabetes altoBP   
##  40-49       :139   Male  :349   yes:462         yes:673  
##  50-59       :165   Female:557   no :444         no :233  
##  60 or older :138                                         
##  less than 40:464                                         
##                                                           
##                                                           
##                 activifisica diabetes2.BMI   fumafactor alcolfactor
##  less than half an hr :321   Min.   :15.00   yes:802    yes:707    
##  more than half an hr :227   1st Qu.:21.00   no :104    no :199    
##  none\n               :134   Median :24.00                         
##  one hr or more       :224   Mean   :25.33                         
##                              3rd Qu.:28.00                         
##                              Max.   :42.00                         
##  diabetes2.Sleep  diabetes2.SoundSleep tomamedicina        comidacha  
##  Min.   : 4.000   Min.   : 0.000       yes:572      often       : 38  
##  1st Qu.: 6.000   1st Qu.: 4.000       no :334      occasionally:615  
##  Median : 7.000   Median : 6.000                    very often  :188  
##  Mean   : 6.976   Mean   : 5.609                    always      : 65  
##  3rd Qu.: 8.000   3rd Qu.: 7.000                                      
##  Max.   :11.000   Max.   :11.000                                      
##      estresfactor   nivelbp    diabetes2.Pregancies diabeticop
##  not at all: 97   normal:209   Min.   :0.0000       0:886     
##  sometimes :141   high  : 25   1st Qu.:0.0000       1: 20     
##  very often:508   low   :672   Median :0.0000                 
##  always    :160                Mean   :0.3819                 
##                                3rd Qu.:0.0000                 
##                                Max.   :4.0000                 
##        orinarfrec  diabeticofac
##  not much   :650   yes:650     
##  quite often:256   no :256     
##                                
##                                
##                                
## 
str(datos2)
## 'data.frame':    906 obs. of  18 variables:
##  $ edadfactor          : Factor w/ 4 levels "40-49","50-59",..: 4 4 3 4 3 1 3 1 4 2 ...
##  $ generofactor        : Factor w/ 2 levels "Male","Female": 2 2 1 2 2 2 2 1 2 2 ...
##  $ familiadiabetes     : Factor w/ 2 levels "yes","no": 2 2 2 2 1 1 2 1 1 2 ...
##  $ altoBP              : Factor w/ 2 levels "yes","no": 1 1 1 1 1 1 1 1 1 1 ...
##  $ activifisica        : Factor w/ 4 levels "less than half an hr ",..: 4 4 3 2 2 1 2 3 1 4 ...
##  $ diabetes2.BMI       : int  22 22 26 19 23 26 26 23 22 38 ...
##  $ fumafactor          : Factor w/ 2 levels "yes","no": 1 1 1 2 1 2 1 1 1 1 ...
##  $ alcolfactor         : Factor w/ 2 levels "yes","no": 1 1 1 2 2 1 2 1 1 2 ...
##  $ diabetes2.Sleep     : int  8 8 7 7 7 8 8 7 6 8 ...
##  $ diabetes2.SoundSleep: int  6 6 7 5 6 7 3 7 2 6 ...
##  $ tomamedicina        : Factor w/ 2 levels "yes","no": 1 1 1 1 2 1 2 1 1 2 ...
##  $ comidacha           : Factor w/ 4 levels "often","occasionally",..: 3 3 2 2 2 2 2 3 3 2 ...
##  $ estresfactor        : Factor w/ 4 levels "not at all","sometimes",..: 2 2 3 2 4 3 3 4 2 4 ...
##  $ nivelbp             : Factor w/ 3 levels "normal","high",..: 3 3 3 3 1 3 3 3 3 3 ...
##  $ diabetes2.Pregancies: int  0 0 3 0 0 0 0 1 0 0 ...
##  $ diabeticop          : Factor w/ 2 levels "0","1": 1 1 1 1 1 1 1 1 1 1 ...
##  $ orinarfrec          : Factor w/ 2 levels "not much","quite often": 1 1 1 1 2 1 2 1 2 1 ...
##  $ diabeticofac        : Factor w/ 2 levels "yes","no": 1 1 1 1 2 1 2 1 2 1 ...
# Comprobamos si realmente existen datos faltantes 
anyNA(datos2) 
## [1] FALSE
sum(is.na(datos2))
## [1] 0
## Se observa que no hay datos faltante en esta base.

Analsis Descriptiva

Media aritmetica

La media representa el punto de equilibrio de la distribución y está influida por los valores extremos. Proporciona una medida de la tendencia general o valor medio de los datos.

Formula

\(\bar{x}=\frac{\sum_{i=1}^{n}x_{i}}{n}\)

Mediana

La media representa el punto de equilibrio de la distribución y está influída por los valores extremos. Proporciona una medida de la tendencia general o valor medio de los datos.

Ordena los datos de menor a mayor. Si el número de datos es impar, el valor de la mediana es el dato que se encuentra en la posición central. Por ejemplo, si tienes 7 datos, el valor de la mediana sería el dato en la posición 4.

Si el número de datos es par, la mediana se calcula promediando los dos valores centrales. Por ejemplo, si tienes 8 datos, los valores centrales serán los datos en las posiciones 4 y 5, y la mediana se obtendría promediándolos.

En resumen, la fórmula de la mediana depende del número de datos y se calcula encontrando el valor central o promediando los dos valores centrales en un conjunto de datos ordenados de menor a mayor.

Formula

\[\tilde{x}=\left\{\begin{matrix} x_{(n+1)/2} \ \ si\ n \ es\ impar& \\ \frac{1}{2}(x_{n/2}+x_{n/2+1})\ \ si\ n \ es\ par & \end{matrix}\right.\]

Moda

La moda es el valor que aparece más dentro de un conjunto de datos. A diferencia de la media y la mediana, la moda no requiere valores numéricos y puede utilizarse con datos categóricos o discretos.

Formula

\(M_{o}=L_{i}+\frac{f_{i}-f_{i-1}}{(f_{i}-f_{i-1})+(f_{i}-f_{i+1})}\)

Cuartiles

El cuartil es cada uno de los tres valores que pueden dividir un grupo de números, ordenados de menor a mayor, en cuatro partes iguales.

Cuartil determina la separación entre uno y otro subgrupo, dentro de un conjunto de valores estudiados. Así, al primer, segundo y tercer cuartil les llamaremos Q1, Q2 y Q3. Aquellos datos menores a Q1 representan el 25% de los datos, los que están debajo de Q2 son el 50%, mientras que aquellos menores a Q3 son el 75%.

Formula de cuartil

\(Q_{j}=L_{i}+\frac{\frac{jn}{4}-F_{i-1}}{f_{i}}.a_{i}\)

Formula primer cuartil

\(Q_{1}=L_{i}+\frac{\frac{n}{4}-F_{i-1}}{f_{i}}.a_{i}\)

Formula segundo cuartil

\(Q_{2}=L_{i}+\frac{\frac{2n}{4}-F_{i-1}}{f_{i}}.a_{i}\)

Formula tercer cuartil

\(Q_{3}=L_{i}+\frac{\frac{3n}{4}-F_{i-1}}{f_{i}}.a_{i}\)

Donde:

\(\bullet\) Li es el límite inferior del intervalo donde esté el cuartil correspondiente. \(\bullet\) F es la frecuencia absoluta acumulada (al ser de i-1 es del intervalo anterior al que nos encontremos). \(\bullet\) f es la frecuencia absoluta del intervalo y a es la amplitud del intervalo.

Desviacion estandar

La desviación estándar también ayuda a determinar la dispersión de los precios de los activos con respecto a su precio medio y la volatilidad en el mercado.

Una desviación baja indica que los puntos de datos están muy cerca de la media, mientras que una desviación alta muestra que los datos están dispersos en un rango mayor de valores.

Formula

\(s=\sqrt{\frac{\sum_{i=1}^{n}(x-\bar{x})^{2}}{n-1}}\)

summary(datos2 [,clase2=="integer"])
##  diabetes2.BMI   diabetes2.Sleep  diabetes2.SoundSleep diabetes2.Pregancies
##  Min.   :15.00   Min.   : 4.000   Min.   : 0.000       Min.   :0.0000      
##  1st Qu.:21.00   1st Qu.: 6.000   1st Qu.: 4.000       1st Qu.:0.0000      
##  Median :24.00   Median : 7.000   Median : 6.000       Median :0.0000      
##  Mean   :25.33   Mean   : 6.976   Mean   : 5.609       Mean   :0.3819      
##  3rd Qu.:28.00   3rd Qu.: 8.000   3rd Qu.: 7.000       3rd Qu.:0.0000      
##  Max.   :42.00   Max.   :11.000   Max.   :11.000       Max.   :4.0000
## Desviacion de cada variable
des<-sapply(datos2 [,clase2=="integer"],sd);des
##        diabetes2.BMI      diabetes2.Sleep diabetes2.SoundSleep 
##            5.1399922            1.3042497            1.8435140 
## diabetes2.Pregancies 
##            0.9090479

Interpretacion de variable diabetes2.BMI

El valor minimo es 15 unidades de grosor del pliegue cutáneo del tríceps medidos en (mm), lo cual significa que el valor más pequeño en el conjunto de datos que es 15.

El valor maximo es 42 unidades de grosor del pliegue cutáneo del tríceps medidos en (mm), lo cual indica que el valor más grande en el conjunto de datos es 42.

La media es 25.33 unidades de grosor del pliegue cutáneo del tríceps medidos en (mm), lo cual representa el promedio de todos los valores en el conjunto de datos de 906. En este caso, la media indica que, en promedio, los valores tienden a estar cerca de 25.33 unidades de grosor del pliegue cutáneo del tríceps medidos en (mm).

El primer cuartil es 21 unidades de grosor del pliegue cutáneo del tríceps medidos en (mm), lo cual indica que el 25% de los valores en el conjunto de datos son menores o iguales a 21. Es decir, el 25% de los datos se encuentra en el rango más bajo.

El segundo cuartil es 24 unidades de grosor del pliegue cutáneo del tríceps medidos en (mm), lo cual ya lo hemos mencionado como la mediana.

El tercer cuartil es 28 unidades de grosor del pliegue cutáneo del tríceps medidos en (mm), lo cual indica que el 75% de los valores en el conjunto de datos son menores o iguales a 28 unidades de grosor del pliegue cutáneo del tríceps medidos en (mm) . Esto significa que el 75% de los datos se encuentra en el rango más alto.

Tiene una desviación estándar de 5.13 significa que, en promedio, los datos se alejan de la media en aproximadamente 5.13 unidades de grosor del pliegue cutáneo del tríceps medidos en (mm). Esto indica que hay una variabilidad moderada en los datos.

Interpretacion de variable diabetes2.Sleep

El valor mínimo de 4 indica que el valor más bajo en tu conjunto de datos es 4 horas.

El primer cuartil de 6 horas lo que significa que el 25% de los datos se encuentran por debajo de 6 horas. Es decir, al menos el 25% de tus observaciones son menores o iguales a 6 horas.

La mediana de 6 horas representa el valor que se encuentra en el centro de tus datos. Esto implica que la mitad de tus observaciones son menores o iguales a 6 horas y la otra mitad son mayores o iguales a 6 horas.

La media de 6.976 horas es el promedio de todos los valores en tu conjunto de datos. Indica que, en promedio, tus observaciones se acercan a 6.976 horas de dormida.

El tercer cuartil de 7 horas significa que el 75% de los datos se encuentran por debajo de 7 horas. Esto implica que al menos el 75% de tus observaciones son menores o iguales a 7 horas.

El valor máximo de 11 indica que el valor más alto en tu conjunto de datos es 11 horas.

La desviación estándar de 1.304 es una medida de dispersión que indica cuánto varían los datos respecto a la media. En este caso, una desviación estándar de 1.3042497 indica que los datos tienden a estar relativamente cerca de los medios, con una variabilidad moderada.

Interpretacion de variable diabetes2.SoundSleep

El valor mínimo de 0 indica que el valor más bajo en tu conjunto de datos es 0 horas de descanso profundo.

El primer cuartil de 4 horas significa que el 25% de los datos se encuentran por debajo de 4 horas. Es decir, al menos el 25% de tus observaciones son menores o iguales a 4 horas.

La mediana de 6 horas representa el valor que se encuentra en el centro de tus datos. Esto implica que la mitad de tus observaciones son menores o iguales a 6 horas y la otra mitad son mayores o iguales a 6 horas.

La media de 5.609 horas es el promedio de todos los valores en tu conjunto de datos. Indica que, en promedio, tus observaciones se acercan a 5.609 horas.

El tercer cuartil de 7 horas significa que el 75% de los datos se encuentran por debajo de 7 horas. Esto implica que al menos el 75% de tus observaciones son menores o iguales a 7 horas.

El valor máximo de 11 indica que el valor más alto en tu conjunto de datos es 11 horas de descanso profundo.

La desviación estándar de 1.8435140 es una medida de dispersión que indica cuánto varían los datos respecto a la media. En este caso, una desviación estándar de 1.8435140 indica que los datos tienden a estar relativamente cerca de los medios, con una variabilidad moderada.

Interpretacion de variable diabetes2.SoundSleep

El valor mínimo de 0 indica que el valor más bajo en tu conjunto de datos es 0 numeros de embarasos.

El primer cuartil de 0 número de embarasos significa que el 25% de los datos se encuentran por debajo de 0 número de embarasos. Es decir, al menos el 25% de tus observaciones son menores o iguales a 0 número de embarasos.

La mediana de 0 número de embarasos representa el valor que se encuentra en el centro de tus datos. Esto implica que la mitad de tus observaciones son menores o iguales a 0 y la otra mitad son mayores o iguales a 0 número de embarasos.

La media de 0.3819 es el promedio de todos los valores en tu conjunto de datos. Indica que, en promedio, tus observaciones se acercan a 0.3819 número de embarasos.

El tercer cuartil de 0 significa que el 75% de los datos se encuentran por debajo de 0. Esto implica que al menos el 75% de tus observaciones son menores o iguales a 0 número de embarasos.

El valor máximo de 4 indica que el valor más alto en tu conjunto de datos es 4 número de embarasos.

La desviación estándar de 0.9090479 es una medida de dispersión que indica cuánto varían los datos respecto a la media. En este caso, una desviación estándar de 0.9090479 número de embarasos indica que los datos tienden a estar relativamente cerca de los medios, con una variabilidad moderada.

Diagrama de barras

library(ggplot2)
library(gridExtra)
g1<- ggplot(datos2,aes(x=edadfactor))+ geom_bar(stat="count",width=0.7,fill="aquamarine2")+theme_minimal()
g2<- ggplot(datos2,aes(x=generofactor))+ geom_bar(stat="count",width=0.7,fill="bisque1")+theme_minimal()
g3<- ggplot(datos2,aes(x=   activifisica))+ geom_bar(stat="count",width=0.7,fill="chocolate2")+theme_minimal()
g4<- ggplot(datos2,aes(x=comidacha))+ geom_bar(stat="count",width=0.7,fill="gold")+theme_minimal()
grid.arrange(g1,g2,g3,g4,nrow=2,ncol=2)

### Interpretación

Edad

Para edad se puede observar que “60 or older” es el menor frecuencia que tiene mientras que “less than 40” es que mayor frecuencia tiene es decir que el grupo que edad que mayor presencia tiene en este estudio y mientras que la edades que no son mas homogeneas son “40-49”,“50-59”,“60 or older”.

Genero

Para la variable genero se puede observar que hay mayor presencia de mujeres que los hombres.

actividad fisica

Para la varibale actividad fisica se puede observar que el nivel “less than half an hr” es la mayor frecuencia tiene mientras que el menor nivel es “none” y que los niveles “more than half an hr”,“one hour or more” son mas homogeneos.

Comida chatara

Para la varible comida chata se puede observar que el nivel mas alto es “occasionally” mientras que el menor frecuencia es “often” y que los datos mas homogeneos son los niveles “very often”,“always”

Diagrama de dispersion BMI y Sleep

# grafica
qplot(diabetes2.BMI,diabetes2.Sleep,data=datos2,colour=diabeticofac)
## Warning: `qplot()` was deprecated in ggplot2 3.4.0.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

## Interpretacion

En el grafico de dispersion con las varibles indice de masa corporal con las horas de dormir se observa que ahi mas afluencia de person que no presentan diabetes.

Diagrama de dispersion activiad fisica y medicina habitual

qplot(activifisica,tomamedicina,data=datos2,colour=diabeticofac)

## Interpretacion

En el grafico de dispersion con las varibles actividad fisica con toma medicamento se observa que ahi mas afluencia de person que no presentan diabetes.

Diagrama de dispersion diabetes familiar y diabetes

qplot(tomamedicina,familiadiabetes, data=datos2,colour=diabeticofac)

Interpretacion

En el grafico de dispersion con las varibles regular medicina con la familia con diabetes se observa que ahi mas afluencia de person que no presentan diabetes.

Diagrama de dispersion indice mas corporal y edad

qplot(diabetes2.BMI,edadfactor, data=datos2,colour=diabeticofac)

Interpretacion

En el grafico de dispersion con las varibles inidice de masa corporal con edad se observa que en los mayores de 40 años ahi mas afluencia de person que no presentan diabetes mientras que para mayores a 60 años ahi mas afluencia de person que presentan diabetes.

Diagrama de dispersion fuma y toma alchol

qplot(fumafactor,alcolfactor, data=datos2,colour=diabeticofac)

## Interpretacion

En el grafico de dispersion con las varibles fuma con toma alcohol se observa que ahi mas afluencia de person que no presentan diabetes.

Diagrama de dispersion indice masa corpotal y frecuencia orinar

qplot(diabetes2.BMI,orinarfrec, data=datos2,colour=diabeticofac)

## Interpretacion

En el grafico de dispersion con las varibles inidice de masa corporal con orina se observa que ahi mas afluencia de person que no presentan diabetes.