This is an R Markdown document. Markdown is a simple formatting syntax for authoring HTML, PDF, and MS Word documents. For more details on using R Markdown see http://rmarkdown.rstudio.com.
When you click the Knit button a document will be generated that includes both content as well as the output of any embedded R code chunks within the document. You can embed an R code chunk like this:
summary(cars)
## speed dist
## Min. : 4.0 Min. : 2.00
## 1st Qu.:12.0 1st Qu.: 26.00
## Median :15.0 Median : 36.00
## Mean :15.4 Mean : 42.98
## 3rd Qu.:19.0 3rd Qu.: 56.00
## Max. :25.0 Max. :120.00
You can also embed plots, for example:
Note that the echo = FALSE parameter was added to the
code chunk to prevent printing of the R code that generated the
plot.
# Para transformar la base de datos
library(readr)
#file.choose()
diabetes2 <- read.csv("G:\\cuantitativos\\diabetes2.txt", sep=";")
View(diabetes2)
# diabetes2
Las enfermedades crónicas, un desafío omnipresente en las sociedades contemporáneas, han despertado una creciente atención debido a su aumento sostenido en incidencia y prevalencia a nivel global. Este fenómeno, identificado por el Nobel en 1991 y posteriormente respaldado por Avellaneda y otros, resalta la complejidad multifactorial de estas afecciones y su impacto significativo en poblaciones vulnerables. La calidad de vida y el estado funcional de quienes enfrentan enfermedades crónicas, como la Diabetes Mellitus, se ven considerablemente afectados, creando un auténtico reto en los ámbitos económico, político, social y personal.
En este contexto, nos sumergimos en la profunda comprensión de la Diabetes Mellitus, una enfermedad crónica que plantea desafíos particulares en el metabolismo de carbohidratos, proteínas y grasas debido a la insuficiente secreción o resistencia a la insulina. Utilizando el software R Studio como aliado en nuestro estudio estadístico descriptivo, buscamos arrojar luz sobre los patrones y características que definen esta condición.
A pesar de los avances en la comprensión de la diabetes, su origen sigue siendo un misterio, involucrando factores genéticos, ambientales, obesidad y falta de ejercicio. Esta enfermedad se asocia con complicaciones tanto microvasculares, que afectan vasos sanguíneos de menor tamaño, como macrovasculares, que comprometen estructuras vitales como el corazón y las extremidades. La incidencia y prevalencia de estas enfermedades, en gran medida atribuibles a factores de riesgo como el tabaquismo, el consumo nocivo de alcohol, la inactividad física y hábitos alimentarios inadecuados, afectan el proceso de envejecimiento y la calidad de vida.
La detección temprana, el tratamiento y la rehabilitación se revelan como pilares cruciales para abordar las enfermedades no transmisibles, mientras que la implementación de programas preventivos emerge como una estrategia clave para favorecer el continuo desarrollo y mejorar la calidad de vida de la población afectada. A través del análisis estadístico descriptivo respaldado por R Studio, nos embarcamos en un viaje hacia una comprensión más profunda y contextualizada de estas complejas realidades de salud.
En este estudio, se seleccionan un total de 952 participantes de 18 años o más, de los cuales 580 son hombres y 372 son mujeres. Se pidé a los participantes que respondieran un cuestionario que fue preparado por ellos mismos en función de las limitaciones que podrán conducir a la diabetes. Para verificar la validez del modelo, se realizaron los mismos experimentos en otra base de datos llamada PIMA Indian Diabetes Database. ### Variables de la base de datos:
Edad: La edad de las personas diagnosticadas. Tipo:Cuantitativa-continua
Género: Indica si las personas son hombres o mujeres. Tipo:Cualitativa-nominal
Historia familiar con diabetes: Indica si algún familiar ha sido diagnosticado con diabetes en el pasado. Tipo:Cualitativa-nominal
Diagnóstico de presión arterial alta: Indica si la persona tiene presión arterial alta. Tipo:Cualitativa-nominal
Actividad física : Describe si la persona realiza actividades fÃsicas como caminar, correr o estar activo. Tipo:Cualitativa-nominal
Indice de Masa Corporal(IMC): Un número calculado a partir del peso y la estatura de la persona. Tipo:Cuantitativa-continua
Hábito de fumar: Indica si la persona fuma y su posible relación con la diabetes. Tipo:Cualitativa-nominal
Consumo de alcohol: Registro del consumo de alcohol por parte de las personas diagnosticadas con diabetes. Tipo:Cualitativa-nominal
Horas de sueño: La cantidad de horas que la persona duerme. Tipo:Cuantitativa-continua
Horas de sueño profundo: Horas de sueño sin interrupciones o incomodidades. Tipo:Cuantitativa-continua
Ingesta regular de medicamentos: Si la persona toma medicamentos de manera regular. Tipo:Cualitativa-nominal
Consumo de comida chatarra: Indica si la persona consume comida chatarra. Tipo:Cualitativa-ordinal
Nivel de estrés: Evaluación del nivel de estrés que experimentan las personas. Tipo:Cualitativa-ordinal
Nivel de presión arterial: Indica el nivel de presión arterial que tienen las personas. Tipo:Cualitativa-ordinal
Número de embarazos: Para mujeres, el número de embarazos que han tenido. Tipo:Cuantitativa-discreta
Diabetes gestacional: Indica si la persona ha tenido diabetes gestacional. Tipo:Cualitativa-nomial
Frecuencia de orinar: Determina con qué frecuencia las personas van al baño a orinar. Tipo:Cualitativa-ordinal
Diabetes (diagnóstico): Indica si la persona está diagnosticada con diabetes o no. Tipo:Cualitativa-nominal
classes<-sapply(diabetes2,class);classes
## Age Gender Family_Diabetes highBP
## "character" "character" "character" "character"
## PhysicallyActive BMI Smoking Alcohol
## "character" "integer" "character" "character"
## Sleep SoundSleep RegularMedicine JunkFood
## "integer" "integer" "character" "character"
## Stress BPLevel Pregancies Pdiabetes
## "character" "character" "integer" "character"
## UriationFreq Diabetic
## "character" "character"
edadfactor<-factor(diabetes2$Age)
levels(edadfactor)=c("40-49","50-59","60 or older","less than 40")
class(edadfactor)
## [1] "factor"
#edadfactor
generofactor<-factor(diabetes2$Gender)
levels(generofactor)=c("Male","Female")
class(generofactor)
## [1] "factor"
#generofactor
familiadiabetes<-factor(diabetes2$Family_Diabetes)
levels(familiadiabetes)=c("yes","no")
class(familiadiabetes)
## [1] "factor"
#familiadiabetes
altoBP<-factor(diabetes2$highBP)
levels(altoBP)=c("yes","no")
class(altoBP)
## [1] "factor"
#altoBP
activifisica<-factor(diabetes2$PhysicallyActive)
levels(activifisica)=c("less than half an hr ","more than half an hr","none
","one hr or more")
class(activifisica)
## [1] "factor"
#activifisica
fumafactor<-factor(diabetes2$Smoking)
levels(fumafactor)=c("yes","no")
class(fumafactor)
## [1] "factor"
#fumafactor
alcolfactor<-factor(diabetes2$Alcohol)
levels(alcolfactor)=c("yes","no")
class(alcolfactor)
## [1] "factor"
#alcolfactor
tomamedicina<-factor(diabetes2$RegularMedicine)
levels(tomamedicina)=c("yes","no")
class(tomamedicina)
## [1] "factor"
#tomamedicina
comidacha<-factor(diabetes2$JunkFood)
levels(comidacha)=c("often","occasionally","very often", "always")
class(comidacha)
## [1] "factor"
#junkfoodfactor
estresfactor<-factor(diabetes2$Stress)
levels(estresfactor)=c("not at all","sometimes","very often", "always")
class(estresfactor)
## [1] "factor"
#estresfactor
nivelbp<-factor(diabetes2$BPLevel)
levels(nivelbp)=c("normal","high","low")
class(nivelbp)
## [1] "factor"
#nivelbp
orinarfrec<-factor(diabetes2$UriationFreq)
levels(orinarfrec)=c("not much","quite often")
class(orinarfrec)
## [1] "factor"
#orinarfrec
diabeticofac<-factor(diabetes2$UriationFreq)
levels(diabeticofac)=c("yes","no")
class(diabeticofac)
## [1] "factor"
#diabeticofac
diabeticop<-factor(diabetes2$Pdiabetes)
levels(diabeticop)=c("0","1")
class(diabeticop)
## [1] "factor"
#diabeticop
# Creamos la nueva base datos con las variables transformadas a factor
datos2 <- data.frame(edadfactor, generofactor, familiadiabetes, altoBP, activifisica, diabetes2$BMI, fumafactor, alcolfactor, diabetes2$Sleep, diabetes2$SoundSleep, tomamedicina, comidacha, estresfactor, nivelbp, diabetes2$Pregancies, diabeticop, orinarfrec, diabeticofac)
class(datos2)
## [1] "data.frame"
# Verificacion de tipo de variables
clase2<-sapply(datos2,class);clase2
## edadfactor generofactor familiadiabetes
## "factor" "factor" "factor"
## altoBP activifisica diabetes2.BMI
## "factor" "factor" "integer"
## fumafactor alcolfactor diabetes2.Sleep
## "factor" "factor" "integer"
## diabetes2.SoundSleep tomamedicina comidacha
## "integer" "factor" "factor"
## estresfactor nivelbp diabetes2.Pregancies
## "factor" "factor" "integer"
## diabeticop orinarfrec diabeticofac
## "factor" "factor" "factor"
# -----------------------------------------------------------------------------------
# Variables tipo numericas
# diabetes2$BMI,diabetes2$Sleep,diabetes2$SoundSleep,diabetes2$Pregancies
# -----------------------------------------------------------------------------------
# Caracteristicas de la base
summary(datos2)
## edadfactor generofactor familiadiabetes altoBP
## 40-49 :139 Male :349 yes:462 yes:673
## 50-59 :165 Female:557 no :444 no :233
## 60 or older :138
## less than 40:464
##
##
## activifisica diabetes2.BMI fumafactor alcolfactor
## less than half an hr :321 Min. :15.00 yes:802 yes:707
## more than half an hr :227 1st Qu.:21.00 no :104 no :199
## none\n :134 Median :24.00
## one hr or more :224 Mean :25.33
## 3rd Qu.:28.00
## Max. :42.00
## diabetes2.Sleep diabetes2.SoundSleep tomamedicina comidacha
## Min. : 4.000 Min. : 0.000 yes:572 often : 38
## 1st Qu.: 6.000 1st Qu.: 4.000 no :334 occasionally:615
## Median : 7.000 Median : 6.000 very often :188
## Mean : 6.976 Mean : 5.609 always : 65
## 3rd Qu.: 8.000 3rd Qu.: 7.000
## Max. :11.000 Max. :11.000
## estresfactor nivelbp diabetes2.Pregancies diabeticop
## not at all: 97 normal:209 Min. :0.0000 0:886
## sometimes :141 high : 25 1st Qu.:0.0000 1: 20
## very often:508 low :672 Median :0.0000
## always :160 Mean :0.3819
## 3rd Qu.:0.0000
## Max. :4.0000
## orinarfrec diabeticofac
## not much :650 yes:650
## quite often:256 no :256
##
##
##
##
str(datos2)
## 'data.frame': 906 obs. of 18 variables:
## $ edadfactor : Factor w/ 4 levels "40-49","50-59",..: 4 4 3 4 3 1 3 1 4 2 ...
## $ generofactor : Factor w/ 2 levels "Male","Female": 2 2 1 2 2 2 2 1 2 2 ...
## $ familiadiabetes : Factor w/ 2 levels "yes","no": 2 2 2 2 1 1 2 1 1 2 ...
## $ altoBP : Factor w/ 2 levels "yes","no": 1 1 1 1 1 1 1 1 1 1 ...
## $ activifisica : Factor w/ 4 levels "less than half an hr ",..: 4 4 3 2 2 1 2 3 1 4 ...
## $ diabetes2.BMI : int 22 22 26 19 23 26 26 23 22 38 ...
## $ fumafactor : Factor w/ 2 levels "yes","no": 1 1 1 2 1 2 1 1 1 1 ...
## $ alcolfactor : Factor w/ 2 levels "yes","no": 1 1 1 2 2 1 2 1 1 2 ...
## $ diabetes2.Sleep : int 8 8 7 7 7 8 8 7 6 8 ...
## $ diabetes2.SoundSleep: int 6 6 7 5 6 7 3 7 2 6 ...
## $ tomamedicina : Factor w/ 2 levels "yes","no": 1 1 1 1 2 1 2 1 1 2 ...
## $ comidacha : Factor w/ 4 levels "often","occasionally",..: 3 3 2 2 2 2 2 3 3 2 ...
## $ estresfactor : Factor w/ 4 levels "not at all","sometimes",..: 2 2 3 2 4 3 3 4 2 4 ...
## $ nivelbp : Factor w/ 3 levels "normal","high",..: 3 3 3 3 1 3 3 3 3 3 ...
## $ diabetes2.Pregancies: int 0 0 3 0 0 0 0 1 0 0 ...
## $ diabeticop : Factor w/ 2 levels "0","1": 1 1 1 1 1 1 1 1 1 1 ...
## $ orinarfrec : Factor w/ 2 levels "not much","quite often": 1 1 1 1 2 1 2 1 2 1 ...
## $ diabeticofac : Factor w/ 2 levels "yes","no": 1 1 1 1 2 1 2 1 2 1 ...
# Comprobamos si realmente existen datos faltantes
anyNA(datos2)
## [1] FALSE
sum(is.na(datos2))
## [1] 0
## Se observa que no hay datos faltante en esta base.
La media representa el punto de equilibrio de la distribución y está influida por los valores extremos. Proporciona una medida de la tendencia general o valor medio de los datos.
\(\bar{x}=\frac{\sum_{i=1}^{n}x_{i}}{n}\)
La media representa el punto de equilibrio de la distribución y está influÃda por los valores extremos. Proporciona una medida de la tendencia general o valor medio de los datos.
Ordena los datos de menor a mayor. Si el número de datos es impar, el valor de la mediana es el dato que se encuentra en la posición central. Por ejemplo, si tienes 7 datos, el valor de la mediana sería el dato en la posición 4.
Si el número de datos es par, la mediana se calcula promediando los dos valores centrales. Por ejemplo, si tienes 8 datos, los valores centrales serán los datos en las posiciones 4 y 5, y la mediana se obtendría promediándolos.
En resumen, la fórmula de la mediana depende del número de datos y se calcula encontrando el valor central o promediando los dos valores centrales en un conjunto de datos ordenados de menor a mayor.
\[\tilde{x}=\left\{\begin{matrix} x_{(n+1)/2} \ \ si\ n \ es\ impar& \\ \frac{1}{2}(x_{n/2}+x_{n/2+1})\ \ si\ n \ es\ par & \end{matrix}\right.\]
La moda es el valor que aparece más dentro de un conjunto de datos. A diferencia de la media y la mediana, la moda no requiere valores numéricos y puede utilizarse con datos categóricos o discretos.
\(M_{o}=L_{i}+\frac{f_{i}-f_{i-1}}{(f_{i}-f_{i-1})+(f_{i}-f_{i+1})}\)
El cuartil es cada uno de los tres valores que pueden dividir un grupo de números, ordenados de menor a mayor, en cuatro partes iguales.
Cuartil determina la separación entre uno y otro subgrupo, dentro de un conjunto de valores estudiados. Así, al primer, segundo y tercer cuartil les llamaremos Q1, Q2 y Q3. Aquellos datos menores a Q1 representan el 25% de los datos, los que están debajo de Q2 son el 50%, mientras que aquellos menores a Q3 son el 75%.
\(Q_{j}=L_{i}+\frac{\frac{jn}{4}-F_{i-1}}{f_{i}}.a_{i}\)
\(Q_{1}=L_{i}+\frac{\frac{n}{4}-F_{i-1}}{f_{i}}.a_{i}\)
\(Q_{2}=L_{i}+\frac{\frac{2n}{4}-F_{i-1}}{f_{i}}.a_{i}\)
\(Q_{3}=L_{i}+\frac{\frac{3n}{4}-F_{i-1}}{f_{i}}.a_{i}\)
Donde:
\(\bullet\) Li es el límite inferior del intervalo donde esté el cuartil correspondiente. \(\bullet\) F es la frecuencia absoluta acumulada (al ser de i-1 es del intervalo anterior al que nos encontremos). \(\bullet\) f es la frecuencia absoluta del intervalo y a es la amplitud del intervalo.
La desviación estándar también ayuda a determinar la dispersión de los precios de los activos con respecto a su precio medio y la volatilidad en el mercado.
Una desviación baja indica que los puntos de datos están muy cerca de la media, mientras que una desviación alta muestra que los datos están dispersos en un rango mayor de valores.
\(s=\sqrt{\frac{\sum_{i=1}^{n}(x-\bar{x})^{2}}{n-1}}\)
summary(datos2 [,clase2=="integer"])
## diabetes2.BMI diabetes2.Sleep diabetes2.SoundSleep diabetes2.Pregancies
## Min. :15.00 Min. : 4.000 Min. : 0.000 Min. :0.0000
## 1st Qu.:21.00 1st Qu.: 6.000 1st Qu.: 4.000 1st Qu.:0.0000
## Median :24.00 Median : 7.000 Median : 6.000 Median :0.0000
## Mean :25.33 Mean : 6.976 Mean : 5.609 Mean :0.3819
## 3rd Qu.:28.00 3rd Qu.: 8.000 3rd Qu.: 7.000 3rd Qu.:0.0000
## Max. :42.00 Max. :11.000 Max. :11.000 Max. :4.0000
## Desviacion de cada variable
des<-sapply(datos2 [,clase2=="integer"],sd);des
## diabetes2.BMI diabetes2.Sleep diabetes2.SoundSleep
## 5.1399922 1.3042497 1.8435140
## diabetes2.Pregancies
## 0.9090479
El valor minimo es 15 unidades de grosor del pliegue cutáneo del tríceps medidos en (mm), lo cual significa que el valor más pequeño en el conjunto de datos que es 15.
El valor maximo es 42 unidades de grosor del pliegue cutáneo del tríceps medidos en (mm), lo cual indica que el valor más grande en el conjunto de datos es 42.
La media es 25.33 unidades de grosor del pliegue cutáneo del tríceps medidos en (mm), lo cual representa el promedio de todos los valores en el conjunto de datos de 906. En este caso, la media indica que, en promedio, los valores tienden a estar cerca de 25.33 unidades de grosor del pliegue cutáneo del tríceps medidos en (mm).
El primer cuartil es 21 unidades de grosor del pliegue cutáneo del tríceps medidos en (mm), lo cual indica que el 25% de los valores en el conjunto de datos son menores o iguales a 21. Es decir, el 25% de los datos se encuentra en el rango más bajo.
El segundo cuartil es 24 unidades de grosor del pliegue cutáneo del tríceps medidos en (mm), lo cual ya lo hemos mencionado como la mediana.
El tercer cuartil es 28 unidades de grosor del pliegue cutáneo del tríceps medidos en (mm), lo cual indica que el 75% de los valores en el conjunto de datos son menores o iguales a 28 unidades de grosor del pliegue cutáneo del tríceps medidos en (mm) . Esto significa que el 75% de los datos se encuentra en el rango más alto.
Tiene una desviación estándar de 5.13 significa que, en promedio, los datos se alejan de la media en aproximadamente 5.13 unidades de grosor del pliegue cutáneo del tríceps medidos en (mm). Esto indica que hay una variabilidad moderada en los datos.
El valor mínimo de 4 indica que el valor más bajo en tu conjunto de datos es 4 horas.
El primer cuartil de 6 horas lo que significa que el 25% de los datos se encuentran por debajo de 6 horas. Es decir, al menos el 25% de tus observaciones son menores o iguales a 6 horas.
La mediana de 6 horas representa el valor que se encuentra en el centro de tus datos. Esto implica que la mitad de tus observaciones son menores o iguales a 6 horas y la otra mitad son mayores o iguales a 6 horas.
La media de 6.976 horas es el promedio de todos los valores en tu conjunto de datos. Indica que, en promedio, tus observaciones se acercan a 6.976 horas de dormida.
El tercer cuartil de 7 horas significa que el 75% de los datos se encuentran por debajo de 7 horas. Esto implica que al menos el 75% de tus observaciones son menores o iguales a 7 horas.
El valor máximo de 11 indica que el valor más alto en tu conjunto de datos es 11 horas.
La desviación estándar de 1.304 es una medida de dispersión que indica cuánto varían los datos respecto a la media. En este caso, una desviación estándar de 1.3042497 indica que los datos tienden a estar relativamente cerca de los medios, con una variabilidad moderada.
El valor mínimo de 0 indica que el valor más bajo en tu conjunto de datos es 0 horas de descanso profundo.
El primer cuartil de 4 horas significa que el 25% de los datos se encuentran por debajo de 4 horas. Es decir, al menos el 25% de tus observaciones son menores o iguales a 4 horas.
La mediana de 6 horas representa el valor que se encuentra en el centro de tus datos. Esto implica que la mitad de tus observaciones son menores o iguales a 6 horas y la otra mitad son mayores o iguales a 6 horas.
La media de 5.609 horas es el promedio de todos los valores en tu conjunto de datos. Indica que, en promedio, tus observaciones se acercan a 5.609 horas.
El tercer cuartil de 7 horas significa que el 75% de los datos se encuentran por debajo de 7 horas. Esto implica que al menos el 75% de tus observaciones son menores o iguales a 7 horas.
El valor máximo de 11 indica que el valor más alto en tu conjunto de datos es 11 horas de descanso profundo.
La desviación estándar de 1.8435140 es una medida de dispersión que indica cuánto varían los datos respecto a la media. En este caso, una desviación estándar de 1.8435140 indica que los datos tienden a estar relativamente cerca de los medios, con una variabilidad moderada.
El valor mínimo de 0 indica que el valor más bajo en tu conjunto de datos es 0 numeros de embarasos.
El primer cuartil de 0 número de embarasos significa que el 25% de los datos se encuentran por debajo de 0 número de embarasos. Es decir, al menos el 25% de tus observaciones son menores o iguales a 0 número de embarasos.
La mediana de 0 número de embarasos representa el valor que se encuentra en el centro de tus datos. Esto implica que la mitad de tus observaciones son menores o iguales a 0 y la otra mitad son mayores o iguales a 0 número de embarasos.
La media de 0.3819 es el promedio de todos los valores en tu conjunto de datos. Indica que, en promedio, tus observaciones se acercan a 0.3819 número de embarasos.
El tercer cuartil de 0 significa que el 75% de los datos se encuentran por debajo de 0. Esto implica que al menos el 75% de tus observaciones son menores o iguales a 0 número de embarasos.
El valor máximo de 4 indica que el valor más alto en tu conjunto de datos es 4 número de embarasos.
La desviación estándar de 0.9090479 es una medida de dispersión que indica cuánto varían los datos respecto a la media. En este caso, una desviación estándar de 0.9090479 número de embarasos indica que los datos tienden a estar relativamente cerca de los medios, con una variabilidad moderada.
library(ggplot2)
library(gridExtra)
g1<- ggplot(datos2,aes(x=edadfactor))+ geom_bar(stat="count",width=0.7,fill="aquamarine2")+theme_minimal()
g2<- ggplot(datos2,aes(x=generofactor))+ geom_bar(stat="count",width=0.7,fill="bisque1")+theme_minimal()
g3<- ggplot(datos2,aes(x= activifisica))+ geom_bar(stat="count",width=0.7,fill="chocolate2")+theme_minimal()
g4<- ggplot(datos2,aes(x=comidacha))+ geom_bar(stat="count",width=0.7,fill="gold")+theme_minimal()
grid.arrange(g1,g2,g3,g4,nrow=2,ncol=2)
### Interpretación
Para edad se puede observar que “60 or older” es el menor frecuencia que tiene mientras que “less than 40” es que mayor frecuencia tiene es decir que el grupo que edad que mayor presencia tiene en este estudio y mientras que la edades que no son mas homogeneas son “40-49”,“50-59”,“60 or older”.
Para la variable genero se puede observar que hay mayor presencia de mujeres que los hombres.
Para la varibale actividad fisica se puede observar que el nivel “less than half an hr” es la mayor frecuencia tiene mientras que el menor nivel es “none” y que los niveles “more than half an hr”,“one hour or more” son mas homogeneos.
Para la varible comida chata se puede observar que el nivel mas alto es “occasionally” mientras que el menor frecuencia es “often” y que los datos mas homogeneos son los niveles “very often”,“always”
# grafica
qplot(diabetes2.BMI,diabetes2.Sleep,data=datos2,colour=diabeticofac)
## Warning: `qplot()` was deprecated in ggplot2 3.4.0.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
## Interpretacion
En el grafico de dispersion con las varibles indice de masa corporal con las horas de dormir se observa que ahi mas afluencia de person que no presentan diabetes.
qplot(activifisica,tomamedicina,data=datos2,colour=diabeticofac)
## Interpretacion
En el grafico de dispersion con las varibles actividad fisica con toma medicamento se observa que ahi mas afluencia de person que no presentan diabetes.
qplot(tomamedicina,familiadiabetes, data=datos2,colour=diabeticofac)
En el grafico de dispersion con las varibles regular medicina con la familia con diabetes se observa que ahi mas afluencia de person que no presentan diabetes.
qplot(diabetes2.BMI,edadfactor, data=datos2,colour=diabeticofac)
En el grafico de dispersion con las varibles inidice de masa corporal con edad se observa que en los mayores de 40 años ahi mas afluencia de person que no presentan diabetes mientras que para mayores a 60 años ahi mas afluencia de person que presentan diabetes.
qplot(fumafactor,alcolfactor, data=datos2,colour=diabeticofac)
## Interpretacion
En el grafico de dispersion con las varibles fuma con toma alcohol se observa que ahi mas afluencia de person que no presentan diabetes.
qplot(diabetes2.BMI,orinarfrec, data=datos2,colour=diabeticofac)
## Interpretacion
En el grafico de dispersion con las varibles inidice de masa corporal con orina se observa que ahi mas afluencia de person que no presentan diabetes.