DATA FRAME

datos=read.csv("https://raw.githubusercontent.com/VictorGuevaraP/Mineria-de-datos-2020/master/diabetes_m.csv", sep = ";")
head(datos)
##   n NumeroEmbarazos Concentrac.blucosa.plama Presión.arterial.diastólica
## 1 1               6                      148                          72
## 2 2               1                       85                          66
## 3 3               8                      183                          64
## 4 4               1                       89                          NA
## 5 5               0                      137                          40
## 6 6               5                      116                          74
##   Tríceps.espesor.del.pliegue.cutáneo X2.horas.suero.insulina
## 1                                  35                       0
## 2                                  29                       0
## 3                                   0                       0
## 4                                  23                      94
## 5                                  NA                     168
## 6                                   0                       0
##   Índice.de.masa.corporal Función.pedigrí.de.la.diabetes edad resultado
## 1                    33.6                          0.627   50  Positivo
## 2                    26.6                          0.351   31  Negativo
## 3                    23.3                          0.672   32  Positivo
## 4                    28.1                          0.167   21  Negativo
## 5                    43.1                          2.288   33  Positivo
## 6                    25.6                          0.201   30  Negativo

Paso 1: Entendimiento del negocio (organización)

1.1 Determinar el objetivo del negocio (organización) El Instituto Nacional de Salud del Perú es un Organismo Público Ejecutor del Ministerio de Salud del Perú cuya principal labor es la investigación de los problemas prioritarios de salud que afectan a la comunidad peruana además de realizar desarrollo ytransferencia tecnológica.

1.2 Evaluar la situación actual (entorno) La diabetes mellitus es una enfermedad crónica que se caracteriza por presentar niveles altos de azúcar en la sangre. La causa de esta afección se puede deber a un funcionamiento incorrecto del páncreas (glándula que normalmente produce la hormona insulina) o por una respuesta inadecuada del organismo ante esta hormona.Según INEI en el Perú, 2018, se detectó en su mayoría en la población femenina (77,2%) con respecto a la masculina (65,3%).La diabetes gestacional aparece durante el embarazo cuando los niveles de glucosa en sangre están por encima de lo normal, pero aún son inferiores al diagnóstico de diabetes. Las mujeres con diabetes gestacional tienen un mayor riesgo de tener complicaciones durante el embarazo y el parto.

1.3 Determinar el objetivo de la minería de datos El objetivo del conjunto de datos es predecir de forma diagnóstica si un paciente tiene diabetes o no , basándose en ciertas mediciones de diagnóstico incluidas en el conjunto de datos.

1.4 Realizar un plan de proyecto En el presente proyecto respetamos la metodología CRISP-DM, por lo tanto, como equipo tuvimos una reunión con el fin de comprender los objetivos del negocio y proceder a trabajar la data, para lo que dedicamos 40 minutos en búsqueda de información, en comprender las variables. Una vez comprendidas las variables, dedicamos 1 hora en debatir y asociar las mismas para tener una visión más amplia, por lo que ya pudimos definir el objetivo general del negocio. A partir de la información recopilada, dedicamos 20 minutos en evaluar el entorno en el que gira actualmente el tema de la data y 10 minutos en tener claro el objetivo de minería de datos. Para poder comprender la data, dedicamos 1 hora en poder insertar los comandos, graficando y explicando los mismos, comprendiendo el comportamiento de los datos. A partir de la comprensión, pasamos a la aplicación, la preparación de la data, la cual dedicamos 1 hora y media seleccionando, limpiando, construyendo e integrando la data, para poder exportar el nuevo formato de data trabajado.

Paso 2: Entendimiento de la data

2.1 Información inicial de la data

N: Es el identificador de cada paciente.

Número de Embarazos: número de veces que ha estado embarazada la persona de estudio.

Concentración de glucosa en plasma: Señala la cantidad de glucosa en la sangre. Cuando una persona ha ingerido alimento los valores normales son menores a 140 mg/DL y cuando los resultados se dan entre 140 a 190 son indicativos de diabetes.

Presión arterial diastólica: La cantidad de presión que hay en tus arterias ente un latido y otro.

Espesor del pliegue cutáneo: Es un procedimiento frecuentemente utilizado, en combinación con el índice de masa corporal (IMC), para estimar la grasa corporal. Medir los pliegues cutáneos permite valorar los depósitos de grasa del cuerpo humano.Según la medicina el espesor normal: ♂ 12 mm; ♀ 23 mm

Insulina cada 2 horas: Es una prueba de insulina que consiste analizar antes de administrar la glucosa y 2 horas después. La razón por la que se realizan estas pruebas es para ver su curva de respuesta a la glucosa.

Índice de masa corporal (IMC): Es un método utilizado para estimar la cantidad de grasa corporal que tiene una persona, y determinar por tanto si el peso está dentro del rango normal, o por el contrario, se tiene sobrepeso o delgadez.

Función pedigrí de la diabetes: Una función que califica la probabilidad de diabetes según los antecedentes familiares.

Edad en años.

Resultado: si es positivo o negativo al diagnóstico de diabetes.

2.2 Descripción de la data

Identificamos el tipo de cada dato

str(datos)
## 'data.frame':    768 obs. of  10 variables:
##  $ n                                  : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ NumeroEmbarazos                    : int  6 1 8 1 0 5 3 10 2 8 ...
##  $ Concentrac.blucosa.plama           : int  148 85 183 89 137 116 78 115 197 125 ...
##  $ Presión.arterial.diastólica        : int  72 66 64 NA 40 74 NA 0 70 96 ...
##  $ Tríceps.espesor.del.pliegue.cutáneo: int  35 29 0 23 NA 0 32 0 45 0 ...
##  $ X2.horas.suero.insulina            : int  0 0 0 94 168 0 88 0 543 0 ...
##  $ Índice.de.masa.corporal            : num  33.6 26.6 23.3 28.1 43.1 25.6 31 35.3 30.5 0 ...
##  $ Función.pedigrí.de.la.diabetes     : num  0.627 0.351 0.672 0.167 2.288 ...
##  $ edad                               : int  50 31 32 21 33 30 26 29 53 54 ...
##  $ resultado                          : Factor w/ 2 levels "Negativo","Positivo": 2 1 2 1 2 1 2 1 2 2 ...

Identificamos medidas centrales de los datos

summary(datos)
##        n         NumeroEmbarazos  Concentrac.blucosa.plama
##  Min.   :  1.0   Min.   : 0.000   Min.   :  0.0           
##  1st Qu.:192.8   1st Qu.: 1.000   1st Qu.: 99.0           
##  Median :384.5   Median : 3.000   Median :117.0           
##  Mean   :384.5   Mean   : 3.845   Mean   :120.9           
##  3rd Qu.:576.2   3rd Qu.: 6.000   3rd Qu.:140.2           
##  Max.   :768.0   Max.   :17.000   Max.   :199.0           
##                                                           
##  Presión.arterial.diastólica Tríceps.espesor.del.pliegue.cutáneo
##  Min.   :  0.00              Min.   : 0.00                      
##  1st Qu.: 62.00              1st Qu.: 0.00                      
##  Median : 72.00              Median :23.00                      
##  Mean   : 69.05              Mean   :20.41                      
##  3rd Qu.: 80.00              3rd Qu.:32.00                      
##  Max.   :122.00              Max.   :99.00                      
##  NA's   :84                  NA's   :66                         
##  X2.horas.suero.insulina Índice.de.masa.corporal Función.pedigrí.de.la.diabetes
##  Min.   :  0.00          Min.   : 0.00           Min.   :0.0780                
##  1st Qu.:  0.00          1st Qu.:27.30           1st Qu.:0.2437                
##  Median : 24.00          Median :32.00           Median :0.3725                
##  Mean   : 78.23          Mean   :31.99           Mean   :0.4719                
##  3rd Qu.:127.75          3rd Qu.:36.60           3rd Qu.:0.6262                
##  Max.   :680.00          Max.   :67.10           Max.   :2.4200                
##  NA's   :70                                                                    
##       edad          resultado  
##  Min.   :21.00   Negativo:500  
##  1st Qu.:24.00   Positivo:268  
##  Median :29.00                 
##  Mean   :33.24                 
##  3rd Qu.:41.00                 
##  Max.   :81.00                 
## 

Se cuenta con un conjunto de datos de 768 observaciones(fila) y 10 variables (columnas). La variable objetivo es “resultado”. Logramos visualizar que hay 500 casos negativos y 268 positivos. La variable n es el identificador por lo tanto no se puede realizar operaciones matemáticas.

La coerción sirve para asignar un signifcado a cada dato.

datos$n=as.factor(datos$n)

Comprobamos que la coerción haya sido efectiva.

summary(datos)
##        n       NumeroEmbarazos  Concentrac.blucosa.plama
##  1      :  1   Min.   : 0.000   Min.   :  0.0           
##  2      :  1   1st Qu.: 1.000   1st Qu.: 99.0           
##  3      :  1   Median : 3.000   Median :117.0           
##  4      :  1   Mean   : 3.845   Mean   :120.9           
##  5      :  1   3rd Qu.: 6.000   3rd Qu.:140.2           
##  6      :  1   Max.   :17.000   Max.   :199.0           
##  (Other):762                                            
##  Presión.arterial.diastólica Tríceps.espesor.del.pliegue.cutáneo
##  Min.   :  0.00              Min.   : 0.00                      
##  1st Qu.: 62.00              1st Qu.: 0.00                      
##  Median : 72.00              Median :23.00                      
##  Mean   : 69.05              Mean   :20.41                      
##  3rd Qu.: 80.00              3rd Qu.:32.00                      
##  Max.   :122.00              Max.   :99.00                      
##  NA's   :84                  NA's   :66                         
##  X2.horas.suero.insulina Índice.de.masa.corporal Función.pedigrí.de.la.diabetes
##  Min.   :  0.00          Min.   : 0.00           Min.   :0.0780                
##  1st Qu.:  0.00          1st Qu.:27.30           1st Qu.:0.2437                
##  Median : 24.00          Median :32.00           Median :0.3725                
##  Mean   : 78.23          Mean   :31.99           Mean   :0.4719                
##  3rd Qu.:127.75          3rd Qu.:36.60           3rd Qu.:0.6262                
##  Max.   :680.00          Max.   :67.10           Max.   :2.4200                
##  NA's   :70                                                                    
##       edad          resultado  
##  Min.   :21.00   Negativo:500  
##  1st Qu.:24.00   Positivo:268  
##  Median :29.00                 
##  Mean   :33.24                 
##  3rd Qu.:41.00                 
##  Max.   :81.00                 
## 

2.3 Exploración de la data

Utilizaremos la libreria ggplot para mostrar en gráficos los datos

Numero_Embarazos

library(ggplot2)
## Warning: package 'ggplot2' was built under R version 3.6.3
#Crear data
my_variable=datos$NumeroEmbarazos
# Layout to split the screen
layout(mat = matrix(c(1,2),2,1, byrow=TRUE),  height = c(1,8))
#Dibujar el boxplot y el histograma 
par(mar=c(0, 3.1, 1.1, 2.1))
boxplot(my_variable , horizontal=TRUE , xaxt="n" , col=rgb(0.8,0.8,0,0.5) , frame=F)
par(mar=c(4, 3.1, 1.1, 2.1))
hist(my_variable , breaks = "Scott" , col=rgb(0.2,0.8,0.5,0.5) , border=F , main="" , xlab="Número de Embarazos")

La mayoria de las personas en el estudio han estado embarazadas una única vez. Los casos de las personas del estudio que han estado embarazadas más de 13 veces son datos atípicos.

Concentracion_glucosa_plasma

#Crear data
my_variable=datos$Concentrac.blucosa.plama
# Layout to split the screen
layout(mat = matrix(c(1,2),2,1, byrow=TRUE),  height = c(1,8))
#Dibujar el boxplot y el histograma 
par(mar=c(0, 3.1, 1.1, 2.1))
boxplot(my_variable , horizontal=TRUE, xaxt="n" , col=rgb(0.8,0.8,0,0.5) , frame=F)
par(mar=c(4, 3.1, 1.1, 2.1))
hist(my_variable , breaks = "Scott" , col=rgb(0.2,0.8,0.5,0.5) , border=F , main="" , xlab="Concentración de glucosa en plasma")

Se observa que las personas en el estudio tienen rangos normales de glucosa en sangre que son menores a 140mg/DL. Existen 192 personas con mediciones mayores a 140mg/DL. Notamos 5 datos atípicos que muestran valores entre 0 a 10 mg/DL en la variable de concentración de glucosa en plasma.

Presion_arterial_diastolica

#Crear data
my_variable=datos$Presión.arterial.diastólica
# Layout to split the screen
layout(mat = matrix(c(1,2),2,1, byrow=TRUE),  height = c(1,8))
#Dibujar el boxplot y el histograma 
par(mar=c(0, 3.1, 1.1, 2.1))
boxplot(my_variable , horizontal=TRUE , xaxt="n" , col=rgb(0.8,0.8,0,0.5) , frame=F)
par(mar=c(4, 3.1, 1.1, 2.1))
hist(my_variable , breaks = "Scott" , col=rgb(0.2,0.8,0.5,0.5) , border=F , main="" , xlab="Presión arterial diastólica")

Aproximadamente existen 353 personas en el estudio que tienen como medición de presión entre 60 y 80 mmhg. Notamos aproximadamente 34 personas con datos atípicos menores a 20mmhg y existe dos valores mayores a 110mmhg.

Espesor_pliegue_cutaneo

#Crear data
my_variable=datos$Tríceps.espesor.del.pliegue.cutáneo
# Layout to split the screen
layout(mat = matrix(c(1,2),2,1, byrow=TRUE),  height = c(1,8))
#Dibujar el boxplot y el histograma 
par(mar=c(0, 3.1, 1.1, 2.1))
boxplot(my_variable , horizontal=TRUE , xaxt="n" , col=rgb(0.8,0.8,0,0.5) , frame=F)
par(mar=c(4, 3.1, 1.1, 2.1))
hist(my_variable , breaks = "Scott" , col=rgb(0.2,0.8,0.5,0.5) , border=F , main="" , xlab="Espesor de pliegue cutaneo")

Identificamos que la mayoria de personas aproximadamente 209 cuentan con un espesor de 5mm del pliegue cutáneo. Visualizamos un dato atípico mayor a 80mm.

Insulina cada 2 horas

#Crear data
my_variable=datos$X2.horas.suero.insulina
# Layout to split the screen
layout(mat = matrix(c(1,2),2,1, byrow=TRUE),  height = c(1,8))
#Dibujar el boxplot y el histograma 
par(mar=c(0, 3.1, 1.1, 2.1))
boxplot(my_variable , horizontal=TRUE , xaxt="n" , col=rgb(0.8,0.8,0,0.5) , frame=F)
par(mar=c(4, 3.1, 1.1, 2.1))
hist(my_variable , breaks = "Scott" , col=rgb(0.2,0.8,0.5,0.5) , border=F , main="" , xlab="Insulina por 2 horas")

Visualizamos que la mayoría de la población de estudio tiende a tener medidas entre 0 y 50 U/ml en la variable del test de insulina.

Masa_Corporal

#Crear data
my_variable=datos$Índice.de.masa.corporal
# Layout to split the screen
layout(mat = matrix(c(1,2),2,1, byrow=TRUE),  height = c(1,8))
#Dibujar el boxplot y el histograma 
par(mar=c(0, 3.1, 1.1, 2.1))
boxplot(my_variable , horizontal=TRUE , xaxt="n" , col=rgb(0.8,0.8,0,0.5) , frame=F)
par(mar=c(4, 3.1, 1.1, 2.1))
hist(my_variable , breaks = "Scott" , col=rgb(0.2,0.8,0.5,0.5) , border=F , main="" , xlab="Indice de Masa Corporal")

Encontramos valores que la distribución se centra entre 30 y 35 kg/m2. Existen 5 datos atípicos menores a 5kg/m2 y que tienen como valor 0.

Pedigrí de la diabetes

#Crear data
my_variable=datos$Función.pedigrí.de.la.diabetes
# Layout to split the screen
layout(mat = matrix(c(1,2),2,1, byrow=TRUE),  height = c(1,8))
#Dibujar el boxplot y el histograma 
par(mar=c(0, 3.1, 1.1, 2.1))
boxplot(my_variable , horizontal=TRUE , xaxt="n" , col=rgb(0.8,0.8,0,0.5) , frame=F)
par(mar=c(4, 3.1, 1.1, 2.1))
hist(my_variable , breaks = "Scott" , col=rgb(0.2,0.8,0.5,0.5) , border=F , main="" , xlab="Pedigrí de la Diabetes")

Encontramos que la mayoría de personas en estudio tienen entre un 20% y 30% de probabilidad de tener diabetes según antecedentes familiares.

Edad

#Crear data
my_variable=datos$edad
# Layout to split the screen
layout(mat = matrix(c(1,2),2,1, byrow=TRUE),  height = c(1,8))
#Dibujar el boxplot y el histograma 
par(mar=c(0, 3.1, 1.1, 2.1))
boxplot(my_variable , horizontal=TRUE , xaxt="n" , col=rgb(0.8,0.8,0,0.5) , frame=F)
par(mar=c(4, 3.1, 1.1, 2.1))
hist(my_variable , breaks = "Scott" , col=rgb(0.2,0.8,0.5,0.5) , border=F , main="" , xlab="Edad")

La mayoria de las personas en el estudio su edad es de entre 20 a 25 años. Las edades de 65 a más son atípicas en esta data.

2.4 Verificación de la calidad de la data

library(VIM)
## Warning: package 'VIM' was built under R version 3.6.3
## Loading required package: colorspace
## Loading required package: grid
## Loading required package: data.table
## VIM is ready to use. 
##  Since version 4.0.0 the GUI is in its own package VIMGUI.
## 
##           Please use the package to use the new (and old) GUI.
## Suggestions and bug-reports can be submitted at: https://github.com/alexkowa/VIM/issues
## 
## Attaching package: 'VIM'
## The following object is masked from 'package:datasets':
## 
##     sleep
aggr(datos, numbers = TRUE, prop = c(TRUE, FALSE))

Paso 3: Preparación de la data

3.1 Seleccionar la data

datosnew=datos[,2:9]
head(datosnew)
##   NumeroEmbarazos Concentrac.blucosa.plama Presión.arterial.diastólica
## 1               6                      148                          72
## 2               1                       85                          66
## 3               8                      183                          64
## 4               1                       89                          NA
## 5               0                      137                          40
## 6               5                      116                          74
##   Tríceps.espesor.del.pliegue.cutáneo X2.horas.suero.insulina
## 1                                  35                       0
## 2                                  29                       0
## 3                                   0                       0
## 4                                  23                      94
## 5                                  NA                     168
## 6                                   0                       0
##   Índice.de.masa.corporal Función.pedigrí.de.la.diabetes edad
## 1                    33.6                          0.627   50
## 2                    26.6                          0.351   31
## 3                    23.3                          0.672   32
## 4                    28.1                          0.167   21
## 5                    43.1                          2.288   33
## 6                    25.6                          0.201   30

3.2 Limpiar la data

El porcentaje de datos faltantes, es de 3.18% por lo que es manejable, así que procedemos a hacer una imputación de tendencia central para no perder registros.

library(DMwR)
## Warning: package 'DMwR' was built under R version 3.6.3
## Loading required package: lattice
## Registered S3 method overwritten by 'xts':
##   method     from
##   as.zoo.xts zoo
## Registered S3 method overwritten by 'quantmod':
##   method            from
##   as.zoo.data.frame zoo
## 
## Attaching package: 'DMwR'
## The following object is masked from 'package:VIM':
## 
##     kNN
datosnew2=centralImputation(datosnew)
summary(datosnew2)
##  NumeroEmbarazos  Concentrac.blucosa.plama Presión.arterial.diastólica
##  Min.   : 0.000   Min.   :  0.0            Min.   :  0.00             
##  1st Qu.: 1.000   1st Qu.: 99.0            1st Qu.: 64.00             
##  Median : 3.000   Median :117.0            Median : 72.00             
##  Mean   : 3.845   Mean   :120.9            Mean   : 69.37             
##  3rd Qu.: 6.000   3rd Qu.:140.2            3rd Qu.: 78.00             
##  Max.   :17.000   Max.   :199.0            Max.   :122.00             
##  Tríceps.espesor.del.pliegue.cutáneo X2.horas.suero.insulina
##  Min.   : 0.00                       Min.   :  0.00         
##  1st Qu.: 0.00                       1st Qu.:  0.00         
##  Median :23.00                       Median : 24.00         
##  Mean   :20.63                       Mean   : 73.29         
##  3rd Qu.:32.00                       3rd Qu.:115.25         
##  Max.   :99.00                       Max.   :680.00         
##  Índice.de.masa.corporal Función.pedigrí.de.la.diabetes      edad      
##  Min.   : 0.00           Min.   :0.0780                 Min.   :21.00  
##  1st Qu.:27.30           1st Qu.:0.2437                 1st Qu.:24.00  
##  Median :32.00           Median :0.3725                 Median :29.00  
##  Mean   :31.99           Mean   :0.4719                 Mean   :33.24  
##  3rd Qu.:36.60           3rd Qu.:0.6262                 3rd Qu.:41.00  
##  Max.   :67.10           Max.   :2.4200                 Max.   :81.00
dim(datosnew2)
## [1] 768   8

Hemos realizado la imputación de los datos nulos, es decir, se han rellenado los datos para no perder la información.

Se sigue contando con 768 registros.

3.3 Construir data

library(ggcorrplot)
## Warning: package 'ggcorrplot' was built under R version 3.6.3
corr <- round(cor(datosnew2), 1)

ggcorrplot(corr, hc.order = TRUE, type = "lower",
           outline.col = "white",
           colors = c("#6D9EC1", "white", "#E46726")) +
  labs(title="Matriz de correlación", 
       subtitle="Correlación de las variables", 
       color=NULL) +
  theme(legend.position="right")

Como visto existen una correlación entre las variables.

library(arules)
## Warning: package 'arules' was built under R version 3.6.3
## Loading required package: Matrix
## 
## Attaching package: 'arules'
## The following objects are masked from 'package:base':
## 
##     abbreviate, write
insulina_disc=nclass.Sturges(datosnew2$X2.horas.suero.insulina)
insulina_disc
## [1] 11
insulina_discretizada=discretize(datosnew2$X2.horas.suero.insulina, method = "interval", breaks=insulina_disc )
insulina_discretizada
##   [1] [0,61.8)   [0,61.8)   [0,61.8)   [61.8,124) [124,185)  [0,61.8)  
##   [7] [61.8,124) [0,61.8)   [495,556)  [0,61.8)   [0,61.8)   [0,61.8)  
##  [13] [0,61.8)   [0,61.8)   [124,185)  [0,61.8)   [185,247)  [0,61.8)  
##  [19] [61.8,124) [61.8,124) [185,247)  [0,61.8)   [0,61.8)   [0,61.8)  
##  [25] [124,185)  [61.8,124) [0,61.8)   [124,185)  [61.8,124) [0,61.8)  
##  [31] [0,61.8)   [185,247)  [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)  
##  [37] [0,61.8)   [0,61.8)   [0,61.8)   [185,247)  [61.8,124) [0,61.8)  
##  [43] [0,61.8)   [185,247)  [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)  
##  [49] [0,61.8)   [0,61.8)   [61.8,124) [0,61.8)   [0,61.8)   [247,309) 
##  [55] [309,371)  [0,61.8)   [0,61.8)   [61.8,124) [0,61.8)   [124,185) 
##  [61] [0,61.8)   [0,61.8)   [0,61.8)   [124,185)  [0,61.8)   [0,61.8)  
##  [67] [0,61.8)   [0,61.8)   [0,61.8)   [61.8,124) [61.8,124) [124,185) 
##  [73] [0,61.8)   [247,309)  [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)  
##  [79] [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)  
##  [85] [0,61.8)   [124,185)  [0,61.8)   [61.8,124) [61.8,124) [0,61.8)  
##  [91] [0,61.8)   [124,185)  [0,61.8)   [0,61.8)   [61.8,124) [185,247) 
##  [97] [0,61.8)   [61.8,124) [0,61.8)   [185,247)  [0,61.8)   [0,61.8)  
## [103] [0,61.8)   [0,61.8)   [0,61.8)   [124,185)  [0,61.8)   [124,185) 
## [109] [0,61.8)   [0,61.8)   [124,185)  [495,556)  [0,61.8)   [0,61.8)  
## [115] [124,185)  [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)  
## [121] [0,61.8)   [0,61.8)   [61.8,124) [0,61.8)   [0,61.8)   [61.8,124)
## [127] [124,185)  [0,61.8)   [124,185)  [0,61.8)   [124,185)  [0,61.8)  
## [133] [185,247)  [0,61.8)   [0,61.8)   [124,185)  [0,61.8)   [61.8,124)
## [139] [0,61.8)   [309,371)  [0,61.8)   [0,61.8)   [61.8,124) [0,61.8)  
## [145] [247,309)  [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)  
## [151] [185,247)  [0,61.8)   [124,185)  [433,495)  [0,61.8)   [0,61.8)  
## [157] [61.8,124) [124,185)  [0,61.8)   [61.8,124) [0,61.8)   [61.8,124)
## [163] [247,309)  [0,61.8)   [0,61.8)   [124,185)  [0,61.8)   [0,61.8)  
## [169] [0,61.8)   [61.8,124) [0,61.8)   [124,185)  [0,61.8)   [0,61.8)  
## [175] [0,61.8)   [124,185)  [0,61.8)   [124,185)  [0,61.8)   [0,61.8)  
## [181] [0,61.8)   [61.8,124) [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)  
## [187] [495,556)  [0,61.8)   [61.8,124) [0,61.8)   [0,61.8)   [61.8,124)
## [193] [0,61.8)   [0,61.8)   [0,61.8)   [185,247)  [0,61.8)   [0,61.8)  
## [199] [61.8,124) [309,371)  [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)  
## [205] [185,247)  [0,61.8)   [247,309)  [0,61.8)   [61.8,124) [0,61.8)  
## [211] [0,61.8)   [0,61.8)   [0,61.8)   [124,185)  [124,185)  [247,309) 
## [217] [0,61.8)   [61.8,124) [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)  
## [223] [0,61.8)   [185,247)  [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)  
## [229] [0,61.8)   [0,61.8)   [0,61.8)   [309,371)  [0,61.8)   [0,61.8)  
## [235] [0,61.8)   [0,61.8)   [185,247)  [0,61.8)   [0,61.8)   [0,61.8)  
## [241] [0,61.8)   [61.8,124) [0,61.8)   [124,185)  [185,247)  [0,61.8)  
## [247] [0,61.8)   [618,680]  [371,433)  [0,61.8)   [0,61.8)   [0,61.8)  
## [253] [0,61.8)   [0,61.8)   [247,309)  [0,61.8)   [0,61.8)   [0,61.8)  
## [259] [371,433)  [124,185)  [124,185)  [0,61.8)   [0,61.8)   [0,61.8)  
## [265] [0,61.8)   [61.8,124) [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)  
## [271] [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)  
## [277] [0,61.8)   [61.8,124) [0,61.8)   [247,309)  [0,61.8)   [61.8,124)
## [283] [124,185)  [0,61.8)   [0,61.8)   [124,185)  [495,556)  [185,247) 
## [289] [0,61.8)   [61.8,124) [0,61.8)   [61.8,124) [124,185)  [185,247) 
## [295] [0,61.8)   [61.8,124) [309,371)  [185,247)  [124,185)  [0,61.8)  
## [301] [0,61.8)   [124,185)  [0,61.8)   [0,61.8)   [0,61.8)   [61.8,124)
## [307] [124,185)  [124,185)  [0,61.8)   [185,247)  [0,61.8)   [124,185) 
## [313] [61.8,124) [0,61.8)   [0,61.8)   [61.8,124) [61.8,124) [0,61.8)  
## [319] [124,185)  [0,61.8)   [185,247)  [0,61.8)   [0,61.8)   [0,61.8)  
## [325] [0,61.8)   [124,185)  [124,185)  [0,61.8)   [0,61.8)   [61.8,124)
## [331] [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)   [247,309) 
## [337] [0,61.8)   [0,61.8)   [124,185)  [0,61.8)   [61.8,124) [61.8,124)
## [343] [0,61.8)   [0,61.8)   [0,61.8)   [61.8,124) [61.8,124) [0,61.8)  
## [349] [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)  
## [355] [0,61.8)   [0,61.8)   [124,185)  [0,61.8)   [0,61.8)   [247,309) 
## [361] [309,371)  [0,61.8)   [0,61.8)   [0,61.8)   [247,309)  [61.8,124)
## [367] [0,61.8)   [0,61.8)   [61.8,124) [124,185)  [433,495)  [61.8,124)
## [373] [61.8,124) [61.8,124) [124,185)  [309,371)  [0,61.8)   [61.8,124)
## [379] [0,61.8)   [61.8,124) [61.8,124) [0,61.8)   [124,185)  [0,61.8)  
## [385] [61.8,124) [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)   [61.8,124)
## [391] [185,247)  [0,61.8)   [371,433)  [61.8,124) [0,61.8)   [247,309) 
## [397] [61.8,124) [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)  
## [403] [61.8,124) [0,61.8)   [0,61.8)   [124,185)  [0,61.8)   [0,61.8)  
## [409] [0,61.8)   [556,618)  [0,61.8)   [124,185)  [309,371)  [0,61.8)  
## [415] [124,185)  [433,495)  [0,61.8)   [0,61.8)   [0,61.8)   [61.8,124)
## [421] [124,185)  [61.8,124) [61.8,124) [0,61.8)   [185,247)  [247,309) 
## [427] [0,61.8)   [124,185)  [124,185)  [124,185)  [0,61.8)   [61.8,124)
## [433] [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)  
## [439] [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)   [61.8,124) [0,61.8)  
## [445] [0,61.8)   [0,61.8)   [61.8,124) [61.8,124) [61.8,124) [61.8,124)
## [451] [61.8,124) [0,61.8)   [185,247)  [0,61.8)   [0,61.8)   [0,61.8)  
## [457] [0,61.8)   [0,61.8)   [185,247)  [0,61.8)   [0,61.8)   [0,61.8)  
## [463] [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)   [61.8,124)
## [469] [0,61.8)   [124,185)  [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)  
## [475] [0,61.8)   [0,61.8)   [185,247)  [61.8,124) [61.8,124) [0,61.8)  
## [481] [309,371)  [0,61.8)   [0,61.8)   [124,185)  [0,61.8)   [247,309) 
## [487] [433,495)  [247,309)  [0,61.8)   [0,61.8)   [61.8,124) [0,61.8)  
## [493] [0,61.8)   [61.8,124) [0,61.8)   [0,61.8)   [0,61.8)   [61.8,124)
## [499] [124,185)  [185,247)  [61.8,124) [0,61.8)   [0,61.8)   [61.8,124)
## [505] [0,61.8)   [0,61.8)   [61.8,124) [0,61.8)   [61.8,124) [0,61.8)  
## [511] [0,61.8)   [185,247)  [0,61.8)   [0,61.8)   [61.8,124) [0,61.8)  
## [517] [124,185)  [0,61.8)   [0,61.8)   [309,371)  [61.8,124) [124,185) 
## [523] [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)   [61.8,124) [61.8,124)
## [529] [185,247)  [0,61.8)   [61.8,124) [0,61.8)   [61.8,124) [0,61.8)  
## [535] [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)  
## [541] [185,247)  [185,247)  [0,61.8)   [0,61.8)   [61.8,124) [185,247) 
## [547] [185,247)  [124,185)  [61.8,124) [0,61.8)   [0,61.8)   [61.8,124)
## [553] [0,61.8)   [0,61.8)   [61.8,124) [185,247)  [0,61.8)   [0,61.8)  
## [559] [0,61.8)   [0,61.8)   [0,61.8)   [247,309)  [61.8,124) [0,61.8)  
## [565] [0,61.8)   [61.8,124) [0,61.8)   [124,185)  [0,61.8)   [124,185) 
## [571] [0,61.8)   [0,61.8)   [0,61.8)   [61.8,124) [309,371)  [61.8,124)
## [577] [124,185)  [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)  
## [583] [0,61.8)   [0,61.8)   [556,618)  [0,61.8)   [0,61.8)   [0,61.8)  
## [589] [124,185)  [0,61.8)   [0,61.8)   [124,185)  [0,61.8)   [61.8,124)
## [595] [185,247)  [124,185)  [0,61.8)   [0,61.8)   [0,61.8)   [61.8,124)
## [601] [0,61.8)   [0,61.8)   [0,61.8)   [124,185)  [0,61.8)   [0,61.8)  
## [607] [0,61.8)   [0,61.8)   [247,309)  [124,185)  [124,185)  [185,247) 
## [613] [309,371)  [0,61.8)   [124,185)  [0,61.8)   [0,61.8)   [0,61.8)  
## [619] [0,61.8)   [0,61.8)   [124,185)  [0,61.8)   [0,61.8)   [0,61.8)  
## [625] [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)  
## [631] [0,61.8)   [61.8,124) [0,61.8)   [124,185)  [0,61.8)   [0,61.8)  
## [637] [0,61.8)   [61.8,124) [61.8,124) [0,61.8)   [61.8,124) [0,61.8)  
## [643] [0,61.8)   [0,61.8)   [124,185)  [433,495)  [0,61.8)   [124,185) 
## [649] [124,185)  [0,61.8)   [61.8,124) [61.8,124) [61.8,124) [0,61.8)  
## [655] [124,185)  [495,556)  [61.8,124) [185,247)  [0,61.8)   [61.8,124)
## [661] [0,61.8)   [0,61.8)   [185,247)  [124,185)  [0,61.8)   [0,61.8)  
## [667] [0,61.8)   [0,61.8)   [185,247)  [61.8,124) [124,185)  [0,61.8)  
## [673] [0,61.8)   [185,247)  [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)  
## [679] [0,61.8)   [247,309)  [0,61.8)   [0,61.8)   [61.8,124) [0,61.8)  
## [685] [0,61.8)   [185,247)  [0,61.8)   [0,61.8)   [124,185)  [124,185) 
## [691] [0,61.8)   [0,61.8)   [61.8,124) [124,185)  [0,61.8)   [433,495) 
## [697] [124,185)  [0,61.8)   [124,185)  [0,61.8)   [185,247)  [0,61.8)  
## [703] [0,61.8)   [0,61.8)   [61.8,124) [0,61.8)   [0,61.8)   [0,61.8)  
## [709] [0,61.8)   [124,185)  [371,433)  [0,61.8)   [0,61.8)   [247,309) 
## [715] [0,61.8)   [371,433)  [124,185)  [0,61.8)   [124,185)  [0,61.8)  
## [721] [0,61.8)   [185,247)  [124,185)  [61.8,124) [0,61.8)   [0,61.8)  
## [727] [124,185)  [0,61.8)   [0,61.8)   [0,61.8)   [61.8,124) [0,61.8)  
## [733] [61.8,124) [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)  
## [739] [124,185)  [0,61.8)   [124,185)  [61.8,124) [61.8,124) [0,61.8)  
## [745] [124,185)  [61.8,124) [0,61.8)   [0,61.8)   [185,247)  [0,61.8)  
## [751] [0,61.8)   [61.8,124) [0,61.8)   [495,556)  [0,61.8)   [61.8,124)
## [757] [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)   [0,61.8)  
## [763] [0,61.8)   [124,185)  [0,61.8)   [61.8,124) [0,61.8)   [0,61.8)  
## attr(,"discretized:breaks")
##  [1]   0.00000  61.81818 123.63636 185.45455 247.27273 309.09091 370.90909
##  [8] 432.72727 494.54545 556.36364 618.18182 680.00000
## attr(,"discretized:method")
## [1] interval
## 11 Levels: [0,61.8) [61.8,124) [124,185) [185,247) [247,309) ... [618,680]
edad_disc=nclass.Sturges(datosnew2$edad)
edad_disc
## [1] 11
edad_discretizada=discretize(datosnew2$edad, method = "interval", breaks=edad_disc )
edad_discretizada
##   [1] [48.3,53.7) [26.5,31.9) [31.9,37.4) [21,26.5)   [31.9,37.4) [26.5,31.9)
##   [7] [21,26.5)   [26.5,31.9) [48.3,53.7) [53.7,59.2) [26.5,31.9) [31.9,37.4)
##  [13] [53.7,59.2) [53.7,59.2) [48.3,53.7) [31.9,37.4) [26.5,31.9) [26.5,31.9)
##  [19] [31.9,37.4) [31.9,37.4) [26.5,31.9) [48.3,53.7) [37.4,42.8) [26.5,31.9)
##  [25] [48.3,53.7) [37.4,42.8) [42.8,48.3) [21,26.5)   [53.7,59.2) [37.4,42.8)
##  [31] [59.2,64.6) [26.5,31.9) [21,26.5)   [26.5,31.9) [42.8,48.3) [31.9,37.4)
##  [37] [31.9,37.4) [42.8,48.3) [26.5,31.9) [53.7,59.2) [21,26.5)   [31.9,37.4)
##  [43] [42.8,48.3) [53.7,59.2) [37.4,42.8) [21,26.5)   [26.5,31.9) [21,26.5)  
##  [49] [26.5,31.9) [21,26.5)   [21,26.5)   [21,26.5)   [26.5,31.9) [53.7,59.2)
##  [55] [37.4,42.8) [21,26.5)   [37.4,42.8) [26.5,31.9) [42.8,48.3) [21,26.5)  
##  [61] [21,26.5)   [37.4,42.8) [31.9,37.4) [21,26.5)   [37.4,42.8) [31.9,37.4)
##  [67] [37.4,42.8) [53.7,59.2) [21,26.5)   [26.5,31.9) [26.5,31.9) [21,26.5)  
##  [73] [37.4,42.8) [21,26.5)   [21,26.5)   [21,26.5)   [37.4,42.8) [26.5,31.9)
##  [79] [21,26.5)   [21,26.5)   [21,26.5)   [21,26.5)   [31.9,37.4) [21,26.5)  
##  [85] [31.9,37.4) [26.5,31.9) [42.8,48.3) [21,26.5)   [42.8,48.3) [21,26.5)  
##  [91] [21,26.5)   [31.9,37.4) [37.4,42.8) [59.2,64.6) [21,26.5)   [37.4,42.8)
##  [97] [21,26.5)   [21,26.5)   [21,26.5)   [26.5,31.9) [31.9,37.4) [21,26.5)  
## [103] [21,26.5)   [21,26.5)   [26.5,31.9) [21,26.5)   [26.5,31.9) [31.9,37.4)
## [109] [21,26.5)   [21,26.5)   [21,26.5)   [42.8,48.3) [21,26.5)   [21,26.5)  
## [115] [37.4,42.8) [59.2,64.6) [37.4,42.8) [21,26.5)   [21,26.5)   [21,26.5)  
## [121] [21,26.5)   [21,26.5)   [21,26.5)   [64.6,70.1) [21,26.5)   [21,26.5)  
## [127] [26.5,31.9) [21,26.5)   [37.4,42.8) [59.2,64.6) [31.9,37.4) [31.9,37.4)
## [133] [26.5,31.9) [37.4,42.8) [21,26.5)   [26.5,31.9) [21,26.5)   [21,26.5)  
## [139] [26.5,31.9) [26.5,31.9) [53.7,59.2) [37.4,42.8) [21,26.5)   [37.4,42.8)
## [145] [21,26.5)   [21,26.5)   [37.4,42.8) [31.9,37.4) [64.6,70.1) [21,26.5)  
## [151] [21,26.5)   [31.9,37.4) [37.4,42.8) [21,26.5)   [42.8,48.3) [31.9,37.4)
## [157] [21,26.5)   [21,26.5)   [21,26.5)   [42.8,48.3) [31.9,37.4) [42.8,48.3)
## [163] [26.5,31.9) [21,26.5)   [31.9,37.4) [37.4,42.8) [21,26.5)   [31.9,37.4)
## [169] [26.5,31.9) [26.5,31.9) [31.9,37.4) [26.5,31.9) [21,26.5)   [21,26.5)  
## [175] [31.9,37.4) [31.9,37.4) [37.4,42.8) [21,26.5)   [42.8,48.3) [31.9,37.4)
## [181] [31.9,37.4) [21,26.5)   [21,26.5)   [26.5,31.9) [37.4,42.8) [37.4,42.8)
## [187] [59.2,64.6) [31.9,37.4) [26.5,31.9) [21,26.5)   [21,26.5)   [37.4,42.8)
## [193] [31.9,37.4) [37.4,42.8) [37.4,42.8) [26.5,31.9) [21,26.5)   [21,26.5)  
## [199] [21,26.5)   [26.5,31.9) [21,26.5)   [26.5,31.9) [31.9,37.4) [26.5,31.9)
## [205] [53.7,59.2) [26.5,31.9) [53.7,59.2) [48.3,53.7) [21,26.5)   [37.4,42.8)
## [211] [21,26.5)   [21,26.5)   [59.2,64.6) [21,26.5)   [31.9,37.4) [37.4,42.8)
## [217] [21,26.5)   [31.9,37.4) [31.9,37.4) [37.4,42.8) [21,26.5)   [64.6,70.1)
## [223] [31.9,37.4) [59.2,64.6) [21,26.5)   [21,26.5)   [21,26.5)   [21,26.5)  
## [229] [26.5,31.9) [21,26.5)   [21,26.5)   [42.8,48.3) [21,26.5)   [26.5,31.9)
## [235] [21,26.5)   [21,26.5)   [48.3,53.7) [21,26.5)   [31.9,37.4) [26.5,31.9)
## [241] [21,26.5)   [21,26.5)   [21,26.5)   [31.9,37.4) [26.5,31.9) [48.3,53.7)
## [247] [37.4,42.8) [21,26.5)   [31.9,37.4) [21,26.5)   [37.4,42.8) [26.5,31.9)
## [253] [21,26.5)   [21,26.5)   [42.8,48.3) [21,26.5)   [26.5,31.9) [21,26.5)  
## [259] [21,26.5)   [48.3,53.7) [31.9,37.4) [26.5,31.9) [21,26.5)   [59.2,64.6)
## [265] [31.9,37.4) [42.8,48.3) [21,26.5)   [21,26.5)   [21,26.5)   [26.5,31.9)
## [271] [37.4,42.8) [21,26.5)   [37.4,42.8) [21,26.5)   [48.3,53.7) [21,26.5)  
## [277] [26.5,31.9) [21,26.5)   [53.7,59.2) [21,26.5)   [26.5,31.9) [37.4,42.8)
## [283] [31.9,37.4) [42.8,48.3) [48.3,53.7) [48.3,53.7) [31.9,37.4) [26.5,31.9)
## [289] [21,26.5)   [31.9,37.4) [21,26.5)   [21,26.5)   [26.5,31.9) [21,26.5)  
## [295] [64.6,70.1) [26.5,31.9) [26.5,31.9) [21,26.5)   [42.8,48.3) [53.7,59.2)
## [301] [26.5,31.9) [21,26.5)   [31.9,37.4) [26.5,31.9) [31.9,37.4) [26.5,31.9)
## [307] [42.8,48.3) [21,26.5)   [21,26.5)   [26.5,31.9) [37.4,42.8) [21,26.5)  
## [313] [26.5,31.9) [21,26.5)   [42.8,48.3) [21,26.5)   [26.5,31.9) [26.5,31.9)
## [319] [26.5,31.9) [53.7,59.2) [26.5,31.9) [21,26.5)   [31.9,37.4) [42.8,48.3)
## [325] [21,26.5)   [21,26.5)   [26.5,31.9) [31.9,37.4) [21,26.5)   [31.9,37.4)
## [331] [42.8,48.3) [21,26.5)   [37.4,42.8) [42.8,48.3) [21,26.5)   [21,26.5)  
## [337] [42.8,48.3) [42.8,48.3) [31.9,37.4) [37.4,42.8) [21,26.5)   [31.9,37.4)
## [343] [21,26.5)   [31.9,37.4) [53.7,59.2) [48.3,53.7) [21,26.5)   [21,26.5)  
## [349] [21,26.5)   [31.9,37.4) [26.5,31.9) [26.5,31.9) [42.8,48.3) [21,26.5)  
## [355] [21,26.5)   [48.3,53.7) [26.5,31.9) [42.8,48.3) [42.8,48.3) [26.5,31.9)
## [361] [26.5,31.9) [59.2,64.6) [64.6,70.1) [64.6,70.1) [26.5,31.9) [26.5,31.9)
## [367] [26.5,31.9) [21,26.5)   [21,26.5)   [42.8,48.3) [21,26.5)   [21,26.5)  
## [373] [21,26.5)   [21,26.5)   [26.5,31.9) [53.7,59.2) [21,26.5)   [21,26.5)  
## [379] [31.9,37.4) [31.9,37.4) [21,26.5)   [21,26.5)   [21,26.5)   [21,26.5)  
## [385] [21,26.5)   [21,26.5)   [31.9,37.4) [42.8,48.3) [53.7,59.2) [26.5,31.9)
## [391] [37.4,42.8) [26.5,31.9) [21,26.5)   [31.9,37.4) [26.5,31.9) [21,26.5)  
## [397] [37.4,42.8) [21,26.5)   [21,26.5)   [21,26.5)   [26.5,31.9) [53.7,59.2)
## [403] [31.9,37.4) [37.4,42.8) [37.4,42.8) [21,26.5)   [42.8,48.3) [21,26.5)  
## [409] [37.4,42.8) [26.5,31.9) [26.5,31.9) [21,26.5)   [21,26.5)   [21,26.5)  
## [415] [21,26.5)   [21,26.5)   [21,26.5)   [31.9,37.4) [26.5,31.9) [26.5,31.9)
## [421] [21,26.5)   [21,26.5)   [21,26.5)   [21,26.5)   [31.9,37.4) [26.5,31.9)
## [427] [21,26.5)   [37.4,42.8) [21,26.5)   [42.8,48.3) [21,26.5)   [37.4,42.8)
## [433] [21,26.5)   [26.5,31.9) [31.9,37.4) [26.5,31.9) [37.4,42.8) [26.5,31.9)
## [439] [21,26.5)   [26.5,31.9) [37.4,42.8) [21,26.5)   [21,26.5)   [31.9,37.4)
## [445] [26.5,31.9) [21,26.5)   [26.5,31.9) [21,26.5)   [21,26.5)   [21,26.5)  
## [451] [21,26.5)   [21,26.5)   [21,26.5)   [70.1,75.5) [21,26.5)   [37.4,42.8)
## [457] [59.2,64.6) [21,26.5)   [48.3,53.7) [75.5,81]   [42.8,48.3) [21,26.5)  
## [463] [37.4,42.8) [31.9,37.4) [31.9,37.4) [21,26.5)   [21,26.5)   [21,26.5)  
## [469] [37.4,42.8) [26.5,31.9) [26.5,31.9) [21,26.5)   [21,26.5)   [48.3,53.7)
## [475] [21,26.5)   [53.7,59.2) [26.5,31.9) [26.5,31.9) [37.4,42.8) [59.2,64.6)
## [481] [31.9,37.4) [26.5,31.9) [26.5,31.9) [21,26.5)   [26.5,31.9) [21,26.5)  
## [487] [21,26.5)   [53.7,59.2) [26.5,31.9) [64.6,70.1) [21,26.5)   [37.4,42.8)
## [493] [31.9,37.4) [42.8,48.3) [21,26.5)   [64.6,70.1) [26.5,31.9) [21,26.5)  
## [499] [53.7,59.2) [37.4,42.8) [21,26.5)   [26.5,31.9) [37.4,42.8) [37.4,42.8)
## [505] [37.4,42.8) [37.4,42.8) [31.9,37.4) [21,26.5)   [21,26.5)   [59.2,64.6)
## [511] [42.8,48.3) [21,26.5)   [53.7,59.2) [21,26.5)   [21,26.5)   [26.5,31.9)
## [517] [48.3,53.7) [48.3,53.7) [37.4,42.8) [59.2,64.6) [21,26.5)   [21,26.5)  
## [523] [21,26.5)   [42.8,48.3) [21,26.5)   [21,26.5)   [21,26.5)   [21,26.5)  
## [529] [21,26.5)   [26.5,31.9) [21,26.5)   [21,26.5)   [26.5,31.9) [26.5,31.9)
## [535] [21,26.5)   [21,26.5)   [42.8,48.3) [64.6,70.1) [21,26.5)   [31.9,37.4)
## [541] [42.8,48.3) [26.5,31.9) [53.7,59.2) [21,26.5)   [26.5,31.9) [31.9,37.4)
## [547] [48.3,53.7) [26.5,31.9) [48.3,53.7) [31.9,37.4) [21,26.5)   [21,26.5)  
## [553] [64.6,70.1) [21,26.5)   [26.5,31.9) [31.9,37.4) [26.5,31.9) [53.7,59.2)
## [559] [37.4,42.8) [31.9,37.4) [53.7,59.2) [26.5,31.9) [21,26.5)   [31.9,37.4)
## [565] [26.5,31.9) [21,26.5)   [21,26.5)   [42.8,48.3) [31.9,37.4) [31.9,37.4)
## [571] [37.4,42.8) [21,26.5)   [21,26.5)   [21,26.5)   [21,26.5)   [21,26.5)  
## [577] [31.9,37.4) [21,26.5)   [31.9,37.4) [59.2,64.6) [21,26.5)   [26.5,31.9)
## [583] [59.2,64.6) [37.4,42.8) [48.3,53.7) [21,26.5)   [37.4,42.8) [26.5,31.9)
## [589] [48.3,53.7) [21,26.5)   [42.8,48.3) [21,26.5)   [42.8,48.3) [21,26.5)  
## [595] [31.9,37.4) [21,26.5)   [42.8,48.3) [21,26.5)   [37.4,42.8) [21,26.5)  
## [601] [21,26.5)   [26.5,31.9) [26.5,31.9) [53.7,59.2) [31.9,37.4) [21,26.5)  
## [607] [21,26.5)   [21,26.5)   [26.5,31.9) [21,26.5)   [21,26.5)   [31.9,37.4)
## [613] [37.4,42.8) [21,26.5)   [48.3,53.7) [26.5,31.9) [26.5,31.9) [21,26.5)  
## [619] [48.3,53.7) [21,26.5)   [26.5,31.9) [26.5,31.9) [42.8,48.3) [21,26.5)  
## [625] [21,26.5)   [26.5,31.9) [21,26.5)   [21,26.5)   [42.8,48.3) [21,26.5)  
## [631] [31.9,37.4) [21,26.5)   [21,26.5)   [21,26.5)   [26.5,31.9) [37.4,42.8)
## [637] [42.8,48.3) [21,26.5)   [31.9,37.4) [26.5,31.9) [26.5,31.9) [21,26.5)  
## [643] [48.3,53.7) [26.5,31.9) [26.5,31.9) [26.5,31.9) [31.9,37.4) [21,26.5)  
## [649] [37.4,42.8) [21,26.5)   [21,26.5)   [26.5,31.9) [26.5,31.9) [26.5,31.9)
## [655] [21,26.5)   [21,26.5)   [21,26.5)   [37.4,42.8) [48.3,53.7) [26.5,31.9)
## [661] [53.7,59.2) [21,26.5)   [42.8,48.3) [37.4,42.8) [37.4,42.8) [21,26.5)  
## [667] [64.6,70.1) [37.4,42.8) [42.8,48.3) [42.8,48.3) [48.3,53.7) [21,26.5)  
## [673] [42.8,48.3) [21,26.5)   [64.6,70.1) [26.5,31.9) [48.3,53.7) [21,26.5)  
## [679] [21,26.5)   [21,26.5)   [21,26.5)   [21,26.5)   [21,26.5)   [26.5,31.9)
## [685] [64.6,70.1) [21,26.5)   [21,26.5)   [26.5,31.9) [21,26.5)   [42.8,48.3)
## [691] [31.9,37.4) [42.8,48.3) [21,26.5)   [42.8,48.3) [21,26.5)   [42.8,48.3)
## [697] [26.5,31.9) [21,26.5)   [26.5,31.9) [21,26.5)   [21,26.5)   [48.3,53.7)
## [703] [48.3,53.7) [37.4,42.8) [26.5,31.9) [26.5,31.9) [26.5,31.9) [21,26.5)  
## [709] [42.8,48.3) [21,26.5)   [21,26.5)   [37.4,42.8) [37.4,42.8) [21,26.5)  
## [715] [31.9,37.4) [31.9,37.4) [26.5,31.9) [53.7,59.2) [21,26.5)   [48.3,53.7)
## [721] [31.9,37.4) [21,26.5)   [37.4,42.8) [37.4,42.8) [42.8,48.3) [37.4,42.8)
## [727] [21,26.5)   [21,26.5)   [21,26.5)   [21,26.5)   [31.9,37.4) [21,26.5)  
## [733] [21,26.5)   [21,26.5)   [48.3,53.7) [26.5,31.9) [21,26.5)   [37.4,42.8)
## [739] [21,26.5)   [37.4,42.8) [42.8,48.3) [21,26.5)   [21,26.5)   [42.8,48.3)
## [745] [37.4,42.8) [42.8,48.3) [26.5,31.9) [31.9,37.4) [31.9,37.4) [48.3,53.7)
## [751] [21,26.5)   [26.5,31.9) [21,26.5)   [21,26.5)   [42.8,48.3) [31.9,37.4)
## [757] [37.4,42.8) [48.3,53.7) [21,26.5)   [64.6,70.1) [21,26.5)   [42.8,48.3)
## [763] [31.9,37.4) [59.2,64.6) [26.5,31.9) [26.5,31.9) [42.8,48.3) [21,26.5)  
## attr(,"discretized:breaks")
##  [1] 21.00000 26.45455 31.90909 37.36364 42.81818 48.27273 53.72727 59.18182
##  [9] 64.63636 70.09091 75.54545 81.00000
## attr(,"discretized:method")
## [1] interval
## 11 Levels: [21,26.5) [26.5,31.9) [31.9,37.4) [37.4,42.8) ... [75.5,81]

Hemos procedido a discretizar las variables de la prueba de insulina y edad, para poder identificar la fusión de grupos de los mismos.

3.4 Integración de data

datosnew2=cbind(datosnew2, insulina_discretizada, edad_discretizada)
summary(datosnew2)
##  NumeroEmbarazos  Concentrac.blucosa.plama Presión.arterial.diastólica
##  Min.   : 0.000   Min.   :  0.0            Min.   :  0.00             
##  1st Qu.: 1.000   1st Qu.: 99.0            1st Qu.: 64.00             
##  Median : 3.000   Median :117.0            Median : 72.00             
##  Mean   : 3.845   Mean   :120.9            Mean   : 69.37             
##  3rd Qu.: 6.000   3rd Qu.:140.2            3rd Qu.: 78.00             
##  Max.   :17.000   Max.   :199.0            Max.   :122.00             
##                                                                       
##  Tríceps.espesor.del.pliegue.cutáneo X2.horas.suero.insulina
##  Min.   : 0.00                       Min.   :  0.00         
##  1st Qu.: 0.00                       1st Qu.:  0.00         
##  Median :23.00                       Median : 24.00         
##  Mean   :20.63                       Mean   : 73.29         
##  3rd Qu.:32.00                       3rd Qu.:115.25         
##  Max.   :99.00                       Max.   :680.00         
##                                                             
##  Índice.de.masa.corporal Función.pedigrí.de.la.diabetes      edad      
##  Min.   : 0.00           Min.   :0.0780                 Min.   :21.00  
##  1st Qu.:27.30           1st Qu.:0.2437                 1st Qu.:24.00  
##  Median :32.00           Median :0.3725                 Median :29.00  
##  Mean   :31.99           Mean   :0.4719                 Mean   :33.24  
##  3rd Qu.:36.60           3rd Qu.:0.6262                 3rd Qu.:41.00  
##  Max.   :67.10           Max.   :2.4200                 Max.   :81.00  
##                                                                        
##  insulina_discretizada   edad_discretizada
##  [0,61.8)  :470        [21,26.5)  :300    
##  [61.8,124):116        [26.5,31.9):141    
##  [124,185) : 89        [31.9,37.4): 92    
##  [185,247) : 42        [37.4,42.8): 81    
##  [247,309) : 19        [42.8,48.3): 60    
##  [309,371) : 12        [48.3,53.7): 34    
##  (Other)   : 20        (Other)    : 60

Luego de realizar la discretización, continuamos con la integración de los nuevos registros, con la data general.

3.5 Formato de data

write.csv(datosnew2, file = "datos_listo.csv")
getwd()
## [1] "C:/Users/MARIETA/Downloads"