DATA FRAME
datos=read.csv("https://raw.githubusercontent.com/VictorGuevaraP/Mineria-de-datos-2020/master/diabetes_m.csv", sep = ";")
head(datos)
## n NumeroEmbarazos Concentrac.blucosa.plama Presión.arterial.diastólica
## 1 1 6 148 72
## 2 2 1 85 66
## 3 3 8 183 64
## 4 4 1 89 NA
## 5 5 0 137 40
## 6 6 5 116 74
## Tríceps.espesor.del.pliegue.cutáneo X2.horas.suero.insulina
## 1 35 0
## 2 29 0
## 3 0 0
## 4 23 94
## 5 NA 168
## 6 0 0
## Índice.de.masa.corporal Función.pedigrí.de.la.diabetes edad resultado
## 1 33.6 0.627 50 Positivo
## 2 26.6 0.351 31 Negativo
## 3 23.3 0.672 32 Positivo
## 4 28.1 0.167 21 Negativo
## 5 43.1 2.288 33 Positivo
## 6 25.6 0.201 30 Negativo
Paso 1: Entendimiento del negocio (organización)
1.1 Determinar el objetivo del negocio (organización) El Instituto Nacional de Salud del Perú es un Organismo Público Ejecutor del Ministerio de Salud del Perú cuya principal labor es la investigación de los problemas prioritarios de salud que afectan a la comunidad peruana además de realizar desarrollo ytransferencia tecnológica.
1.2 Evaluar la situación actual (entorno) La diabetes mellitus es una enfermedad crónica que se caracteriza por presentar niveles altos de azúcar en la sangre. La causa de esta afección se puede deber a un funcionamiento incorrecto del páncreas (glándula que normalmente produce la hormona insulina) o por una respuesta inadecuada del organismo ante esta hormona.Según INEI en el Perú, 2018, se detectó en su mayoría en la población femenina (77,2%) con respecto a la masculina (65,3%).La diabetes gestacional aparece durante el embarazo cuando los niveles de glucosa en sangre están por encima de lo normal, pero aún son inferiores al diagnóstico de diabetes. Las mujeres con diabetes gestacional tienen un mayor riesgo de tener complicaciones durante el embarazo y el parto.
1.3 Determinar el objetivo de la minería de datos El objetivo del conjunto de datos es predecir de forma diagnóstica si un paciente tiene diabetes o no , basándose en ciertas mediciones de diagnóstico incluidas en el conjunto de datos.
1.4 Realizar un plan de proyecto En el presente proyecto respetamos la metodología CRISP-DM, por lo tanto, como equipo tuvimos una reunión con el fin de comprender los objetivos del negocio y proceder a trabajar la data, para lo que dedicamos 40 minutos en búsqueda de información, en comprender las variables. Una vez comprendidas las variables, dedicamos 1 hora en debatir y asociar las mismas para tener una visión más amplia, por lo que ya pudimos definir el objetivo general del negocio. A partir de la información recopilada, dedicamos 20 minutos en evaluar el entorno en el que gira actualmente el tema de la data y 10 minutos en tener claro el objetivo de minería de datos. Para poder comprender la data, dedicamos 1 hora en poder insertar los comandos, graficando y explicando los mismos, comprendiendo el comportamiento de los datos. A partir de la comprensión, pasamos a la aplicación, la preparación de la data, la cual dedicamos 1 hora y media seleccionando, limpiando, construyendo e integrando la data, para poder exportar el nuevo formato de data trabajado.
Paso 2: Entendimiento de la data
2.1 Información inicial de la data
N: Es el identificador de cada paciente.
Número de Embarazos: número de veces que ha estado embarazada la persona de estudio.
Concentración de glucosa en plasma: Señala la cantidad de glucosa en la sangre. Cuando una persona ha ingerido alimento los valores normales son menores a 140 mg/DL y cuando los resultados se dan entre 140 a 190 son indicativos de diabetes.
Presión arterial diastólica: La cantidad de presión que hay en tus arterias ente un latido y otro.
Espesor del pliegue cutáneo: Es un procedimiento frecuentemente utilizado, en combinación con el índice de masa corporal (IMC), para estimar la grasa corporal. Medir los pliegues cutáneos permite valorar los depósitos de grasa del cuerpo humano.Según la medicina el espesor normal: ♂ 12 mm; ♀ 23 mm
Insulina cada 2 horas: Es una prueba de insulina que consiste analizar antes de administrar la glucosa y 2 horas después. La razón por la que se realizan estas pruebas es para ver su curva de respuesta a la glucosa.
Índice de masa corporal (IMC): Es un método utilizado para estimar la cantidad de grasa corporal que tiene una persona, y determinar por tanto si el peso está dentro del rango normal, o por el contrario, se tiene sobrepeso o delgadez.
Función pedigrí de la diabetes: Una función que califica la probabilidad de diabetes según los antecedentes familiares.
Edad en años.
Resultado: si es positivo o negativo al diagnóstico de diabetes.
2.2 Descripción de la data
Identificamos el tipo de cada dato
str(datos)
## 'data.frame': 768 obs. of 10 variables:
## $ n : int 1 2 3 4 5 6 7 8 9 10 ...
## $ NumeroEmbarazos : int 6 1 8 1 0 5 3 10 2 8 ...
## $ Concentrac.blucosa.plama : int 148 85 183 89 137 116 78 115 197 125 ...
## $ Presión.arterial.diastólica : int 72 66 64 NA 40 74 NA 0 70 96 ...
## $ Tríceps.espesor.del.pliegue.cutáneo: int 35 29 0 23 NA 0 32 0 45 0 ...
## $ X2.horas.suero.insulina : int 0 0 0 94 168 0 88 0 543 0 ...
## $ Índice.de.masa.corporal : num 33.6 26.6 23.3 28.1 43.1 25.6 31 35.3 30.5 0 ...
## $ Función.pedigrí.de.la.diabetes : num 0.627 0.351 0.672 0.167 2.288 ...
## $ edad : int 50 31 32 21 33 30 26 29 53 54 ...
## $ resultado : Factor w/ 2 levels "Negativo","Positivo": 2 1 2 1 2 1 2 1 2 2 ...
Identificamos medidas centrales de los datos
summary(datos)
## n NumeroEmbarazos Concentrac.blucosa.plama
## Min. : 1.0 Min. : 0.000 Min. : 0.0
## 1st Qu.:192.8 1st Qu.: 1.000 1st Qu.: 99.0
## Median :384.5 Median : 3.000 Median :117.0
## Mean :384.5 Mean : 3.845 Mean :120.9
## 3rd Qu.:576.2 3rd Qu.: 6.000 3rd Qu.:140.2
## Max. :768.0 Max. :17.000 Max. :199.0
##
## Presión.arterial.diastólica Tríceps.espesor.del.pliegue.cutáneo
## Min. : 0.00 Min. : 0.00
## 1st Qu.: 62.00 1st Qu.: 0.00
## Median : 72.00 Median :23.00
## Mean : 69.05 Mean :20.41
## 3rd Qu.: 80.00 3rd Qu.:32.00
## Max. :122.00 Max. :99.00
## NA's :84 NA's :66
## X2.horas.suero.insulina Índice.de.masa.corporal Función.pedigrí.de.la.diabetes
## Min. : 0.00 Min. : 0.00 Min. :0.0780
## 1st Qu.: 0.00 1st Qu.:27.30 1st Qu.:0.2437
## Median : 24.00 Median :32.00 Median :0.3725
## Mean : 78.23 Mean :31.99 Mean :0.4719
## 3rd Qu.:127.75 3rd Qu.:36.60 3rd Qu.:0.6262
## Max. :680.00 Max. :67.10 Max. :2.4200
## NA's :70
## edad resultado
## Min. :21.00 Negativo:500
## 1st Qu.:24.00 Positivo:268
## Median :29.00
## Mean :33.24
## 3rd Qu.:41.00
## Max. :81.00
##
Se cuenta con un conjunto de datos de 768 observaciones(fila) y 10 variables (columnas). La variable objetivo es “resultado”. Logramos visualizar que hay 500 casos negativos y 268 positivos. La variable n es el identificador por lo tanto no se puede realizar operaciones matemáticas.
La coerción sirve para asignar un signifcado a cada dato.
datos$n=as.factor(datos$n)
Comprobamos que la coerción haya sido efectiva.
summary(datos)
## n NumeroEmbarazos Concentrac.blucosa.plama
## 1 : 1 Min. : 0.000 Min. : 0.0
## 2 : 1 1st Qu.: 1.000 1st Qu.: 99.0
## 3 : 1 Median : 3.000 Median :117.0
## 4 : 1 Mean : 3.845 Mean :120.9
## 5 : 1 3rd Qu.: 6.000 3rd Qu.:140.2
## 6 : 1 Max. :17.000 Max. :199.0
## (Other):762
## Presión.arterial.diastólica Tríceps.espesor.del.pliegue.cutáneo
## Min. : 0.00 Min. : 0.00
## 1st Qu.: 62.00 1st Qu.: 0.00
## Median : 72.00 Median :23.00
## Mean : 69.05 Mean :20.41
## 3rd Qu.: 80.00 3rd Qu.:32.00
## Max. :122.00 Max. :99.00
## NA's :84 NA's :66
## X2.horas.suero.insulina Índice.de.masa.corporal Función.pedigrí.de.la.diabetes
## Min. : 0.00 Min. : 0.00 Min. :0.0780
## 1st Qu.: 0.00 1st Qu.:27.30 1st Qu.:0.2437
## Median : 24.00 Median :32.00 Median :0.3725
## Mean : 78.23 Mean :31.99 Mean :0.4719
## 3rd Qu.:127.75 3rd Qu.:36.60 3rd Qu.:0.6262
## Max. :680.00 Max. :67.10 Max. :2.4200
## NA's :70
## edad resultado
## Min. :21.00 Negativo:500
## 1st Qu.:24.00 Positivo:268
## Median :29.00
## Mean :33.24
## 3rd Qu.:41.00
## Max. :81.00
##
2.3 Exploración de la data
Utilizaremos la libreria ggplot para mostrar en gráficos los datos
Numero_Embarazos
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 3.6.3
#Crear data
my_variable=datos$NumeroEmbarazos
# Layout to split the screen
layout(mat = matrix(c(1,2),2,1, byrow=TRUE), height = c(1,8))
#Dibujar el boxplot y el histograma
par(mar=c(0, 3.1, 1.1, 2.1))
boxplot(my_variable , horizontal=TRUE , xaxt="n" , col=rgb(0.8,0.8,0,0.5) , frame=F)
par(mar=c(4, 3.1, 1.1, 2.1))
hist(my_variable , breaks = "Scott" , col=rgb(0.2,0.8,0.5,0.5) , border=F , main="" , xlab="Número de Embarazos")
La mayoria de las personas en el estudio han estado embarazadas una única vez. Los casos de las personas del estudio que han estado embarazadas más de 13 veces son datos atípicos.
Concentracion_glucosa_plasma
#Crear data
my_variable=datos$Concentrac.blucosa.plama
# Layout to split the screen
layout(mat = matrix(c(1,2),2,1, byrow=TRUE), height = c(1,8))
#Dibujar el boxplot y el histograma
par(mar=c(0, 3.1, 1.1, 2.1))
boxplot(my_variable , horizontal=TRUE, xaxt="n" , col=rgb(0.8,0.8,0,0.5) , frame=F)
par(mar=c(4, 3.1, 1.1, 2.1))
hist(my_variable , breaks = "Scott" , col=rgb(0.2,0.8,0.5,0.5) , border=F , main="" , xlab="Concentración de glucosa en plasma")
Se observa que las personas en el estudio tienen rangos normales de glucosa en sangre que son menores a 140mg/DL. Existen 192 personas con mediciones mayores a 140mg/DL. Notamos 5 datos atípicos que muestran valores entre 0 a 10 mg/DL en la variable de concentración de glucosa en plasma.
Presion_arterial_diastolica
#Crear data
my_variable=datos$Presión.arterial.diastólica
# Layout to split the screen
layout(mat = matrix(c(1,2),2,1, byrow=TRUE), height = c(1,8))
#Dibujar el boxplot y el histograma
par(mar=c(0, 3.1, 1.1, 2.1))
boxplot(my_variable , horizontal=TRUE , xaxt="n" , col=rgb(0.8,0.8,0,0.5) , frame=F)
par(mar=c(4, 3.1, 1.1, 2.1))
hist(my_variable , breaks = "Scott" , col=rgb(0.2,0.8,0.5,0.5) , border=F , main="" , xlab="Presión arterial diastólica")
Aproximadamente existen 353 personas en el estudio que tienen como medición de presión entre 60 y 80 mmhg. Notamos aproximadamente 34 personas con datos atípicos menores a 20mmhg y existe dos valores mayores a 110mmhg.
Espesor_pliegue_cutaneo
#Crear data
my_variable=datos$Tríceps.espesor.del.pliegue.cutáneo
# Layout to split the screen
layout(mat = matrix(c(1,2),2,1, byrow=TRUE), height = c(1,8))
#Dibujar el boxplot y el histograma
par(mar=c(0, 3.1, 1.1, 2.1))
boxplot(my_variable , horizontal=TRUE , xaxt="n" , col=rgb(0.8,0.8,0,0.5) , frame=F)
par(mar=c(4, 3.1, 1.1, 2.1))
hist(my_variable , breaks = "Scott" , col=rgb(0.2,0.8,0.5,0.5) , border=F , main="" , xlab="Espesor de pliegue cutaneo")
Identificamos que la mayoria de personas aproximadamente 209 cuentan con un espesor de 5mm del pliegue cutáneo. Visualizamos un dato atípico mayor a 80mm.
Insulina cada 2 horas
#Crear data
my_variable=datos$X2.horas.suero.insulina
# Layout to split the screen
layout(mat = matrix(c(1,2),2,1, byrow=TRUE), height = c(1,8))
#Dibujar el boxplot y el histograma
par(mar=c(0, 3.1, 1.1, 2.1))
boxplot(my_variable , horizontal=TRUE , xaxt="n" , col=rgb(0.8,0.8,0,0.5) , frame=F)
par(mar=c(4, 3.1, 1.1, 2.1))
hist(my_variable , breaks = "Scott" , col=rgb(0.2,0.8,0.5,0.5) , border=F , main="" , xlab="Insulina por 2 horas")
Visualizamos que la mayoría de la población de estudio tiende a tener medidas entre 0 y 50 U/ml en la variable del test de insulina.
Masa_Corporal
#Crear data
my_variable=datos$Índice.de.masa.corporal
# Layout to split the screen
layout(mat = matrix(c(1,2),2,1, byrow=TRUE), height = c(1,8))
#Dibujar el boxplot y el histograma
par(mar=c(0, 3.1, 1.1, 2.1))
boxplot(my_variable , horizontal=TRUE , xaxt="n" , col=rgb(0.8,0.8,0,0.5) , frame=F)
par(mar=c(4, 3.1, 1.1, 2.1))
hist(my_variable , breaks = "Scott" , col=rgb(0.2,0.8,0.5,0.5) , border=F , main="" , xlab="Indice de Masa Corporal")
Encontramos valores que la distribución se centra entre 30 y 35 kg/m2. Existen 5 datos atípicos menores a 5kg/m2 y que tienen como valor 0.
Pedigrí de la diabetes
#Crear data
my_variable=datos$Función.pedigrí.de.la.diabetes
# Layout to split the screen
layout(mat = matrix(c(1,2),2,1, byrow=TRUE), height = c(1,8))
#Dibujar el boxplot y el histograma
par(mar=c(0, 3.1, 1.1, 2.1))
boxplot(my_variable , horizontal=TRUE , xaxt="n" , col=rgb(0.8,0.8,0,0.5) , frame=F)
par(mar=c(4, 3.1, 1.1, 2.1))
hist(my_variable , breaks = "Scott" , col=rgb(0.2,0.8,0.5,0.5) , border=F , main="" , xlab="Pedigrí de la Diabetes")
Encontramos que la mayoría de personas en estudio tienen entre un 20% y 30% de probabilidad de tener diabetes según antecedentes familiares.
Edad
#Crear data
my_variable=datos$edad
# Layout to split the screen
layout(mat = matrix(c(1,2),2,1, byrow=TRUE), height = c(1,8))
#Dibujar el boxplot y el histograma
par(mar=c(0, 3.1, 1.1, 2.1))
boxplot(my_variable , horizontal=TRUE , xaxt="n" , col=rgb(0.8,0.8,0,0.5) , frame=F)
par(mar=c(4, 3.1, 1.1, 2.1))
hist(my_variable , breaks = "Scott" , col=rgb(0.2,0.8,0.5,0.5) , border=F , main="" , xlab="Edad")
La mayoria de las personas en el estudio su edad es de entre 20 a 25 años. Las edades de 65 a más son atípicas en esta data.
2.4 Verificación de la calidad de la data
library(VIM)
## Warning: package 'VIM' was built under R version 3.6.3
## Loading required package: colorspace
## Loading required package: grid
## Loading required package: data.table
## VIM is ready to use.
## Since version 4.0.0 the GUI is in its own package VIMGUI.
##
## Please use the package to use the new (and old) GUI.
## Suggestions and bug-reports can be submitted at: https://github.com/alexkowa/VIM/issues
##
## Attaching package: 'VIM'
## The following object is masked from 'package:datasets':
##
## sleep
aggr(datos, numbers = TRUE, prop = c(TRUE, FALSE))
Paso 3: Preparación de la data
3.1 Seleccionar la data
datosnew=datos[,2:9]
head(datosnew)
## NumeroEmbarazos Concentrac.blucosa.plama Presión.arterial.diastólica
## 1 6 148 72
## 2 1 85 66
## 3 8 183 64
## 4 1 89 NA
## 5 0 137 40
## 6 5 116 74
## Tríceps.espesor.del.pliegue.cutáneo X2.horas.suero.insulina
## 1 35 0
## 2 29 0
## 3 0 0
## 4 23 94
## 5 NA 168
## 6 0 0
## Índice.de.masa.corporal Función.pedigrí.de.la.diabetes edad
## 1 33.6 0.627 50
## 2 26.6 0.351 31
## 3 23.3 0.672 32
## 4 28.1 0.167 21
## 5 43.1 2.288 33
## 6 25.6 0.201 30
3.2 Limpiar la data
El porcentaje de datos faltantes, es de 3.18% por lo que es manejable, así que procedemos a hacer una imputación de tendencia central para no perder registros.
library(DMwR)
## Warning: package 'DMwR' was built under R version 3.6.3
## Loading required package: lattice
## Registered S3 method overwritten by 'xts':
## method from
## as.zoo.xts zoo
## Registered S3 method overwritten by 'quantmod':
## method from
## as.zoo.data.frame zoo
##
## Attaching package: 'DMwR'
## The following object is masked from 'package:VIM':
##
## kNN
datosnew2=centralImputation(datosnew)
summary(datosnew2)
## NumeroEmbarazos Concentrac.blucosa.plama Presión.arterial.diastólica
## Min. : 0.000 Min. : 0.0 Min. : 0.00
## 1st Qu.: 1.000 1st Qu.: 99.0 1st Qu.: 64.00
## Median : 3.000 Median :117.0 Median : 72.00
## Mean : 3.845 Mean :120.9 Mean : 69.37
## 3rd Qu.: 6.000 3rd Qu.:140.2 3rd Qu.: 78.00
## Max. :17.000 Max. :199.0 Max. :122.00
## Tríceps.espesor.del.pliegue.cutáneo X2.horas.suero.insulina
## Min. : 0.00 Min. : 0.00
## 1st Qu.: 0.00 1st Qu.: 0.00
## Median :23.00 Median : 24.00
## Mean :20.63 Mean : 73.29
## 3rd Qu.:32.00 3rd Qu.:115.25
## Max. :99.00 Max. :680.00
## Índice.de.masa.corporal Función.pedigrí.de.la.diabetes edad
## Min. : 0.00 Min. :0.0780 Min. :21.00
## 1st Qu.:27.30 1st Qu.:0.2437 1st Qu.:24.00
## Median :32.00 Median :0.3725 Median :29.00
## Mean :31.99 Mean :0.4719 Mean :33.24
## 3rd Qu.:36.60 3rd Qu.:0.6262 3rd Qu.:41.00
## Max. :67.10 Max. :2.4200 Max. :81.00
dim(datosnew2)
## [1] 768 8
Hemos realizado la imputación de los datos nulos, es decir, se han rellenado los datos para no perder la información.
Se sigue contando con 768 registros.
3.3 Construir data
library(ggcorrplot)
## Warning: package 'ggcorrplot' was built under R version 3.6.3
corr <- round(cor(datosnew2), 1)
ggcorrplot(corr, hc.order = TRUE, type = "lower",
outline.col = "white",
colors = c("#6D9EC1", "white", "#E46726")) +
labs(title="Matriz de correlación",
subtitle="Correlación de las variables",
color=NULL) +
theme(legend.position="right")
Como visto existen una correlación entre las variables.
library(arules)
## Warning: package 'arules' was built under R version 3.6.3
## Loading required package: Matrix
##
## Attaching package: 'arules'
## The following objects are masked from 'package:base':
##
## abbreviate, write
insulina_disc=nclass.Sturges(datosnew2$X2.horas.suero.insulina)
insulina_disc
## [1] 11
insulina_discretizada=discretize(datosnew2$X2.horas.suero.insulina, method = "interval", breaks=insulina_disc )
insulina_discretizada
## [1] [0,61.8) [0,61.8) [0,61.8) [61.8,124) [124,185) [0,61.8)
## [7] [61.8,124) [0,61.8) [495,556) [0,61.8) [0,61.8) [0,61.8)
## [13] [0,61.8) [0,61.8) [124,185) [0,61.8) [185,247) [0,61.8)
## [19] [61.8,124) [61.8,124) [185,247) [0,61.8) [0,61.8) [0,61.8)
## [25] [124,185) [61.8,124) [0,61.8) [124,185) [61.8,124) [0,61.8)
## [31] [0,61.8) [185,247) [0,61.8) [0,61.8) [0,61.8) [0,61.8)
## [37] [0,61.8) [0,61.8) [0,61.8) [185,247) [61.8,124) [0,61.8)
## [43] [0,61.8) [185,247) [0,61.8) [0,61.8) [0,61.8) [0,61.8)
## [49] [0,61.8) [0,61.8) [61.8,124) [0,61.8) [0,61.8) [247,309)
## [55] [309,371) [0,61.8) [0,61.8) [61.8,124) [0,61.8) [124,185)
## [61] [0,61.8) [0,61.8) [0,61.8) [124,185) [0,61.8) [0,61.8)
## [67] [0,61.8) [0,61.8) [0,61.8) [61.8,124) [61.8,124) [124,185)
## [73] [0,61.8) [247,309) [0,61.8) [0,61.8) [0,61.8) [0,61.8)
## [79] [0,61.8) [0,61.8) [0,61.8) [0,61.8) [0,61.8) [0,61.8)
## [85] [0,61.8) [124,185) [0,61.8) [61.8,124) [61.8,124) [0,61.8)
## [91] [0,61.8) [124,185) [0,61.8) [0,61.8) [61.8,124) [185,247)
## [97] [0,61.8) [61.8,124) [0,61.8) [185,247) [0,61.8) [0,61.8)
## [103] [0,61.8) [0,61.8) [0,61.8) [124,185) [0,61.8) [124,185)
## [109] [0,61.8) [0,61.8) [124,185) [495,556) [0,61.8) [0,61.8)
## [115] [124,185) [0,61.8) [0,61.8) [0,61.8) [0,61.8) [0,61.8)
## [121] [0,61.8) [0,61.8) [61.8,124) [0,61.8) [0,61.8) [61.8,124)
## [127] [124,185) [0,61.8) [124,185) [0,61.8) [124,185) [0,61.8)
## [133] [185,247) [0,61.8) [0,61.8) [124,185) [0,61.8) [61.8,124)
## [139] [0,61.8) [309,371) [0,61.8) [0,61.8) [61.8,124) [0,61.8)
## [145] [247,309) [0,61.8) [0,61.8) [0,61.8) [0,61.8) [0,61.8)
## [151] [185,247) [0,61.8) [124,185) [433,495) [0,61.8) [0,61.8)
## [157] [61.8,124) [124,185) [0,61.8) [61.8,124) [0,61.8) [61.8,124)
## [163] [247,309) [0,61.8) [0,61.8) [124,185) [0,61.8) [0,61.8)
## [169] [0,61.8) [61.8,124) [0,61.8) [124,185) [0,61.8) [0,61.8)
## [175] [0,61.8) [124,185) [0,61.8) [124,185) [0,61.8) [0,61.8)
## [181] [0,61.8) [61.8,124) [0,61.8) [0,61.8) [0,61.8) [0,61.8)
## [187] [495,556) [0,61.8) [61.8,124) [0,61.8) [0,61.8) [61.8,124)
## [193] [0,61.8) [0,61.8) [0,61.8) [185,247) [0,61.8) [0,61.8)
## [199] [61.8,124) [309,371) [0,61.8) [0,61.8) [0,61.8) [0,61.8)
## [205] [185,247) [0,61.8) [247,309) [0,61.8) [61.8,124) [0,61.8)
## [211] [0,61.8) [0,61.8) [0,61.8) [124,185) [124,185) [247,309)
## [217] [0,61.8) [61.8,124) [0,61.8) [0,61.8) [0,61.8) [0,61.8)
## [223] [0,61.8) [185,247) [0,61.8) [0,61.8) [0,61.8) [0,61.8)
## [229] [0,61.8) [0,61.8) [0,61.8) [309,371) [0,61.8) [0,61.8)
## [235] [0,61.8) [0,61.8) [185,247) [0,61.8) [0,61.8) [0,61.8)
## [241] [0,61.8) [61.8,124) [0,61.8) [124,185) [185,247) [0,61.8)
## [247] [0,61.8) [618,680] [371,433) [0,61.8) [0,61.8) [0,61.8)
## [253] [0,61.8) [0,61.8) [247,309) [0,61.8) [0,61.8) [0,61.8)
## [259] [371,433) [124,185) [124,185) [0,61.8) [0,61.8) [0,61.8)
## [265] [0,61.8) [61.8,124) [0,61.8) [0,61.8) [0,61.8) [0,61.8)
## [271] [0,61.8) [0,61.8) [0,61.8) [0,61.8) [0,61.8) [0,61.8)
## [277] [0,61.8) [61.8,124) [0,61.8) [247,309) [0,61.8) [61.8,124)
## [283] [124,185) [0,61.8) [0,61.8) [124,185) [495,556) [185,247)
## [289] [0,61.8) [61.8,124) [0,61.8) [61.8,124) [124,185) [185,247)
## [295] [0,61.8) [61.8,124) [309,371) [185,247) [124,185) [0,61.8)
## [301] [0,61.8) [124,185) [0,61.8) [0,61.8) [0,61.8) [61.8,124)
## [307] [124,185) [124,185) [0,61.8) [185,247) [0,61.8) [124,185)
## [313] [61.8,124) [0,61.8) [0,61.8) [61.8,124) [61.8,124) [0,61.8)
## [319] [124,185) [0,61.8) [185,247) [0,61.8) [0,61.8) [0,61.8)
## [325] [0,61.8) [124,185) [124,185) [0,61.8) [0,61.8) [61.8,124)
## [331] [0,61.8) [0,61.8) [0,61.8) [0,61.8) [0,61.8) [247,309)
## [337] [0,61.8) [0,61.8) [124,185) [0,61.8) [61.8,124) [61.8,124)
## [343] [0,61.8) [0,61.8) [0,61.8) [61.8,124) [61.8,124) [0,61.8)
## [349] [0,61.8) [0,61.8) [0,61.8) [0,61.8) [0,61.8) [0,61.8)
## [355] [0,61.8) [0,61.8) [124,185) [0,61.8) [0,61.8) [247,309)
## [361] [309,371) [0,61.8) [0,61.8) [0,61.8) [247,309) [61.8,124)
## [367] [0,61.8) [0,61.8) [61.8,124) [124,185) [433,495) [61.8,124)
## [373] [61.8,124) [61.8,124) [124,185) [309,371) [0,61.8) [61.8,124)
## [379] [0,61.8) [61.8,124) [61.8,124) [0,61.8) [124,185) [0,61.8)
## [385] [61.8,124) [0,61.8) [0,61.8) [0,61.8) [0,61.8) [61.8,124)
## [391] [185,247) [0,61.8) [371,433) [61.8,124) [0,61.8) [247,309)
## [397] [61.8,124) [0,61.8) [0,61.8) [0,61.8) [0,61.8) [0,61.8)
## [403] [61.8,124) [0,61.8) [0,61.8) [124,185) [0,61.8) [0,61.8)
## [409] [0,61.8) [556,618) [0,61.8) [124,185) [309,371) [0,61.8)
## [415] [124,185) [433,495) [0,61.8) [0,61.8) [0,61.8) [61.8,124)
## [421] [124,185) [61.8,124) [61.8,124) [0,61.8) [185,247) [247,309)
## [427] [0,61.8) [124,185) [124,185) [124,185) [0,61.8) [61.8,124)
## [433] [0,61.8) [0,61.8) [0,61.8) [0,61.8) [0,61.8) [0,61.8)
## [439] [0,61.8) [0,61.8) [0,61.8) [0,61.8) [61.8,124) [0,61.8)
## [445] [0,61.8) [0,61.8) [61.8,124) [61.8,124) [61.8,124) [61.8,124)
## [451] [61.8,124) [0,61.8) [185,247) [0,61.8) [0,61.8) [0,61.8)
## [457] [0,61.8) [0,61.8) [185,247) [0,61.8) [0,61.8) [0,61.8)
## [463] [0,61.8) [0,61.8) [0,61.8) [0,61.8) [0,61.8) [61.8,124)
## [469] [0,61.8) [124,185) [0,61.8) [0,61.8) [0,61.8) [0,61.8)
## [475] [0,61.8) [0,61.8) [185,247) [61.8,124) [61.8,124) [0,61.8)
## [481] [309,371) [0,61.8) [0,61.8) [124,185) [0,61.8) [247,309)
## [487] [433,495) [247,309) [0,61.8) [0,61.8) [61.8,124) [0,61.8)
## [493] [0,61.8) [61.8,124) [0,61.8) [0,61.8) [0,61.8) [61.8,124)
## [499] [124,185) [185,247) [61.8,124) [0,61.8) [0,61.8) [61.8,124)
## [505] [0,61.8) [0,61.8) [61.8,124) [0,61.8) [61.8,124) [0,61.8)
## [511] [0,61.8) [185,247) [0,61.8) [0,61.8) [61.8,124) [0,61.8)
## [517] [124,185) [0,61.8) [0,61.8) [309,371) [61.8,124) [124,185)
## [523] [0,61.8) [0,61.8) [0,61.8) [0,61.8) [61.8,124) [61.8,124)
## [529] [185,247) [0,61.8) [61.8,124) [0,61.8) [61.8,124) [0,61.8)
## [535] [0,61.8) [0,61.8) [0,61.8) [0,61.8) [0,61.8) [0,61.8)
## [541] [185,247) [185,247) [0,61.8) [0,61.8) [61.8,124) [185,247)
## [547] [185,247) [124,185) [61.8,124) [0,61.8) [0,61.8) [61.8,124)
## [553] [0,61.8) [0,61.8) [61.8,124) [185,247) [0,61.8) [0,61.8)
## [559] [0,61.8) [0,61.8) [0,61.8) [247,309) [61.8,124) [0,61.8)
## [565] [0,61.8) [61.8,124) [0,61.8) [124,185) [0,61.8) [124,185)
## [571] [0,61.8) [0,61.8) [0,61.8) [61.8,124) [309,371) [61.8,124)
## [577] [124,185) [0,61.8) [0,61.8) [0,61.8) [0,61.8) [0,61.8)
## [583] [0,61.8) [0,61.8) [556,618) [0,61.8) [0,61.8) [0,61.8)
## [589] [124,185) [0,61.8) [0,61.8) [124,185) [0,61.8) [61.8,124)
## [595] [185,247) [124,185) [0,61.8) [0,61.8) [0,61.8) [61.8,124)
## [601] [0,61.8) [0,61.8) [0,61.8) [124,185) [0,61.8) [0,61.8)
## [607] [0,61.8) [0,61.8) [247,309) [124,185) [124,185) [185,247)
## [613] [309,371) [0,61.8) [124,185) [0,61.8) [0,61.8) [0,61.8)
## [619] [0,61.8) [0,61.8) [124,185) [0,61.8) [0,61.8) [0,61.8)
## [625] [0,61.8) [0,61.8) [0,61.8) [0,61.8) [0,61.8) [0,61.8)
## [631] [0,61.8) [61.8,124) [0,61.8) [124,185) [0,61.8) [0,61.8)
## [637] [0,61.8) [61.8,124) [61.8,124) [0,61.8) [61.8,124) [0,61.8)
## [643] [0,61.8) [0,61.8) [124,185) [433,495) [0,61.8) [124,185)
## [649] [124,185) [0,61.8) [61.8,124) [61.8,124) [61.8,124) [0,61.8)
## [655] [124,185) [495,556) [61.8,124) [185,247) [0,61.8) [61.8,124)
## [661] [0,61.8) [0,61.8) [185,247) [124,185) [0,61.8) [0,61.8)
## [667] [0,61.8) [0,61.8) [185,247) [61.8,124) [124,185) [0,61.8)
## [673] [0,61.8) [185,247) [0,61.8) [0,61.8) [0,61.8) [0,61.8)
## [679] [0,61.8) [247,309) [0,61.8) [0,61.8) [61.8,124) [0,61.8)
## [685] [0,61.8) [185,247) [0,61.8) [0,61.8) [124,185) [124,185)
## [691] [0,61.8) [0,61.8) [61.8,124) [124,185) [0,61.8) [433,495)
## [697] [124,185) [0,61.8) [124,185) [0,61.8) [185,247) [0,61.8)
## [703] [0,61.8) [0,61.8) [61.8,124) [0,61.8) [0,61.8) [0,61.8)
## [709] [0,61.8) [124,185) [371,433) [0,61.8) [0,61.8) [247,309)
## [715] [0,61.8) [371,433) [124,185) [0,61.8) [124,185) [0,61.8)
## [721] [0,61.8) [185,247) [124,185) [61.8,124) [0,61.8) [0,61.8)
## [727] [124,185) [0,61.8) [0,61.8) [0,61.8) [61.8,124) [0,61.8)
## [733] [61.8,124) [0,61.8) [0,61.8) [0,61.8) [0,61.8) [0,61.8)
## [739] [124,185) [0,61.8) [124,185) [61.8,124) [61.8,124) [0,61.8)
## [745] [124,185) [61.8,124) [0,61.8) [0,61.8) [185,247) [0,61.8)
## [751] [0,61.8) [61.8,124) [0,61.8) [495,556) [0,61.8) [61.8,124)
## [757] [0,61.8) [0,61.8) [0,61.8) [0,61.8) [0,61.8) [0,61.8)
## [763] [0,61.8) [124,185) [0,61.8) [61.8,124) [0,61.8) [0,61.8)
## attr(,"discretized:breaks")
## [1] 0.00000 61.81818 123.63636 185.45455 247.27273 309.09091 370.90909
## [8] 432.72727 494.54545 556.36364 618.18182 680.00000
## attr(,"discretized:method")
## [1] interval
## 11 Levels: [0,61.8) [61.8,124) [124,185) [185,247) [247,309) ... [618,680]
edad_disc=nclass.Sturges(datosnew2$edad)
edad_disc
## [1] 11
edad_discretizada=discretize(datosnew2$edad, method = "interval", breaks=edad_disc )
edad_discretizada
## [1] [48.3,53.7) [26.5,31.9) [31.9,37.4) [21,26.5) [31.9,37.4) [26.5,31.9)
## [7] [21,26.5) [26.5,31.9) [48.3,53.7) [53.7,59.2) [26.5,31.9) [31.9,37.4)
## [13] [53.7,59.2) [53.7,59.2) [48.3,53.7) [31.9,37.4) [26.5,31.9) [26.5,31.9)
## [19] [31.9,37.4) [31.9,37.4) [26.5,31.9) [48.3,53.7) [37.4,42.8) [26.5,31.9)
## [25] [48.3,53.7) [37.4,42.8) [42.8,48.3) [21,26.5) [53.7,59.2) [37.4,42.8)
## [31] [59.2,64.6) [26.5,31.9) [21,26.5) [26.5,31.9) [42.8,48.3) [31.9,37.4)
## [37] [31.9,37.4) [42.8,48.3) [26.5,31.9) [53.7,59.2) [21,26.5) [31.9,37.4)
## [43] [42.8,48.3) [53.7,59.2) [37.4,42.8) [21,26.5) [26.5,31.9) [21,26.5)
## [49] [26.5,31.9) [21,26.5) [21,26.5) [21,26.5) [26.5,31.9) [53.7,59.2)
## [55] [37.4,42.8) [21,26.5) [37.4,42.8) [26.5,31.9) [42.8,48.3) [21,26.5)
## [61] [21,26.5) [37.4,42.8) [31.9,37.4) [21,26.5) [37.4,42.8) [31.9,37.4)
## [67] [37.4,42.8) [53.7,59.2) [21,26.5) [26.5,31.9) [26.5,31.9) [21,26.5)
## [73] [37.4,42.8) [21,26.5) [21,26.5) [21,26.5) [37.4,42.8) [26.5,31.9)
## [79] [21,26.5) [21,26.5) [21,26.5) [21,26.5) [31.9,37.4) [21,26.5)
## [85] [31.9,37.4) [26.5,31.9) [42.8,48.3) [21,26.5) [42.8,48.3) [21,26.5)
## [91] [21,26.5) [31.9,37.4) [37.4,42.8) [59.2,64.6) [21,26.5) [37.4,42.8)
## [97] [21,26.5) [21,26.5) [21,26.5) [26.5,31.9) [31.9,37.4) [21,26.5)
## [103] [21,26.5) [21,26.5) [26.5,31.9) [21,26.5) [26.5,31.9) [31.9,37.4)
## [109] [21,26.5) [21,26.5) [21,26.5) [42.8,48.3) [21,26.5) [21,26.5)
## [115] [37.4,42.8) [59.2,64.6) [37.4,42.8) [21,26.5) [21,26.5) [21,26.5)
## [121] [21,26.5) [21,26.5) [21,26.5) [64.6,70.1) [21,26.5) [21,26.5)
## [127] [26.5,31.9) [21,26.5) [37.4,42.8) [59.2,64.6) [31.9,37.4) [31.9,37.4)
## [133] [26.5,31.9) [37.4,42.8) [21,26.5) [26.5,31.9) [21,26.5) [21,26.5)
## [139] [26.5,31.9) [26.5,31.9) [53.7,59.2) [37.4,42.8) [21,26.5) [37.4,42.8)
## [145] [21,26.5) [21,26.5) [37.4,42.8) [31.9,37.4) [64.6,70.1) [21,26.5)
## [151] [21,26.5) [31.9,37.4) [37.4,42.8) [21,26.5) [42.8,48.3) [31.9,37.4)
## [157] [21,26.5) [21,26.5) [21,26.5) [42.8,48.3) [31.9,37.4) [42.8,48.3)
## [163] [26.5,31.9) [21,26.5) [31.9,37.4) [37.4,42.8) [21,26.5) [31.9,37.4)
## [169] [26.5,31.9) [26.5,31.9) [31.9,37.4) [26.5,31.9) [21,26.5) [21,26.5)
## [175] [31.9,37.4) [31.9,37.4) [37.4,42.8) [21,26.5) [42.8,48.3) [31.9,37.4)
## [181] [31.9,37.4) [21,26.5) [21,26.5) [26.5,31.9) [37.4,42.8) [37.4,42.8)
## [187] [59.2,64.6) [31.9,37.4) [26.5,31.9) [21,26.5) [21,26.5) [37.4,42.8)
## [193] [31.9,37.4) [37.4,42.8) [37.4,42.8) [26.5,31.9) [21,26.5) [21,26.5)
## [199] [21,26.5) [26.5,31.9) [21,26.5) [26.5,31.9) [31.9,37.4) [26.5,31.9)
## [205] [53.7,59.2) [26.5,31.9) [53.7,59.2) [48.3,53.7) [21,26.5) [37.4,42.8)
## [211] [21,26.5) [21,26.5) [59.2,64.6) [21,26.5) [31.9,37.4) [37.4,42.8)
## [217] [21,26.5) [31.9,37.4) [31.9,37.4) [37.4,42.8) [21,26.5) [64.6,70.1)
## [223] [31.9,37.4) [59.2,64.6) [21,26.5) [21,26.5) [21,26.5) [21,26.5)
## [229] [26.5,31.9) [21,26.5) [21,26.5) [42.8,48.3) [21,26.5) [26.5,31.9)
## [235] [21,26.5) [21,26.5) [48.3,53.7) [21,26.5) [31.9,37.4) [26.5,31.9)
## [241] [21,26.5) [21,26.5) [21,26.5) [31.9,37.4) [26.5,31.9) [48.3,53.7)
## [247] [37.4,42.8) [21,26.5) [31.9,37.4) [21,26.5) [37.4,42.8) [26.5,31.9)
## [253] [21,26.5) [21,26.5) [42.8,48.3) [21,26.5) [26.5,31.9) [21,26.5)
## [259] [21,26.5) [48.3,53.7) [31.9,37.4) [26.5,31.9) [21,26.5) [59.2,64.6)
## [265] [31.9,37.4) [42.8,48.3) [21,26.5) [21,26.5) [21,26.5) [26.5,31.9)
## [271] [37.4,42.8) [21,26.5) [37.4,42.8) [21,26.5) [48.3,53.7) [21,26.5)
## [277] [26.5,31.9) [21,26.5) [53.7,59.2) [21,26.5) [26.5,31.9) [37.4,42.8)
## [283] [31.9,37.4) [42.8,48.3) [48.3,53.7) [48.3,53.7) [31.9,37.4) [26.5,31.9)
## [289] [21,26.5) [31.9,37.4) [21,26.5) [21,26.5) [26.5,31.9) [21,26.5)
## [295] [64.6,70.1) [26.5,31.9) [26.5,31.9) [21,26.5) [42.8,48.3) [53.7,59.2)
## [301] [26.5,31.9) [21,26.5) [31.9,37.4) [26.5,31.9) [31.9,37.4) [26.5,31.9)
## [307] [42.8,48.3) [21,26.5) [21,26.5) [26.5,31.9) [37.4,42.8) [21,26.5)
## [313] [26.5,31.9) [21,26.5) [42.8,48.3) [21,26.5) [26.5,31.9) [26.5,31.9)
## [319] [26.5,31.9) [53.7,59.2) [26.5,31.9) [21,26.5) [31.9,37.4) [42.8,48.3)
## [325] [21,26.5) [21,26.5) [26.5,31.9) [31.9,37.4) [21,26.5) [31.9,37.4)
## [331] [42.8,48.3) [21,26.5) [37.4,42.8) [42.8,48.3) [21,26.5) [21,26.5)
## [337] [42.8,48.3) [42.8,48.3) [31.9,37.4) [37.4,42.8) [21,26.5) [31.9,37.4)
## [343] [21,26.5) [31.9,37.4) [53.7,59.2) [48.3,53.7) [21,26.5) [21,26.5)
## [349] [21,26.5) [31.9,37.4) [26.5,31.9) [26.5,31.9) [42.8,48.3) [21,26.5)
## [355] [21,26.5) [48.3,53.7) [26.5,31.9) [42.8,48.3) [42.8,48.3) [26.5,31.9)
## [361] [26.5,31.9) [59.2,64.6) [64.6,70.1) [64.6,70.1) [26.5,31.9) [26.5,31.9)
## [367] [26.5,31.9) [21,26.5) [21,26.5) [42.8,48.3) [21,26.5) [21,26.5)
## [373] [21,26.5) [21,26.5) [26.5,31.9) [53.7,59.2) [21,26.5) [21,26.5)
## [379] [31.9,37.4) [31.9,37.4) [21,26.5) [21,26.5) [21,26.5) [21,26.5)
## [385] [21,26.5) [21,26.5) [31.9,37.4) [42.8,48.3) [53.7,59.2) [26.5,31.9)
## [391] [37.4,42.8) [26.5,31.9) [21,26.5) [31.9,37.4) [26.5,31.9) [21,26.5)
## [397] [37.4,42.8) [21,26.5) [21,26.5) [21,26.5) [26.5,31.9) [53.7,59.2)
## [403] [31.9,37.4) [37.4,42.8) [37.4,42.8) [21,26.5) [42.8,48.3) [21,26.5)
## [409] [37.4,42.8) [26.5,31.9) [26.5,31.9) [21,26.5) [21,26.5) [21,26.5)
## [415] [21,26.5) [21,26.5) [21,26.5) [31.9,37.4) [26.5,31.9) [26.5,31.9)
## [421] [21,26.5) [21,26.5) [21,26.5) [21,26.5) [31.9,37.4) [26.5,31.9)
## [427] [21,26.5) [37.4,42.8) [21,26.5) [42.8,48.3) [21,26.5) [37.4,42.8)
## [433] [21,26.5) [26.5,31.9) [31.9,37.4) [26.5,31.9) [37.4,42.8) [26.5,31.9)
## [439] [21,26.5) [26.5,31.9) [37.4,42.8) [21,26.5) [21,26.5) [31.9,37.4)
## [445] [26.5,31.9) [21,26.5) [26.5,31.9) [21,26.5) [21,26.5) [21,26.5)
## [451] [21,26.5) [21,26.5) [21,26.5) [70.1,75.5) [21,26.5) [37.4,42.8)
## [457] [59.2,64.6) [21,26.5) [48.3,53.7) [75.5,81] [42.8,48.3) [21,26.5)
## [463] [37.4,42.8) [31.9,37.4) [31.9,37.4) [21,26.5) [21,26.5) [21,26.5)
## [469] [37.4,42.8) [26.5,31.9) [26.5,31.9) [21,26.5) [21,26.5) [48.3,53.7)
## [475] [21,26.5) [53.7,59.2) [26.5,31.9) [26.5,31.9) [37.4,42.8) [59.2,64.6)
## [481] [31.9,37.4) [26.5,31.9) [26.5,31.9) [21,26.5) [26.5,31.9) [21,26.5)
## [487] [21,26.5) [53.7,59.2) [26.5,31.9) [64.6,70.1) [21,26.5) [37.4,42.8)
## [493] [31.9,37.4) [42.8,48.3) [21,26.5) [64.6,70.1) [26.5,31.9) [21,26.5)
## [499] [53.7,59.2) [37.4,42.8) [21,26.5) [26.5,31.9) [37.4,42.8) [37.4,42.8)
## [505] [37.4,42.8) [37.4,42.8) [31.9,37.4) [21,26.5) [21,26.5) [59.2,64.6)
## [511] [42.8,48.3) [21,26.5) [53.7,59.2) [21,26.5) [21,26.5) [26.5,31.9)
## [517] [48.3,53.7) [48.3,53.7) [37.4,42.8) [59.2,64.6) [21,26.5) [21,26.5)
## [523] [21,26.5) [42.8,48.3) [21,26.5) [21,26.5) [21,26.5) [21,26.5)
## [529] [21,26.5) [26.5,31.9) [21,26.5) [21,26.5) [26.5,31.9) [26.5,31.9)
## [535] [21,26.5) [21,26.5) [42.8,48.3) [64.6,70.1) [21,26.5) [31.9,37.4)
## [541] [42.8,48.3) [26.5,31.9) [53.7,59.2) [21,26.5) [26.5,31.9) [31.9,37.4)
## [547] [48.3,53.7) [26.5,31.9) [48.3,53.7) [31.9,37.4) [21,26.5) [21,26.5)
## [553] [64.6,70.1) [21,26.5) [26.5,31.9) [31.9,37.4) [26.5,31.9) [53.7,59.2)
## [559] [37.4,42.8) [31.9,37.4) [53.7,59.2) [26.5,31.9) [21,26.5) [31.9,37.4)
## [565] [26.5,31.9) [21,26.5) [21,26.5) [42.8,48.3) [31.9,37.4) [31.9,37.4)
## [571] [37.4,42.8) [21,26.5) [21,26.5) [21,26.5) [21,26.5) [21,26.5)
## [577] [31.9,37.4) [21,26.5) [31.9,37.4) [59.2,64.6) [21,26.5) [26.5,31.9)
## [583] [59.2,64.6) [37.4,42.8) [48.3,53.7) [21,26.5) [37.4,42.8) [26.5,31.9)
## [589] [48.3,53.7) [21,26.5) [42.8,48.3) [21,26.5) [42.8,48.3) [21,26.5)
## [595] [31.9,37.4) [21,26.5) [42.8,48.3) [21,26.5) [37.4,42.8) [21,26.5)
## [601] [21,26.5) [26.5,31.9) [26.5,31.9) [53.7,59.2) [31.9,37.4) [21,26.5)
## [607] [21,26.5) [21,26.5) [26.5,31.9) [21,26.5) [21,26.5) [31.9,37.4)
## [613] [37.4,42.8) [21,26.5) [48.3,53.7) [26.5,31.9) [26.5,31.9) [21,26.5)
## [619] [48.3,53.7) [21,26.5) [26.5,31.9) [26.5,31.9) [42.8,48.3) [21,26.5)
## [625] [21,26.5) [26.5,31.9) [21,26.5) [21,26.5) [42.8,48.3) [21,26.5)
## [631] [31.9,37.4) [21,26.5) [21,26.5) [21,26.5) [26.5,31.9) [37.4,42.8)
## [637] [42.8,48.3) [21,26.5) [31.9,37.4) [26.5,31.9) [26.5,31.9) [21,26.5)
## [643] [48.3,53.7) [26.5,31.9) [26.5,31.9) [26.5,31.9) [31.9,37.4) [21,26.5)
## [649] [37.4,42.8) [21,26.5) [21,26.5) [26.5,31.9) [26.5,31.9) [26.5,31.9)
## [655] [21,26.5) [21,26.5) [21,26.5) [37.4,42.8) [48.3,53.7) [26.5,31.9)
## [661] [53.7,59.2) [21,26.5) [42.8,48.3) [37.4,42.8) [37.4,42.8) [21,26.5)
## [667] [64.6,70.1) [37.4,42.8) [42.8,48.3) [42.8,48.3) [48.3,53.7) [21,26.5)
## [673] [42.8,48.3) [21,26.5) [64.6,70.1) [26.5,31.9) [48.3,53.7) [21,26.5)
## [679] [21,26.5) [21,26.5) [21,26.5) [21,26.5) [21,26.5) [26.5,31.9)
## [685] [64.6,70.1) [21,26.5) [21,26.5) [26.5,31.9) [21,26.5) [42.8,48.3)
## [691] [31.9,37.4) [42.8,48.3) [21,26.5) [42.8,48.3) [21,26.5) [42.8,48.3)
## [697] [26.5,31.9) [21,26.5) [26.5,31.9) [21,26.5) [21,26.5) [48.3,53.7)
## [703] [48.3,53.7) [37.4,42.8) [26.5,31.9) [26.5,31.9) [26.5,31.9) [21,26.5)
## [709] [42.8,48.3) [21,26.5) [21,26.5) [37.4,42.8) [37.4,42.8) [21,26.5)
## [715] [31.9,37.4) [31.9,37.4) [26.5,31.9) [53.7,59.2) [21,26.5) [48.3,53.7)
## [721] [31.9,37.4) [21,26.5) [37.4,42.8) [37.4,42.8) [42.8,48.3) [37.4,42.8)
## [727] [21,26.5) [21,26.5) [21,26.5) [21,26.5) [31.9,37.4) [21,26.5)
## [733] [21,26.5) [21,26.5) [48.3,53.7) [26.5,31.9) [21,26.5) [37.4,42.8)
## [739] [21,26.5) [37.4,42.8) [42.8,48.3) [21,26.5) [21,26.5) [42.8,48.3)
## [745] [37.4,42.8) [42.8,48.3) [26.5,31.9) [31.9,37.4) [31.9,37.4) [48.3,53.7)
## [751] [21,26.5) [26.5,31.9) [21,26.5) [21,26.5) [42.8,48.3) [31.9,37.4)
## [757] [37.4,42.8) [48.3,53.7) [21,26.5) [64.6,70.1) [21,26.5) [42.8,48.3)
## [763] [31.9,37.4) [59.2,64.6) [26.5,31.9) [26.5,31.9) [42.8,48.3) [21,26.5)
## attr(,"discretized:breaks")
## [1] 21.00000 26.45455 31.90909 37.36364 42.81818 48.27273 53.72727 59.18182
## [9] 64.63636 70.09091 75.54545 81.00000
## attr(,"discretized:method")
## [1] interval
## 11 Levels: [21,26.5) [26.5,31.9) [31.9,37.4) [37.4,42.8) ... [75.5,81]
Hemos procedido a discretizar las variables de la prueba de insulina y edad, para poder identificar la fusión de grupos de los mismos.
3.4 Integración de data
datosnew2=cbind(datosnew2, insulina_discretizada, edad_discretizada)
summary(datosnew2)
## NumeroEmbarazos Concentrac.blucosa.plama Presión.arterial.diastólica
## Min. : 0.000 Min. : 0.0 Min. : 0.00
## 1st Qu.: 1.000 1st Qu.: 99.0 1st Qu.: 64.00
## Median : 3.000 Median :117.0 Median : 72.00
## Mean : 3.845 Mean :120.9 Mean : 69.37
## 3rd Qu.: 6.000 3rd Qu.:140.2 3rd Qu.: 78.00
## Max. :17.000 Max. :199.0 Max. :122.00
##
## Tríceps.espesor.del.pliegue.cutáneo X2.horas.suero.insulina
## Min. : 0.00 Min. : 0.00
## 1st Qu.: 0.00 1st Qu.: 0.00
## Median :23.00 Median : 24.00
## Mean :20.63 Mean : 73.29
## 3rd Qu.:32.00 3rd Qu.:115.25
## Max. :99.00 Max. :680.00
##
## Índice.de.masa.corporal Función.pedigrí.de.la.diabetes edad
## Min. : 0.00 Min. :0.0780 Min. :21.00
## 1st Qu.:27.30 1st Qu.:0.2437 1st Qu.:24.00
## Median :32.00 Median :0.3725 Median :29.00
## Mean :31.99 Mean :0.4719 Mean :33.24
## 3rd Qu.:36.60 3rd Qu.:0.6262 3rd Qu.:41.00
## Max. :67.10 Max. :2.4200 Max. :81.00
##
## insulina_discretizada edad_discretizada
## [0,61.8) :470 [21,26.5) :300
## [61.8,124):116 [26.5,31.9):141
## [124,185) : 89 [31.9,37.4): 92
## [185,247) : 42 [37.4,42.8): 81
## [247,309) : 19 [42.8,48.3): 60
## [309,371) : 12 [48.3,53.7): 34
## (Other) : 20 (Other) : 60
Luego de realizar la discretización, continuamos con la integración de los nuevos registros, con la data general.
3.5 Formato de data
write.csv(datosnew2, file = "datos_listo.csv")
getwd()
## [1] "C:/Users/MARIETA/Downloads"