Leemos los datos directamente desde un enlace y observamos las 6 primeras filas
datos <- read.table("https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer/breast-cancer.data", sep=",")
names(datos) <- c("Clase","age","menopause","tumor_size",
"inv_nodes","node_caps","deg_malig",
"breast","breast_quad","irradiat")
head(datos)
## Clase age menopause tumor_size inv_nodes node_caps deg_malig
## 1 no-recurrence-events 30-39 premeno 30-34 0-2 no 3
## 2 no-recurrence-events 40-49 premeno 20-24 0-2 no 2
## 3 no-recurrence-events 40-49 premeno 20-24 0-2 no 2
## 4 no-recurrence-events 60-69 ge40 15-19 0-2 no 2
## 5 no-recurrence-events 40-49 premeno 0-4 0-2 no 2
## 6 no-recurrence-events 60-69 ge40 15-19 0-2 no 2
## breast breast_quad irradiat
## 1 left left_low no
## 2 right right_up no
## 3 left left_low no
## 4 right left_up no
## 5 right right_low no
## 6 left left_low no
vemos las dimensiones de los datos
dim(datos)
## [1] 286 10
haremos un summary de los datos
summary(datos)
## Clase age menopause tumor_size inv_nodes
## no-recurrence-events:201 20-29: 1 ge40 :129 30-34 :60 0-2 :213
## recurrence-events : 85 30-39:36 lt40 : 7 25-29 :54 12-14: 3
## 40-49:90 premeno:150 20-24 :50 15-17: 6
## 50-59:96 15-19 :30 24-26: 1
## 60-69:57 10-14 :28 3-5 : 36
## 70-79: 6 40-44 :22 6-8 : 17
## (Other):42 9-11 : 10
## node_caps deg_malig breast breast_quad irradiat
## ? : 8 Min. :1.000 left :152 ? : 1 no :218
## no :222 1st Qu.:2.000 right:134 central : 21 yes: 68
## yes: 56 Median :2.000 left_low :110
## Mean :2.049 left_up : 97
## 3rd Qu.:3.000 right_low: 24
## Max. :3.000 right_up : 33
##
queremos centrar nuestro estudio en las variables edad y menopausia crearemos para tal efecto un nuevo objeto con esas variables
datos2<-datos[,c(2,3)]
head(datos2)
## age menopause
## 1 30-39 premeno
## 2 40-49 premeno
## 3 40-49 premeno
## 4 60-69 ge40
## 5 40-49 premeno
## 6 60-69 ge40
creamos una tabla de menopausia por edad
dt<-table(datos2$age, datos2$menopause)
dt
##
## ge40 lt40 premeno
## 20-29 0 0 1
## 30-39 0 1 35
## 40-49 9 0 81
## 50-59 59 4 33
## 60-69 55 2 0
## 70-79 6 0 0
analizaremos a continuacion solo la variable edad
table(datos2$age)
##
## 20-29 30-39 40-49 50-59 60-69 70-79
## 1 36 90 96 57 6
se observa que la mayor cantidad de personas con cancer de mama tienen de 50_59 años
barplot(table(datos2$age),main="edad")
analizaremos a continuacion la variable menopausia
table(datos2$menopause)
##
## ge40 lt40 premeno
## 129 7 150
observamos que 150 mujeres con cancer de mama tienen premenopausia
barplot(table(datos2$menopause),main="menopausia")