Cargamos nuestros datos y observamos las 6 primeras filas a continuacion
datos <- read.table("breast-cancer.data", sep=",")
names(datos) <- c("Clase","age","menopause","tumor_size",
"inv_nodes","node_caps","deg_malig",
"breast","breast_quad","irradiat")
head(datos)
## Clase age menopause tumor_size inv_nodes node_caps deg_malig
## 1 no-recurrence-events 30-39 premeno 30-34 0-2 no 3
## 2 no-recurrence-events 40-49 premeno 20-24 0-2 no 2
## 3 no-recurrence-events 40-49 premeno 20-24 0-2 no 2
## 4 no-recurrence-events 60-69 ge40 15-19 0-2 no 2
## 5 no-recurrence-events 40-49 premeno 0-4 0-2 no 2
## 6 no-recurrence-events 60-69 ge40 15-19 0-2 no 2
## breast breast_quad irradiat
## 1 left left_low no
## 2 right right_up no
## 3 left left_low no
## 4 right left_up no
## 5 right right_low no
## 6 left left_low no
Realizamos una exploración del tipo de columnas que tiene el dataset
str(datos)
## 'data.frame': 286 obs. of 10 variables:
## $ Clase : chr "no-recurrence-events" "no-recurrence-events" "no-recurrence-events" "no-recurrence-events" ...
## $ age : chr "30-39" "40-49" "40-49" "60-69" ...
## $ menopause : chr "premeno" "premeno" "premeno" "ge40" ...
## $ tumor_size : chr "30-34" "20-24" "20-24" "15-19" ...
## $ inv_nodes : chr "0-2" "0-2" "0-2" "0-2" ...
## $ node_caps : chr "no" "no" "no" "no" ...
## $ deg_malig : int 3 2 2 2 2 2 2 1 2 2 ...
## $ breast : chr "left" "right" "left" "right" ...
## $ breast_quad: chr "left_low" "right_up" "left_low" "left_up" ...
## $ irradiat : chr "no" "no" "no" "no" ...
Ver las dimensiones del dataset:
dim(datos)
## [1] 286 10
Ahora, se va a explorar la variable age con una tabla
table(datos$age)
##
## 20-29 30-39 40-49 50-59 60-69 70-79
## 1 36 90 96 57 6
Luego veremos la variable age con un grafico de barras.
barplot(table(datos$age))
Procedemos a explorar la variable menopause
menopause = table(datos$menopause)
menopause
##
## ge40 lt40 premeno
## 129 7 150
Luego veremos la variable menopause con un grafico de barras.
barplot(menopause)