Primero cargamos nuestros datos lo almacenamos en el objeto datos y observamos las 6 primeras filas a continuacion
# Cargar los datos sobre Cancer de mama:
datos <- read.table("https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer/breast-cancer.data", sep=",")
names(datos) <- c("Clase","age","menopause","tumor_size",
"inv_nodes","node_caps","deg_malig",
"breast","breast_quad","irradiat")
## Mas informacion en: https://archive.ics.uci.edu/ml/datasets/Breast+Cancer
head(datos)
## Clase age menopause tumor_size inv_nodes node_caps deg_malig
## 1 no-recurrence-events 30-39 premeno 30-34 0-2 no 3
## 2 no-recurrence-events 40-49 premeno 20-24 0-2 no 2
## 3 no-recurrence-events 40-49 premeno 20-24 0-2 no 2
## 4 no-recurrence-events 60-69 ge40 15-19 0-2 no 2
## 5 no-recurrence-events 40-49 premeno 0-4 0-2 no 2
## 6 no-recurrence-events 60-69 ge40 15-19 0-2 no 2
## breast breast_quad irradiat
## 1 left left_low no
## 2 right right_up no
## 3 left left_low no
## 4 right left_up no
## 5 right right_low no
## 6 left left_low no
Usamos la funcion dim para ver las dimensiones del dataset
dim(datos)
## [1] 286 10
Ahora exploramos la variable age con una tabla y grafico de barras.
table(datos$age)
##
## 20-29 30-39 40-49 50-59 60-69 70-79
## 1 36 90 96 57 6
barplot(table(datos$age))
luego veremos la variable menopause cn una tabla y grafico de barras
table(datos$menopause)
##
## ge40 lt40 premeno
## 129 7 150
barplot(table(datos$menopause))