Exploracion del dataset sobre cancer de mama

Cargamos nuestros datos y observamos las 6 primeras filas a continuacion

datos <- read.table("breast-cancer.data", sep=",")
names(datos) <- c("Clase","age","menopause","tumor_size",
                       "inv_nodes","node_caps","deg_malig",
                       "breast","breast_quad","irradiat")
head(datos)
##                  Clase   age menopause tumor_size inv_nodes node_caps deg_malig
## 1 no-recurrence-events 30-39   premeno      30-34       0-2        no         3
## 2 no-recurrence-events 40-49   premeno      20-24       0-2        no         2
## 3 no-recurrence-events 40-49   premeno      20-24       0-2        no         2
## 4 no-recurrence-events 60-69      ge40      15-19       0-2        no         2
## 5 no-recurrence-events 40-49   premeno        0-4       0-2        no         2
## 6 no-recurrence-events 60-69      ge40      15-19       0-2        no         2
##   breast breast_quad irradiat
## 1   left    left_low       no
## 2  right    right_up       no
## 3   left    left_low       no
## 4  right     left_up       no
## 5  right   right_low       no
## 6   left    left_low       no

Realizamos una exploración del tipo de columnas que tiene el dataset

str(datos)
## 'data.frame':    286 obs. of  10 variables:
##  $ Clase      : chr  "no-recurrence-events" "no-recurrence-events" "no-recurrence-events" "no-recurrence-events" ...
##  $ age        : chr  "30-39" "40-49" "40-49" "60-69" ...
##  $ menopause  : chr  "premeno" "premeno" "premeno" "ge40" ...
##  $ tumor_size : chr  "30-34" "20-24" "20-24" "15-19" ...
##  $ inv_nodes  : chr  "0-2" "0-2" "0-2" "0-2" ...
##  $ node_caps  : chr  "no" "no" "no" "no" ...
##  $ deg_malig  : int  3 2 2 2 2 2 2 1 2 2 ...
##  $ breast     : chr  "left" "right" "left" "right" ...
##  $ breast_quad: chr  "left_low" "right_up" "left_low" "left_up" ...
##  $ irradiat   : chr  "no" "no" "no" "no" ...

Ver las dimensiones del dataset:

dim(datos)
## [1] 286  10

Exploracion de variables

Ahora, se va a explorar la variable age con una tabla

table(datos$age)
## 
## 20-29 30-39 40-49 50-59 60-69 70-79 
##     1    36    90    96    57     6

Luego veremos la variable age con un grafico de barras.

barplot(table(datos$age))

Procedemos a explorar la variable menopause

menopause = table(datos$menopause)
menopause
## 
##    ge40    lt40 premeno 
##     129       7     150

Luego veremos la variable menopause con un grafico de barras.

barplot(menopause)