1.Lectura de datos.

Leemos los datos directamente desde un enlace y observamos las 6 primeras filas

datos <- read.table("https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer/breast-cancer.data", sep=",")
names(datos) <- c("Clase","age","menopause","tumor_size",
                       "inv_nodes","node_caps","deg_malig",
                       "breast","breast_quad","irradiat")
head(datos)
##                  Clase   age menopause tumor_size inv_nodes node_caps deg_malig
## 1 no-recurrence-events 30-39   premeno      30-34       0-2        no         3
## 2 no-recurrence-events 40-49   premeno      20-24       0-2        no         2
## 3 no-recurrence-events 40-49   premeno      20-24       0-2        no         2
## 4 no-recurrence-events 60-69      ge40      15-19       0-2        no         2
## 5 no-recurrence-events 40-49   premeno        0-4       0-2        no         2
## 6 no-recurrence-events 60-69      ge40      15-19       0-2        no         2
##   breast breast_quad irradiat
## 1   left    left_low       no
## 2  right    right_up       no
## 3   left    left_low       no
## 4  right     left_up       no
## 5  right   right_low       no
## 6   left    left_low       no

vemos las dimensiones de los datos

dim(datos)
## [1] 286  10

haremos un summary de los datos

summary(datos)
##                   Clase        age       menopause     tumor_size inv_nodes  
##  no-recurrence-events:201   20-29: 1   ge40   :129   30-34  :60   0-2  :213  
##  recurrence-events   : 85   30-39:36   lt40   :  7   25-29  :54   12-14:  3  
##                             40-49:90   premeno:150   20-24  :50   15-17:  6  
##                             50-59:96                 15-19  :30   24-26:  1  
##                             60-69:57                 10-14  :28   3-5  : 36  
##                             70-79: 6                 40-44  :22   6-8  : 17  
##                                                      (Other):42   9-11 : 10  
##  node_caps   deg_malig       breast       breast_quad  irradiat 
##  ?  :  8   Min.   :1.000   left :152   ?        :  1   no :218  
##  no :222   1st Qu.:2.000   right:134   central  : 21   yes: 68  
##  yes: 56   Median :2.000               left_low :110            
##            Mean   :2.049               left_up  : 97            
##            3rd Qu.:3.000               right_low: 24            
##            Max.   :3.000               right_up : 33            
## 

2. Exploración de datos

queremos centrar nuestro estudio en las variables edad y menopausia crearemos para tal efecto un nuevo objeto con esas variables

datos2<-datos[,c(2,3)]
head(datos2)
##     age menopause
## 1 30-39   premeno
## 2 40-49   premeno
## 3 40-49   premeno
## 4 60-69      ge40
## 5 40-49   premeno
## 6 60-69      ge40

creamos una tabla de menopausia por edad

dt<-table(datos2$age, datos2$menopause)
dt
##        
##         ge40 lt40 premeno
##   20-29    0    0       1
##   30-39    0    1      35
##   40-49    9    0      81
##   50-59   59    4      33
##   60-69   55    2       0
##   70-79    6    0       0

analizaremos a continuacion solo la variable edad

table(datos2$age)
## 
## 20-29 30-39 40-49 50-59 60-69 70-79 
##     1    36    90    96    57     6

se observa que la mayor cantidad de personas con cancer de mama tienen de 50_59 años

barplot(table(datos2$age),main="edad")

analizaremos a continuacion la variable menopausia

table(datos2$menopause)
## 
##    ge40    lt40 premeno 
##     129       7     150

observamos que 150 mujeres con cancer de mama tienen premenopausia

barplot(table(datos2$menopause),main="menopausia")