Folder de trabajo
setwd("~/pye1pm")#Paquetes #Datasets es para conjuntos de datos #DT es para tablas interactivas #fdth es para frecuencias, distribuciones, tablas e histogramas #Prettydocs es para hacer documentos formales #xfun es para botones para descarga de archivos
library(pacman)
p_load("datasets", "DT", "fdth", "prettydoc", "xfun", "ggplot2", "beanplot")Ejercicio #4: Análisis exploratorio de datos (EDA)
Utilizando el conjunto de datos de un estudio de casos y controles de (o) cáncer de esófago en Ille-et-Vilaine, Francia.
Cigarros y alcohol
##Conociendo los datos
A través de una tabla interactiva
datatable(esoph)A través de una gráfica, usando ggplot2
vhrl <- esoph#Clasificación de datos de casos de acuerdo a su edad
ggplot(vhrl, aes(ncases, ncontrols ) ) + geom_point(aes(col=agegp), size=4)Medidas exploratorias de tendencia central
summary(vhrl)## agegp alcgp tobgp ncases ncontrols
## 25-34:15 0-39g/day:23 0-9g/day:24 Min. : 0.000 Min. : 0.000
## 35-44:15 40-79 :23 10-19 :24 1st Qu.: 0.000 1st Qu.: 1.000
## 45-54:16 80-119 :21 20-29 :20 Median : 1.000 Median : 4.000
## 55-64:16 120+ :21 30+ :20 Mean : 2.273 Mean : 8.807
## 65-74:15 3rd Qu.: 4.000 3rd Qu.:10.000
## 75+ :11 Max. :17.000 Max. :60.000
Visualización de los datos
##histograma
hist(vhrl$ncases,
col="red",
main = "Histograma de número de casos",
xlab = "Número de casos",
ylab = "Frecuencia absoluta")hist(vhrl$ncontrols,
col="blue",
main = "Histograma de número de casos controlados",
xlab = "Número de casos controlados",
ylab = "Frecuencia absoluta")Diferentes maneras de realizar histogramas
par(mfrow=c(1,3))
hist(vhrl$ncases,xlim=c(0,20),ylim=c(0,70))
hist(vhrl$ncontrols,xlim=c(0,60),ylim=c(0,80))Gráfico de dispersión (scatterplot)
Crear un gráfico de dispersión de los casos que hay versus los caoss que están controlados
En este caso usaremos la función “plot”
plot( vhrl$ncases, vhrl$ncontrols,
col = "red",
Main = "Gráfico de dispersión de número de casos y número de casos controlados",
xlab = "Casos totales",
ylab = "Casos controlados",
pch = 19
)## Warning in plot.window(...): "Main" is not a graphical parameter
## Warning in plot.xy(xy, type, ...): "Main" is not a graphical parameter
## Warning in axis(side = side, at = at, labels = labels, ...): "Main" is not a
## graphical parameter
## Warning in axis(side = side, at = at, labels = labels, ...): "Main" is not a
## graphical parameter
## Warning in box(...): "Main" is not a graphical parameter
## Warning in title(...): "Main" is not a graphical parameter
Gráfico comparativo de tipo “beanplot”
##NO ME CORRIÓ CON NINGUNA VARIABLE:(
xvhrl <- vhrl
xvhrl$agegp <- NULL
xvhrl$alcgp <- NULL
xvhrl$tobgp <- NULL
beanplot(xvhrl, main = "Casos y controlados en cáncer de esófago")Número de casos controlados utilizando un gráfico de caja y bigote
boxplot(agegp~ncontrols,
data=vhrl,
main="Casos controlados",
xlab="Grupos de edades",
ylab="Casos controlados",
col = "blue",
border= "red")Interpretando un gráfico de caja y bigote
Componentes del gráfico de caja y bigote
#Extracción de subconjuntos
ca <- subset(vhrl, ncases == "Casos")
co <- subset(vhrl, ncontrols == "Controlados")