A4U1

Víctor Hugo Robles Lizárraga

7/2/2022

Folder de trabajo

setwd("~/pye1pm")

#Paquetes #Datasets es para conjuntos de datos #DT es para tablas interactivas #fdth es para frecuencias, distribuciones, tablas e histogramas #Prettydocs es para hacer documentos formales #xfun es para botones para descarga de archivos

library(pacman)
p_load("datasets", "DT", "fdth", "prettydoc", "xfun", "ggplot2", "beanplot")

Ejercicio #4: Análisis exploratorio de datos (EDA)

Utilizando el conjunto de datos de un estudio de casos y controles de (o) cáncer de esófago en Ille-et-Vilaine, Francia.

Cigarros y alcohol

##Conociendo los datos

A través de una tabla interactiva

datatable(esoph)

A través de una gráfica, usando ggplot2

vhrl <-  esoph

#Clasificación de datos de casos de acuerdo a su edad

ggplot(vhrl, aes(ncases, ncontrols ) ) + geom_point(aes(col=agegp), size=4)

Medidas exploratorias de tendencia central

summary(vhrl)
##    agegp          alcgp         tobgp        ncases         ncontrols     
##  25-34:15   0-39g/day:23   0-9g/day:24   Min.   : 0.000   Min.   : 0.000  
##  35-44:15   40-79    :23   10-19   :24   1st Qu.: 0.000   1st Qu.: 1.000  
##  45-54:16   80-119   :21   20-29   :20   Median : 1.000   Median : 4.000  
##  55-64:16   120+     :21   30+     :20   Mean   : 2.273   Mean   : 8.807  
##  65-74:15                                3rd Qu.: 4.000   3rd Qu.:10.000  
##  75+  :11                                Max.   :17.000   Max.   :60.000

Visualización de los datos

##histograma

hist(vhrl$ncases,
     col="red",
     main = "Histograma de número de casos",
     xlab = "Número de casos",
     ylab = "Frecuencia absoluta")

hist(vhrl$ncontrols,
     col="blue",
     main = "Histograma de número de casos controlados",
     xlab = "Número de casos controlados",
     ylab = "Frecuencia absoluta")

Diferentes maneras de realizar histogramas

par(mfrow=c(1,3))
hist(vhrl$ncases,xlim=c(0,20),ylim=c(0,70))
hist(vhrl$ncontrols,xlim=c(0,60),ylim=c(0,80))

Gráfico de dispersión (scatterplot)

Crear un gráfico de dispersión de los casos que hay versus los caoss que están controlados

En este caso usaremos la función “plot”

plot( vhrl$ncases, vhrl$ncontrols,
      col = "red",
      Main = "Gráfico de dispersión de número de casos y número de casos controlados",
      xlab = "Casos totales",
      ylab = "Casos controlados",
      pch = 19
)
## Warning in plot.window(...): "Main" is not a graphical parameter
## Warning in plot.xy(xy, type, ...): "Main" is not a graphical parameter
## Warning in axis(side = side, at = at, labels = labels, ...): "Main" is not a
## graphical parameter

## Warning in axis(side = side, at = at, labels = labels, ...): "Main" is not a
## graphical parameter
## Warning in box(...): "Main" is not a graphical parameter
## Warning in title(...): "Main" is not a graphical parameter

Gráfico comparativo de tipo “beanplot”

##NO ME CORRIÓ CON NINGUNA VARIABLE:(

xvhrl <- vhrl
xvhrl$agegp <- NULL
xvhrl$alcgp <- NULL
xvhrl$tobgp <- NULL
beanplot(xvhrl, main = "Casos y controlados en cáncer de esófago")

Número de casos controlados utilizando un gráfico de caja y bigote

boxplot(agegp~ncontrols,
         data=vhrl,
        main="Casos controlados",
        xlab="Grupos de edades",
        ylab="Casos controlados",
        col = "blue",
        border= "red")

Interpretando un gráfico de caja y bigote

Componentes del gráfico de caja y bigote

#Extracción de subconjuntos

ca <- subset(vhrl, ncases == "Casos")
co <- subset(vhrl, ncontrols == "Controlados")

Descarga este código

xfun::embed_file("A4U1.Rmd")

Download A4U1.Rmd