Este documento ofrece algunos de los conceptos más fundamentales de la R, otorgándo una experiencia práctica tanto en la exploración y el resumen de datos.

Cada parte esta posee una descripción de la tarea y los comandos R utilizados.

Carga de datos

Utilizaremos el set de datos de “esoph”, que esta relacionado con un estudio de caso y control realizado en Francia que busca asociar el cáncer esofágico con el consumo de alcohol. Este set de datos forma parte estándar de R, por tanto se carga directamente. En caso de cargar desde un dirección de internet. utilice dataset_url <- “http://direccion_url/esoph_cancer.txt” download.file (dataset_url, “esoph_cancer.txt”) y establezca si directorio de trabajo

#dataset_url <- "http://direccion web/esoph_cancer.txt"
#download.file (dataset_url, "esoph_cancer.txt")
#getwd ()                           # get working directory
#setwd ("path/to/your/directory")   # set working directory

Revisando el contenido y tipo de datos. Los datos se dividen en 5 columnas: agep (edad promedio), alcgp ( consumo de alcohol), tobgp (consumo de tabaco), ncases (numero de casos) y ncontrols (numero de controles):

head(esoph) # muestra las primeras líneas dela tabla
tail(esoph) # muestra las últimas líneas de la tabla.
class (esoph)      # find the type of data structure
[1] "data.frame"
colnames (esoph)   # find the names of the columns
[1] "agegp"      "alcgp"      "tobgp"      "ncases"     "ncontrols" 
[6] "cat_ncases"

Exploración de datos

dim (esoph) # find the dimension of the data.frame esoph
[1] 88  6

También podemos inferir estos valores indirectamente observando la longitud de cualquier columna, por ejemplo la columna agegp, y la longitud de cualquier fila, por ejemplo, la fila número 3:

length (esoph$agegp) # find the length of column ‘agegp', or esoph[,1]
[1] 88
length (esoph[3,])   # find the length of row 3
[1] 6

Otro comando muy útil para dar salida a todos estos datos, además de los datos internos str UCTURA del objeto:

str (esoph)
'data.frame':   88 obs. of  6 variables:
 $ agegp     : Ord.factor w/ 6 levels "25-34"<"35-44"<..: 1 1 1 1 1 1 1 1 1 1 ...
 $ alcgp     : Ord.factor w/ 4 levels "0-39g/day"<"40-79"<..: 1 1 1 1 2 2 2 2 3 3 ...
 $ tobgp     : Ord.factor w/ 4 levels "0-9g/day"<"10-19"<..: 1 2 3 4 1 2 3 4 1 2 ...
 $ ncases    : num  0 0 0 0 0 0 0 0 0 0 ...
 $ ncontrols : num  40 10 6 5 27 7 4 7 2 1 ...
 $ cat_ncases: Factor w/ 3 levels "rare","med","freq": 1 1 1 1 1 1 1 1 1 1 ...

Resumen de estadísticas

Estadística descriptiva

Estadística descriptiva, estas medidas permiten la descripción cuantitativa de los datos, resumiendo efectivamente las muestras de datos. Las medidas más utilizadas se dividen en 2 grandes grupos: 1. Medidas de tendencia central : media (o promedio), moda y mediana; 2. Medidas de variabilidad o dispersión : desviación estándar, varianza, máxima y mínima.

summary (esoph)
   agegp          alcgp         tobgp        ncases      
 25-34:15   0-39g/day:23   0-9g/day:24   Min.   : 0.000  
 35-44:15   40-79    :23   10-19   :24   1st Qu.: 0.000  
 45-54:16   80-119   :21   20-29   :20   Median : 1.000  
 55-64:16   120+     :21   30+     :20   Mean   : 2.273  
 65-74:15                                3rd Qu.: 4.000  
 75+  :11                                Max.   :17.000  
   ncontrols     cat_ncases
 Min.   : 1.00   rare:79   
 1st Qu.: 3.00   med : 8   
 Median : 6.00   freq: 1   
 Mean   :11.08             
 3rd Qu.:14.00             
 Max.   :60.00             

Como podemos ver, las variables categóricas se contaron por grupo: 6 diferentes grupos de edad , 4 grupos de alcohol y 4 grupos de tabaco , cada uno debidamente identificado. Las variables numéricas se describieron y resumieron mostrando sus valores mínimos, máximos, medios y medianos (equivalentes al segundo cuartil), así como los valores del primer y tercer cuartil.

Estas medidas también se pueden calcular individualmente, para cada variable numérica de interés:

mean (esoph$ncases)       # mean/average of the nr of cases
[1] 2.272727
median (esoph$ncontrols)  # median of all controls
[1] 6
mean (esoph$ncases[1:15]) # mean nr of cases in ages 25-34 (rows 1 to 15)
[1] 0.06666667
median (esoph[16:30,4])   # median nr of cases (column 4) in ages 35-44 (rows 16 to 30)
[1] 0
min (esoph$ncases)        # minimum nr of cases observed
[1] 0
max (esoph[,5])           # maximum nr of controls (column 5) observed
[1] 60

¿Cómo podemos seleccionar datos que no son contiguos? Imagine, por ejemplo, que queremos calcular el número medio de casos de cáncer observados en personas que fuman más de 30 gramos de tabaco por día. Estas filas no se agrupan contiguamente … Para estos casos, podemos usar la función subconjunto () y pedirle a R que “calcule la media del subconjunto del número de casos, donde el grupo de tabaco es igual a 30+”. (Al igual que con cualquier lenguaje de programación, aprender a leer el código ayuda a comprenderlo).

# mean/average of the nr of cases, in smokers’ "30+" group
mean (subset(esoph$ncases, esoph$tobgp == "30+"))
[1] 1.55

¿Qué sucede si queremos seleccionar todos los datos para el grupo de tabaco etiquetado 30+? ¿Cómo podemos hacer eso? Usando la función which () , R puede seleccionar solo los datos pertenecientes a un grupo particular:

# all data concerning tobacco group "30+"
tobgp30 <- esoph[which(esoph[,"tobgp"] == "30+"),]

¿Y cómo podemos obtener, a partir de tobgp30_data, solo los valores donde el número de casos es mayor que cero y sumarlos todos? En este caso, podemos usar which () para seleccionar y sum () para agregar los valores seleccionados:

# all data from tobacco group "30+" where the nr of cases is higher than zero
tobgp30_noZero <- tobgp30[which(tobgp30[, "ncases"] > 0 ),]
sum (tobgp30_noZero$ncases) # sum all cases of cancer
[1] 31

Finalmente, para completar la exploración y el resumen de datos, debemos calcular la desviación estándar y la varianza (que es el cuadrado de la desviación estándar).

sd (esoph$ncases)  # standard deviation of the total nr of cases
[1] 2.753169
var (esoph$ncases) # variance of the number of cases
[1] 7.579937

O si queremos verificar los resultados …

# var of the nr of cases is the square of its standard deviation
sd (esoph$ncases)^2
[1] 7.579937
# sd of the nr of cases is the square root of its variance
sqrt (var (esoph$ncases))
[1] 2.753169

Como se mencionó brevemente antes, este conjunto de datos presenta 2 tipos de variables: variables numéricas continuas (el número de casos y el número de controles) y variables categóricas discretas (el grupo de edad, el grupo de fumadores de tabaco y el grupo de consumo de alcohol). A veces es difícil “categorizar” variables continuas, es decir, agruparlas en intervalos específicos de interés y nombrar estos grupos (también llamados niveles ). En consecuencia, imagine que estábamos interesados en clasificar el número de casos de cáncer según su ocurrencia: frecuente , intermedia y rara . Este tipo de recodificación variableen factores se logra fácilmente utilizando la función cut () .

# factorize the nr of cases in 3 levels, equally spaced, and add the new variable,
 # as the new column cat_ncases, to our dataset
esoph$cat_ncases <- cut (esoph$ncases,3,labels=c("rare","med","freq"))
summary (esoph)
   agegp          alcgp         tobgp        ncases      
 25-34:15   0-39g/day:23   0-9g/day:24   Min.   : 0.000  
 35-44:15   40-79    :23   10-19   :24   1st Qu.: 0.000  
 45-54:16   80-119   :21   20-29   :20   Median : 1.000  
 55-64:16   120+     :21   30+     :20   Mean   : 2.273  
 65-74:15                                3rd Qu.: 4.000  
 75+  :11                                Max.   :17.000  
   ncontrols     cat_ncases
 Min.   : 1.00   rare:79   
 1st Qu.: 3.00   med : 8   
 Median : 6.00   freq: 1   
 Mean   :11.08             
 3rd Qu.:14.00             
 Max.   :60.00             

Visualización

Los gráficos R se crean utilizando una serie de comandos de trazado de alto y bajo nivel . Los comandos de alto nivel crean nuevas tramas, y los de bajo nivel agregan información a una trama existente (la que está actualmente abierta por el dispositivo gráfico). ### Diagramas de dispersión

plot (esoph$ncases, esoph$ncontrols)

# put labels on axis, main title, change point type and color
plot(esoph$ncases, esoph$ncontrols, xlab="Cases", ylab="Controls",
     main="Cases vs Controls", pch=15, col="red")

Histogramas y diagramas

La función hist () muestra la frecuencia (número de ocurrencias) de cada observación; y la función boxplot () muestra la distribución de las ocurrencias en cada categoría (agegp, alcgp y tobg).

# basic histogram, with labels, title and orange bars
hist(esoph$ncases, xlab="Nr of Cases", main="Esoph data", col="orange")

boxplot (esoph$ncases ~ esoph$agegp,main="Esoph dataset",
         border="gray",lwd=1,col=rainbow(5))

Gráficos lineales

Estos son gráficos continuos (generalmente de distribuciones estadísticas conocidas, como Gaussian (dnorm), gamma, beta, etc.).

# multiple normal distribution curves, different mean and sd
curve(dnorm, from=-3, to=5, lwd=2, col="red")
curve(dnorm(x, mean=2), lwd=2, col="blue", add=TRUE)
curve(dnorm(x, mean=-1), lwd=2, col="green", add=TRUE)
curve(dnorm (x,mean=0,sd=1.5), lwd=2, lty=2, col="red", add=TRUE)
# add a vertical line at the mean of the distribution
lines(c(0,0), c(0,dnorm(0)), lty=1, col="red")
# add free text to the plot, in coordinates x=4, y=0.2
text(4,0.2,"Gaussian distribution")
# add extra axis, on top (side 3), from -3 to 5, with tick-marks from -3 to 5,
 # and colored violet 
axis(3, -3:5, seq(-3,5), col.axis = "violet")

gráficos

Para crear una página con varios gráficos ubicados en paneles uno al lado del otro, debemos usar la función par () con uno de los siguientes parámetros: par (mfrow = c (r, c)) o par (mfcol = c (r , c)) . mfrow agrega imágenes por línea, de derecha a izquierda, y mfcol agrega por columna, de arriba a abajo.

# set the graphical display parameters to 3 rows and 2 columns
par(mfrow=c(3,2)) # mfrow adds plots per row, from left to right
# draw boxplots for cases and controls, per each group 
boxplot (esoph$ncases ~ esoph$agegp, xlab="agegp",border="gray", lwd=1,
         col=rainbow(5))
boxplot (esoph$ncontrols ~ esoph$agegp,xlab="agegp", border="gray", lwd=1,
         col=rainbow(5))
boxplot (esoph$ncases ~ esoph$alcgp,border="gray",xlab="alcgp", lwd=1,
         col=rainbow(4))
boxplot (esoph$ncontrols ~ esoph$alcgp,border="gray", xlab="alcgp", lwd=1,
         col=rainbow(4))
boxplot (esoph$ncases ~ esoph$tobgp,border="gray",xlab="tobgp", lwd=1,
         col=rainbow(4))
boxplot (esoph$ncontrols ~ esoph$tobgp,border="gray", xlab="tobgp", lwd=1,
         col=rainbow(4))
# add a title outside of the plotting area
title("Boxplots of Cases (left) and Controls (right)",outer=TRUE, line=-2, cex.main=2)

Una vez finalizados los gráficos del panel, debemos revertir los parámetros gráficos a sus valores predeterminados, para que podamos volver a trazar un gráfico por página.

# reset the graphical display parameters to 1 row and 1 column
par (mfrow=c(1,1))

Exportar

RStudio permite la visualización de las parcelas antes de exportarlas / guardarlas en un archivo de imagen (es decir , basado en mapas de bits , como .jpeg y .png que se pixelan al hacer zoom), o como .pdf (que es un formato vectorial que se puede hacer zoom y estirado hasta el infinito, sin perder calidad de imagen).

# Create a single pdf of figures, with one graph on each page
pdf ("esoph_boxplots.pdf", width=7, height=5) # Start graphics device
# draw boxplots for cases and controls, per each group 
boxplot (esoph$ncases ~ esoph$agegp, main="Cases per Age group",xlab="agegp",
         border="gray", lwd=1, col=rainbow(5))
boxplot (esoph$ncontrols ~ esoph$agegp, xlab="agegp",main="Controls per Age group",
         border="gray", lwd=1, col=rainbow(5))
boxplot (esoph$ncases ~ esoph$alcgp,border="gray",xlab="alcgp",
         main="Cases per Alcohol group",lwd=1, col=rainbow(4))
boxplot (esoph$ncontrols ~ esoph$alcgp,border="gray", xlab="alcgp",
         main="Controls per Alcohol group", lwd=1, col=rainbow(4))
boxplot (esoph$ncases ~ esoph$tobgp,border="gray", xlab="tobgp",
         main="Cases per Tobacco group", lwd=1, col=rainbow(4))
boxplot (esoph$ncontrols ~ esoph$tobgp,border="gray", xlab="tobgp",
         main="Controls per Tobacco group", lwd=1, col=rainbow(4))
dev.off () # close graphics device (stop writing to file)
null device 
          1 
