Instrucciones de control y estadística descriptiva

Ejemplo sobre estadística descriptiva

Paquetes requeridos
Paquete Uso
ggplot2 Gráficos
viridis Paleta de colores de los gráficos
corrplot Correlación de graficos
progress Mostrar el progreso de las iteraciones

Contexto

In June 2016, a referendum was held in the United Kingdom (UK) to decide whether or not to remain part of the European Union (EU). 72% of registered voters took part, and of those, 51.2% voted to leave the EU. In February 2017, Martin Rosenbaum, freedom of information specialist at BBC News, published the article, Local Voting Figures Shed New Light on EU Referendum (http://www.bbc.co.uk/news/uk-politics-38762034). He obtained data from 1,070 electoral wards (the smallest administrative division for electoral purposes in the UK), with numbers for Leave and Remain votes in each ward.

Martin Rosenbaum calculated some statistical associations between the proportion of Leave votes in a ward and some of its social, economic, and demographic characteristics by making use of the most recent UK census, which was conducted in 2011. He used his data for a university class, and that’s the data we will use in this example, with some variables removed. ### Los datos Los datos que se usaron se van a leer de un documento en CSV separado por comas. Para una importación sencilla usaremos la función read.csv

Ejercicio 1

Abre el archivo y conoce los datos con los que vamos a trabajar

archivo <-  read.csv("data_brexit_referendum.csv")

Conociendo el contenido

Una manera de conocer lo que tiene el conjunto de datos que acabamos de leer es con la función View. Sin embargo, esta función no resulta útil cuando queremos darnos una idea global del contenido de un cierto objeto. En este caso, podemos usar la función summary

View(archivo)

summary(archivo)

Si deseamos conocer si un vector es o no numérico, podemos usar la función is.numeric().

# Salida para datos numéricos
is.numeric(archivo$Proporcion)
# Salida para datos no numéricos
is.numeric(archivo$Voto)

Ejercicio 2

¿qué significa el siguiente código?

archivo[archivo$Leave == -1, "Leave"] <- NA

Limpieza de los datos

A veces nos faltarán datos dentro de nuestras encuestas o registros. Una forma de contarlos o identificarlos es con la función is.na con la que obtendremos una respuesta booleana que podemos sumar puesto que R va a tratar los valores lógicos con los siguientes puntajes: TRUE = 1 FALSE = 0

Ejercicio 3

Calcula la cantidad de registros vacíos de la columna “Leave”

sum(is.na(archivo$Leave))

Obteniendo proporciones

Para este ejemplo, agreguemos una columna nueva con la proporción de los votos en favor de dejar la Unión Europea (la columna Leave) y la cantidad total de votos (colmna NVotes)

archivo$Proporcion <- archivo$Leave / archivo$NVotes

Para pasar de los números a las palabras, creemos con la función ifelse una nueva columna para indicar “Dejar” si la proporción es superior al 50% o “Permanecer” si es menor.

Control de flujo

La instruión de if o ifelse puede ser aplicada, como todo en R, sobre cada elemento de un vector de manera directa. Además de if, en R podemos usar la función which que nos permite seleccionar sólo aquellos campos que cumplan una cierta condición y maneja de mejor manera los errores de los casos vacíos. Por ejemplo, el código siguiente se desea asignar a los registros con una proporción superior al 50% la etiqueta de “Abandonar” y una de “Permanecer” a aquellos registros con una proporción menor o igual al 50%.

archivo[archivo$Proporcion > 0.5, "Voto"] <- "Abandonar"
archivo[archivo$Proporcion <= 0.5, "Voto"] <- "Permanecer"

Este error sucede porque hay renglones con la etiqueta NA de la proporción, pues desde su cálculo tenían el error que en uno de sus campos, contaban con NA. Una manera de resolver este error es con La función which. Con esta función aquellos campos que contengan una NA no serán considerados

archivo[which(archivo$Proporcion > 0.5), "Voto"] <- "Abandonar"
archivo[which(archivo$Proporcion <= 0.5), "Voto"] <- "Permanecer"

En esta ocasión, el proceso es más sencillo con el uso de ifelse

archivo$Voto <- ifelse(archivo$Proporcion > 0.5, "Dejar", "Permanecer")

Haciendo un subconjunto de las columnas numéricas

Para hacer un análisis gráfico, vamos a extraer de nuestro arreglo original sólo las columnas numéricas. Esto lo podemos hacer de dos maneras. Mismas que podremos explorar en el Ejercicio 4

Ejercicio 4

Genera un dataframe sólo con las columnas numéricas salvo la de ID.

Solución usando for

solonumeros1 <- data.frame(matrix(ncol = 0, nrow = length(archivo[,1])))
j <- 1
for(i in 1:length(archivo)){
  if(is.numeric(archivo[,i])){
    solonumeros1[,j] <- archivo[,i]
    j <- j+1
  }
}
# summary(solonumeros1)
length(solonumeros1)

Solución usando sapply

solonumeros2 <- archivo[,sapply(archivo, is.numeric)]
# summary(solonumeros2)
length(solonumeros2)

Ahora borremos de este nuevo conjunto, la columna de los identificadores. Esto lo podemos hacer creando un subset sólo con las columnas que queremos conservar o antecediendo el signo - a un vector de índices.

solonumeros2 <- solonumeros2[, -c(1)]
length(solonumeros2)
summary(solonumeros2)

Guardando los resumenes

Para no calcular más de una vez la media, mediana, valor máximo y demás valores que nos presenta la función summary, podemos guardarlos en una lista con La función lapply, La función cbind, La función do.call.

Resumen estadístico

VEstadisticos <- do.call(cbind, lapply(solonumeros2, summary))
View(VEstadisticos)

Si deseamos que las columnas sean las medidas estadísticas, entonces debemos usar rbind en lugar de cbind.

do.call(rbind, lapply(solonumeros2, summary))

Resumen específico

columnas_deseadas <- c("RegionName", "Proporcion", "AdultMeanAge", "NoQuals", "L4Quals_plus")
archivo[which.max(archivo$Proporcion), columnas_deseadas]
archivo[which.min(archivo$Proporcion), columnas_deseadas]

Graficación exploratoria

Gráfica de barras

Con los datos que tenemos crearemos un histograma entre los condados y sus proporciones con la función barplot()

# archivo$RegionName
# Table crea una tabla con los nombres de las regioes y la cantidad de registros que tienen.
table(archivo$RegionName)
# Con prop.table obtendremos la tabla anterior pero en porcentajes
prop.table(table(archivo$RegionName))

barplot(
  height = prop.table(table(archivo$RegionName)),
  main = "Proporción de los votos por región",
  ylab = "Frecuencia",
  xlab = "Región",
  col = "white"
)

Para visualizar de mejor manera los nombres de las regiones podemos hacer lo siguiente:

archivo$RegionName <- as.character(archivo$RegionName)
Regiones <- factor(archivo$RegionName)
ciudades <- data.frame("Nombre" = levels(Regiones), "Abreviatura" = c("EM", "EE", "L", "NE", "NW", "SE", "SW", "WM", "YH"))
View(ciudades)
for (i in 1:9) {
  print("Nombre completo")
  print(ciudades[i,"Nombre"])
  print("Abreviatura")
  print(ciudades[i,"Abreviatura"])
  archivo[which(archivo$RegionName == ciudades[i, "Nombre"]), "RegionName"] <- ciudades[i, "Abreviatura"]
}

Gráficos avanzados: ggplot2 y viridis

Ahora haremos un gráfico que cruze la proporción y los votos para dejar la Unión Europea de cada condado coloreados por la proporción de la población blanca en esa región. Para realizar esta gráfica necesitamos de dos bibliotecas: ggplot2 y viridisLite

library(ggplot2)

Una vez instalados estos paquetes:

grafico <- ggplot(archivo, aes(x=RegionName, y=Proporcion, color=White))
grafico <- grafico + geom_point()
print(grafico)

La función which

Esta función devolverá el índice del valor que satisface cierta condición. El parámetro de entrada será un vector lógico.

Ejemplo

Usando el vector predefinido de letras, encontraremos el índice de la letra R

letters
which(letters == "r")

En el siguiente ejemplo se crea un vector con una secuencia que va de 3 en 3, del 1 hasta el 150. Posteriormente se extraen los índices de los números mayores a 50

# Creando un vector de prueba
df<- seq(from=1, to=150, by=3)
which(df > 50)

Miniejercicio con which

¿Cuáles son los índices de los números pares?

which((df %% 2 )== 0)
df[which((df %% 2 )== 0)]

La función sapply

La función sapply permite iterar sobre una lista o vector sin la necesidad de usar el ciclo for, que es conocido por ser lento en R.

sapply(1:4, sqrt)
sapply(1:6,function(i) i**2)

En el ejemplo anterior hemos visto como usar sapply sobre vectores, podemos ver su uso en matrices dentro de la sección “Haciendo un subconjunto de las columnas numéricas

La función lapply

La función lapply aplica una función a una lista o a un vector y devuelve una lista de la misma longitud que el objeto de entrada.

lapply(1:4, sqrt)
lapply(1:6,function(i) i**2)

La función cbind

Esta función (column-bind) se puede usar para agregar vectores, matrices y marcos de datos por columna a un nuevo marco de datos.

a <- c(1,6,9,8,3,5,4)
b <- c(8,6,2,3,7,6,7)
c <- cbind(a,b)
c
d <- c(32,41,7,11,35,66,44)
df <- data.frame("A" = a, "B" = b, "D" = d)
df
e <- c(1,5,9,6,4,3,78)
df2 <- cbind(df, e)
df2

La función do.call

Esta función permite aplicar una cierta función a una lista de argumentos

mifuncion <- function(a,b){
  a + b
}
milista <- list(c(1,6,8), c(9,6,7))
do.call(mifuncion, milista)

Referencias

  1. Ejemplo traducido y adaptado del libro R Programming By Example de Omar Trejo y Peter C. Figliozzi
  2. The which function in R programming, Journal Dev.
  3. La función sapply en R, R Coder
  4. Función lapply en R, R coder
  5. How to Use cbind in R (With Examples), Statology
  6. Do.call: Execute a function call, RDocumentation
  7. ggplot2, ggplot2
  8. What is the do.call() function in R?, educative
