R para Cientistas Sociales: Taller Introductorio

💻¡Bienvenidos al Taller introductorio: R para Cientistas Sociales! 💻.

A a lo largo de esta jornada abordaremos el uso de R para las ciencias sociales. No se requiere experiencia previa en programación ni análisis de datos, ya que este taller está diseñado para todxs, desde principiantes hasta aquellos con cierta experiencia.

🤔 ¿Por qué R? R es un lenguaje de programación ampliamente utilizado en la ciencia de datos, estadísticas y análisis de datos. En las ciencias sociales, R puede ser una herramienta invaluable para explorar datos, identificar patrones, y comunicar tus hallazgos de manera efectiva estudies la carrera que estudies.

Podes acceder al repositorio acá. Allí vamos a estar subiendo los archivos y documentos del curso.

➡️ Este taller es organizado por el proyecto de investigación “La trama territorial de programas sociales en el conurbano bonaerense: entre nación, municipios y organizaciones sociales (2015-2023)” radicado en el Departamento de Derecho y Ciencia Política de la Universidad Nacional de La Matanza (UNLaM).

Instalación de R y RStudio

Instalación de R

1️⃣ Para descargar R y Rstudio, debes acceder a la página de intalación de Posit.

2️⃣ Lo primero que debemos hacer es instalar R. Para ello, seleccionaremos el paso 1 que te llevara a la página de CRAN (Comprehensive R Archive Network) que es el repositorio central de software de R. Allí, deberás seleccionar el sistema operativo que utilices.

3️⃣ Luego deberás seleccionar el “install for the first time” (Instalar por primera vez) en la parte superior de la página:

Instalación de R Studio

4️⃣ Una vez que lo descargas, deberás ejecutar el .exe y seguir los pasos de la instalación. La última versión de R es la 9.1.

5️⃣En cuanto hayas descargado R, deberás descargar RStudio que es el IDE que estaremos usando a lo largo del curso.

Para ello vuelve a la página de posit y selecciona el Paso 2.

También podés seleccionar la opción de descarga que mejor se adapte a tu sistema operativo

¡Felicidades! Ahora tienes R y RStudio instalados en tu compu. En caso de tener algún inconveniente no dudes en escribirnos.

📅 Nos vemos el 23 de noviembre a las 17 30 hs en la biblioteca de la UNLaM para continuar con este taller

✨ En esta página estaremos subiendo lo que veremos ese día ✨

¿Con qué trabajamos en R?

  • Scripts: Un script de R es un archivo de texto que contiene código R.

  • Rmarkdown: Un documento Rmd es un archivo de texto que combina texto con código R. Este formato de documento se utiliza para crear informes, presentaciones y otros tipos de documentos que contienen tanto texto como código. Podés aprender más de rmarkdown acá y de Quarto (un tipo de documento parecido y más chevere acá)

➡️ Si apretamos las teclas ALT+CTRL+I podemos introducir un chunk. Es como un mini script, un espacio para procesar código en R. para ejecutar el código hacemos clic en el botón verde

➡️ También podemos correr lineas de código usando CTRL + ENTER

# Esto es un comentario. Para comentar usamos el # o CTRL + ALT + C

Uno puede editar la estructura del documento

Esto es un titulo

Esto es un titulo mas chiquito

Esto es un título mini

Esto es texto normal

Esto es texto en cursiva

Esto es texto en negrita

En R todo es un objetos

R es un lenguaje orientado a objetos, lo que significa que todo en R es un objeto. Incluso los números, las funciones y los datos son objetos (“cosas”) en R.

➡️ Los objetos se crean con <- o el signo

# Creamos un objeto en R

esto_es_un_objeto <- 23
esto_tambien <- "Usamos comillas para el texto para que ningun elemento este suelto"

También podemos crear objetos con muchos objetos llamados vectores

esto_es_un_vector <- c(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17)

R es una calculadora

Podemos hacer operaciones matemáticas con R. Y, podemos operar con los objetos

# suma
1 + 3
## [1] 4
# resta
4-2
## [1] 2
# division
25/5
## [1] 5
# multiplicacion
2*2
## [1] 4
# potencia
2^2
## [1] 4

A su vez, podes operar con tus objetos, vectores, dataframes…

# suma con mi objeto

esto_es_un_objeto + 5
## [1] 28
# Puedo crear un objeto con lo nuevo 
objeto_nuevo <- esto_es_un_objeto + 5

Y usar funciones de R o de librerías para calculos. Las funciones como sum() o mean() son bloques de código reutilizables que realizan tareas específicas. R tiene muchas funciones incorporadas y también podes crear las tuyas propias. Además hay librerías y paquetes que te permiten ampliar este universo de funciones

# Tambien operar con mis vectores

mean(esto_es_un_vector)
## [1] 9
sum(esto_es_un_vector)
## [1] 153

Podemos graficar nuestro vector con la función plot()

plot(esto_es_un_vector)

Levantar data

📂 En R podemos utilizar archivos csv, txt, excel, sav, entre otros. Incluso podes trabajar con googlesheets!

❗Para cada tipo de archivo hay una función diferente. CSV read.csv() , archivos SAV read_spss() , excel readxl::read_excel()

Vamos a trabajar con datos abiertos del Programa Nacional de Inclusión Socioproductiva y Desarrollo Local “Potenciar Trabajo” que fue creado en el año 2020 bajo la Resolución N° 121. Este programa busca es contribuir al mejoramiento de la empleabilidad y la generación de nuevas propuestas productivas. Para ello, se prevé la participación de las y los titulares del programa en al menos una de las tres alternativas:

  • proyectos socio-productivos;

  • terminalidad educativa;

  • proyectos socio-laborales o socio-comunitarios

#Defino url
# url <- ("https://datosabiertos.desarrollosocial.gob.ar/dataset/d45687c0-f2ba-41d9-9989-0ad9799308ae/resource/c5c925e0-7ce0-41e5-b3ff-8ebb51d4be72/download/potenciar-trabajo-titulares-2022-10-01.csv")
# 
# potenciar_trabajo <- read.csv(url)

potenciar_trabajo <- read.csv("potenciar-trabajo-titulares-2022-10-01.csv")

Para descargarlo a nuestro espacio de trabajo usamos la funcion write.csv() para CSV o write.xlsx de la librería openxlsx

# Guardo el csv
write.csv(potenciar_trabajo, "df_potenciar.csv")

para leer el archivo desde nuestra compu:

# Leo el df 
df <- read.csv("df_potenciar.csv")

Pueden encontrar más información sobre importacion y exportacion de archivos aquí o aquí

Analizamos el potenciar trabajo

Primero vamos a ver qué hay en el df del potenciar trabajo

# Primeras 10 observaciones
head(df) 
##   X    periodo    provincia provincia_id           departamento departamento_id
## 1 1 2020-12-01 Buenos Aires            6             25 de Mayo            6854
## 2 2 2020-12-01 Buenos Aires            6             9 de Julio            6588
## 3 3 2020-12-01 Buenos Aires            6          Adolfo Alsina            6007
## 4 4 2020-12-01 Buenos Aires            6 Adolfo Gonzales Chaves            6014
## 5 5 2020-12-01 Buenos Aires            6                Alberti            6021
## 6 6 2020-12-01 Buenos Aires            6        Almirante Brown            6028
##                municipio municipio_id titulares
## 1             25 De Mayo     68540854       379
## 2             9 De Julio     65880588       209
## 3          Adolfo Alsina     60070007       346
## 4 Adolfo Gonzales Chaves     60140014       248
## 5                Alberti     60210021       139
## 6        Almirante Brown     60280028     20469
# Ultimas 10 observaciones
tail(df)
##         X    periodo provincia provincia_id departamento departamento_id
## 4764 4764 2022-12-01   Tucumán           90      Trancas           90112
## 4765 4765 2022-12-01   Tucumán           90      Trancas           90112
## 4766 4766 2022-12-01   Tucumán           90  Yerba Buena           90119
## 4767 4767 2022-12-01   Tucumán           90  Yerba Buena           90119
## 4768 4768 2022-12-01   Tucumán           90  Yerba Buena           90119
## 4769 4769 2022-12-01   Tucumán           90  Yerba Buena           90119
##          municipio municipio_id titulares
## 4764         Tapia    901120104         6
## 4765       Trancas    901120106       536
## 4766 Cevil Redondo    901190019       263
## 4767    San Javier    901190087        29
## 4768 Villa Carmela    901190113        34
## 4769   Yerba Buena    901190112       590

Con el simbolo $ puedo elegir las variables de mi tabla y a cada una de ellas puedo aplicarle una función

max(df$titulares) #máximo de titulares
## [1] 100003
min(df$titulares) #mínimo de minimo de titulares
## [1] 1

Para saber más acerca de una función podes pedirle ayuda a R con:

#?max
#help(max)

Ver un resumen de los datos

str(df)
## 'data.frame':    4769 obs. of  9 variables:
##  $ X              : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ periodo        : chr  "2020-12-01" "2020-12-01" "2020-12-01" "2020-12-01" ...
##  $ provincia      : chr  "Buenos Aires" "Buenos Aires" "Buenos Aires" "Buenos Aires" ...
##  $ provincia_id   : int  6 6 6 6 6 6 6 6 6 6 ...
##  $ departamento   : chr  "25 de Mayo" "9 de Julio" "Adolfo Alsina" "Adolfo Gonzales Chaves" ...
##  $ departamento_id: int  6854 6588 6007 6014 6021 6028 6077 6035 6042 6049 ...
##  $ municipio      : chr  "25 De Mayo" "9 De Julio" "Adolfo Alsina" "Adolfo Gonzales Chaves" ...
##  $ municipio_id   : int  68540854 65880588 60070007 60140014 60210021 60280028 60770077 60350035 60420042 60490049 ...
##  $ titulares      : int  379 209 346 248 139 20469 185 12612 250 478 ...
summary(df)
##        X          periodo           provincia          provincia_id  
##  Min.   :   1   Length:4769        Length:4769        Min.   : 2.00  
##  1st Qu.:1193   Class :character   Class :character   1st Qu.:14.00  
##  Median :2385   Mode  :character   Mode  :character   Median :42.00  
##  Mean   :2385                                         Mean   :46.31  
##  3rd Qu.:3577                                         3rd Qu.:82.00  
##  Max.   :4769                                         Max.   :94.00  
##  departamento       departamento_id  municipio          municipio_id      
##  Length:4769        Min.   : 2001   Length:4769        Min.   :    90014  
##  Class :character   1st Qu.:14154   Class :character   1st Qu.:141540062  
##  Mode  :character   Median :42035   Mode  :character   Median :420350026  
##                     Mean   :46410                      Mean   :463560172  
##                     3rd Qu.:82021                      3rd Qu.:820210255  
##                     Max.   :94014                      Max.   :940140003  
##    titulares       
##  Min.   :     1.0  
##  1st Qu.:     5.0  
##  Median :    28.0  
##  Mean   :   759.1  
##  3rd Qu.:   165.0  
##  Max.   :100003.0

Graficamos

Para graficar usamos ggplot2, es un paquete que se encuentra dentro de Tidyverse.

Tidyverse es un conjunto de paquetes en R diseñados para la ciencia de datos. Estos paquetes comprenden funciones que facilitan el proceso de importación, limpieza, transformación, visualización, modelado y comunicación de datos. Pueden explorarlos mediante la documentación

# install.packages("tidyverse")

library(tidyverse) # Activamos el paquete
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.3     ✔ readr     2.1.4
## ✔ forcats   1.0.0     ✔ stringr   1.5.0
## ✔ ggplot2   3.4.3     ✔ tibble    3.2.1
## ✔ lubridate 1.9.3     ✔ tidyr     1.3.0
## ✔ purrr     1.0.2     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors

Para instalar un paquete usamos install.packages("nombre_del_paquete") y siempre SIEMPRE que necesitamos usarlo hay que llamarlo en nuestra sesión o documento con library(nombre_del_paquete)

Existe una interfaz interactiva que permite dar los primeros pasos en este mundo de la visualización. El paquete esquisse te permite hacer un boceto del gráfico y luego copiar el codigo en tu trabajo a través de la función esquisser

#instalaremos el paquete esquisse

#install.packages("esquisse") #instalamos el paquete, por unica vez

library(esquisse)
## Warning: package 'esquisse' was built under R version 4.3.2
# Otra forma de llamar a las funciones de los paquetes esquisse::esquisser()
#esquisser(df) #corremos la funcion de visualizacion


# Gráfico resultante

ggplot(df) +
  aes(x = periodo, weight = titulares) +
  geom_bar(fill = "#36B08E") +
  labs(
    x = "Cantidad",
    y = "Período",
    title = "Titulares del potenciar trabajo por año",
    subtitle = "Cantidad de titulares (2021-2023)",
    caption = "Fuente: Datos abiertos del MDSN"
  ) +
  theme_classic() +
  theme(
    plot.title = element_text(size = 16L,
    face = "bold",
    hjust = 0.5),
    plot.subtitle = element_text(size = 15L,
    hjust = 0.5)
  )

Presentación

Accedé a la presentación acá

Fuente

