💻¡Bienvenidos al Taller introductorio: R para Cientistas
Sociales! 💻.
A a lo largo de esta jornada abordaremos el uso de R para las
ciencias sociales. No se requiere experiencia previa en
programación ni análisis de datos, ya que este taller está
diseñado para todxs, desde principiantes hasta aquellos con cierta
experiencia.
🤔 ¿Por qué R? R es un lenguaje de programación
ampliamente utilizado en la ciencia de datos, estadísticas y análisis de
datos. En las ciencias sociales, R puede ser una herramienta invaluable
para explorar datos, identificar patrones, y comunicar tus hallazgos de
manera efectiva estudies la carrera que estudies.
Podes acceder al repositorio acá.
Allí vamos a estar subiendo los archivos y documentos del curso.
➡️ Este taller es organizado por el proyecto de investigación “La
trama territorial de programas sociales en el conurbano bonaerense:
entre nación, municipios y organizaciones sociales (2015-2023)”
radicado en el Departamento de Derecho y Ciencia Política de la
Universidad Nacional de La Matanza (UNLaM).
Instalación de R y RStudio
Instalación de R
1️⃣ Para descargar R y Rstudio, debes acceder a la página de
intalación de Posit.
2️⃣ Lo primero que debemos hacer es instalar R. Para
ello, seleccionaremos el paso 1 que te llevara a la página de CRAN (Comprehensive R
Archive Network) que es el repositorio central de software de
R. Allí, deberás seleccionar el sistema operativo que
utilices.
3️⃣ Luego deberás seleccionar el “install for the first time”
(Instalar por primera vez) en la parte superior de la página:
Instalación de R Studio
4️⃣ Una vez que lo descargas, deberás ejecutar el .exe y seguir los
pasos de la instalación. La última versión de R es la 9.1.
5️⃣En cuanto hayas descargado R, deberás descargar RStudio que es el
IDE que estaremos usando a lo largo del curso.
Para ello vuelve a la página de posit y
selecciona el Paso 2.
También podés seleccionar la opción de descarga que mejor se adapte a
tu sistema operativo
¡Felicidades! Ahora tienes R y RStudio instalados en tu compu. En
caso de tener algún inconveniente no dudes en escribirnos.
📅 Nos vemos el 23 de noviembre a las 17 30 hs en la
biblioteca de la UNLaM para continuar con este taller
✨ En esta página estaremos subiendo lo que veremos ese día ✨
¿Con qué trabajamos en R?
Scripts: Un script de R es un archivo de texto
que contiene código R.
Rmarkdown: Un documento Rmd es
un archivo de texto que combina texto con código R. Este formato de
documento se utiliza para crear informes, presentaciones y otros tipos
de documentos que contienen tanto texto como código. Podés aprender más
de rmarkdown acá y de
Quarto (un tipo de documento parecido y más chevere acá)
➡️ Si apretamos las teclas ALT+CTRL+I podemos introducir un
chunk. Es como un mini script, un espacio para
procesar código en R. para ejecutar el código hacemos clic en el botón verde
➡️ También podemos correr lineas de código usando CTRL + ENTER
# Esto es un comentario. Para comentar usamos el # o CTRL + ALT + C
Uno puede editar la estructura del documento
Esto es un titulo
Esto es un titulo mas chiquito
Esto es un título mini
Esto es texto normal
Esto es texto en cursiva
Esto es texto en negrita
En R todo es un objetos
R es un lenguaje orientado a objetos, lo que significa que todo en R
es un objeto. Incluso los números, las funciones y los datos son objetos
(“cosas”) en R.
➡️ Los objetos se crean con <- o el signo
# Creamos un objeto en Resto_es_un_objeto <-23esto_tambien <-"Usamos comillas para el texto para que ningun elemento este suelto"
También podemos crear objetos con muchos objetos llamados
vectores
Podemos hacer operaciones matemáticas con R. Y, podemos operar con
los objetos
# suma1+3
## [1] 4
# resta4-2
## [1] 2
# division25/5
## [1] 5
# multiplicacion2*2
## [1] 4
# potencia2^2
## [1] 4
A su vez, podes operar con tus objetos, vectores, dataframes…
# suma con mi objetoesto_es_un_objeto +5
## [1] 28
# Puedo crear un objeto con lo nuevo objeto_nuevo <- esto_es_un_objeto +5
Y usar funciones de R o de librerías para calculos. Las
funciones como sum() o mean()
son bloques de código reutilizables que realizan tareas específicas. R
tiene muchas funciones incorporadas y también podes crear las tuyas
propias. Además hay librerías y paquetes que te permiten ampliar
este universo de funciones
# Tambien operar con mis vectoresmean(esto_es_un_vector)
## [1] 9
sum(esto_es_un_vector)
## [1] 153
Podemos graficar nuestro vector con la función
plot()
plot(esto_es_un_vector)
Levantar data
📂 En R podemos utilizar archivos csv, txt, excel, sav, entre otros.
Incluso podes trabajar con googlesheets!
❗Para cada tipo de archivo hay una función diferente. CSV
read.csv() , archivos SAV read_spss() , excel
readxl::read_excel()
Vamos a trabajar con datos
abiertos del Programa Nacional de Inclusión
Socioproductiva y Desarrollo Local “Potenciar Trabajo” que fue
creado en el año 2020 bajo la Resolución N° 121. Este programa busca es
contribuir al mejoramiento de la empleabilidad y la generación de nuevas
propuestas productivas. Para ello, se prevé la participación de las y
los titulares del programa en al menos una de las tres alternativas:
Con el simbolo $ puedo elegir las variables de mi tabla y a cada una
de ellas puedo aplicarle una función
max(df$titulares) #máximo de titulares
## [1] 100003
min(df$titulares) #mínimo de minimo de titulares
## [1] 1
Para saber más acerca de una función podes pedirle ayuda a R con:
#?max#help(max)
Ver un resumen de los datos
str(df)
## 'data.frame': 4769 obs. of 9 variables:
## $ X : int 1 2 3 4 5 6 7 8 9 10 ...
## $ periodo : chr "2020-12-01" "2020-12-01" "2020-12-01" "2020-12-01" ...
## $ provincia : chr "Buenos Aires" "Buenos Aires" "Buenos Aires" "Buenos Aires" ...
## $ provincia_id : int 6 6 6 6 6 6 6 6 6 6 ...
## $ departamento : chr "25 de Mayo" "9 de Julio" "Adolfo Alsina" "Adolfo Gonzales Chaves" ...
## $ departamento_id: int 6854 6588 6007 6014 6021 6028 6077 6035 6042 6049 ...
## $ municipio : chr "25 De Mayo" "9 De Julio" "Adolfo Alsina" "Adolfo Gonzales Chaves" ...
## $ municipio_id : int 68540854 65880588 60070007 60140014 60210021 60280028 60770077 60350035 60420042 60490049 ...
## $ titulares : int 379 209 346 248 139 20469 185 12612 250 478 ...
summary(df)
## X periodo provincia provincia_id
## Min. : 1 Length:4769 Length:4769 Min. : 2.00
## 1st Qu.:1193 Class :character Class :character 1st Qu.:14.00
## Median :2385 Mode :character Mode :character Median :42.00
## Mean :2385 Mean :46.31
## 3rd Qu.:3577 3rd Qu.:82.00
## Max. :4769 Max. :94.00
## departamento departamento_id municipio municipio_id
## Length:4769 Min. : 2001 Length:4769 Min. : 90014
## Class :character 1st Qu.:14154 Class :character 1st Qu.:141540062
## Mode :character Median :42035 Mode :character Median :420350026
## Mean :46410 Mean :463560172
## 3rd Qu.:82021 3rd Qu.:820210255
## Max. :94014 Max. :940140003
## titulares
## Min. : 1.0
## 1st Qu.: 5.0
## Median : 28.0
## Mean : 759.1
## 3rd Qu.: 165.0
## Max. :100003.0
Graficamos
Para graficar usamos ggplot2, es un paquete que se
encuentra dentro de Tidyverse.
Tidyverse es un conjunto de paquetes en R diseñados para
la ciencia de datos. Estos paquetes comprenden funciones que facilitan
el proceso de importación, limpieza, transformación, visualización,
modelado y comunicación de datos. Pueden explorarlos mediante la documentación
# install.packages("tidyverse")library(tidyverse) # Activamos el paquete
Para instalar un paquete usamos
install.packages("nombre_del_paquete") y siempre SIEMPRE
que necesitamos usarlo hay que llamarlo en nuestra sesión o documento
con library(nombre_del_paquete)
Existe una interfaz interactiva que permite dar los primeros pasos en
este mundo de la visualización. El paquete esquisse te
permite hacer un boceto del gráfico y luego copiar el codigo en tu
trabajo a través de la función esquisser
#instalaremos el paquete esquisse#install.packages("esquisse") #instalamos el paquete, por unica vezlibrary(esquisse)
## Warning: package 'esquisse' was built under R version 4.3.2
# Otra forma de llamar a las funciones de los paquetes esquisse::esquisser()#esquisser(df) #corremos la funcion de visualizacion# Gráfico resultanteggplot(df) +aes(x = periodo, weight = titulares) +geom_bar(fill ="#36B08E") +labs(x ="Cantidad",y ="Período",title ="Titulares del potenciar trabajo por año",subtitle ="Cantidad de titulares (2021-2023)",caption ="Fuente: Datos abiertos del MDSN" ) +theme_classic() +theme(plot.title =element_text(size = 16L,face ="bold",hjust =0.5),plot.subtitle =element_text(size = 15L,hjust =0.5) )