Reporte del proyecto en Rstudio

Primero llamo las librerías e importo las bases de datos utilizadas para el proyecto

library(readxl)
PagosSUPRES_Abril_Junio_2024 <- read_excel("C:/Users/JTK/OneDrive/Escritorio/data proyecto Rstudio/PagosSUPRES_Abril-Junio_2024.xlsx")
View(PagosSUPRES_Abril_Junio_2024)

library(readxl)
PagosSUPRES_JulioaSetiembre2024_1erarchivo <- read_excel("C:/Users/JTK/OneDrive/Escritorio/data proyecto Rstudio/PagosSUPRES_JulioaSetiembre2024_1erarchivo.xlsx")
View(PagosSUPRES_JulioaSetiembre2024_1erarchivo)

library(readxl)
PagosSUPRES_JulioaSetiembre2024_2doarchivo <- read_excel("C:/Users/JTK/OneDrive/Escritorio/data proyecto Rstudio/PagosSUPRES_JulioaSetiembre2024_2doarchivo.xlsx")
View(PagosSUPRES_JulioaSetiembre2024_2doarchivo)

library(readxl)
X01_PagosSUPRES_OctubreaDiciembre_2024 <- read_excel("C:/Users/JTK/OneDrive/Escritorio/data proyecto Rstudio/01_PagosSUPRES_OctubreaDiciembre_2024.xlsx")
View(X01_PagosSUPRES_OctubreaDiciembre_2024)

library(readxl)
X02_PagosSUPRES_OctubreaDiciembre_2024 <- read_excel("C:/Users/JTK/OneDrive/Escritorio/data proyecto Rstudio/02_PagosSUPRES_OctubreaDiciembre_2024.xlsx")
View(X02_PagosSUPRES_OctubreaDiciembre_2024)

library(readxl)
PagosSUPRES_Enero_Marzo_2024 <- read_excel("C:/Users/JTK/OneDrive/Escritorio/data proyecto Rstudio/PagosSUPRES_Enero-Marzo_2024.xlsx")
View(PagosSUPRES_Enero_Marzo_2024)

library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.5.2     ✔ tibble    3.2.1
## ✔ lubridate 1.9.4     ✔ tidyr     1.3.1
## ✔ purrr     1.0.4     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(dplyr)
library(ggplot2)

La tabla de nombre “PagosSUPRES_Enero_Marzo_2024” cuenta con los titulares de las filas alternando entre mayúsculas y minúsculas por lo que hay que estandarizarla con las demás tablas que están únicamente en mayúsculas

#la tabla de nombre "PagosSUPRES_Enero_Marzo_2024" cuenta con los titulares de las filas alternando entre mayúsculas y minúsculas por lo que hay que estandarizarla con las demás tablas que están únicamente en mayúsculas

colnames(PagosSUPRES_Enero_Marzo_2024) <- c("FECHADETRANFERENCIA",  "INSTITUCIÓN",  "PROGRAMA", "BENEFICIO",    "MONTO",    "ENTIDADDESTINO",   "PROVINCIA",    "SEXO", "ESTADOCIVIL",  "NACIONALIDAD", "NIVELEDUCATIVO",   "ASISTECENTROEDUCATIVO")
colnames(X02_PagosSUPRES_OctubreaDiciembre_2024) <- c("FECHADETRANFERENCIA",    "INSTITUCIÓN",  "PROGRAMA", "BENEFICIO",    "MONTO",    "ENTIDADDESTINO",   "PROVINCIA",    "SEXO", "ESTADOCIVIL",  "NACIONALIDAD", "NIVELEDUCATIVO",   "ASISTECENTROEDUCATIVO")
colnames(X01_PagosSUPRES_OctubreaDiciembre_2024) <- c("FECHADETRANFERENCIA",    "INSTITUCIÓN",  "PROGRAMA", "BENEFICIO",    "MONTO",    "ENTIDADDESTINO",   "PROVINCIA",    "SEXO", "ESTADOCIVIL",  "NACIONALIDAD", "NIVELEDUCATIVO",   "ASISTECENTROEDUCATIVO")
colnames(PagosSUPRES_JulioaSetiembre2024_2doarchivo) <- c("FECHADETRANFERENCIA",    "INSTITUCIÓN",  "PROGRAMA", "BENEFICIO",    "MONTO",    "ENTIDADDESTINO",   "PROVINCIA",    "SEXO", "ESTADOCIVIL",  "NACIONALIDAD", "NIVELEDUCATIVO",   "ASISTECENTROEDUCATIVO")
colnames(PagosSUPRES_JulioaSetiembre2024_1erarchivo) <- c("FECHADETRANFERENCIA",    "INSTITUCIÓN",  "PROGRAMA", "BENEFICIO",    "MONTO",    "ENTIDADDESTINO",   "PROVINCIA",    "SEXO", "ESTADOCIVIL",  "NACIONALIDAD", "NIVELEDUCATIVO",   "ASISTECENTROEDUCATIVO")
colnames(PagosSUPRES_Abril_Junio_2024) <- c("FECHADETRANFERENCIA",  "INSTITUCIÓN",  "PROGRAMA", "BENEFICIO",    "MONTO",    "ENTIDADDESTINO",   "PROVINCIA",    "SEXO", "ESTADOCIVIL",  "NACIONALIDAD", "NIVELEDUCATIVO",   "ASISTECENTROEDUCATIVO")

Al intentar crear una base combinada se mostró un error de “MONTO” está presente en carácter y numero, por lo que se transformara en todas las tablas a numérico

PagosSUPRES_Enero_Marzo_2024$MONTO <- as.numeric(PagosSUPRES_Enero_Marzo_2024$MONTO)
X02_PagosSUPRES_OctubreaDiciembre_2024$MONTO <- as.numeric(X02_PagosSUPRES_OctubreaDiciembre_2024$MONTO)
X01_PagosSUPRES_OctubreaDiciembre_2024$MONTO <- as.numeric(X01_PagosSUPRES_OctubreaDiciembre_2024$MONTO)
PagosSUPRES_JulioaSetiembre2024_2doarchivo$MONTO <- as.numeric(PagosSUPRES_JulioaSetiembre2024_2doarchivo$MONTO)
PagosSUPRES_JulioaSetiembre2024_1erarchivo$MONTO <- as.numeric(PagosSUPRES_JulioaSetiembre2024_1erarchivo$MONTO)
PagosSUPRES_Abril_Junio_2024$MONTO <- as.numeric(PagosSUPRES_Abril_Junio_2024$MONTO)

Continuo con integrar/unir todas las bases de datos en una sola base combinada

BaseComb2024 <- bind_rows(PagosSUPRES_Enero_Marzo_2024, PagosSUPRES_Abril_Junio_2024, PagosSUPRES_JulioaSetiembre2024_1erarchivo, PagosSUPRES_JulioaSetiembre2024_2doarchivo, X01_PagosSUPRES_OctubreaDiciembre_2024, X02_PagosSUPRES_OctubreaDiciembre_2024)
View(BaseComb2024)

Hay columnas que con resultado forman parte de un mismo programa con diferente nombre, se reemplazara nombres para que se mantengan con un mismo Estándar

BaseComb2024 <- BaseComb2024 %>%
  mutate(BENEFICIO = case_when(
    BENEFICIO == "SUBSIDIOS PARA ACCEDER A VIVIR EN ALTERNATIVAS DE CONVIVENCIA FAMILIAR (ABANDONO)" ~ 
      "SUBSIDIOS PARA ACCEDER A VIVIR EN ALTERNATIVAS DE CONVIVENCIA FAMILIAR ABANDONO",
    TRUE ~ BENEFICIO))

Con esto hecho podemos iniciar con la búsqueda y análisis de la información requerida

a. ¿Cuáles fueron los 5 beneficios con mayor Monto transferido en el año 2024? Muestre esto ordenado de mayor a menor en una tabla.

top_beneficios <- BaseComb2024 %>%
   group_by(BENEFICIO) %>%
   summarise(MontoTotal = sum(MONTO, na.rm = TRUE)) %>%
   arrange(desc(MontoTotal)) %>%
   slice_head(n = 5)
view(top_beneficios)     

R/a: De acuerdo con la tabla creada al resumir la base de datos combinada de acuerdo con los 5 beneficios más altos son AVANCEMOS con un monto total de ₡75,718,294,230, seguido por ATENCION A FAMILIAS con un monto total de ₡67,685,570,161, después EMPLEATE con un monto total de ₡15,111,852,350 , seguido de SUBSIDIOS PARA ACCEDER A VIVIR EN ALTERNATIVAS DE CONVIVENCIA FAMILIAR ABANDONO con un monto total de ₡ 10,764,308,239 finalizando con PROCESOS FORMATIVOS con un monto total de ₡ 2,080,880,000

b. ¿Cuál fue el monto total transferido en el año 2024, según provincia? Muestre esto mediante un gráfico de barras

BaseComb2024 <- BaseComb2024 %>% mutate(PROVINCIA =
case_when( PROVINCIA == "NO ESPECIFICADA" ~ "No Especificado", TRUE ~
PROVINCIA))

BaseComb2024 <- BaseComb2024 %>% mutate(PROVINCIA = case_when(
PROVINCIA == "NO ESPECIFICADO" ~ "No Especificado", TRUE ~ PROVINCIA))

provincia_monto <- BaseComb2024 %>% group_by(PROVINCIA) %>%
summarise(MontoTotal = sum(MONTO, na.rm = TRUE)) %>%
arrange(MontoTotal) 
view(provincia_monto)

ggplot(provincia_monto, aes(x = reorder(PROVINCIA, MontoTotal), y =
MontoTotal)) + geom_bar(stat = "identity", fill = "skyblue") +
coord_flip() + labs(title = "Monto Total Transferido en 2024 por
Provincia", x = "Provincia", y = "Monto Total Transferido (₡)") +
theme_minimal()

R/b Al unificar y estandarizar los no especificado, se formuló el cuadro de manera que representa el orden de mayor a menor de las provincias de acuerdo con su monto total transferido

c Cuáles fue el monto total transferido en el año 2024, según mes? Muestre esto mediante un gráfico de línea

BaseComb2024$FECHADETRANFERENCIA <- as.Date(BaseComb2024$FECHADETRANFERENCIA)
monto_mes <- BaseComb2024 %>%
  mutate(Mes = format(FECHADETRANFERENCIA, "%Y-%m")) %>%
  group_by(Mes) %>%
  summarise(MontoTotal = sum(MONTO, na.rm = TRUE)) 
view(monto_mes)

ggplot(monto_mes, aes(x = Mes, y = MontoTotal)) + geom_line(group = 1) +
labs(title = "Monto total por mes", x = "Mes", y = "Monto") 

R/c Al estandarizar las fechas en la base de datos, re forma el cuadro resumen donde se interpreta la cantidad de monto en cada mes, debido a las numeraciones, se muestran como Xe+10 por la cantidad de ceros en cada factor, pero se aprecia fácilmente que octubre es el del menor monto mientras que diciembre muestra un salto extremo en cantidad comparado a los demás meses

d. De acuerdo a los datos, ¿Cuántas mujeres fueron beneficiadas por las trasferencias en cada provincia? Presente los resultados en un cuadro resumen.

mujeres_provincia <- BaseComb2024 %>%
  filter(SEXO == "MUJER") %>%
group_by(PROVINCIA) %>%
  summarise(MUJER = n()) 
print(mujeres_provincia)
## # A tibble: 8 × 2
##   PROVINCIA        MUJER
##   <chr>            <int>
## 1 Alajuela        439679
## 2 Cartago         135205
## 3 Guanacaste      265786
## 4 Heredia         208763
## 5 Limón           307028
## 6 No Especificado      6
## 7 Puntarenas      414609
## 8 San José        516815
view(mujeres_provincia)

R/d Tras filtrar la cantidad de mujeres se muestra a manera de resumen el cuadro con los resultados más grandes siendo “San José” con 516815 mujeres y sin contar a “No Especificado”, el menor número correspondería a “Cartago”, con 135205 como beneficiadas

e. De acuerdo a los datos, ¿Cuántas personas costarricenses fueron beneficiadas por las trasnferencias según nivel educativo? Presente los resultados en un cuadro resumen.

costarricenses_educacion <- BaseComb2024 %>%
  filter(NACIONALIDAD == "COSTA RICA") %>%
  group_by(NIVELEDUCATIVO) %>%
  summarise(Beneficiarios = n()) 
print(costarricenses_educacion) 
## # A tibble: 5 × 2
##   NIVELEDUCATIVO    Beneficiarios
##   <chr>                     <int>
## 1 NINGUNO                  382903
## 2 PARAUNIVERSITARIA          3450
## 3 PRIMARIA                2054085
## 4 SECUNDARIA              1345931
## 5 UNIVERSITARIA             35875
view(costarricenses_educacion)

R/e Tras filtrar y organizar el cuadro se indica la cantidad individual según el nivel educativo, donde el menor es PARAUNIVERSITARIA con 3,450 beneficiarios, y el mayor PRIMARIA con 2,054,085 beneficiarios