Reporte de Análisis de Datos

Ciencia de datos para el bien: Kiva Crowdfunding

1. Base de datos

Kiva es una plataforma de financiación colectiva en línea para ampliar los servicios financieros a personas sin recursos y financieramente excluidas de todo el mundo. Los prestamistas de Kiva han concedido más de 1.000 millones de dólares en préstamos a más de 2 millones de personas. Para establecer las prioridades de inversión, ayudar a informar a los prestamistas y comprender a sus comunidades objetivo, es fundamental conocer el nivel de pobreza de cada prestatario. Sin embargo, esto requiere inferencias basadas en un conjunto limitado de información para cada prestatario. Para saber más al respecto pueden visitar https://www.kiva.org/

Esta base de datos ofrece una visión integral de los préstamos concedidos a lo largo de los últimos tres años. Cada registro en la base de datos proporciona información detallada sobre diversos aspectos relacionados con los prestatarios y los fines para los cuales se utilizarán los préstamos.

En particular, la base de datos incluye datos extensivos sobre los prestatarios, tales como su ubicación geográfica, género, intervalos de pagos, así como la naturaleza y el propósito de cada préstamo. Adicionalmente, se encuentran varios parámetros y métricas que facilitan el análisis detallado de cada caso, proporcionando a los agentes valuadores una visión más clara y precisa.

Los parámetros incluidos en la base de datos están diseñados para asistir en la evaluación y deliberación de las cantidades a financiar. Estos datos permiten a los agentes evaluadores realizar una valoración más informada y fundamentada, basándose en una serie de criterios objetivos y medibles. La basta cantidad de información contenida en esta base de datos no sólo ayuda en la determinación de los montos a financiar, sino que también ofrece una herramienta valiosa para el análisis de tendencias y patrones en el ámbito de los préstamos y los prestatarios.

Descripción de variables

La base de datos incluye una variada cantidad de metricas para poder ayudar a los agentes evaluadores la viabilidad de los prestamos así como la cantidad que debe ser otorgada a cada prestatario buscando fundamentos como intervalos de pago, cantidad de socios que aportaran al prestamo, fecha de desembolso entre otras metricas que podremos ver más detalladamente a continuación:

Variables_KIVA_MOD
Nombre de la variable	Descripción	Nombre original
ID	ID único para el prestamo	loan ID
cantidad financiada	Importe desembolsado por Kiva al agente evaluador (USD)	funded amount
cantidad prestada	Importe desembolsado por el agente evaluador al prestatario (USD)	loan amount
actividad	Categoría más detallada	activity
sector	Categoría de alto nivel	sector
país	Nombre del país en el que se desembolsó el préstamo	country
código de país	Código ISO del país en el que se desembolsó el préstamo	country code
divisa	La moneda en la que se desembolsó el préstamo	currency
ID socio	ID de la organización asociada	partner ID
fecha de desembolso	Momento en que el agente evaluador publica el préstamo en Kiva	posted time
fecha del prestamo	Momento en que el agente evaluador desembolsa el préstamo al prestatario	disbursed amount
fecha de reembolso	Momento en el que el préstamo publicado en Kiva recibe la financiación completa de los prestamistas	funded amount
plazo en meses	Duración en la cual el préstamo fue desembolsado en meses	term in months
género prestatario	Género de cada prestatario	borrowers genders
Intervalo de reembolso	Intervalos de tiempo en los que se hacían los pagos	repayment interval

2. Preguntas de investigación

1. ¿Cómo influye el género del prestatario en la cantidad de dinero prestado y la tasa de financiación?

Comparación de las tasas de financiación entre hombres y mujeres.
Análisis de diferencias en el monto solicitado y financiado por género.

2. ¿Cúal es la distribución geográfica de los préstamos y cómo varía según el monto del préstamo y el género del prestatario?

Mapeo de la distribución de préstamos a nivel de país.
Evaluación de la variación en el monto del préstamo según el país y el género.

3. ¿Existe una relación significativa entre los intervalos de pago y los diferentes sectores en los que se otorga el préstamo?

Análisis de los Sectores Clasificados por Intervalos de Pago.
Evaluación de la Variación en los Montos de Pago Según el Sector de Financiamiento.

3. Limpieza y formulación

La limpieza de la base de datos es uno de los pasos más importantes y fundamentales para trabajar de manera adecuada. Este proceso permite descartar datos innecesarios, eliminar datos espurios y asegurar que los datos sean precisos, completos y estén en un formato adecuado para su manipulación. Antes de realizar cualquier análisis, es esencial garantizar la calidad de los datos. La limpieza de datos implica identificar y corregir errores, gestionar valores faltantes, eliminar duplicados y transformar los datos en estructuras coherentes y consistentes. Este paso es crucial para obtener resultados fiables y precisos en cualquier análisis posterior.

Instlación de librerías

Antes de poder comenzar con la limpieza de datos debemos instalar las librerias necesarias para poder correr nuestros modelos ya que son esenciales para realizar tareas específicas y avanzadas, especialmente en el análisis de datos y la creación de modelos estadísticos. Vamos a instalar las paqueterías como tidyverse, ggplot2, dplyr, tidyr, etc.

library(tidyverse) library(ggplot2) library(dplyr) library(tidyr)

Instlación de la base de datos

Ahora que todas las librerias necesarias están instaladas procederemos a instalar la base de datos para comenzar con su limpieza y posteriormente con su análisis.

kiva_loans <- read_csv("~/Data Science for Good-Kiva Crowdfunding/kiva_loans.csv")

Limpieza de la base de datos

#Eliminar variables (columnas) irrelevantes
#Comenzamos eliminado todas aquellas columnas que creemos no nos serán de utilidad esto con la finalidad de mantener nuestra base de datos lo más compacta y específica posible para así poder trabajar de mejor manera.

kiva_loans <- kiva_loans %>% select(-tags,-country_code,
                                    -region,-lender_count,
                                    -date,-use)
País_cod<-kiv_org %>% select(country_code)
kiva_loans <- cbind(kiva_loans, Cod_País = País_cod)
colnames(kiva_loans)[colnames(kiva_loans) == "country_code"] <- "Cod_País"

#Cambiar nombres de las variables
kiva_loans<-kiva_loans %>% rename(Cantidad_financiada = funded_amount)
kiva_loans<-kiva_loans %>% rename(Cantidad_Prestada = loan_amount)
kiva_loans<-kiva_loans %>% rename(ID_Prestamo = id)
kiva_loans<-kiva_loans %>% rename(Actividad = activity, 
                                  Sector = sector,
                                  País = country, ID_Socio = partner_id,
                                  Divisa = currency,
                                  Fecha_desembolso = posted_time,
                                  Fecha_prestamo = disbursed_time,
                                  Fecha_reembolso = funded_time,
                                  Plazo_en_meses = term_in_months,
                                  Género_prestatario = borrower_genders,
                                  intervalo_de_rembolso = repayment_interval)

#Limpieza de la variable género
#Para limpiar la columna "género" creamos una función para eliminar repeticiones.

elim_repe <- function(celda) {
  celda_limpia <- gsub("\\s*,\\s*", ",", celda)
  palabras <- unlist(strsplit(celda_limpia, ","))
  palabras_unicas <- unique(palabras)
  resultado <- paste(palabras_unicas, collapse = ",")
  return(resultado)
}

#Usar función para eliminar repeticiones
#Ahora vamos a poner en práctica nuestra función eliminando todas las repeticiones en la columna género.

kiva_loans$Género_prestatario <- sapply(kiva_loans$Género_prestatario, 
                                      elim_repe)

#Eliminar otras categorias
#Ahora eliminaremos de manera separada todas aquellas repeticiones que por alguna razon nuestra función no logró eliminar, esto puede deberse a la forma en que fueron separadas o los signos de puntuación usados.

kiva_loans$Género_prestatario <- gsub("female,male", "female",
                                    kiva_loans$Género_prestatario)

kiva_loans$Género_prestatario <- gsub("male,female", "male",
                                    kiva_loans$Género_prestatario)

#Agregar una variable para remplazar NA por "inespecificado"
#Ahora en lugar de eliminar los datos con NA los remplazaremos por la palabra "inespecificado" de esta forma evitando perder datos valiosos.

kiva_loans <- kiva_loans %>%
  mutate(Género_prestatario = ifelse(Género_prestatario == "NA", "Inespecificado", 
                                     Género_prestatario))

#Verificar que no haya más repeticiones
#Ahora con la funciñon "unique" verificaremos que efectivamente no queden más repeticiones y sólo quede un género por celda.

ent_un <- unique(kiva_loans$Género_prestatario)
print(ent_un)

## [1] "female"         "male"           "Inespecificado"

view(ent_un)

#Acortar las fechas con horas a sólo fechas
#Finalmente eliminaremos la parte de la hora en las fechas de la base de datos.

kiva_loans$Fecha_desembolso <- as.Date(kiva_loans$Fecha_desembolso)
kiva_loans$Fecha_prestamo <- as.Date(kiva_loans$Fecha_prestamo)
kiva_loans$Fecha_reembolso <- as.Date(kiva_loans$Fecha_reembolso)

Hasta el momento y después de concluir con la limpieza de datos no se han introducido variables secundarias.

4. Análisis de datos y resultados

Esta base de datos en específico tiene muchos acercamientos posibles ya que es una base sumamente extensa además con bastas categorías de las cuales escoger.

Entre los multiples acercamientos posibles y las muchas preguntas que se pudieron haber planteado para ayudar a los ejecutivos a evaluar las condiciones de los prestatarios encontramos que las metricas más relevantes serían: “género”, “país”, “sector” e “intervalos de pago”, por lo que el análisis a continuación utiliza estas variables como principal criterio de evaluación.

La primera pregunta que hemos planteado ha sido, ¿cómo influye el género del prestatario en la cantidad de dinero prestado y la tasa de financiación?

El primer enfoque que tomamos para responder a esta pregunta fue comparar las tasas de financiación entre hombres y mujeres, para esto separamos las categorías de prestamos solicitados y de prestamos aprobados con la función “group.by” separándolos por género para posteriormente calcular la tasa porcentual de incremento que existe entre estás categorías, obteniendo los siguientes resultados:

Género	Cantidad de Préstamos solicitados compilados por género (USD)	Incremento en la tasa de financiación (%)
Femenino	$513,643.ºº	4.82%
Masculino	$153,341.ºº	13.53%
Inespecificado	$4221.ºº	27.15%

A partir de estos resultados procedimos a hacer una gráfica de pastel mostrando los aumentos en las tasas de financiación dividido por género.

Podemos observar que en todos los generos sin exepción la cantidad financiada es mayor a la cantidad solicitada, observando aumentos de 27.15% para géneros inespecificados, 4.82% para el género femenino y de un 13.53% para el género masculino, por lo que podemos concluir que este último es el que recive más financiamiento.

Podemos ver que aunque la cantidad de hombres que piden prestamos es más de tres veces menor con respecto a la de las mujeres el aumento en las cantidades de prestamos en contraste es casi tres veces menor.

Sabiendo esto podemos concluir que efectivamente el género representa un parametro bastante importante al momento que se deciden los montos que se otorgarán.

Ahora, dando un acercamiento a nuestra pregunta de, ¿cuál es la distribución geográfica de los préstamos y cómo varía según el monto del préstamo y el género del prestatario? haremos un mapeo de la distribución de préstamos a nivel país así como una evaluación de la variación en el monto del préstamo según el país y el género.

A partir de ello creamos una gráfica de dispersión donde cada punto representa la frecuencia total de prestamos para un país y género en específico.

Al analizar la dispersión de los datos entre diferentes países, observamos que las variaciones en los montos de los préstamos no presentan grandes diferencias cuando se consideran de manera independiente. Aunque existen algunos casos atípicos, como el de Filipinas, donde se observan valores fuera de la tendencia general, en términos generales, no parece haber una relación significativa entre la ubicación geográfica y el monto del préstamo, ni entre la ubicación geográfica y el género del prestatario.

Es importante señalar que, a pesar de estos casos aislados, la mayoría de los datos se agrupan de manera consistente a lo largo de los distintos países, lo que sugiere que otros factores pueden tener una mayor influencia en los montos de los préstamos y en la distribución por género. Estos hallazgos indican que, para entender mejor las dinámicas detrás de los montos de los préstamos y su relación con el género, sería necesario considerar variables adicionales que podrían estar influyendo en estos patrones.

Finalmente para nuestra tercera pregunta tomamos un enfoque distinto y decidimos usar las variables de intervalo de pago y de sector ya que nos pareció una idea interesante de contemplar por lo que hicimos un análisis de los sectores clasificados por intervalos de pago además de una evaluación de la variación en los montos de pago realizados según el sector de financiamiento por lo que creamos una tabla de frecuencia incluyendo el intervalo de reembolso y el sector.

A continuación como podemos ver en la gráfica la mayoría de los pagos se concentran en las áreas de agricultura y educación independientemente de el intervalo de pago.

Después de observar estos patrones podemos concluir que es viable otorgar prestamos a las personas que deseen un apoyo en agricultura ya que el rembolso mayormente se hace en intervalos semanales o en una sólo exhibición.

5. Conclusiones

Son muy variadas las metricas que se pueden tomar para decidir el monto que se otorgará en un prestamo y ciertamente depende de muchos factores por lo que no hay una manera absoluta de decidir a quién se le otorgará un financiamiento pero podemos encontrar patrones que nos ayudarán a facilitar la toma de esta desición, en este análisis descubrimos que los prestamos mayormente se otorgan en mayor cuantía a personas del género masculino, pero no podemos estar seguros si esta desición se tomó sólo debido al género ya que tal vez estas desiciones se hayan tomado gracias a otras variables como lo podría ser el intervalo de pago o el area a la que se iba a destinar.

Los análisis por hacer son bastos ya que no hay sólo una formula absoluta por lo que a pesar de las conclusiones que se encontraron en este análisis puede que sean otros factores los que influyan a estos resultados, con esta observación hago hincapié en que hay bastas cuestiones que se pueden analizar aún con las que se podrán llegar a muchas otras conclusiones.

Bibliografía

Learn more about Kiva’s mission | Kiva. (n.d.). Kiva. https://www.kiva.org/about

CRAN: Manuals. (n.d.). https://cran.r-project.org/manuals.html

An introduction to R. (n.d.). https://cran.r-project.org/doc/manuals/r-release/R-intro.html

Data Science for Good: Kiva crowdfunding. (2018, March 2). https://www.kaggle.com/datasets/kiva/data-science-for-good-kiva-crowdfunding/data

Reporte de Análisis de Datos_Kiva

Fiorela Centeno

2024-07-20