Introducción:
(TL;DR: cómo obtener datos de 251070 proyectos de kickstarter.)
kickstarter es un sitio web de micromecenazgo (crowfunding) en el que, básicamente, personas o equipos de todo el mundo muestran sus proyectos con el fin de conseguir fondos para llevarlos a cabo.
(Si quieren saber un poco más, wikipedia tiene un artículo bastante completo.)
Estos proyectos se agrupan por categorías, se plantean un tiempo para recaudar un monto específico, consiguen backers o respaldadores… pero sobre todo, al final, alcanzan el propósito o no lo hacen: finalmente son exitosos o fracasan en su cometido.
Vamos en esta primera parte a plasmar en la notebook a ver cómo obtener los datos principales de 251070 proyectos que durante 2017 estuvieron en la plataforma.
Descargando los datos:
Lo primero es darle las gracias y gran part del mérito a la gente de webrobots, quienes scrapearon la página de kicstarter para poner a disposición datos de 2014 hasta 2018. Ya que es de su página de donde obtenemos los datos sin tener que hacer nosotros mismos el scrapping.
Nota: remover el parámetro “eval=FALSE” si quiere que se ejecute la descarga. Yo deshabilité la descarga para la notebook debido a que ya hice la descarga y toma un buen tiempo; además, para no hacer un uso innecesario de recursos.
# Primero definimos las urls. En este caso, yo elegí descargar solamente las 2017. Con las 2018 tuve problemas
url <- c("https://s3.amazonaws.com/weruns/forfun/Kickstarter/Kickstarter_2017-01-15T22_21_04_985Z.zip",
"https://s3.amazonaws.com/weruns/forfun/Kickstarter/Kickstarter_2017-02-15T22_22_48_377Z.zip",
"https://s3.amazonaws.com/weruns/forfun/Kickstarter/Kickstarter_2017-03-15T22_20_55_874Z.zip",
"https://s3.amazonaws.com/weruns/forfun/Kickstarter/Kickstarter_2017-04-15T22_21_18_122Z.zip",
"https://s3.amazonaws.com/weruns/forfun/Kickstarter/Kickstarter_2017-05-15T22_21_11_300Z.zip",
"https://s3.amazonaws.com/weruns/forfun/Kickstarter/Kickstarter_2017-06-15T22_20_03_059Z.zip",
"https://s3.amazonaws.com/weruns/forfun/Kickstarter/Kickstarter_2017-07-15T22_20_48_951Z.zip",
"https://s3.amazonaws.com/weruns/forfun/Kickstarter/Kickstarter_2017-08-15T22_20_51_958Z.zip",
"https://s3.amazonaws.com/weruns/forfun/Kickstarter/Kickstarter_2017-09-15T22_20_48_432Z.zip",
"https://s3.amazonaws.com/weruns/forfun/Kickstarter/Kickstarter_2017-10-15T10_20_38_271Z.zip",
"https://s3.amazonaws.com/weruns/forfun/Kickstarter/Kickstarter_2017-11-15T10_21_04_919Z.zip",
"https://s3.amazonaws.com/weruns/forfun/Kickstarter/Kickstarter_2017-12-15T10_20_51_610Z.zip")
# Creamos una función que extrae los n últimos caracteres
substrRight <- function(x, n){
substr(x, nchar(x)-n+1, nchar(x))
}
# Aplicamos la función recién creada para extraer los último 28 caracteres de la url (año, mes y consecutivo)
# con los caracteres extraídos nombramos los archivos y los guardamos dentro de la carpeta data dentro del proyecto
library(here)
for (i in 1:length(url)) {
path_name <- paste(here("./data/"), substrRight(url[i], 28))
download.file(url[i], path_name)
}
Descomprimiendo los datos:
Una vez que hemos descargado os datos, vamos a descomprimirlos (la lectura desde el zip me produjo errores que preferí evitar)
library(here)
# hacemos una lista de todos los archivos .zip descargados
all_files <- list.files(here("data"))
# Establecemos dónde los vamos a guardar
outdir <- here("data/unzipped")
# función de apoyo para extraer parte del nombre y usarlo para renombrar
substrLeft <- function(x, n){
substr(x, 2, n+1)
}
# Renombrado masivo
setwd(here("/data"))
for(i in 1:length(all_files)) {
file.rename(from = all_files[i], to = substrLeft(all_files[i], 7))
}
setwd(here())
# Extraemos y guardamos
for(i in 1:length(all_files)) {
f <- paste(here("data") , all_files[i], sep = "/")
thisOutDir <- paste(outdir, all_files[i], sep = "/")
unzip(f, exdir = thisOutDir)
}
# Lista de todos los descomprimidos
all_abs_paths <- list.files(here("data/unzipped"), pattern = ".csv", recursive = TRUE, full.names = TRUE)
# Guardamos la lista de todos los descomprimidos
saveRDS(all_abs_paths, here("data/all_files_unzipped.rds"))
Ordenando los datos:
Ahora que tenemos todos los datos descomprimidos, los vamos a leer para juntarlos en un único dataframe/set de datos: tenemos una carpeta para cada mes del año 2017 (12 carpetas), cada una con 34.66 archivos en promedio. Un total de 416 archivos que juntos suman 8.2 GiB.
library(here)
setwd(here())
# Importamos la lista de archivos de todos los archivos
all_files <- readRDS(here("data/all_files_unzipped.rds"))
library(stringr)
# Arreglamos los nombres de los archivos en tanto que colnames, para que purrr retenga el periodo del que proviene el dato
names(all_files) <- all_files %>%
str_remove(".csv") %>%
str_sub(79, 80)
# Con purrr aplicamos read_csv de la librería readr a todos los archivos listados: los leemos todos
setwd(here("data/unzipped"))
df <- purrr::safely(purrr::map_df(all_files, readr::read_csv, .id = "periodo"))
setwd(here())
# Tenemos variables de tiempo como número. Les damos el formato adecuado
df[, 15:18] <- lapply(df[, 15:18], as.Date.POSIXct) # convertir el número a fecha
# Si tomamos los casos que no son NAs en estas últimas columnas, y las dividimos sobre el total:
# las columnas * las filas divididas:
(((ncol(df)-29) * nrow(df)) - (sum(is.na(df[, 30:ncol(df)])))) / ((ncol(df)-29) * nrow(df))
# Nos damos cuenta que la proporción de casos no ameritan el esfuerzo de la limpieza ni deja lugar a la
# imputación: entonces las dejamos de lado.
df <- df[, 1:29]
# De las variables a disposición, realmente me interesa, sobre todo, el texto y el estado final.
# Pero necesitamos el periodo, y los pledges, usd_rate, goal y otros datos pueden resultar de utilidad para modelos
# que tomen como entrada Procesamiento del Lenguaje Natural (NLP), que es el centro del asunto.
df_text <- df[, c(1:2, 4:9, 11:22, 24:25)]
# Debido a que se presentan problemas con la RAM disponible a la hora de escribir los archivos en R, los partimos
# en unidades más pequeñas.
df_text1 <- df_text[1:528584, ]
df_text2 <- df_text[528585:1057170, ]
df_text3 <- df_text[1057171:1585756, ]
df_text4 <- df_text[1585757:2114333, ]
# Y las guardamos
saveRDS(df_text1, "./data/text_sets/data_text1.rds")
saveRDS(df_text2, "./data/text_sets/data_text2.rds")
saveRDS(df_text3, "./data/text_sets/data_text3.rds")
saveRDS(df_text4, "./data/text_sets/data_text4.rds")
Limpiando datos:
Ahora que tenemos todos los datos, nos damos cuenta fácil que cada proyecto aparece muchas veces: un proyecto puede aparecer en enero, febrero, marzo… y su estado va cambiando y el recaudo, los backers. Pero lo que nos interesa saber es su estado final: si logró o no recaudar el dinero.
Es por eso que necesitamos retener solamente el último estado del proyecto, su última aparición, que es el periodo máximo de cada proyecto.
library(here)
# Leemos todos los set de datos
df1 <- readRDS(here("/data/text_sets/data_text1.rds"))
df2 <- readRDS(here("/data/text_sets/data_text2.rds"))
df3 <- readRDS(here("/data/text_sets/data_text3.rds"))
df4 <- readRDS(here("/data/text_sets/data_text4.rds"))
# los juntamos
df <- rbind(df1, df2, df3, df4)
# borramos los sets parciales (sólo por liberar espacio)
rm(list = c("df1", "df2", "df3", "df4"))
# verificamos el tamaño del nuevo set
format(object.size(df), units = "Mb")
library(dplyr)
library(stringr)
# El periodo lo pasamos de mes y año a solamente mes (todos son 2017)
df <- df %>%
mutate(periodo = as.integer(str_sub(periodo, 6, 7)))
# Pasamos el id (identificador del proyecto) a character.
df$id <- as.character(df$id)
# Retenemos de cada proyecto la fila en la que tiene su último mes, y eliminamos los casos en los que haya duplicados
# en cuanto a periodo e id.
df_unique <- df %>%
group_by(id) %>%
filter(periodo == max(periodo)) %>%
distinct(id, periodo, .keep_all = TRUE)
# Revisamos cuánto ocupa ahora el nuevo set
format(object.size(df_unique), units = "Mb")
# Le damos una mirada al set
glimpse(df_unique)
# Y lo guardamos
saveRDS(df_unique, here("/data/text_sets/df.rds"))
library(here)
library(dplyr)
df <- readRDS(here("/data/text_sets/df.rds"))
df$periodo <- as.Date(paste("01", as.character(df$periodo), "2017", sep = "-"), tz = "UTC", format = "%d-%m-%Y")
df$usd_goal <- df$static_usd_rate * df$goal
df$state <- as.factor(df$state)
df$country <- as.factor(df$country)
df$currency <- as.factor(df$currency)
df$currency_symbol <- as.factor(df$currency_symbol)
df$currency_trailing_code <- as.factor(df$currency_trailing_code)
df$staff_pick <- as.factor(df$staff_pick)
df <- df %>%
filter(!state %in% c("live", "canceled", "suspended"))
df_text <- df[, c("blurb", "state")]
rm(df)
# En caso de que quieran aplicar la transformación de categorías
#df_text$bin_state <- ifelse(df_text$state == "successful", "successful", "failed")
library(cldr)
lang <- detectLanguage(df_text$blurb)
df_text_eng <- df_text[lang$detectedLanguageCode == 0, ]
saveRDS(df_text_eng, here("/data/text_sets/df_text_eng.rds"))
write.csv(df_text_eng, here("/data/text_sets/df_text_eng.csv"))
Nota final:
De esta manera se resumen todos los pasos para conformar el csv que es sobre el que estaré trabajando, el cual pueden descargar desde my Google drive aquí o desde Kaggle aquí o a través de la API.
Esto porque no quiero repetir más este proceso y porque espero pronto trabajar sobre el set de datos en Kaggle, aprovechando que ahora disponen GPUs gratuitas y en Google colab donde también disponen GPUs gratuitas. Todo ello en Python, hasta donde he leído por ahora.
Gracias por seguirme hasta aquí.
