Introducción:

(TL;DR: cómo obtener datos de 251070 proyectos de kickstarter.)

kickstarter es un sitio web de micromecenazgo (crowfunding) en el que, básicamente, personas o equipos de todo el mundo muestran sus proyectos con el fin de conseguir fondos para llevarlos a cabo.

(Si quieren saber un poco más, wikipedia tiene un artículo bastante completo.)

Estos proyectos se agrupan por categorías, se plantean un tiempo para recaudar un monto específico, consiguen backers o respaldadores… pero sobre todo, al final, alcanzan el propósito o no lo hacen: finalmente son exitosos o fracasan en su cometido.

Vamos en esta primera parte a plasmar en la notebook a ver cómo obtener los datos principales de 251070 proyectos que durante 2017 estuvieron en la plataforma.

Descargando los datos:

Lo primero es darle las gracias y gran part del mérito a la gente de webrobots, quienes scrapearon la página de kicstarter para poner a disposición datos de 2014 hasta 2018. Ya que es de su página de donde obtenemos los datos sin tener que hacer nosotros mismos el scrapping.

Nota: remover el parámetro “eval=FALSE” si quiere que se ejecute la descarga. Yo deshabilité la descarga para la notebook debido a que ya hice la descarga y toma un buen tiempo; además, para no hacer un uso innecesario de recursos.

# Primero definimos las urls. En este caso, yo elegí descargar solamente las 2017. Con las 2018 tuve problemas
url <- c("https://s3.amazonaws.com/weruns/forfun/Kickstarter/Kickstarter_2017-01-15T22_21_04_985Z.zip", 
         "https://s3.amazonaws.com/weruns/forfun/Kickstarter/Kickstarter_2017-02-15T22_22_48_377Z.zip", 
         "https://s3.amazonaws.com/weruns/forfun/Kickstarter/Kickstarter_2017-03-15T22_20_55_874Z.zip", 
         "https://s3.amazonaws.com/weruns/forfun/Kickstarter/Kickstarter_2017-04-15T22_21_18_122Z.zip", 
         "https://s3.amazonaws.com/weruns/forfun/Kickstarter/Kickstarter_2017-05-15T22_21_11_300Z.zip", 
         "https://s3.amazonaws.com/weruns/forfun/Kickstarter/Kickstarter_2017-06-15T22_20_03_059Z.zip", 
         "https://s3.amazonaws.com/weruns/forfun/Kickstarter/Kickstarter_2017-07-15T22_20_48_951Z.zip", 
         "https://s3.amazonaws.com/weruns/forfun/Kickstarter/Kickstarter_2017-08-15T22_20_51_958Z.zip", 
         "https://s3.amazonaws.com/weruns/forfun/Kickstarter/Kickstarter_2017-09-15T22_20_48_432Z.zip", 
         "https://s3.amazonaws.com/weruns/forfun/Kickstarter/Kickstarter_2017-10-15T10_20_38_271Z.zip", 
         "https://s3.amazonaws.com/weruns/forfun/Kickstarter/Kickstarter_2017-11-15T10_21_04_919Z.zip", 
         "https://s3.amazonaws.com/weruns/forfun/Kickstarter/Kickstarter_2017-12-15T10_20_51_610Z.zip")

# Creamos una función que extrae los n últimos caracteres
substrRight <- function(x, n){
  substr(x, nchar(x)-n+1, nchar(x))
}

# Aplicamos la función recién creada para extraer los último 28 caracteres de la url (año, mes y consecutivo)
# con los caracteres extraídos nombramos los archivos y los guardamos dentro de la carpeta data dentro del proyecto

library(here)
for (i in 1:length(url)) {
  path_name <- paste(here("./data/"), substrRight(url[i], 28))
  download.file(url[i], path_name)
}

Descomprimiendo los datos:

Una vez que hemos descargado os datos, vamos a descomprimirlos (la lectura desde el zip me produjo errores que preferí evitar)

library(here)

# hacemos una lista de todos los archivos .zip descargados
all_files <- list.files(here("data"))
# Establecemos dónde los vamos a guardar
outdir <- here("data/unzipped")

# función de apoyo para extraer parte del nombre y usarlo para renombrar
substrLeft <- function(x, n){
  substr(x, 2, n+1)
}

# Renombrado masivo
setwd(here("/data"))

for(i in 1:length(all_files)) {
  file.rename(from = all_files[i], to = substrLeft(all_files[i], 7))
}
setwd(here())

# Extraemos y guardamos
for(i in 1:length(all_files)) {
  f <- paste(here("data") , all_files[i], sep = "/")
  thisOutDir <- paste(outdir, all_files[i], sep = "/")
  unzip(f, exdir = thisOutDir)
}

# Lista de todos los descomprimidos
all_abs_paths <- list.files(here("data/unzipped"), pattern = ".csv", recursive = TRUE, full.names = TRUE)

# Guardamos la lista de todos los descomprimidos
saveRDS(all_abs_paths, here("data/all_files_unzipped.rds"))

Ordenando los datos:

Ahora que tenemos todos los datos descomprimidos, los vamos a leer para juntarlos en un único dataframe/set de datos: tenemos una carpeta para cada mes del año 2017 (12 carpetas), cada una con 34.66 archivos en promedio. Un total de 416 archivos que juntos suman 8.2 GiB.

library(here)
setwd(here())

# Importamos la lista de archivos de todos los archivos
all_files <- readRDS(here("data/all_files_unzipped.rds"))

library(stringr)

# Arreglamos los nombres de los archivos en tanto que colnames, para que purrr retenga el periodo del que proviene el dato
names(all_files) <- all_files %>% 
  str_remove(".csv") %>% 
  str_sub(79, 80)

# Con purrr aplicamos read_csv de la librería readr a todos los archivos listados: los leemos todos
setwd(here("data/unzipped"))
df <- purrr::safely(purrr::map_df(all_files, readr::read_csv, .id = "periodo"))

setwd(here())

# Tenemos variables de tiempo como número. Les damos el formato adecuado
df[, 15:18] <- lapply(df[, 15:18], as.Date.POSIXct) # convertir el número a fecha

# Si tomamos los casos que no son NAs en estas últimas columnas, y las dividimos sobre el total:
# las columnas * las filas divididas: 
(((ncol(df)-29) * nrow(df)) - (sum(is.na(df[, 30:ncol(df)])))) / ((ncol(df)-29) * nrow(df)) 

# Nos damos cuenta que la proporción de casos no ameritan el esfuerzo de la limpieza ni deja lugar a la
# imputación: entonces las dejamos de lado.
df <- df[, 1:29]

# De las variables a disposición, realmente me interesa, sobre todo, el texto y el estado final.
# Pero necesitamos el periodo, y los pledges, usd_rate, goal y otros datos pueden resultar de utilidad para modelos
# que tomen como entrada Procesamiento del Lenguaje Natural (NLP), que es el centro del asunto.
df_text <- df[, c(1:2, 4:9, 11:22, 24:25)]

# Debido a que se presentan problemas con la RAM disponible a la hora de escribir los archivos en R, los partimos
# en unidades más pequeñas.
df_text1 <- df_text[1:528584, ]
df_text2 <- df_text[528585:1057170, ]
df_text3 <- df_text[1057171:1585756, ]
df_text4 <- df_text[1585757:2114333, ]

# Y las guardamos
saveRDS(df_text1, "./data/text_sets/data_text1.rds")
saveRDS(df_text2, "./data/text_sets/data_text2.rds")
saveRDS(df_text3, "./data/text_sets/data_text3.rds")
saveRDS(df_text4, "./data/text_sets/data_text4.rds")

Limpiando datos:

Ahora que tenemos todos los datos, nos damos cuenta fácil que cada proyecto aparece muchas veces: un proyecto puede aparecer en enero, febrero, marzo… y su estado va cambiando y el recaudo, los backers. Pero lo que nos interesa saber es su estado final: si logró o no recaudar el dinero.

Es por eso que necesitamos retener solamente el último estado del proyecto, su última aparición, que es el periodo máximo de cada proyecto.

library(here)

# Leemos todos los set de datos
df1 <- readRDS(here("/data/text_sets/data_text1.rds"))
df2 <- readRDS(here("/data/text_sets/data_text2.rds"))
df3 <- readRDS(here("/data/text_sets/data_text3.rds"))
df4 <- readRDS(here("/data/text_sets/data_text4.rds"))

# los juntamos
df <- rbind(df1, df2, df3, df4)

# borramos los sets parciales (sólo por liberar espacio)
rm(list = c("df1", "df2", "df3", "df4"))

# verificamos el tamaño del nuevo set
format(object.size(df), units = "Mb")

library(dplyr)
library(stringr)

# El periodo lo pasamos de mes y año a solamente mes (todos son 2017)
df <- df %>% 
    mutate(periodo = as.integer(str_sub(periodo, 6, 7)))

# Pasamos el id (identificador del proyecto) a character.
df$id <- as.character(df$id)

# Retenemos de cada proyecto la fila en la que tiene su último mes, y eliminamos los casos en los que haya duplicados
# en cuanto a periodo e id.
df_unique <- df %>% 
    group_by(id) %>% 
    filter(periodo == max(periodo)) %>% 
    distinct(id, periodo, .keep_all = TRUE)

# Revisamos cuánto ocupa ahora el nuevo set
format(object.size(df_unique), units = "Mb")

# Le damos una mirada al set
glimpse(df_unique)

# Y lo guardamos
saveRDS(df_unique, here("/data/text_sets/df.rds"))

Nota final:

Esto es todo por ahora. Ya tenemos así listos los datos de 251070 proyectos de kickstarter. Lo que sigue es transformar las clases de estado, eliminar casos en los que no se ha definido el proyecto y extraer el blurb (descripción del proyecto) y pasarlo a word embeddings para usarlo como datos de entrenamiento contra la variable dependiente, ya sea goal, state o category.

Los modelos en las siguientes notebooks.

Gracias por seguirme hasta aquí.

---
title: "Kickstarter 2017 getting, cleaning and tidying data"
output: html_notebook
---

## Introducción: 
### (TL;DR: cómo obtener datos de 251070 proyectos de kickstarter.)

[kickstarter](https://www.kickstarter.com/?lang=es) es un sitio web de micromecenazgo (crowfunding) en el que, básicamente, personas o equipos de todo el mundo muestran sus proyectos con el fin de conseguir fondos para llevarlos a cabo. 

(Si quieren saber un poco más, [wikipedia](https://es.wikipedia.org/wiki/Kickstarter) tiene un artículo bastante completo.)

Estos proyectos se agrupan por categorías, se plantean un tiempo para recaudar un monto específico, consiguen backers o respaldadores... pero sobre todo, al final, alcanzan el propósito o no lo hacen: finalmente son exitosos o fracasan en su cometido.

Vamos en esta primera parte a plasmar en la notebook a ver cómo obtener los datos principales de 251070 proyectos que durante 2017 estuvieron en la plataforma.

## Descargando los datos:

Lo primero es darle las gracias y gran part del mérito a [la gente de webrobots](https://webrobots.io/about-us/), quienes scrapearon la página de kicstarter para poner a disposición datos de 2014 hasta 2018. Ya que es de su página de donde obtenemos los datos sin tener que hacer nosotros mismos el scrapping. 

### Nota: remover el parámetro "eval=FALSE" si quiere que se ejecute la descarga. Yo deshabilité la descarga para la notebook debido a que ya hice la descarga y toma un buen tiempo; además, para no hacer un uso innecesario de recursos.

```{r, download_data, cache=TRUE, eval=FALSE}
# Primero definimos las urls. En este caso, yo elegí descargar solamente las 2017. Con las 2018 tuve problemas
url <- c("https://s3.amazonaws.com/weruns/forfun/Kickstarter/Kickstarter_2017-01-15T22_21_04_985Z.zip", 
         "https://s3.amazonaws.com/weruns/forfun/Kickstarter/Kickstarter_2017-02-15T22_22_48_377Z.zip", 
         "https://s3.amazonaws.com/weruns/forfun/Kickstarter/Kickstarter_2017-03-15T22_20_55_874Z.zip", 
         "https://s3.amazonaws.com/weruns/forfun/Kickstarter/Kickstarter_2017-04-15T22_21_18_122Z.zip", 
         "https://s3.amazonaws.com/weruns/forfun/Kickstarter/Kickstarter_2017-05-15T22_21_11_300Z.zip", 
         "https://s3.amazonaws.com/weruns/forfun/Kickstarter/Kickstarter_2017-06-15T22_20_03_059Z.zip", 
         "https://s3.amazonaws.com/weruns/forfun/Kickstarter/Kickstarter_2017-07-15T22_20_48_951Z.zip", 
         "https://s3.amazonaws.com/weruns/forfun/Kickstarter/Kickstarter_2017-08-15T22_20_51_958Z.zip", 
         "https://s3.amazonaws.com/weruns/forfun/Kickstarter/Kickstarter_2017-09-15T22_20_48_432Z.zip", 
         "https://s3.amazonaws.com/weruns/forfun/Kickstarter/Kickstarter_2017-10-15T10_20_38_271Z.zip", 
         "https://s3.amazonaws.com/weruns/forfun/Kickstarter/Kickstarter_2017-11-15T10_21_04_919Z.zip", 
         "https://s3.amazonaws.com/weruns/forfun/Kickstarter/Kickstarter_2017-12-15T10_20_51_610Z.zip")

# Creamos una función que extrae los n últimos caracteres
substrRight <- function(x, n){
  substr(x, nchar(x)-n+1, nchar(x))
}

# Aplicamos la función recién creada para extraer los último 28 caracteres de la url (año, mes y consecutivo)
# con los caracteres extraídos nombramos los archivos y los guardamos dentro de la carpeta data dentro del proyecto

library(here)
for (i in 1:length(url)) {
  path_name <- paste(here("./data/"), substrRight(url[i], 28))
  download.file(url[i], path_name)
}
```

## Descomprimiendo los datos:

Una vez que hemos descargado os datos, vamos a descomprimirlos (la lectura desde el zip me produjo errores que preferí evitar)

```{r, unzipping, cache=TRUE, eval=FALSE}
library(here)

# hacemos una lista de todos los archivos .zip descargados
all_files <- list.files(here("data"))
# Establecemos dónde los vamos a guardar
outdir <- here("data/unzipped")

# función de apoyo para extraer parte del nombre y usarlo para renombrar
substrLeft <- function(x, n){
  substr(x, 2, n+1)
}

# Renombrado masivo
setwd(here("/data"))

for(i in 1:length(all_files)) {
  file.rename(from = all_files[i], to = substrLeft(all_files[i], 7))
}
setwd(here())

# Extraemos y guardamos
for(i in 1:length(all_files)) {
  f <- paste(here("data") , all_files[i], sep = "/")
  thisOutDir <- paste(outdir, all_files[i], sep = "/")
  unzip(f, exdir = thisOutDir)
}

# Lista de todos los descomprimidos
all_abs_paths <- list.files(here("data/unzipped"), pattern = ".csv", recursive = TRUE, full.names = TRUE)

# Guardamos la lista de todos los descomprimidos
saveRDS(all_abs_paths, here("data/all_files_unzipped.rds"))
```

## Ordenando los datos:

Ahora que tenemos todos los datos descomprimidos, los vamos a leer para juntarlos en un único dataframe/set de datos: tenemos una carpeta para cada mes del año 2017 (12 carpetas), cada una con 34.66 archivos en promedio. Un total de 416 archivos que juntos suman 8.2 GiB.

```{r, ordenando, cache=TRUE, eval=FALSE}
library(here)
setwd(here())

# Importamos la lista de archivos de todos los archivos
all_files <- readRDS(here("data/all_files_unzipped.rds"))

library(stringr)

# Arreglamos los nombres de los archivos en tanto que colnames, para que purrr retenga el periodo del que proviene el dato
names(all_files) <- all_files %>% 
  str_remove(".csv") %>% 
  str_sub(79, 80)

# Con purrr aplicamos read_csv de la librería readr a todos los archivos listados: los leemos todos
setwd(here("data/unzipped"))
df <- purrr::safely(purrr::map_df(all_files, readr::read_csv, .id = "periodo"))

setwd(here())

# Tenemos variables de tiempo como número. Les damos el formato adecuado
df[, 15:18] <- lapply(df[, 15:18], as.Date.POSIXct) # convertir el número a fecha

# Si tomamos los casos que no son NAs en estas últimas columnas, y las dividimos sobre el total:
# las columnas * las filas divididas: 
(((ncol(df)-29) * nrow(df)) - (sum(is.na(df[, 30:ncol(df)])))) / ((ncol(df)-29) * nrow(df)) 

# Nos damos cuenta que la proporción de casos no ameritan el esfuerzo de la limpieza ni deja lugar a la
# imputación: entonces las dejamos de lado.
df <- df[, 1:29]

# De las variables a disposición, realmente me interesa, sobre todo, el texto y el estado final.
# Pero necesitamos el periodo, y los pledges, usd_rate, goal y otros datos pueden resultar de utilidad para modelos
# que tomen como entrada Procesamiento del Lenguaje Natural (NLP), que es el centro del asunto.
df_text <- df[, c(1:2, 4:9, 11:22, 24:25)]

# Debido a que se presentan problemas con la RAM disponible a la hora de escribir los archivos en R, los partimos
# en unidades más pequeñas.
df_text1 <- df_text[1:528584, ]
df_text2 <- df_text[528585:1057170, ]
df_text3 <- df_text[1057171:1585756, ]
df_text4 <- df_text[1585757:2114333, ]

# Y las guardamos
saveRDS(df_text1, "./data/text_sets/data_text1.rds")
saveRDS(df_text2, "./data/text_sets/data_text2.rds")
saveRDS(df_text3, "./data/text_sets/data_text3.rds")
saveRDS(df_text4, "./data/text_sets/data_text4.rds")
```

## Limpiando datos:

Ahora que tenemos todos los datos, nos damos cuenta fácil que cada proyecto aparece muchas veces: un proyecto puede aparecer en enero, febrero, marzo... y su estado va cambiando y el recaudo, los backers. Pero lo que nos interesa saber es su estado final: si logró o no recaudar el dinero.

Es por eso que necesitamos retener solamente el último estado del proyecto, su última aparición, que es el periodo máximo de cada proyecto.

```{r, unique, cache=TRUE, eval=FALSE}
library(here)

# Leemos todos los set de datos
df1 <- readRDS(here("/data/text_sets/data_text1.rds"))
df2 <- readRDS(here("/data/text_sets/data_text2.rds"))
df3 <- readRDS(here("/data/text_sets/data_text3.rds"))
df4 <- readRDS(here("/data/text_sets/data_text4.rds"))

# los juntamos
df <- rbind(df1, df2, df3, df4)

# borramos los sets parciales (sólo por liberar espacio)
rm(list = c("df1", "df2", "df3", "df4"))

# verificamos el tamaño del nuevo set
format(object.size(df), units = "Mb")

library(dplyr)
library(stringr)

# El periodo lo pasamos de mes y año a solamente mes (todos son 2017)
df <- df %>% 
    mutate(periodo = as.integer(str_sub(periodo, 6, 7)))

# Pasamos el id (identificador del proyecto) a character.
df$id <- as.character(df$id)

# Retenemos de cada proyecto la fila en la que tiene su último mes, y eliminamos los casos en los que haya duplicados
# en cuanto a periodo e id.
df_unique <- df %>% 
    group_by(id) %>% 
    filter(periodo == max(periodo)) %>% 
    distinct(id, periodo, .keep_all = TRUE)

# Revisamos cuánto ocupa ahora el nuevo set
format(object.size(df_unique), units = "Mb")

# Le damos una mirada al set
glimpse(df_unique)

# Y lo guardamos
saveRDS(df_unique, here("/data/text_sets/df.rds"))
```

## Nota final:

Esto es todo por ahora. Ya tenemos así listos los datos de 251070 proyectos de kickstarter. 
Lo que sigue es transformar las clases de estado, eliminar casos en los que no se ha definido el proyecto y extraer el blurb (descripción del proyecto) y pasarlo a word embeddings para usarlo como datos de entrenamiento contra la variable dependiente, ya sea goal, state o category.

Los modelos en las siguientes notebooks.

Gracias por seguirme hasta aquí.