Contexto

El análisis de redes sociales que trabajaremos en este espacio es también conocido como minado de redes sociales es un conjunto de técnicas de procesamiento de datos obtenidos de las plataformas digitales de redes sociales. Los datos con los que se trabaja en esta área suelen no estar estructurados.

Lo más importante en este tipo de análisis es determinar el objetivo perseguido. Debido a la cantidad de información ofrecida, un estudio sin derrotero puede resultar inútil o meramente exploratorio. Estos objetivos se pueden traducir en indicadores clave o KPI por sus siglas en inglés (key performance indicators). Por ejemplo: el número de seguidores, likes y veces que se compartió una publicación pueden ser una medidad del impacto publicitario de cierta campaña.

Técnicas de procesamiento del lenguaje natural o de análisis de sentimiento pueden servir para conocer las temáticas de las que se habla o la idea que tiene cierto de grupo de usuarios sobre un tema en específico.

Análisis

Flujo del análisis

El flujo del análisis se puede entender de la siguiente manera:

  1. Obtención de los datos

  2. Procesamiento y normalización de los datos

  3. Análisis de los datos

  4. Extracción de conclusiones

Requerimientos

  • Un objetivo que le dará forma al estudio y permitirá establecer KPIs

  • Un conjunto de datos: Estos pueden ser obtenidos de diversas formas, generalmente suelen ser estas dos: diréctamente usando la API oficial o realizando un proceso de web crawling y scraping. No es necesario, aunque sí más eficiente, realizar una obtención automática.

  • Una plataforma de análisis y procesamiento de la información.

Obtención de los datos

Conectándonos a Twitter

Para conectarnos con esta API vamos a necesitar de una cuenta

#install.packages("twitteR")
library(twitteR)

api_key <- "XXIngresa tu API KEYXX"
api_secret_token <- "XXIngresa tu API SECRET KEYXX"
token <- "XXIngresa tu Acces tokenXX"
token_secret <- "XXIngresa tu Access Token secretXX"

# Conexión con la API
setup_twitter_oauth(api_key, api_secret_token, token, token_secret)

En este primer código, se establecen las credenciales y se hace referencia a un servicio de almacenado de twitts en caché.

Obtención de tweets por cuenta

En el siguiente ejercicio obtendremos los útlimos 10 tweets de la cuenta de la UAM Cuajimalpa.


help(getUser)

UsuarioTwitter <- getUser("mni_cdmx")

tweets <- userTimeline(UsuarioTwitter, n = 10) #Obtiene los últimos 10 tweets de la línea del tiempo de este usuariro.


class(tweets[[1]])

tweets[[1]]$getClass()

tweets[[1]]$getFavoriteCount()

tweets[[2]]$getFavoriteCount()

tweets[[2]]$favoriteCount

tweets[[3]]$created

tweetsFirstDF <- twListToDF(tweets)

View(tweetsFirstDF)

Obtención de tweets por tema

En el siguiente ejercicio obtendremos 500 tweets por palabras clave en español:

terminos_busqueda <- "#lgbtiq OR mudar OR mudarme"
tweets <- searchTwitter(terminos_busqueda, n = 500, lang = "es")

Procesamiento y normalización de los datos

De listas a DataFrames

Lo siguiente que haremos será guardar los tweets extraídos como un dataframe

tweets.df <- twListToDF(tweets)
summary(tweets.df)
View(tweets.df)

Convirtiendo en UTF-8

Ahora haremos una breve limpieza a los datos: convertiremos los tweets a una codificación ‘UTF-8’

tweets.df$text <- sapply(tweets.df$text, function(x) iconv(x, to='UTF-8'))

Análisis de los datos

Ahora veamos los datos con los que contamos y comprendamos sus diferentes aspectos.

Graficado por tiempo de publicación

Una primer pregunta de la que vamos a partir será: ¿cuándo fueron publicados estos tweets? Para dar respuesta a esta interrogante, veremos un histograma con el tiempo en el eje x

library(ggplot2)
ggplot(data= tweets.df, aes(x = created)) + geom_histogram(aes(fill= ..count..)) + theme(legend.position = "none") + xlab("Fecha") + ylab("Número de twits") + scale_fill_gradient(low = "midnightblue", high = "aquamarine4")

Graficado por servicio

Una segunda pregunta sería ¿de qué servicios se han publicado los twitts? Tratemos de dar respuesta a esta interrogante a partir de las fuentes de los twits. Para esto vamos a usar una función de limpieza del servicio Identificación de servicio

help(head)
head(tweets.df$statusSource, n=5)
tweets.df$servicio <- sapply(tweets.df$statusSource, identificaServicio)

View(tweets.df)
unique(tweets.df$servicio)

ggplot(tweets.df, aes(servicio)) + geom_bar(fill="aquamarine4") + theme(legend.position = 'none', axis.title.x = element_blank(), axis.text.x = element_text(angle = 45, hjust=1)) + ylab("Número de twits") + ggtitle("Twits por servicio")

Análisis textual

Ahora buscaremos interpretar los datos obtenidos a partir de un análisis textual. Este lo haremos, en primera instancia, extrayendo las cuentas mencionadas en los twits.

library(stringr)
library(tm)
library(wordcloud)

unique(sapply(tweets.df$text, function(twit) str_extract_all(twit, "@\\w+")))

cuentasMencionadas <- str_extract_all(tweets.df$text, "@\\w+")
corpusNombres <- Corpus(VectorSource(cuentasMencionadas))
View(corpusNombres)

Habiendo generado un corpus con las cuentas extraídas ahora lo visualizaremos con una nube de palabras

pal <- brewer.pal(9,"YlGnBu")
pal <- pal[-(1:4)]

set.seed(42)
wordcloud(words = corpusNombres, scale = c(1.5, 0.75), max.words = 50, random.order = FALSE, rot.per = 0.35, use.r.layout = TRUE, colors = pal)

Otra manera de hacerlo y de conocer la frecuencia de nuestros datos es la siguiente

dtm <- TermDocumentMatrix(corpusNombres) 
matrix <- as.matrix(dtm) 
cuentas <- sort(rowSums(matrix),decreasing=TRUE) 
df <- data.frame(cuenta = names(cuentas),freq=cuentas)
df

Exportando los twits

Podemos exportar nuestro dataframe al formato que querramos, para mapearlos usaremos un formato csv

write.csv2(tweets.df, file="lgbtiqTweets.csv")

Funciones de apoyo

La función unique

Con la función unique, podemos obtener los valores sin repetir de un cierto conjunto de datos.

unique(sort(tweets.df$statusSource))

Identificación de servicio

En el siguiente bloque de código crearemos una función que permita identificar el servicio y limpiar la salida entregando una sola palabra

library("sjmisc")
identificaServicio <- function(fuenteDelServicio){
  if(str_contains(fuenteDelServicio, "Android")){
    return("android")
  } else if(str_contains(fuenteDelServicio, "iPad") || str_contains(fuenteDelServicio, "iPhone")){
    return("iOS")
  } else if(str_contains(fuenteDelServicio, "Web")){
    return("web")
  } else if(str_contains(fuenteDelServicio, "Bots")){
    return("bot")
  } else{
    return("Otro")
  }
}
sapply(tweets.df$statusSource, identificaServicio)

Referencias

