2. Mineo de texto
2.1. Prerrequisitos
Cargamos el conjunto de librería que vamos a utilizar dentro del análisis. A continuación se detalla algunas de ellas:
|
stringi
|
Procesamiento de cadenas de caracteres
|
|
udpipe
|
Análisis de texto y permite el entrenamiento de modelos
|
|
tidyverse
|
Manipulación de datos (incluye ggplot2 y dplyr)
|
|
igraph-ggraph
|
Visualización
|
#Librerias que se van a usar para todo el análisis
pckg <- c("easypackages","tidyverse","rvest","purrr","kable","tidytext",
"readxl","udpipe","tm","igraph","ggraph","influential")
# install.packages("pckg") desomentar en caso de no tener innstalados los paquetes
library(easypackages)
libraries(pckg)
2.2. Obtención de los datos
La fuente de datos que se utilizó es Google News, donde se realizó web scraping (raspado web), para extraer información de las noticias relacionadas con el objetivo de análisis.
# Definición de funciones
## Función para el scrapeo de noticias en google news.
obtieneNoticiasBusqueda <- function(busqueda){
news_pag = "https://news.google.com/"
parametro_busqueda = "search?q="
busqueda_no_espacios = gsub(" ","%20", busqueda)
parametro_final = "&hl=es-419&gl=US&ceid=US:es-419"
html_dir = paste0(news_pag,parametro_busqueda,busqueda_no_espacios,parametro_final)
google_news = read_html(html_dir)
noticias = google_news %>%
html_nodes(css = ".xP6mwf") %>%
html_children()
noticiasDF = map(noticias,obtieneNoticiasData)
noticiasDF = bind_rows(noticiasDF)
noticiasDF = noticiasDF[!is.na(noticiasDF$Titular),]
return(noticiasDF)
}
## Función auxiliar para obtener características de la noticia.
obtieneNoticiasData = function(noticia){
news_pag = "https://news.google.com/"
titular = noticia %>% html_node("h3") %>% html_text()
fecha = noticia %>% html_node("time") %>% html_attr("datetime")
diario = noticia %>% html_node("a.wEwyrc.AVN2gc.uQIVzc.Sksgp") %>% html_text()
link_enmascarado = noticia %>% html_node("h3 a") %>% html_attr("href")
link_enmascarado = paste0(news_pag,substring(link_enmascarado,3))
link_leido = read_html(link_enmascarado)
link = link_leido %>%
html_nodes(css='a') %>%
tail(1) %>%
html_attr("href")
noticiaDF = data.frame(Titular=titular, Fecha=fecha, Diario=diario, Link=link, stringsAsFactors = F)
return(noticiaDF)
}
Obtener noticias sobre violencia contra a mujer en Ecuador
noticiasMujer <- obtieneNoticiasBusqueda("Violencia contra la mujer Ecuador")
Hata la fecha de corte los diarios ecuatorianos que más noticias relacionados con la violencia contra la mujer publicaron fueron los que se presentan a continuación:
Para poder obtener la noticia completa se obtiene mediante el complemento de Google inspector gadget un diccionario de los CSS de cada uno de los diarios estudiados, el CSS es un lenguaje que define la apariencia de un documento. Posterior a esto, La función obtenerNoticiaNacional nos permitirá obtener la noticia completa que se encuentre dentro de los diccionarios CSS definidos previamente.
# Diccionario CSS de los diarios
Diarios <- c("El Comercio (Ecuador)", "El Telégrafo (por eliminar)",
"El Universo","La Hora (Ecuador)","Primicias")
Estructura = data.frame(Diario=Diarios)
Estructura$CSS = NA
Estructura$CSS[Estructura$Diario=='El Comercio (Ecuador)'] = '.paragraphs'
Estructura$CSS[Estructura$Diario=='El Telégrafo (por eliminar)'] = '.itemFullText'
Estructura$CSS[Estructura$Diario=='El Universo'] = '.field-name-body'
Estructura$CSS[Estructura$Diario=='La Hora (Ecuador)'] = '#contenedorGeneral'
Estructura$CSS[Estructura$Diario=='Primicias'] = '#entry-content-inarticle'
# Función para obtener la noticia completa.
obtenerNoticiaNacional = function(link_noticia, diario, diccionario_css){
noticia_leida = read_html(link_noticia)
css = diccionario_css$CSS[diccionario_css$Diario==diario]
text_nodes = noticia_leida %>%
html_nodes(css = css) %>%
html_nodes("p")
text = text_nodes %>%
html_text()
text = paste0(text, collapse = " ")
return(text)
}
Para obtener la noticia completa se toma como input el dataframe de la busqueda realizada mediante web scraping, se filtra solo los 5 diarios que se van a tomar en cuenta dentro del análisis y se ejecuta la función que se definió para la extracción de todas las noticias.
noticiasMujer <- noticiasMujer %>% filter(Diario %in% Diarios)
news = map2_chr(noticiasMujer$Link, noticiasMujer$Diario, obtenerNoticiaNacional, diccionario_css=Estructura)
noticiasMujer$Noticia = news
El dataframe que nos da como resultado recoge: la fecha en que se publicó la noticia, el diario que la publicó, el titular, el link de acceso al sitio web donde se encuentra la noticia, y la noticia como tal.
2.3. Tokenización del texto
Dentro del proceso de tokenización se a procedido a dividir un texto en las unidades que los conforman, para el caso de estudio se dividió en el elemento más sencillo, las palabras. Sin embargo, más adelante se busca realizar un análisis de n-gramas específicamente bigramas (n=2).
Al momento de realizar la tokenización, se incumple el condición tidy de nuestro dataframe, ya que nuestro objeto de análisis son las noticias que antes de la tokenización se encontraban una en cada fila del dataframe, para poder cumplir con la estructura incial, se duplica cada elemento de las demás columnas las veces que sea necesario, al proceso descrito se lo conoce como expansión, y se lo realiza con la función unnest_tokens del paquete tidytext.
2.3. Limpieza del texto (stopwords)
Después de haber realizado la tokenización del texto correspondiente a las noticias, se procede a la limpieza de palabras que no tienen significado para el análisis (stopwords), como se observa a continuación las palabras más frecuentes son preposiciones, artículos, y pronombres en su mayoría que no permiten obtener conclusiones sobre lo que se los medios electrónicos están transmitiendo a sus lectores.
Remoción de palabras vacías
Al remover las palabras que no dan sentido a mi análisis, ahora ya se puede evidenciar como el objetivo de estudio va tomando forma. Se puede evidenciar que los términos más frecuentes ya nos hablan sobre la violencia contra la mujer en el Ecuador.
stopwords_es_1 = read_excel("CustomStopWords.xlsx")
names(stopwords_es_1) = c("Token","Fuente")
stopwords_es_2 = tibble(Token=tm::stopwords(kind = "es"), Fuente="tm")
stopwords_es = rbind(stopwords_es_1, stopwords_es_2)
stopwords_es = stopwords_es[!duplicated(stopwords_es$Token),]
remove(stopwords_es_1, stopwords_es_2)
stopwords_es[sample(nrow(stopwords_es),size = 10, replace = F),]
tidy_Mujer <- tidy_Mujer %>%
anti_join(stopwords_es)
Joining, by = "Token"
tidy_Mujer %>%
count(Token) %>%
slice_max(order_by = n,n=8)
Dentro de las palabras más frecuentes se encuentran las palabras mujer y mujeres, para poder corregir esto se ha procedido a la lematización de las palabras para poder extraer su lemma, con la palabra raíz se espera tener mejor resultado al momento de visualizar las palabras más frecuentes para cada uno de los diarios. El método para lematizar que se empleará es a través de un modeo pre-entrenado, conjuntamente con la librería udpipe
Antes de proceder con la lematización, se da un vistazo breve de discurso que presenta cada uno de los diarios, esto servirá para tener una idea de si cada uno de ellos tiene un patrón que lo diferencie.

Como se puede observar en el siguiente gráfico, las palabras más usadas en las noticias que se publica sobre la violencia contra la mujer, permiten conocer el contexto del problema en el Ecuador. La violencia de género en donde la mujer es la víctima, es un problema social que se busca mitigar a través de la política y de esta forma se busca hacer cumplir los derechos de las mujeres.
Lematización
Para proceder con la lematización de las noticias se usará un modelo en español pre-entrenado, adicional a esto se eliminarán la palabras que generan ruido dentro del análisis.
# Cargar el modelo pre-entrenado
udpipe::udpipe_download_model('spanish') # Descomentar al ejecutar por primera vez
model <- udpipe_load_model(file = "spanish-gsd-ud-2.5-191206.udpipe")
tidy_Mujer_lemmatiza <- udpipe_annotate(model,
x = noticiasMujer$Noticia,
doc_id = noticiasMujer$Titular)
# Transformar la data en un formato tidy
tidy_Mujer_lemmatiza <- as_tibble(tidy_Mujer_lemmatiza)
names(tidy_Mujer_lemmatiza)[6] <- "Token"
# Remoción de stopwords
tidy_Mujer_lemmatiza1 <- tidy_Mujer_lemmatiza %>%
mutate(Token=removePunctuation(Token)) %>%
anti_join(stopwords_es) %>%
filter(Token!="")
Si se representan la frecuencia de las etiquetas POS, se obtiene el gráfico que muestra las categorías de POS que más se repiten, algo que hay que tomar en cuenta particularmente en este análisis es que el POS de números es bastante frecuente, esto se debe a que algunas noticias pueden mostrar cifras acerca de las víctimas de violencia, y femicidio. Para ahondar más en este tema nos servirá el análisis de bigramas que se realizará más adelante.

Si se toma en cuenta las categorías POS que más se repiten se puede optener más información acerca del contexto del problema de análisis. La tipos de violencia que sufren y más denuncian las mujeres son: la sexual, psicológica, y económica, además se habla de los casos de femicidios que ocurren cada año.

Cabe señalar que dentro de la lematización el modelo entrenado muestra errores al momento de extraer la palabra raíz. Por ejemplo, en la categoría VERB (verbos) aparece la palabra asesinado que a pesar que la categoriza como ver no extrae el verbo como tal que sería asesinar.
2.4. Análisis de bigramas
Para poder construir los bigramas se realiza la tokenización de las noticias extraidas desde la web, pero ahora se cambia el argumento de la tokenización a n-gramas con un n=2.
Algunos de los bigramas más usuales son palabras vacías que deben ser eliminadas para poder tener un análisis más limpio, por lo que se procede a eliminarlas.
Eliminando las stopwords ha permitido que ahora los bigramas tengan mucho más sentido orientado a lo que se está buscando. Un término que particularmente llama la atención es que se habla de violencia política y este término está relacionado con la restricción de acceso a derechos humanos y libertades por cuestiones de sexo, y la relaciones desiguales entre hombre y mujer por ejemplo en el ámbito laboral.
Red de bigramas
La relación entre palabras es muy importante y lo que nos ofrece la representación gráfica de una red de bigramas (grafo) es poder conocer las temáticas que se pueden estar tratando dentro de las noticias.
bigrama_grafo_mujer
IGRAPH 9ab1d7d DN-- 135 97 --
+ attr: name (v/c), n (e/n)
+ edges from 9ab1d7d (vertex names):
[1] covid ->19 violencia ->intrafamiliar
[3] derechos ->humanos correo ->electrónico
[5] electrónico ->requerido requerido ->asunto
[7] ecu ->911 violencia ->machista
[9] violencia ->sexual emergencia ->sanitaria
[11] ley ->orgánica redes ->sociales
[13] diciembre ->ecuador organizaciones->sociales
[15] violencia ->física acoso ->laboral
+ ... omitted several edges

Un pequeño resumen del grafo nos da la idea de la información que se está transmitiendo a los lectores de los diarios tomados en cuenta para este trabajo. Se habla mucho del empoderamiento femenino, que busca a través de la organización en las redes sociales pronuciarse como sociedad civil exigiendo el cumplimiento de sus derechosa ya que no obtienen ayuda de las organizaciones gubernamentales ; los distintos tipos de violencia que sufren las mujeres en el ámbito familiar, y laboral; y finalmente las cifras muertes violentas y femicidios en el Ecuador.
3. Aprendizaje no supervisado
Una de las ventajas de poder aplicar un modelo no supervisado, es conocer los patrones que siguen los datos y poder ir formando clusters. Para realizar la clustrización de las noticias se usa el modelado de tópicos. Para este modelado se utilizará la técnica de Asignación Latente de Dirichlet (LDA). Para poder utilizar el algoritmo de LDA, se parte de la creación de la matriz documento-término:
# Creación de la matriz documento-término
dtm_noticias <- tidy_Mujer_model %>%
count(doc_id, lemma, sort = TRUE) %>%
ungroup() %>%
cast_dtm(doc_id, lemma, n)
# Creación de la matriz documento-término
dtm_noticias <- tidy_Mujer_model %>%
count(doc_id, lemma, sort = TRUE) %>%
ungroup() %>%
cast_dtm(doc_id, lemma, n)
dtm_noticias
<<DocumentTermMatrix (documents: 65, terms: 4106)>>
Non-/sparse entries: 11898/254992
Sparsity : 96%
Maximal term length: 73
Weighting : term frequency (tf)
Ahora para poder generar las temáticas se necesita definir un número k de grupos que se van a formar, el número de temática tomados se determino tras realizar algunas pruebas, aunque se podría haber utilizado técnicas más avanzadas para determinar el número óptimo de grupos.
class(lda)
[1] "LDA_Gibbs"
attr(,"package")
[1] "topicmodels"
Tras haber realizado la modelización se ontiene la matriz beta, la cual nos permite saber la probabilidad de que cada término pueda pertenecer a una temática en específico. Por ejemplol la palabra violencia tiene más probabilidad de pertenecer al la temática número 1.
Top de términos de cada temática
Las tres temáticas que se obtuvieron nos dan idea de los siguiente:
Temática 1: Habla sobre la violencia sexual que sufren las mujeres, adolescentes y niñas, y que se necesita una atención a través de políticas que pueda garantizar sus derechos.
Temática 2: Se hace mención al 25 de noviembre fecha en la que se celebra el día contra la violencia de la mujer, y la organización de marchas que se efectuaron en todo el país, para reclamar justicia por las vidas perdidas a causas de los femicidios.
Temática 3: La última temática trata sobre la violencia de género que es otro tipo diferente de violencia, pero que esta relacionado al objetivo de estudio, y que hace mención a la crisis sanitaria del COVID-19 y las agresiones denunciadas en la fiscalía durante todo la temporada del confinamiento.

También se puede trabajar con la matriz gamma para conocer que probabilidad tiene cada documento de pertenecer a una de las tres temáticas. Para ello se obtuvo una muestra de tres documento aleatorios para conocer a que temática pertenecen.
Mediante el gráfico se puede evidenciar a que temática pertenece cada noticia y efectivamente se comprueba al revisar los títulares de las tres noticias tomadas al azar. Por un lado la temática uno que habla de la busqueda de justicia por los temás de femicidio, y por el otro la relacionada a la violencia contra las mujeres como tal.

4. Conclusiones
El problema de la violencia contra la mujer es un mal que durante esta pandemía a retomado fuerza ya que se habla de violencia intrafamiliar, sexual, económica e incluso patrimonial. Lo que se pide es reformar el código orgánico integral penal, pero los entes gubernamentales hacen caso omiso frente a este problema, es por esta razón que se habla de la violencia política que sufren las mujeres y que al no sentirse respaldadas por la justicia en el Ecuador, deben a través de organizaciones civiles buscar ayuda para hacer cumplir sus derechos.
Los medios de comunicación que se analizaron parecen tener un mismo patrón al momento de presentar sus noticias, muestran las cifras de violencia, pero no se habla de una posible solución emitida por algún ente gubernamental, solo se trata de casos en donde la mujer es víctima no solo en su entorno familiar, si no también se detalla el acoso y discriminación que sufren en el ámbito laboral. El mensaje es claro las mujeres se sienten vulnerables en un país donde la violencia de género y contra la mujer se queda solo en cifras.
