3. Ejercicio práctico
Como un primer acercamiento utilizaremos una de las librerías más completas de PLN: UDPipe, creada por la Facultad de Matemáticas y Física de la Universidad de República Checa y descargaremos un modelo pre-entrenado guardado como un objeto en R:
# Descarga de modelo preentrenado udpipe
library(udpipe)
#udpipe::udpipe_download_model('spanish') # Descomentar al ejecutar por primera vez
Ahora cargaremos el modelo en español descargado y lo utilizaremos para anotar una frase (ayudándonos de la librería stringr para evitar problemas con la codificación, y de la librería dplyr para manipular los resultados):
library(stringi)
library(dplyr)
# Carga de modelo pre-entrenado
model = udpipe_load_model(file = "spanish-gsd-ud-2.4-190531.udpipe")
# Anotación
text = "Estamos muy interesados en saber cuál será el proyecto de fin de curso."
text_annotated = udpipe_annotate(model, x = stri_enc_toutf8(text))
text_annotated = text_annotated %>% as_tibble(encoding="latin-1")
Finalmente presentaremos el resultado tabular (con la librería kableExtra para que la tabla se vea bien):
library(kableExtra)
text_annotated %>% select(token, lemma, upos, feats, head_token_id) %>% kable() %>% kable_styling(font_size = 14)
| token |
lemma |
upos |
feats |
head_token_id |
| Estamos |
estar |
AUX |
Mood=Ind|Number=Plur|Person=1|Tense=Pres|VerbForm=Fin |
3 |
| muy |
mucho |
ADV |
NA |
3 |
| interesados |
interesado |
ADJ |
Gender=Masc|Number=Plur|VerbForm=Part |
0 |
| en |
en |
ADP |
NA |
5 |
| saber |
saber |
VERB |
VerbForm=Inf |
3 |
| cuál |
cuál |
PRON |
Number=Sing|PronType=Int,Rel |
9 |
| será |
ser |
AUX |
Mood=Ind|Number=Sing|Person=3|Tense=Fut|VerbForm=Fin |
9 |
| el |
el |
DET |
Definite=Def|Gender=Masc|Number=Sing|PronType=Art |
9 |
| proyecto |
proyecto |
NOUN |
Gender=Masc|Number=Sing |
5 |
| de |
de |
ADP |
NA |
11 |
| fin |
fin |
NOUN |
Gender=Masc|Number=Sing |
9 |
| de |
de |
ADP |
NA |
13 |
| curso |
curso |
NOUN |
Gender=Masc|Number=Sing |
11 |
| . |
. |
PUNCT |
NA |
3 |
Y con un gráfico (basado en las librerías ggplot2, igraph y ggraph, adaptado de la entrada ‘dependency parsing with udpipe’, r-bloggers.com):
library(igraph)
library(ggraph)
library(ggplot2)
# Función para graficar dependencias
plot_annotation = function(x, size = 3){
stopifnot(is.data.frame(x) & all(c("sentence_id", "token_id", "head_token_id", "dep_rel",
"token_id", "token", "lemma", "upos", "xpos", "feats") %in% colnames(x)))
x = x[!is.na(x$head_token_id), ]
x = x[x$sentence_id %in% min(x$sentence_id), ]
edges = x[x$head_token_id != 0, c("token_id", "head_token_id", "dep_rel")]
edges$label = edges$dep_rel
g = graph_from_data_frame(edges,
vertices = x[, c("token_id", "token", "lemma", "upos", "xpos", "feats")],
directed = TRUE)
gf = ggraph(g, layout = "linear") +
geom_edge_arc(aes(label = dep_rel, vjust = -0.20),
arrow = grid::arrow(length = unit(4, 'mm'), ends = "last", type = "closed"),
label_colour = "red", check_overlap = TRUE, label_size = size) +
geom_node_label(aes(label = token), col = "darkgreen", size = size, fontface = "bold") +
geom_node_text(aes(label = upos), nudge_y = -0.35, size = size) +
labs(title = "Resultado UDpipe",
subtitle = "Tokenización, etiquetado POS y relaciones de dependencia")
return(gf)
}
# Gráfico
plot_annotation(text_annotated)

Para interpretar los resultados de dependencias es necesario referirnos a universaldependencies.org, la cual está construida sobre la investigación de De Marneffe y otros (2014).
