3. Ejercicio práctico
Como un primer acercamiento utilizaremos una de las librerías más completas de PLN: UDPipe, creada por la Facultad de Matemáticas y Física de la Universidad de República Checa y descargaremos un modelo pre-entrenado guardado como un objeto en R:
# Descarga de modelo preentrenado udpipe
library(udpipe)
#udpipe::udpipe_download_model('spanish') # Descomentar al ejecutar por primera vez
Ahora cargaremos el modelo en español descargado y lo utilizaremos para anotar una frase (ayudándonos de la librería stringr para evitar problemas con la codificación, y de la librería dplyr para manipular los resultados):
library(stringi)
library(dplyr)
# Carga de modelo pre-entrenado
model = udpipe_load_model(file = "spanish-gsd-ud-2.4-190531.udpipe")
# Anotación
text = "Estamos muy interesados en saber cuál será el proyecto de fin de curso."
text_annotated = udpipe_annotate(model, x = stri_enc_toutf8(text))
text_annotated = text_annotated %>% as_tibble(encoding="latin-1")
Finalmente presentaremos el resultado tabular (con la librería kableExtra para que la tabla se vea bien):
library(kableExtra)
text_annotated %>% select(token, lemma, upos, feats, head_token_id) %>% kable() %>% kable_styling(font_size = 14)
| token |
lemma |
upos |
feats |
head_token_id |
| Estamos |
estar |
AUX |
Mood=Ind|Number=Plur|Person=1|Tense=Pres|VerbForm=Fin |
3 |
| muy |
mucho |
ADV |
NA |
3 |
| interesados |
interesado |
ADJ |
Gender=Masc|Number=Plur|VerbForm=Part |
0 |
| en |
en |
ADP |
NA |
5 |
| saber |
saber |
VERB |
VerbForm=Inf |
3 |
| cuál |
cuál |
PRON |
Number=Sing|PronType=Int,Rel |
9 |
| será |
ser |
AUX |
Mood=Ind|Number=Sing|Person=3|Tense=Fut|VerbForm=Fin |
9 |
| el |
el |
DET |
Definite=Def|Gender=Masc|Number=Sing|PronType=Art |
9 |
| proyecto |
proyecto |
NOUN |
Gender=Masc|Number=Sing |
5 |
| de |
de |
ADP |
NA |
11 |
| fin |
fin |
NOUN |
Gender=Masc|Number=Sing |
9 |
| de |
de |
ADP |
NA |
13 |
| curso |
curso |
NOUN |
Gender=Masc|Number=Sing |
11 |
| . |
. |
PUNCT |
NA |
3 |
Y con un gráfico (basado en las librerías ggplot2, igraph y ggraph, adaptado de la entrada ‘dependency parsing with udpipe’, r-bloggers.com):
library(igraph)
library(ggraph)
library(ggplot2)
# Función para graficar dependencias
plot_annotation = function(x, size = 3){
stopifnot(is.data.frame(x) & all(c("sentence_id", "token_id", "head_token_id", "dep_rel",
"token_id", "token", "lemma", "upos", "xpos", "feats") %in% colnames(x)))
x = x[!is.na(x$head_token_id), ]
x = x[x$sentence_id %in% min(x$sentence_id), ]
edges = x[x$head_token_id != 0, c("token_id", "head_token_id", "dep_rel")]
edges$label = edges$dep_rel
g = graph_from_data_frame(edges,
vertices = x[, c("token_id", "token", "lemma", "upos", "xpos", "feats")],
directed = TRUE)
gf = ggraph(g, layout = "linear") +
geom_edge_arc(aes(label = dep_rel, vjust = -0.20),
arrow = grid::arrow(length = unit(4, 'mm'), ends = "last", type = "closed"),
label_colour = "red", check_overlap = TRUE, label_size = size) +
geom_node_label(aes(label = token), col = "darkgreen", size = size, fontface = "bold") +
geom_node_text(aes(label = upos), nudge_y = -0.35, size = size) +
labs(title = "Resultado UDpipe",
subtitle = "Tokenización, etiquetado POS y relaciones de dependencia")
return(gf)
}
# Gráfico
plot_annotation(text_annotated)

Para interpretar los resultados de dependencias es necesario referirnos a universaldependencies.org, la cual está construida sobre la investigación de De Marneffe y otros (2014).
---
title: "Análisis de comportamiento en redes sociales usando Procesamiento del Lenguaje Natural"
subtitle: 'Capítulo 2:  Conocimientos del lenguaje, morfología, sintaxis, y semántica'
author: Hugo Porras
output: 
  html_notebook:
    css: Estilos.css
    toc: true
    toc_depth: 2
    toc_float:
      collapsed: true
      smooth_scroll: false
bibliography: Bibliografia.bib
csl: cepal.xml
---

# **1. PLN y Lenguaje natural**

## **1.1. ¿Qué es un lenguaje natural?**

<br></br>
<center><a><img width="80%" src="figs/01_LenguajeNatural.jpg"></a></center>
<br></br>

Para @Sarkar2019:

El lenguaje natural es un lenguaje desarrollado y evolucionado por los humanos a través del uso y comunicación "natural" (distinto a un lenguaje de programación). Tal lenguaje puede ser expresado de manera escrita, verbal o incluso mediante señas.

<br></br>

## **1.2. Conocimiento del lenguaje usado en PLN**

<br></br>
<center><a><img width="80%" src="figs/01_CS_Linguistics.jpeg"></a></center>
<br></br>

Acorde a @Villalonga2019:

+ Para el procesamiento del lenguaje natural se requiere del conocimiento de áreas como la fonética, la fonología, la morfología, la sintaxis, la semántica, la pragmática y el discurso.
+ La **fonética** y la **fonología** se relacionan al conocimiento sobre los sonidos linguísticos.
+ La **morfología** es el conocimiento de los componentes significativos de las palabras. Esta nos sirve por ejemplo, para identificar que ''puertas'' es el plural de ''puerta''.
+ La **sintaxis** es el conocimiento de las relaciones estructurales entre palabras. Por ejemplo, nos sirve para saber cómo encadenar las palabras en una respuesta.
+ La **semántica** es el conocimiento del significado. Esta se aplica por ejemplo, para entender el significado de palabras aisladas o en conjunto, y de saber que dicho significado puede variar en distintos escenarios.
+ La **pragmática** es el conocimiento de la relación del significado con los objetivos y las intenciones. Es decir, nos sirve para saber el tipo de expresión que alguien ha utilizado.
+ El **discurso** es el conocimiento sobre unidades lingüísticas más grandes que un solo enunciado. Esto es útil para resolver referencias cruzadas por ejemplo.


<!-- ## **1.2. La filosofía del lenguaje** -->

<!-- Existen cuatro problemas filosóficos del lenguaje: -->

<!-- ### **La naturaleza del significado en el lenguaje** -->

<!-- <br></br> -->

<!-- <center><img width="80%" src="figs/01_NaturalezaSignificado.jpg"></center> -->

<!-- <br></br> -->

<!-- + La naturaleza del significado en el lenguaje se preocupa de la semántica de un lenguaje y la naturaleza del significado en sí.  -->
<!-- + Filósofos y lingüistas intentan encontrar qué significa ***significar***, cómo el significado de una palabra u oración se origina y cómo se ha formado. -->
<!-- + ¿Cómo las palabras formaron relaciones y por qué aparecen los sinónimos? -->
<!-- + ¿Cómo las palabras, con sus propios significados se unen para formar oraciones con su propio significado? -->
<!-- + Esto se puede representar y analizar de diversas maneras: emisores y receptores, árboles sintácticas (parse trees). -->

<!-- ### **El uso del lenguaje** -->

<!-- <br></br> -->

<!-- <center><img width="80%" src="figs/01_ActoHabla.jpg"></center> -->

<!-- <br></br> -->

<!-- + Se preocupa de cómo el lenguaje es usado en varios escenarios y tipos de comunicación entre seres humanos. -->
<!-- + Incluye el estudio de la intención, el tono, el contenido y las acciones envueltas en la expresión de un mensaje (acto del habla o *speech act*). -->
<!-- + Conceptos más avanzados se relacionan al origen de la creación del lenguaje y las actividades cognitivas humanas, responsables de la adquisición y uso del lenguaje. -->

<!-- ### **La cognición del lenguaje** -->

<!-- <br></br> -->

<!-- <center><img width="80%" src="figs/01_Cognicion.jpg"></center> -->

<!-- <br></br> -->

<!-- + Se centra en cómo las funciones cognitivas del cerebro humano son responsables de entender e interpretar el lenguaje. -->
<!-- + La cognición intenta encontrar cómo la mente trabaja al combinar y relacionar palabras específicas en oraciones y un mensaje con significado. -->

<!-- ### **La relación entre el lenguaje y la realidad** -->

<!-- <br></br> -->

<!-- <center><img width="80%" src="figs/01_TrianguloSemiotico.jpg"></center> -->

<!-- <br></br> -->

<!-- + Explora la extensión de verosimilitud de las expresiones que se originan en el lenguaje. -->
<!-- + Los filósofos buscan medir qué tanto representan estas expresiones los hechos. -->
<!-- + Se relaciona las expresiones con lo que sucede en el mundo. -->
<!-- + Tales relaciones pueden ser expresadas de muchas maneras. -->

<!-- <br></br> -->

<!-- <center><img width="80%" src="figs/01_DirectionOfFit.png"></center> -->

<!-- <br></br> -->

<!-- ## **1.3. Adquisición del lenguaje** -->

<!-- Esta se define como el proceso a través del cual el ser humano utiliza sus habilidades cognitivas, conocimiento y experiencia para entender el lenguaje en base a escuchar y percibir palabras y oraciones para comunicarse con otros. -->

<!-- Existen varias teorías acerca de la adquisición del lenguaje: -->

<!-- <br></br> -->

<!-- <center><img width="80%" src="figs/01_Adquisicion.jpg"></center> -->

<!-- <br></br> -->

<!-- + **Primeros filósofos**: Habilidad otorgada por Dios. -->
<!-- + **Platón**: Mapeo palabra-significado. -->
<!-- + **B. Skinner**: Refuerzo de la memoria ante estímulos (acondicionamiento instrumental u operativo). -->
<!-- + **N. Chomsky**: Aprendizaje sugerido por Skinner más inferencia de reglas de sintaxis, semántica, conceptos y gramática. -->

<!-- <br></br> -->

<!-- ## **1.4. Uso del lenguaje** -->

<!-- <br></br> -->

<!-- <center><img width="80%" src="figs/01_UsoLenguaje.jpg"></center> -->

<!-- <br></br> -->

<!-- Se habla de conceptos relacionados a los "actos del habla" que definen como un lenguaje es usado en la comunicación. -->

<!-- Existen 3 categorías de "actos del habla": -->

<!-- + **Locutiva**: Emisión y entrega del mensaje. -->
<!-- + **Ilocutiva**: Semántica y significado del mensaje. -->
<!-- + **Perlocutiva**: Efectos del mensaje en su receptor. -->

<!-- Existen 5 clases distintas de actos *ilocutivos*: -->

<!-- + **Asertivo**: Proposición que puede ser verdadera o falsa. -->
<!-- + **Directivo**: Pregunta o dirección de realizar alguna actividad. -->
<!-- + **Comisivo**: Compromiso del emisor de realizar algún acto voluntario. -->
<!-- + **Expresivo**: Disposición u opinión hacia una proposición particular. -->
<!-- + **Declaración**: Acto del habla capaz de cambiar la realidad en base a la proposición declarada. -->

<!-- <br></br> -->

<!-- ## **1.4. Lingüística** -->

<!-- <br></br> -->
<!-- <center><a href="https://cesaraguilar.weebly.com/introduccioacuten-a-la-linguumliacutestica-computacional.html" target="_blank"> -->
<!-- <img src="figs/01_RamasLinguistica.png" width="750" height="500" border="10"/></a><p class="caption">César Aguilar, Lingüística Computacional, click en la imagen.</p></center> -->
<!-- <br></br> -->

<!-- Se define como el estudio científico del lenguaje, incluyendo forma, sintaxis, significado y semántica. -->

<!-- Para el análisis de texto es útil conocer algunas áreas de la lingüística ya que son usadas en varios algoritmos. Sin embargo es preciso no olvidar que este campo es amplio y va mucha más allá de nuestro análisis: -->

<!-- + **Fonética:** Es el estudio de las propiedades acústicas de los sonidos producidos por la voz humana durante el habla. -->
<!-- + **Fonología:** Estudio de los patrones de sonido mientras son interpretados en la mente humana para distinguir ente distintos fonemas. Estudia además los acentos, tonos y estructura de las sílabas. -->
<!--   + *Fonema:* Es la articulación mínima de un sonido. Existen al menos 22 en el español y 45 en el inglés (https://es.wikipedia.org/wiki/Fonema). -->
<!-- + **Sintaxis:** Estudio de las oraciones, frases, palabras y sus estructuras (frase y oración se diferencian en el uso del verbo en forma personal). *El cambio de orden de las palabras podría cambiar el sentido de la oración* ***totalmente***. -->
<!-- + **Semántica:** Estudio del significado, dividida en semántica léxica y composicional. -->
<!--   + *Semántica léxica:* Estudio del significado de las palabras y símbolos usando morfología y sintaxis (relaciones simples). -->
<!--   + *Semántica composicional:* Estudio de las relaciones entre palabras y combinaciones de palabras para entender el significado de frases y oraciones (relaciones complejas). -->
<!-- + **Morfología:** Estudio de la estructura y significado de los morfemas. Los morfemas son la unidad más pequeña del lenguaje que tiene un significado. -->
<!-- + **Léxico:** Estudio de las propiedades de la palabras y frases usadas en un lenguaje y como construyen el vocabulario. -->
<!-- + **Pragmática:** Estudio de cómo factores lingüísticos y no lingüísticos afectan el significado de un mensaje. -->
<!-- + **Análisis del discurso:** Analiza el lenguaje y el intercambio de información a modo de oraciones en conversaciones. Estas conversaciones pueden ser escritas, habladas o en señas. -->
<!-- + **Estilística:** Estudia el lenguaje centrándose en el estilo de escritura y todo lo que ello conlleva. -->
<!-- + **Semiótica:** Estudia los signos, símbolos y procesos de señales y cómo comunican significados. Cosas como los simbolismos, analogías y metáforas son cubiertas por esta área. -->

<!-- <br></br> -->
<!-- <center><a href="https://twitter.com/Lenin/status/1280236143578157056?ref_src=twsrc%5Egoogle%7Ctwcamp%5Eserp%7Ctwgr%5Etweet" target="_blank"> -->
<!-- <img src="figs/01_Moreno.png" width="750" height="500" border="10"/></a><p class="caption">Tweet de Lenín Moreno, click en la imagen.</p></center> -->
<!-- <br></br> -->

<!-- ```{r} -->
<!-- Morenotweet = '¡En un momento crítico, logramos un acuerdo histórico con los más importantes tenedores de la deuda que nos permitirá liberar US$16.000 millones de pago de la deuda en los próximos 10 años! #JuntosEcuador' -->
<!-- ``` -->

<!-- <br></br> -->
<!-- <center><a href="https://twitter.com/LassoGuillermo/status/1279976637677928454?ref_src=twsrc%5Egoogle%7Ctwcamp%5Eserp%7Ctwgr%5Etweet" target="_blank"> -->
<!-- <img src="figs/01_Lasso.png" width="750" height="500" border="10"/></a><p class="caption">Tweet de Guillermo Lasso, click en la imagen.</p></center> -->
<!-- <br></br> -->

<!-- ```{r} -->
<!-- LassoTweet = 'Gran entrevista en @CanalUnoTv con Rafael Cuesta. Muchas gracias por recibirme y abrir un espacio para conversar sobre las preocupaciones de los ecuatorianos con miras al 2021. Vamos a salvar al Ecuador 💪🏼🇪🇨.' -->
<!-- ``` -->

<!-- ## **1.5. Sintaxis y estructura del lenguaje** -->

<!-- El conocer la estructura y la sintaxis del lenguaje es útil para el procesamiento de texto, realizar anotaciones y análisis sintáctico, que luego serán usados en la clasificación y resumen del texto. -->

<!-- En el español las palabras se unen para formar unidades constituyentes de la estructura jerárquica de la oración. -->

<!-- ### **Estructura jerárquica de la oración** -->

<!-- <br></br> -->
<!-- <center><img width="80%" src="figs/01_EstructuraJerarquicaOracion.png"></center> -->
<!-- <br></br> -->

<!-- Los nodos se componen de la unidad más pequeña de la oración (palabra, símbolos terminales), sus combinaciones forman sintagmas (frases, símbolos no terminales) y su unión final; la oración (que puede ser simple o compleja). Estas oraciones además pueden ser combinadas para formar textos (visita el link a un [analizador sintáctico](https://sintaxis.org/analizador/) o al otro [analizador sintáctico](https://www.mystilus.com/herramientas/analizador-morfosintactico)). -->

<!-- <br></br> -->
<!-- <center><img width="80%" src="Figs/01_AnalisisSintacticoMoreno.png"><p class="caption">Tweet de Lenín Moreno, análisis sintáctico.</p></center> -->
<!-- <br></br> -->

<!-- <br></br> -->
<!-- <center><img width="80%" src="Figs/01_AnalisisSintacticoLasso.png"><p class="caption">Tweet de Guillermo Lasso, análisis sintáctico.</p></center> -->
<!-- <br></br> -->

<!-- Y en R utilizaremos para ejemplificar, un modelo entrenado por [UDPipe, de la Facultad de Matemáticas y Física de la Universidad de República Checa](http://ufal.mff.cuni.cz/udpipe): -->

<!-- ```{r} -->
<!-- # Carga rápida de librerías -->
<!-- library(udpipe) -->
<!-- library(tidyverse) -->
<!-- ``` -->


<!-- ```{r} -->
<!-- # Descarga de modelo preentrenado udpipe  -->
<!-- #udpipe::udpipe_download_model('spanish') # Descomentar al ejecutar por primera vez -->
<!-- ``` -->

<!-- Tweet de Guillermo Lasso con anotaciones: -->

<!-- ```{r} -->
<!-- # Ejemplo de etiquetado POS (tweet de Lasso) -->
<!-- library(stringi) -->
<!-- model = udpipe_load_model(file = "spanish-gsd-ud-2.4-190531.udpipe") -->
<!-- LassoTweet_annotated = udpipe_annotate(model, x = stri_enc_toutf8(LassoTweet)) -->
<!-- LassoTweet_annotated = as_tibble(LassoTweet_annotated, encoding="latin-1") -->
<!-- LassoTweet_annotated[, c("token","lemma","upos")] -->
<!-- ``` -->

<!-- Tweet de Lenin Moreno con anotaciones: -->

<!-- ```{r} -->
<!-- # Ejemplo de etiquetado POS (tweet de Lennin) -->
<!-- Morenotweet_annotated = udpipe_annotate(model, x = stri_enc_toutf8(Morenotweet)) -->
<!-- Morenotweet_annotated = as_tibble(Morenotweet_annotated) -->
<!-- Morenotweet_annotated[, c("token","lemma","upos")] -->
<!-- ``` -->

<!-- ### **Palabras** -->

<!-- Son la unidad más pequeña del lenguaje, son independientes y tienen su propio significado. Los morfemas en cambio no son independientes. El morfema es la parte de la palabra  que varía. -->

<!-- Por lo general es útil etiquetar las palabras y analizarlas como *"partes del habla"* (etiquetado **POS**, parts of speech). Estas etiquetas son: -->

<!-- + *Sustantivo (N, noun)* -->
<!-- + *Verbo (V, verb)* -->
<!-- + *Adjetivo (Adj, adjective)* -->
<!-- + *Adverbio (Adv, adverb)* -->

<!-- Cada una de estas puede ser subdividida según el lenguaje analizado ([Stanford NLP FAQ](https://nlp.stanford.edu/software/spanish-faq.shtml#tagset)). -->

<!-- ### **Sintagmas** -->

<!-- + El sintagma nominal (SN, NP) es aquel que está constituido alrededor de un sustantivo o pronombre. *La madre.* -->
<!-- + El sintagma verbal (SV, VP) es aquel cuyo núcleo está compuesto por una forma verbal. *Compró un libro.* -->
<!-- + El sintagma preposicional (SP, PP) es aquel que está formado por un preposición y un término cuyo núcleo puede ser un sustantivo, un adjetivo o un adverbio. *Con su llave* -->
<!-- + El sintagma adjetivo (SAdj, ADJP) es aquel cuyo núcleo está compuesto por un adjetivo. *Sorprendentemente fácil.* -->
<!-- + El sintagma adverbial (SAdv, ADVP) es aquel cuyo núcleo está compuesto por un adverbio. *Cerca de todo.* -->


<!-- ## **1.6. Gramática** -->

<!-- Esta consiste en un conjunto de reglas usadas para determinar cómo posicionar palabras, frases y cláusulas al momento de construir oraciones para cualquier lenguaje natural. Ayuda a habilitar tanto la sintaxis como la estructura en el lenguaje. Algunas de sus características son: -->

<!-- + La gramática no se limita solo al lenguaje escrito, ya que opera también verbalmente. -->
<!-- + Sus reglas pueden ser específicas a una región, lenguaje o dialecto, o a su vez; ser algo universales como el modelo sujeto-verbo-objeto (SVO). -->
<!-- + Su evolución se basa en el uso del lenguaje a través del tiempo. -->

<!-- ## **1.7. Tipología del orden de las palabras** -->

<!-- La tipología como parte de la lingüística es un campo que trata de clasificar los lenguajes basándose en su sintaxis, estructura y funcionalidad. Una de la manera más comunes de clasificar un lenguaje es a través del orden dominante de sus palabras, conocido como la tipología del orden de las palabras. Rusell Tomlin en 1986 sugería el siguiente análisis: -->

<!-- <br></br> -->
<!-- <center><img width="80%" src="Figs/01_TipologiaOrden.png"></center> -->
<!-- <br></br> -->

<!-- ## **1.8. Semántica** -->

<!-- Es el estudio del significado en el lenguaje, las relaciones entre palabras, frases y símbolos; así como el conocimiento que representan. -->

<!-- + A partir de una palabra se pueden armar redes semánticas: https://www.nodebox.net/perception. -->
<!-- + La semántica se puede representar a través de la **lógica proposicional** y la **lógica de primer orden** (FOL), en especial cuando analizamos mensajes escritos o hablados (la principal forma de comunicarse del ser humano). -->

<!-- <br></br> -->
<!-- <center> -->
<!-- <img src="figs/01_FOLEjemplo.png" width="750" height="500" border="10"/></a><p class="caption">Lógica de primer orden, Lingüística Computacional.</p></center> -->
<!-- <br></br> -->

<!-- Las relaciones léxico-semánticas por su lado se preocupan de identificar la relación semántica entre unidades del léxico (morfemas). Algunos conceptos clave de las relaciones léxico-semánticas que debemos conocer son: -->

<!-- + **Lema:** Es la forma canónica de un conjunto de palabras. Es decir que es usualmente la forma base de dicho conjunto. -->
<!-- + **Homónimos (Homógrafos-Homófonas):** Son palabras que comparten la misma forma de escribir (homógrafos) o pronunciar (homónimas) pero significan cosas distintas. Las palabras homófonas son en general un gran problema para el NLP. -->
<!-- + **Polisemas:** Son palabras que se escriben igual pero tienen significados distintos, aunque relacionados según su contexto. -->
<!-- + **Capitónimos:** Son palabras que se escriben igual pero tienen significados distintos cuando son escritas con mayúsculas. -->
<!-- + **Sinónimos:** Son aquellas palabras que se escriben y pronuncian distinto pero significan lo mismo en casi cualquier contexto, y pueden ser reemplazadas unas por otras. -->
<!-- + **Antónimos:** Son pares de palabras que definan una relación de oposición binaria. -->
<!-- + **Hipernimos:** Son palabras de las que se derivan otras. *Frutas*. -->
<!-- + **Hipónimos:** Son palabras que se derivan de otras, cuyo significado es más específico a un determinado contexto. *Mango*. -->

# **2. Morfología, morfosintaxis, sintaxis y semántica**

## **2.1. Morfología**

<br></br>
<center><a><img width="95%" src="figs/01_Morfologia.png"></a></center>
<br></br>

***En la lingüística***

+ La **morfología** es la parte de la gramática que estudia la estructura de las palabras y sus elementos constitutivos.

***En el procesamiento del lenguaje natural***

+ La **morfología computacional** trata de reconocer de forma automática los morfemas que contiene una palabra. Esta es importante para reconocer palabras como ‘pensar’ y ‘piénsalo’ como una sola, además de reconocer el género y número de un nombre para encajarlo con un adjetivo por ejemplo.
+ En el **análisis morfológico** automático se obtiene como salida la raíz de las palabras (lema) y la información gramatical que aportan los diferentes morfemas, a lo que se llama características morfológicas.
  + **Ejemplo:** 'Cantábamos' tiene 3 morfemas: ‘cant’ (cantar), ‘-aba’ (pasado) y ‘-mos’ (plural).
+ La dificultad del análisis morfológico varía según el idioma. En inglés por ejemplo este es más sencillo que en español, pero en chino es más complicado que en los otros dos idiomas.
+ Para construir un sistema capaz de realizar análisis morfológico se necesita:
  + Un **lexicón**, el cual es un catálogo de las palabras de una lengua. Esto es inviable y lo que se suele hacer es crear una base de datos con información básica de los morfemas; es decir, una lista de morfemas y la información básica sobre ellos, con un conjunto de hechos morfosintácticos que expliquen cómo se pueden concatenar los morfemas para formar palabras.
  + Un conjunto de **hechos morfotácticos**, los cuales hacen referencia al modelo que describe el orden de los morfemas y del cual es posible generar todas las palabras de un léxico. Estos describen el orden de los morfemas, es decir, por qué unas clases de morfemas siguen a otras dentro de las palabras.
  + Un conjunto de **reglas ortográficas**, las cuales se usan para modelar los cambios de ortografía que ocurren en una palabra cuando se concatenan dos morfemas.
+ Los **trasductores de automátas finitos** suelen ser la forma más habitual de realizar el análisis morfológico. Un transductor de autómatas finitos es un modelo computacional que permite producir de forma automática una salida a partir de una entrada con base en una serie de transiciones entre estados. Por ejemplo, se traduce la entrada 'vino' como la salida 'vino + N + Masc + Pl'.

## **2.2. Morfosintaxis**

<br></br>
<center><a><img width="80%" src="figs/01_Morfosintaxis.png"></a></center>
<br></br>

***En la lingüística***

+ La **morfosintaxis** se define como la parte de la **gramática** que integra la **morfología** y la **sintaxis** para determinar las diferentes partes de la oración, llamadas **part-of-speech (POS)**.
+ Las **categorías morfosintácticas** del lenguaje, también llamadas en español como categorías gramaticales proporcionan clasificación de las diferentes partes de la oración según su tipo de palabra.
+ El conocer las distintas partes de la oración es útil debido a la gran cantidad de información que brindan sobre una palabra y sus vecinos, además de los detalles que presentan sobre la estructura sintáctica de la oración. 
  + **Ejemplo (vecinos):** Los sustantivos suelen ir precedidos de determinantes o seguidos de adjetivos.
  + **Ejemplo (estructura sintáctica):** Los sustantivos forman parte del sintagma nominal.
+ Las categorías morfosintácticas o gramaticales existentes son:
  + **Sustantivo / nombre:** son palabras cuyos elementos tienen género y número y forman sintagmas nominales, denominando entidades de distinta naturaleza.
  + **Determinante:** son palabras cuyos elementos determinan al sustantivo o al grupo nominal, ubicándose generalmente en posición prenominal.
  + **Adjetivo:** son palabras que modifican a un sustantivo y denotan cualidades, propiedades y relaciones de diversa naturaleza.
  + **Pronombre:** son palabras cuyos elementos hacen las veces del sustantivo o del sintagma nominal.
  + **Verbo:** son palabras que denotan una acción y tienen variación de persona, número, tiempo, modo y aspecto.
  + **Adverbio:** son palabras cuyos elementos son invariables y tónicos, y pueden modificar el significado de varias categorías.
  + **Preposición:** son palabras invariantes cuyos elementos se caracterizan por introducir un término.
  + **Conjunción:** son palabras invariables átonas cuyos elementos manifiestan relaciones de coordinación o subordinación entre palabras.
  + **Interjección:** son palabras invariables con cuyos elementos forman enunciados exclamativos, verbalizan sentimientos o realizan actos de habla apelativos.

***En el procesamiento del lenguaje natural***

+ El **etiquetado morfosintáctico** es el proceso de identificar las distintas partes de la oración y consiste en asignar una etiqueta (tag) sobre la categoría gramatical a cada una de las palabras de un texto de entrada.
+ La **entrada del algoritmo** es una secuencia de palabras y la salida es una secuencia de pares formados por la palabra y la correspondiente etiqueta indicando su categoría gramatical.
+ El etiquetado morfosintáctico realiza durante su funcionamiento un proceso de **desambiguación** donde reconoce correctamente la etiqueta de una palabra que puede pertenecer a más de una categoría gramatical.
+ Así también, una parte del algoritmo de etiquetado es el **preprocesamiento** de la oración. Esto se realiza una vez que que la oración haya sido **tokenizada**.
+ Una de las técnicas más usuales de etiquetado morfosintácticos son los **modelos ocultos de Markov (HMM)**. 
+ Un modelo oculto de Markov es un modelo estadístico que se puede representar como una máquina de estados finitos, pero donde las **transiciones** entre estados son **probabilísticas** y no determinísticas. El objetivo es determinar los parámetros desconocidos (ocultos) a partir de los parámetros observables.
  + **Ejemplo:** Si una palabra es etiquetada como determinante, la próxima será un nombre con 40% de probabilidad, un adjetivo con 40% y un número con 20%.
+ Para el etiquetado morfosintáctico los HMM son entrenados en un **conjunto de datos totalmente etiquetados**.
+ Veamos un recurso online para afianzar nuestras ideas: [Analizador morfosintáctico Linguakit](https://linguakit.com/es/etiquetador-morfosintactico).
  
## **2.3. Sintaxis**

<br></br>
<center><a><img width="80%" src="figs/01_Sintaxis.jpg"></a></center>
<br></br>

***En la lingüística***

+ La **sintaxis** es la parte de la gramática que estudia el modo en que se combinan las palabras y los grupos que estas forman para expresar significados, así como las relaciones que se establecen entre todas esas unidades.
+ El **análisis sintáctico** determina las relaciones estructurales entre palabras.
+ Este es un **paso esencial** para la posterior identificación de las **relaciones semánticas** de las oraciones.
+ Su resultado es un **árbol sintáctico** donde los **nodos** son los **constituyentes sintácticos** y las **hojas** son las **palabras** que componen la oración.
+ Un **constituyente sintáctico** es una palabra, o una secuencia de palabras que realizan una función conjunta dentro de la **estructura jerárquica** de la oración. Al constituyente compuesto de dos o más elementos se lo llama sintagma o grupo sintáctico.
+ Los principales tipos de sintagma del español son:
  + Sintagma **nominal** (SN), cuyo núcleo es un sustantivo o pronombre.
  + Sintagma **verbal** (SV), cuyo núcleo es un verbo.
  + Sintagma **preposicional** (SP o SPrep), cuyo núcleo es una preposición.
  + Sintagma **adjetival** (SAdj), cuyo núcleo es un adjetivo.
  + Sintagma **adverbial** (SAdv), cuyo núcleo es un adverbio.

***En el procesamiento del lenguaje natural***

+ Los **analizadores sintácticos** suelen basarse en **programación dinámica** y **métodos probabilistas**. Uno de los algoritmos más comunes es el **algoritmo CKY probabilístico**.
+ Estos suelen enfrentar el problema de la **ambigüedad estructural**. Esta se debe a las múltiples reglas representadas en una gramática que provienen del uso común de una lengua y que permiten que se pueda encontrar **varios resultados del análisis sintáctico** que se ajuste correctamente a una frase analizada. 
+ Al final la **selección del resultado final** se realiza normalmente a través de procesos de **desambiguación sintáctica** que requieren fuentes de conocimiento **estadístico**, **semántico** y **contextual**. 
+ Afiancemos nuestras ideas con un recurso online: [Analizador sintáctico Linguakit](https://linguakit.com/es/analizador-sintactico).

## **2.4. Semántica**

<br></br>
<center><a><img width="80%" src="figs/01_SemanticAnalisis.gif"></a></center>
<br></br>

***En la lingüística***

+ La **semántica** se define como la disciplina que estudia el significado de las unidades lingüísticas y de sus combinaciones.
+ Esto es necesario en algunas tareas del procesamiento del lenguaje natural. Es decir, necesitamos no solo el **conocimiento lingüístico** (morfología y sintaxis) sino también **información no lingüística** (semántica).
+ La **semántica léxica** estudia el significado de las palabras, así como las diversas relaciones de sentido que se establecen entre ellas.
+ Conocer además el significado de una **oración**, y **no solo de una palabra** es también imprescindible para realizar eficientemente diversas tareas de procesamiento del lenguaje natural.
+ La **semántica composicional** estudia el significado de los sintagmas y las oraciones. 
+ El **análisis semántico** tiene como objetivo producir una representación del significado en una oración.

***En el procesamiento del lenguaje natural***

+ La **creación automática** de una representación rigurosa del significado de la oración requiere de **múltiples fuentes de conocimiento y técnicas de inferencia**. Algunos de los conocimientos necesarios son:
  + Los significados de las palabras
  + Los significados asociados a las construcciones gramaticales
  + La estructura del discurso
  + El tema en cuestión
  + El estado de las cosas en el momento en el que tiene lugar el discurso
+ La **representación formal** del significado debe ser verificable, inequívoca, expresiva y permitir la inferencia de nuevo conocimiento.
+ La mayoría de los modelos que se utilizan para representar el significado tienen en común la capacidad para representar objetos, sus propiedades y las relaciones entre estos.
+ Entre las **estrategias** que sirven para representar el lenguaje tenemos:
  + Lógica de primer orden
  + Redes semánticas
  + Diagramas de dependencias conceptuales
  + Sistemas basados en plantillas
+ En la realidad no es muy común usar el análisis sintáctico como input en el análisis semántico (debido a que se necesita conocimiento específico sobre el ejemplo) y por ello lo que se hace es integrar el conocimiento en el análisis sintáctico.+
+ Al añadir el conocimiento semántico a las reglas gramaticales y a las entradas léxicas que conforman la gramática se lo conoce como **rule-to-rule hypothesis**.

<!-- # **2. Ejercicio práctico**  -->

<!-- ## **Árboles sintácticos** -->

<!-- Elabora una oración en idioma español, realiza el análisis de su árbol sintáctico con cualquiera de las herramientas disponibilizadas y envía una captura de pantalla de tu ejercicio al correo de tu instructor (hugo-sXe@hotmail.com). -->

# **3. Ejercicio práctico**

Como un primer acercamiento utilizaremos una de las librerías más completas de PLN: [UDPipe, creada por la Facultad de Matemáticas y Física de la Universidad de República Checa](http://ufal.mff.cuni.cz/udpipe) y descargaremos un modelo pre-entrenado guardado como un objeto en R:

```{r message=FALSE, warning=F}
# Descarga de modelo preentrenado udpipe
library(udpipe)
#udpipe::udpipe_download_model('spanish') # Descomentar al ejecutar por primera vez
```

Ahora cargaremos el modelo en español descargado y lo utilizaremos para **anotar** una frase (ayudándonos de la librería *stringr* para evitar problemas con la codificación, y de la librería *dplyr* para manipular los resultados):

```{r message=FALSE, warning=F}
library(stringi)
library(dplyr)

# Carga de modelo pre-entrenado
model = udpipe_load_model(file = "spanish-gsd-ud-2.4-190531.udpipe")

# Anotación
text = "Estamos muy interesados en saber cuál será el proyecto de fin de curso."
text_annotated = udpipe_annotate(model, x = stri_enc_toutf8(text))
text_annotated = text_annotated %>% as_tibble(encoding="latin-1")
```

Finalmente presentaremos el resultado tabular (con la librería *kableExtra* para que la tabla se vea bien):

```{r message=FALSE, warning=F}
library(kableExtra)
text_annotated %>% select(token, lemma, upos, feats, head_token_id) %>% kable() %>% kable_styling(font_size = 14)
```

Y con un gráfico (basado en las librerías *ggplot2*, *igraph* y *ggraph*, adaptado de la entrada ['dependency parsing with udpipe', r-bloggers.com](https://www.r-bloggers.com/2019/07/dependency-parsing-with-udpipe/)):

```{r message=FALSE, warning=F}
library(igraph)
library(ggraph)
library(ggplot2)

# Función para graficar dependencias
plot_annotation = function(x, size = 3){
  stopifnot(is.data.frame(x) & all(c("sentence_id", "token_id", "head_token_id", "dep_rel",
                                     "token_id", "token", "lemma", "upos", "xpos", "feats") %in% colnames(x)))
  x = x[!is.na(x$head_token_id), ]
  x = x[x$sentence_id %in% min(x$sentence_id), ]
  edges = x[x$head_token_id != 0, c("token_id", "head_token_id", "dep_rel")]
  edges$label = edges$dep_rel
  g = graph_from_data_frame(edges,
                             vertices = x[, c("token_id", "token", "lemma", "upos", "xpos", "feats")],
                             directed = TRUE)
  gf = ggraph(g, layout = "linear") +
    geom_edge_arc(aes(label = dep_rel, vjust = -0.20),
                  arrow = grid::arrow(length = unit(4, 'mm'), ends = "last", type = "closed"),
                  label_colour = "red", check_overlap = TRUE, label_size = size) +
    geom_node_label(aes(label = token), col = "darkgreen", size = size, fontface = "bold") +
    geom_node_text(aes(label = upos), nudge_y = -0.35, size = size) +
    labs(title = "Resultado UDpipe", 
         subtitle = "Tokenización, etiquetado POS y relaciones de dependencia")
  return(gf)
}

# Gráfico
plot_annotation(text_annotated)
```

Para interpretar los resultados de dependencias es necesario referirnos a [universaldependencies.org](https://universaldependencies.org/u/dep/), la cual está construida sobre la investigación de @DeMarneffe2014.

# **4. Tarea: Análisis morfológico y morfosintáctico**

El siguiente deber se entregará como un script en R de tal manera que el instructor lo pueda replicar en su máquina sin la necesidad de cargar un archivo. A continuación las instrucciones:

+ Elabora una oración en idioma español.
+ Realiza su análisis sintáctico y morfosintáctico a través de la librería UDpipe (no es necesario que realices el gráfico).
+ Comenta los resultados.

Al final, envía el ejercicio al correo de tu instructor (hugo-sXe@hotmail.com). Aquellos trabajos sin comentarios sobre los resultados serán calificados con una nota de cero puntos sobre diez.

# **5. Bibliografía**