1. PLN y Lenguaje natural

1.1. ¿Qué es un lenguaje natural?



Para Sarkar (2019):

El lenguaje natural es un lenguaje desarrollado y evolucionado por los humanos a través del uso y comunicación “natural” (distinto a un lenguaje de programación). Tal lenguaje puede ser expresado de manera escrita, verbal o incluso mediante señas.


1.2. Conocimiento del lenguaje usado en PLN



Acorde a Villalonga (2019):

  • Para el procesamiento del lenguaje natural se requiere del conocimiento de áreas como la fonética, la fonología, la morfología, la sintaxis, la semántica, la pragmática y el discurso.
  • La fonética y la fonología se relacionan al conocimiento sobre los sonidos linguísticos.
  • La morfología es el conocimiento de los componentes significativos de las palabras. Esta nos sirve por ejemplo, para identificar que ‘’puertas’’ es el plural de ‘’puerta’’.
  • La sintaxis es el conocimiento de las relaciones estructurales entre palabras. Por ejemplo, nos sirve para saber cómo encadenar las palabras en una respuesta.
  • La semántica es el conocimiento del significado. Esta se aplica por ejemplo, para entender el significado de palabras aisladas o en conjunto, y de saber que dicho significado puede variar en distintos escenarios.
  • La pragmática es el conocimiento de la relación del significado con los objetivos y las intenciones. Es decir, nos sirve para saber el tipo de expresión que alguien ha utilizado.
  • El discurso es el conocimiento sobre unidades lingüísticas más grandes que un solo enunciado. Esto es útil para resolver referencias cruzadas por ejemplo.

2. Morfología, morfosintaxis, sintaxis y semántica

2.1. Morfología



En la lingüística

  • La morfología es la parte de la gramática que estudia la estructura de las palabras y sus elementos constitutivos.

En el procesamiento del lenguaje natural

  • La morfología computacional trata de reconocer de forma automática los morfemas que contiene una palabra. Esta es importante para reconocer palabras como ‘pensar’ y ‘piénsalo’ como una sola, además de reconocer el género y número de un nombre para encajarlo con un adjetivo por ejemplo.
  • En el análisis morfológico automático se obtiene como salida la raíz de las palabras (lema) y la información gramatical que aportan los diferentes morfemas, a lo que se llama características morfológicas.
    • Ejemplo: ‘Cantábamos’ tiene 3 morfemas: ‘cant’ (cantar), ‘-aba’ (pasado) y ‘-mos’ (plural).
  • La dificultad del análisis morfológico varía según el idioma. En inglés por ejemplo este es más sencillo que en español, pero en chino es más complicado que en los otros dos idiomas.
  • Para construir un sistema capaz de realizar análisis morfológico se necesita:
    • Un lexicón, el cual es un catálogo de las palabras de una lengua. Esto es inviable y lo que se suele hacer es crear una base de datos con información básica de los morfemas; es decir, una lista de morfemas y la información básica sobre ellos, con un conjunto de hechos morfosintácticos que expliquen cómo se pueden concatenar los morfemas para formar palabras.
    • Un conjunto de hechos morfotácticos, los cuales hacen referencia al modelo que describe el orden de los morfemas y del cual es posible generar todas las palabras de un léxico. Estos describen el orden de los morfemas, es decir, por qué unas clases de morfemas siguen a otras dentro de las palabras.
    • Un conjunto de reglas ortográficas, las cuales se usan para modelar los cambios de ortografía que ocurren en una palabra cuando se concatenan dos morfemas.
  • Los trasductores de automátas finitos suelen ser la forma más habitual de realizar el análisis morfológico. Un transductor de autómatas finitos es un modelo computacional que permite producir de forma automática una salida a partir de una entrada con base en una serie de transiciones entre estados. Por ejemplo, se traduce la entrada ‘vino’ como la salida ‘vino + N + Masc + Pl’.

2.2. Morfosintaxis



En la lingüística

  • La morfosintaxis se define como la parte de la gramática que integra la morfología y la sintaxis para determinar las diferentes partes de la oración, llamadas part-of-speech (POS).
  • Las categorías morfosintácticas del lenguaje, también llamadas en español como categorías gramaticales proporcionan clasificación de las diferentes partes de la oración según su tipo de palabra.
  • El conocer las distintas partes de la oración es útil debido a la gran cantidad de información que brindan sobre una palabra y sus vecinos, además de los detalles que presentan sobre la estructura sintáctica de la oración.
    • Ejemplo (vecinos): Los sustantivos suelen ir precedidos de determinantes o seguidos de adjetivos.
    • Ejemplo (estructura sintáctica): Los sustantivos forman parte del sintagma nominal.
  • Las categorías morfosintácticas o gramaticales existentes son:
    • Sustantivo / nombre: son palabras cuyos elementos tienen género y número y forman sintagmas nominales, denominando entidades de distinta naturaleza.
    • Determinante: son palabras cuyos elementos determinan al sustantivo o al grupo nominal, ubicándose generalmente en posición prenominal.
    • Adjetivo: son palabras que modifican a un sustantivo y denotan cualidades, propiedades y relaciones de diversa naturaleza.
    • Pronombre: son palabras cuyos elementos hacen las veces del sustantivo o del sintagma nominal.
    • Verbo: son palabras que denotan una acción y tienen variación de persona, número, tiempo, modo y aspecto.
    • Adverbio: son palabras cuyos elementos son invariables y tónicos, y pueden modificar el significado de varias categorías.
    • Preposición: son palabras invariantes cuyos elementos se caracterizan por introducir un término.
    • Conjunción: son palabras invariables átonas cuyos elementos manifiestan relaciones de coordinación o subordinación entre palabras.
    • Interjección: son palabras invariables con cuyos elementos forman enunciados exclamativos, verbalizan sentimientos o realizan actos de habla apelativos.

En el procesamiento del lenguaje natural

  • El etiquetado morfosintáctico es el proceso de identificar las distintas partes de la oración y consiste en asignar una etiqueta (tag) sobre la categoría gramatical a cada una de las palabras de un texto de entrada.
  • La entrada del algoritmo es una secuencia de palabras y la salida es una secuencia de pares formados por la palabra y la correspondiente etiqueta indicando su categoría gramatical.
  • El etiquetado morfosintáctico realiza durante su funcionamiento un proceso de desambiguación donde reconoce correctamente la etiqueta de una palabra que puede pertenecer a más de una categoría gramatical.
  • Así también, una parte del algoritmo de etiquetado es el preprocesamiento de la oración. Esto se realiza una vez que que la oración haya sido tokenizada.
  • Una de las técnicas más usuales de etiquetado morfosintácticos son los modelos ocultos de Markov (HMM).
  • Un modelo oculto de Markov es un modelo estadístico que se puede representar como una máquina de estados finitos, pero donde las transiciones entre estados son probabilísticas y no determinísticas. El objetivo es determinar los parámetros desconocidos (ocultos) a partir de los parámetros observables.
    • Ejemplo: Si una palabra es etiquetada como determinante, la próxima será un nombre con 40% de probabilidad, un adjetivo con 40% y un número con 20%.
  • Para el etiquetado morfosintáctico los HMM son entrenados en un conjunto de datos totalmente etiquetados.
  • Veamos un recurso online para afianzar nuestras ideas: Analizador morfosintáctico Linguakit.

2.3. Sintaxis



En la lingüística

  • La sintaxis es la parte de la gramática que estudia el modo en que se combinan las palabras y los grupos que estas forman para expresar significados, así como las relaciones que se establecen entre todas esas unidades.
  • El análisis sintáctico determina las relaciones estructurales entre palabras.
  • Este es un paso esencial para la posterior identificación de las relaciones semánticas de las oraciones.
  • Su resultado es un árbol sintáctico donde los nodos son los constituyentes sintácticos y las hojas son las palabras que componen la oración.
  • Un constituyente sintáctico es una palabra, o una secuencia de palabras que realizan una función conjunta dentro de la estructura jerárquica de la oración. Al constituyente compuesto de dos o más elementos se lo llama sintagma o grupo sintáctico.
  • Los principales tipos de sintagma del español son:
    • Sintagma nominal (SN), cuyo núcleo es un sustantivo o pronombre.
    • Sintagma verbal (SV), cuyo núcleo es un verbo.
    • Sintagma preposicional (SP o SPrep), cuyo núcleo es una preposición.
    • Sintagma adjetival (SAdj), cuyo núcleo es un adjetivo.
    • Sintagma adverbial (SAdv), cuyo núcleo es un adverbio.

En el procesamiento del lenguaje natural

  • Los analizadores sintácticos suelen basarse en programación dinámica y métodos probabilistas. Uno de los algoritmos más comunes es el algoritmo CKY probabilístico.
  • Estos suelen enfrentar el problema de la ambigüedad estructural. Esta se debe a las múltiples reglas representadas en una gramática que provienen del uso común de una lengua y que permiten que se pueda encontrar varios resultados del análisis sintáctico que se ajuste correctamente a una frase analizada.
  • Al final la selección del resultado final se realiza normalmente a través de procesos de desambiguación sintáctica que requieren fuentes de conocimiento estadístico, semántico y contextual.
  • Afiancemos nuestras ideas con un recurso online: Analizador sintáctico Linguakit.

2.4. Semántica



En la lingüística

  • La semántica se define como la disciplina que estudia el significado de las unidades lingüísticas y de sus combinaciones.
  • Esto es necesario en algunas tareas del procesamiento del lenguaje natural. Es decir, necesitamos no solo el conocimiento lingüístico (morfología y sintaxis) sino también información no lingüística (semántica).
  • La semántica léxica estudia el significado de las palabras, así como las diversas relaciones de sentido que se establecen entre ellas.
  • Conocer además el significado de una oración, y no solo de una palabra es también imprescindible para realizar eficientemente diversas tareas de procesamiento del lenguaje natural.
  • La semántica composicional estudia el significado de los sintagmas y las oraciones.
  • El análisis semántico tiene como objetivo producir una representación del significado en una oración.

En el procesamiento del lenguaje natural

  • La creación automática de una representación rigurosa del significado de la oración requiere de múltiples fuentes de conocimiento y técnicas de inferencia. Algunos de los conocimientos necesarios son:
    • Los significados de las palabras
    • Los significados asociados a las construcciones gramaticales
    • La estructura del discurso
    • El tema en cuestión
    • El estado de las cosas en el momento en el que tiene lugar el discurso
  • La representación formal del significado debe ser verificable, inequívoca, expresiva y permitir la inferencia de nuevo conocimiento.
  • La mayoría de los modelos que se utilizan para representar el significado tienen en común la capacidad para representar objetos, sus propiedades y las relaciones entre estos.
  • Entre las estrategias que sirven para representar el lenguaje tenemos:
    • Lógica de primer orden
    • Redes semánticas
    • Diagramas de dependencias conceptuales
    • Sistemas basados en plantillas
  • En la realidad no es muy común usar el análisis sintáctico como input en el análisis semántico (debido a que se necesita conocimiento específico sobre el ejemplo) y por ello lo que se hace es integrar el conocimiento en el análisis sintáctico.+
  • Al añadir el conocimiento semántico a las reglas gramaticales y a las entradas léxicas que conforman la gramática se lo conoce como rule-to-rule hypothesis.

3. Ejercicio práctico

Como un primer acercamiento utilizaremos una de las librerías más completas de PLN: UDPipe, creada por la Facultad de Matemáticas y Física de la Universidad de República Checa y descargaremos un modelo pre-entrenado guardado como un objeto en R:

# Descarga de modelo preentrenado udpipe
library(udpipe)
#udpipe::udpipe_download_model('spanish') # Descomentar al ejecutar por primera vez

Ahora cargaremos el modelo en español descargado y lo utilizaremos para anotar una frase (ayudándonos de la librería stringr para evitar problemas con la codificación, y de la librería dplyr para manipular los resultados):

library(stringi)
library(dplyr)

# Carga de modelo pre-entrenado
model = udpipe_load_model(file = "spanish-gsd-ud-2.4-190531.udpipe")

# Anotación
text = "Estamos muy interesados en saber cuál será el proyecto de fin de curso."
text_annotated = udpipe_annotate(model, x = stri_enc_toutf8(text))
text_annotated = text_annotated %>% as_tibble(encoding="latin-1")

Finalmente presentaremos el resultado tabular (con la librería kableExtra para que la tabla se vea bien):

library(kableExtra)
text_annotated %>% select(token, lemma, upos, feats, head_token_id) %>% kable() %>% kable_styling(font_size = 14)
token lemma upos feats head_token_id
Estamos estar AUX Mood=Ind|Number=Plur|Person=1|Tense=Pres|VerbForm=Fin 3
muy mucho ADV NA 3
interesados interesado ADJ Gender=Masc|Number=Plur|VerbForm=Part 0
en en ADP NA 5
saber saber VERB VerbForm=Inf 3
cuál cuál PRON Number=Sing|PronType=Int,Rel 9
será ser AUX Mood=Ind|Number=Sing|Person=3|Tense=Fut|VerbForm=Fin 9
el el DET Definite=Def|Gender=Masc|Number=Sing|PronType=Art 9
proyecto proyecto NOUN Gender=Masc|Number=Sing 5
de de ADP NA 11
fin fin NOUN Gender=Masc|Number=Sing 9
de de ADP NA 13
curso curso NOUN Gender=Masc|Number=Sing 11
. . PUNCT NA 3

Y con un gráfico (basado en las librerías ggplot2, igraph y ggraph, adaptado de la entrada ‘dependency parsing with udpipe’, r-bloggers.com):

library(igraph)
library(ggraph)
library(ggplot2)

# Función para graficar dependencias
plot_annotation = function(x, size = 3){
  stopifnot(is.data.frame(x) & all(c("sentence_id", "token_id", "head_token_id", "dep_rel",
                                     "token_id", "token", "lemma", "upos", "xpos", "feats") %in% colnames(x)))
  x = x[!is.na(x$head_token_id), ]
  x = x[x$sentence_id %in% min(x$sentence_id), ]
  edges = x[x$head_token_id != 0, c("token_id", "head_token_id", "dep_rel")]
  edges$label = edges$dep_rel
  g = graph_from_data_frame(edges,
                             vertices = x[, c("token_id", "token", "lemma", "upos", "xpos", "feats")],
                             directed = TRUE)
  gf = ggraph(g, layout = "linear") +
    geom_edge_arc(aes(label = dep_rel, vjust = -0.20),
                  arrow = grid::arrow(length = unit(4, 'mm'), ends = "last", type = "closed"),
                  label_colour = "red", check_overlap = TRUE, label_size = size) +
    geom_node_label(aes(label = token), col = "darkgreen", size = size, fontface = "bold") +
    geom_node_text(aes(label = upos), nudge_y = -0.35, size = size) +
    labs(title = "Resultado UDpipe", 
         subtitle = "Tokenización, etiquetado POS y relaciones de dependencia")
  return(gf)
}

# Gráfico
plot_annotation(text_annotated)

Para interpretar los resultados de dependencias es necesario referirnos a universaldependencies.org, la cual está construida sobre la investigación de De Marneffe y otros (2014).

4. Tarea: Análisis morfológico y morfosintáctico

El siguiente deber se entregará como un script en R de tal manera que el instructor lo pueda replicar en su máquina sin la necesidad de cargar un archivo. A continuación las instrucciones:

  • Elabora una oración en idioma español.
  • Realiza su análisis sintáctico y morfosintáctico a través de la librería UDpipe (no es necesario que realices el gráfico).
  • Comenta los resultados.

Al final, envía el ejercicio al correo de tu instructor (). Aquellos trabajos sin comentarios sobre los resultados serán calificados con una nota de cero puntos sobre diez.

5. Bibliografía

De Marneffe, M. C. y otros (2014), «Universal stanford dependencies: A cross-linguistic typology», Proceedings of the 9th International Conference on Language Resources and Evaluation, LREC 2014.

Sarkar, D. (2019), Text Analytics with Python.

Villalonga, C. (2019), Procesamiento del Lenguaje Natural, Universidad Internacional de la Rioja.

