Registered S3 methods overwritten by 'htmltools':
  method               from         
  print.html           tools:rstudio
  print.shiny.tag      tools:rstudio
  print.shiny.tag.list tools:rstudio

1. Introducción al Aprendizaje Profundo

Según Norvig y Russell (2019), el aprendizaje profundo, como un subcampo del aprendizaje automático y de la inteligencia artificial toma un nuevo enfoque sobre la tarea de aprender los patrones de distintas representaciones de datos. Dentro del procesamiento del lenguaje natural, el aprendizaje profundo también ha logrado generar nuevas oportunidades para resolver distintos tipos de problemas, y entre ellos se encuentran los modelos secuencia a secuencia, de los cuales haremos una brevísima introducción a continuación.

2. Introducción a los modelos secuencia a secuencia

El aprendizaje secuencia a secuencia, acorde a la página de Keras se trata de entrenar modelos que conviertan secuencias de un dominio en secuencias de otro dominio. Esto se aplica por ejemplo en la traducción automática, la respuesta rápida a preguntas y la predicción de texto.

Para llevar a cabo tal tarea, existen muchas maneras de manejarlas, sea a través del uso de redes neuronales recurrentes o convolucionales de una sola dimensión. En el caso de estudio que tenemos utilizaremos redes neuronales recurrentes.

3. Caso de estudio

Y para la predicción de texto, usaremos los relatos de Howard Phillips Lovecraft, ya visitados en capítulos anteriores.

En primer lugar, cargaremos los datos y tokenizaremos las oraciones, para identificar cada una de ellas como un documento. Si quisieramos podríamos tokenizar por cualquier tipo de n-grama y ver cómo los resultados varían (así como su tiempo de computación).

library(keras)
library(tm)
library(tidyverse)
library(tidytext)

# Carga de datos
necronomicon_df = readRDS("Caso2_Literatura/NecronomiconDF.RDS") %>% 
  mutate(Historia=removeNumbers(Historia)) %>% 
  mutate(Historia=str_squish(Historia)) %>% 
  filter(!is.na(Historia), Historia!="") %>% 
  filter(Titulo %in% c("La Sombra Sobre Insmouth", "La Ciudad Sin Nombre","La Llamada De Cthulhu")) %>% 
  unnest_tokens(token, Historia, token = "sentences")
necronomicon_df %>% head()

Una vez separados los datos en la unidad de análisis necesaria, crearemos secuencias numéricas con estos textos a través de la creación de un diccionario de palabras.

# Función de tokenizado y creación de secuencias
get_sequence_tokens = function(corpus){
  # Inicialización de tokenizador
  tokenizer = text_tokenizer()
  # Tokenizado
  fit_text_tokenizer(tokenizer, corpus)
  # Total de palabras
  total_words = length(tokenizer$word_index)+1 
  # Parámetros de iteración para cada línea del corpus
  input_sequences = list()
  total = corpus %>% length()
  n = 0
  for (line in corpus){
    n = n+1
    if((round(n/total,4)*100)%%10==0){cat(round(n/total,4)*100,"% avanzado\n")}
    # Paso del texto a secuencia numérica
    token_list = texts_to_sequences(tokenizer, line)[[1]]
    # Poblado de la lista de secuencias
    input_sequences = c(input_sequences,map(1:(length(token_list)-1),function(x)tok_vec = token_list[1:(x+1)]))
  }
  result = list("input_sequences"=input_sequences, "total_words"=total_words, "tokenizer"=tokenizer)
  return(result)
}

# Ejecución de función
inp_seq_tot_words = get_sequence_tokens(necronomicon_df$token)
10 % avanzado
20 % avanzado
30 % avanzado
40 % avanzado
50 % avanzado
60 % avanzado
70 % avanzado
80 % avanzado
90 % avanzado
100 % avanzado
inp_seq_tot_words$input_sequences[1]
[[1]]
[1]   19 1546

Con las secuencias elaborados creamos un arreglo de dos dimensiones tanto para las variables explicativas (el inicio de la secuencia) como para la variable output (el último paso de la secuencia), rellenando con cero cada vector, a fin de que todas las secuencias tengan el mismo largo.

# Función para padding de secuencias y transformación en array
gen_padded_sequences = function(input_sequences, total_words){
  # Largo máximo de secuencia (palabras en un tweet)
  max_sequence_len = max(map_int(input_sequences, length))
  # Creación de array con padding (llenado de ceros para crear secuencias del mismo largo)
  padded_input_sequences = array(pad_sequences(input_sequences, maxlen = max_sequence_len, padding = "pre"), 
                                 dim = c(length(input_sequences),max_sequence_len))
  # Creación de variables predictoras (hasta la penúltima columna de la secuencia)
  predictors = padded_input_sequences[,1:(ncol(padded_input_sequences)-1)]
  # Creación de variable a predecir (última columna de la secuencia)
  label = padded_input_sequences[,(ncol(padded_input_sequences)-1),drop=F]
  label = to_categorical(label, num_classes = total_words)
  result = list("predictors"=predictors, "label"=label, "max_sequence_len"=max_sequence_len)
  return(result)
}

# Ejecución de función
pad_seq = gen_padded_sequences(inp_seq_tot_words$input_sequences, inp_seq_tot_words$total_words)
pad_seq$predictors[1:6,1:6]
     [,1] [,2] [,3] [,4] [,5] [,6]
[1,]    0    0    0    0    0    0
[2,]    0    0    0    0    0    0
[3,]    0    0    0    0    0    0
[4,]    0    0    0    0    0    0
[5,]    0    0    0    0    0    0
[6,]    0    0    0    0    0    0

Una vez creados los arreglos creamos un modelo con una capa de embedding, una capa recurrente del tipo LSTM y algunas capas densas que afinen la predicción.

# Función para creación de modelo
create_model = function(max_sequence_len, total_words){
  input_len = max_sequence_len - 1
  # Inicialización del modelo
  model = keras_model_sequential() %>% 
    # Capa de embedding (vectores densos)
    layer_embedding(input_dim = total_words, output_dim = 10, input_length = input_len) %>% 
    # Capa recurrente LSTM
    layer_lstm(units = 100) %>% 
    # Capa densa
    layer_dense(units = 100, activation = "relu") %>% 
    # Capa de salida
    layer_dense(units = total_words, activation = "softmax") %>% 
    # Compilación
    compile(loss="categorical_crossentropy", optimizer = "adam")
  return(model)
}

# Ejecución de función
model = create_model(pad_seq$max_sequence_len, inp_seq_tot_words$total_words)
model
Model
Model: "sequential_1"
_____________________________________________________________________________________________________________________________________
Layer (type)                                               Output Shape                                          Param #             
=====================================================================================================================================
embedding_1 (Embedding)                                    (None, 98, 10)                                        84060               
_____________________________________________________________________________________________________________________________________
lstm_1 (LSTM)                                              (None, 100)                                           44400               
_____________________________________________________________________________________________________________________________________
dense_3 (Dense)                                            (None, 100)                                           10100               
_____________________________________________________________________________________________________________________________________
dense_2 (Dense)                                            (None, 8406)                                          849006              
=====================================================================================================================================
Total params: 987,566
Trainable params: 987,566
Non-trainable params: 0
_____________________________________________________________________________________________________________________________________

Luego entrenamos el modelo hasta que este converja.

# Entrenamiento del modelo
fit(model, x = pad_seq$predictors, y = pad_seq$label, epochs=130, batch_size=1024, verbose = 2)
Epoch 1/130
44/44 - 50s - loss: 7.9144
44/44 - 51s - loss: 7.9144
Epoch 2/130
44/44 - 53s - loss: 6.7565
44/44 - 54s - loss: 6.7565
Epoch 3/130
44/44 - 55s - loss: 6.6429
44/44 - 55s - loss: 6.6429
Epoch 4/130
44/44 - 62s - loss: 6.5144
44/44 - 63s - loss: 6.5144
Epoch 5/130
44/44 - 56s - loss: 6.3300
44/44 - 57s - loss: 6.3300
Epoch 6/130
44/44 - 55s - loss: 6.1860
44/44 - 56s - loss: 6.1860
Epoch 7/130
44/44 - 55s - loss: 6.0721
44/44 - 56s - loss: 6.0721
Epoch 8/130
44/44 - 54s - loss: 5.9488
44/44 - 55s - loss: 5.9488
Epoch 9/130
44/44 - 55s - loss: 5.8163
44/44 - 55s - loss: 5.8163
Epoch 10/130
44/44 - 55s - loss: 5.6814
44/44 - 55s - loss: 5.6814
Epoch 11/130
44/44 - 55s - loss: 5.5556
44/44 - 56s - loss: 5.5556
Epoch 12/130
44/44 - 57s - loss: 5.4385
44/44 - 58s - loss: 5.4385
Epoch 13/130
44/44 - 55s - loss: 5.3292
44/44 - 56s - loss: 5.3292
Epoch 14/130
44/44 - 55s - loss: 5.2289
44/44 - 55s - loss: 5.2289
Epoch 15/130
44/44 - 55s - loss: 5.1253
44/44 - 56s - loss: 5.1253
Epoch 16/130
44/44 - 57s - loss: 4.9936
44/44 - 58s - loss: 4.9936
Epoch 17/130
44/44 - 57s - loss: 4.7963
44/44 - 57s - loss: 4.7963
Epoch 18/130
44/44 - 57s - loss: 4.5773
44/44 - 57s - loss: 4.5773
Epoch 19/130
44/44 - 56s - loss: 4.3704
44/44 - 57s - loss: 4.3704
Epoch 20/130
44/44 - 53s - loss: 4.1887
44/44 - 53s - loss: 4.1887
Epoch 21/130
44/44 - 54s - loss: 4.0299
44/44 - 54s - loss: 4.0299
Epoch 22/130
44/44 - 53s - loss: 3.8860
44/44 - 53s - loss: 3.8860
Epoch 23/130
44/44 - 52s - loss: 3.7602
44/44 - 52s - loss: 3.7602
Epoch 24/130
44/44 - 52s - loss: 3.6459
44/44 - 53s - loss: 3.6459
Epoch 25/130
44/44 - 52s - loss: 3.5480
44/44 - 52s - loss: 3.5480
Epoch 26/130
44/44 - 52s - loss: 3.4518
44/44 - 52s - loss: 3.4518
Epoch 27/130
44/44 - 55s - loss: 3.3678
44/44 - 55s - loss: 3.3678
Epoch 28/130
44/44 - 52s - loss: 3.2865
44/44 - 53s - loss: 3.2865
Epoch 29/130
44/44 - 52s - loss: 3.2115
44/44 - 52s - loss: 3.2115
Epoch 30/130
44/44 - 52s - loss: 3.1455
44/44 - 53s - loss: 3.1455
Epoch 31/130
44/44 - 53s - loss: 3.0741
44/44 - 53s - loss: 3.0741
Epoch 32/130
44/44 - 52s - loss: 3.0034
44/44 - 53s - loss: 3.0034
Epoch 33/130
44/44 - 53s - loss: 2.9222
44/44 - 53s - loss: 2.9222
Epoch 34/130
44/44 - 53s - loss: 2.8389
44/44 - 53s - loss: 2.8389
Epoch 35/130
44/44 - 53s - loss: 2.7516
44/44 - 53s - loss: 2.7516
Epoch 36/130
44/44 - 53s - loss: 2.6695
44/44 - 54s - loss: 2.6695
Epoch 37/130
44/44 - 53s - loss: 2.5956
44/44 - 53s - loss: 2.5956
Epoch 38/130
44/44 - 53s - loss: 2.5280
44/44 - 53s - loss: 2.5280
Epoch 39/130
44/44 - 59s - loss: 2.4695
44/44 - 60s - loss: 2.4695
Epoch 40/130
44/44 - 62s - loss: 2.4154
44/44 - 62s - loss: 2.4154
Epoch 41/130
44/44 - 54s - loss: 2.3586
44/44 - 54s - loss: 2.3586
Epoch 42/130
44/44 - 52s - loss: 2.3077
44/44 - 52s - loss: 2.3077
Epoch 43/130
44/44 - 71s - loss: 2.2556
44/44 - 72s - loss: 2.2556
Epoch 44/130
44/44 - 64s - loss: 2.2026
44/44 - 65s - loss: 2.2026
Epoch 45/130
44/44 - 59s - loss: 2.1489
44/44 - 60s - loss: 2.1489
Epoch 46/130
44/44 - 60s - loss: 2.0947
44/44 - 61s - loss: 2.0947
Epoch 47/130
44/44 - 60s - loss: 2.0423
44/44 - 60s - loss: 2.0423
Epoch 48/130
44/44 - 62s - loss: 1.9822
44/44 - 62s - loss: 1.9822
Epoch 49/130
44/44 - 67s - loss: 1.9299
44/44 - 68s - loss: 1.9299
Epoch 50/130
44/44 - 65s - loss: 1.8750
44/44 - 66s - loss: 1.8750
Epoch 51/130
44/44 - 61s - loss: 1.8223
44/44 - 61s - loss: 1.8223
Epoch 52/130
44/44 - 62s - loss: 1.7732
44/44 - 62s - loss: 1.7732
Epoch 53/130
44/44 - 63s - loss: 1.7231
44/44 - 63s - loss: 1.7231
Epoch 54/130
44/44 - 62s - loss: 1.6800
44/44 - 63s - loss: 1.6800
Epoch 55/130
44/44 - 61s - loss: 1.6341
44/44 - 61s - loss: 1.6341
Epoch 56/130
44/44 - 62s - loss: 1.5937
44/44 - 63s - loss: 1.5937
Epoch 57/130
44/44 - 61s - loss: 1.5530
44/44 - 61s - loss: 1.5530
Epoch 58/130
44/44 - 61s - loss: 1.5125
44/44 - 61s - loss: 1.5125
Epoch 59/130
44/44 - 61s - loss: 1.4746
44/44 - 62s - loss: 1.4746
Epoch 60/130
44/44 - 62s - loss: 1.4426
44/44 - 63s - loss: 1.4426
Epoch 61/130
44/44 - 75s - loss: 1.4051
44/44 - 76s - loss: 1.4051
Epoch 62/130
44/44 - 79s - loss: 1.3744
44/44 - 80s - loss: 1.3744
Epoch 63/130
44/44 - 80s - loss: 1.3411
44/44 - 80s - loss: 1.3411
Epoch 64/130
44/44 - 80s - loss: 1.3113
44/44 - 81s - loss: 1.3113
Epoch 65/130
44/44 - 81s - loss: 1.2823
44/44 - 81s - loss: 1.2823
Epoch 66/130
44/44 - 80s - loss: 1.2516
44/44 - 80s - loss: 1.2516
Epoch 67/130
44/44 - 80s - loss: 1.2246
44/44 - 81s - loss: 1.2246
Epoch 68/130
44/44 - 81s - loss: 1.1986
44/44 - 82s - loss: 1.1986
Epoch 69/130
44/44 - 81s - loss: 1.1734
44/44 - 81s - loss: 1.1734
Epoch 70/130
44/44 - 82s - loss: 1.1486
44/44 - 82s - loss: 1.1486
Epoch 71/130
44/44 - 81s - loss: 1.1240
44/44 - 81s - loss: 1.1240
Epoch 72/130
44/44 - 80s - loss: 1.1007
44/44 - 80s - loss: 1.1007
Epoch 73/130
44/44 - 80s - loss: 1.0793
44/44 - 80s - loss: 1.0793
Epoch 74/130
44/44 - 80s - loss: 1.0536
44/44 - 81s - loss: 1.0536
Epoch 75/130
44/44 - 80s - loss: 1.0334
44/44 - 80s - loss: 1.0334
Epoch 76/130
44/44 - 80s - loss: 1.0124
44/44 - 81s - loss: 1.0124
Epoch 77/130
44/44 - 81s - loss: 0.9920
44/44 - 81s - loss: 0.9920
Epoch 78/130
44/44 - 79s - loss: 0.9705
44/44 - 80s - loss: 0.9705
Epoch 79/130
44/44 - 83s - loss: 0.9507
44/44 - 83s - loss: 0.9507
Epoch 80/130
44/44 - 81s - loss: 0.9302
44/44 - 81s - loss: 0.9302
Epoch 81/130
44/44 - 80s - loss: 0.9104
44/44 - 81s - loss: 0.9104
Epoch 82/130
44/44 - 82s - loss: 0.8923
44/44 - 82s - loss: 0.8923
Epoch 83/130
44/44 - 82s - loss: 0.8721
44/44 - 82s - loss: 0.8721
Epoch 84/130
44/44 - 82s - loss: 0.8521
44/44 - 82s - loss: 0.8521
Epoch 85/130
44/44 - 82s - loss: 0.8342
44/44 - 82s - loss: 0.8342
Epoch 86/130
44/44 - 69s - loss: 0.8141
44/44 - 69s - loss: 0.8141
Epoch 87/130
44/44 - 69s - loss: 0.7965
44/44 - 69s - loss: 0.7965
Epoch 88/130
44/44 - 66s - loss: 0.7751
44/44 - 66s - loss: 0.7751
Epoch 89/130
44/44 - 67s - loss: 0.7577
44/44 - 68s - loss: 0.7577
Epoch 90/130
44/44 - 64s - loss: 0.7357
44/44 - 64s - loss: 0.7357
Epoch 91/130
44/44 - 63s - loss: 0.7200
44/44 - 63s - loss: 0.7200
Epoch 92/130
44/44 - 66s - loss: 0.6992
44/44 - 67s - loss: 0.6992
Epoch 93/130
44/44 - 65s - loss: 0.6848
44/44 - 65s - loss: 0.6848
Epoch 94/130
44/44 - 66s - loss: 0.6673
44/44 - 66s - loss: 0.6673
Epoch 95/130
44/44 - 75s - loss: 0.6509
44/44 - 75s - loss: 0.6509
Epoch 96/130
44/44 - 72s - loss: 0.6343
44/44 - 73s - loss: 0.6343
Epoch 97/130
44/44 - 54s - loss: 0.6200
44/44 - 55s - loss: 0.6200
Epoch 98/130
44/44 - 55s - loss: 0.6028
44/44 - 55s - loss: 0.6028
Epoch 99/130
44/44 - 55s - loss: 0.5866
44/44 - 55s - loss: 0.5866
Epoch 100/130
44/44 - 55s - loss: 0.5735
44/44 - 55s - loss: 0.5735
Epoch 101/130
44/44 - 58s - loss: 0.5600
44/44 - 58s - loss: 0.5600
Epoch 102/130
44/44 - 55s - loss: 0.5442
44/44 - 55s - loss: 0.5442
Epoch 103/130
44/44 - 54s - loss: 0.5291
44/44 - 54s - loss: 0.5291
Epoch 104/130
44/44 - 58s - loss: 0.5155
44/44 - 58s - loss: 0.5155
Epoch 105/130
44/44 - 57s - loss: 0.5017
44/44 - 57s - loss: 0.5017
Epoch 106/130
44/44 - 56s - loss: 0.4890
44/44 - 57s - loss: 0.4890
Epoch 107/130
44/44 - 56s - loss: 0.4772
44/44 - 56s - loss: 0.4772
Epoch 108/130
44/44 - 70s - loss: 0.4621
44/44 - 71s - loss: 0.4621
Epoch 109/130
44/44 - 63s - loss: 0.4530
44/44 - 63s - loss: 0.4530
Epoch 110/130
44/44 - 71s - loss: 0.4414
44/44 - 71s - loss: 0.4414
Epoch 111/130
44/44 - 65s - loss: 0.4295
44/44 - 65s - loss: 0.4295
Epoch 112/130
44/44 - 65s - loss: 0.4180
44/44 - 66s - loss: 0.4180
Epoch 113/130
44/44 - 67s - loss: 0.4059
44/44 - 68s - loss: 0.4059
Epoch 114/130
44/44 - 71s - loss: 0.3955
44/44 - 71s - loss: 0.3955
Epoch 115/130
44/44 - 72s - loss: 0.3837
44/44 - 72s - loss: 0.3837
Epoch 116/130
44/44 - 88s - loss: 0.3757
44/44 - 89s - loss: 0.3757
Epoch 117/130
44/44 - 92s - loss: 0.3650
44/44 - 93s - loss: 0.3650
Epoch 118/130
44/44 - 91s - loss: 0.3540
44/44 - 92s - loss: 0.3540
Epoch 119/130
44/44 - 90s - loss: 0.3459
44/44 - 91s - loss: 0.3459
Epoch 120/130
44/44 - 86s - loss: 0.3370
44/44 - 86s - loss: 0.3370
Epoch 121/130
44/44 - 87s - loss: 0.3275
44/44 - 88s - loss: 0.3275
Epoch 122/130
44/44 - 86s - loss: 0.3191
44/44 - 87s - loss: 0.3191
Epoch 123/130
44/44 - 85s - loss: 0.3093
44/44 - 86s - loss: 0.3093
Epoch 124/130
44/44 - 86s - loss: 0.3015
44/44 - 86s - loss: 0.3015
Epoch 125/130
44/44 - 88s - loss: 0.2923
44/44 - 88s - loss: 0.2923
Epoch 126/130
44/44 - 86s - loss: 0.2833
44/44 - 87s - loss: 0.2833
Epoch 127/130
44/44 - 88s - loss: 0.2756
44/44 - 89s - loss: 0.2756
Epoch 128/130
44/44 - 85s - loss: 0.2678
44/44 - 86s - loss: 0.2678
Epoch 129/130
44/44 - 87s - loss: 0.2601
44/44 - 88s - loss: 0.2601
Epoch 130/130
44/44 - 83s - loss: 0.2538
44/44 - 83s - loss: 0.2538

Y observamos sus resultados.

# Ejecución
gen_text("Lejos de la superstición delirante", 5, model, pad_seq$max_sequence_len, inp_seq_tot_words$tokenizer)
[1] "Lejos de la superstición delirante árabe “culto hijas abandono observado"

3. Bibliografía

Norvig, S. & Russell, P. (2019), Artificial Intelligence A Modern Approach.
---
title: "Análisis de comportamiento en redes sociales usando Procesamiento del Lenguaje Natural"
subtitle: 'Capítulo 10: Introducción al aprendizaje profundo dentro del PLN'
author: Hugo Porras
output:
  html_notebook:
    css: Estilos.css
    toc: true
    toc_depth: 2
    toc_float:
      collapsed: true
      smooth_scroll: false
bibliography: Bibliografia.bib
csl: cepal.xml
---

```{r echo=F, message=F, warning=F, error=FALSE}
library(kableExtra)
```


# **1. Introducción al Aprendizaje Profundo**

Según @Norvig2019, el aprendizaje profundo, como un subcampo del aprendizaje automático y de la inteligencia artificial toma un nuevo enfoque sobre la tarea de aprender los patrones de distintas representaciones de datos. Dentro del procesamiento del lenguaje natural, el aprendizaje profundo también ha logrado generar nuevas oportunidades para resolver distintos tipos de problemas, y entre ellos se encuentran los modelos secuencia a secuencia, de los cuales haremos una brevísima introducción a continuación.

![](figs/10_dlnlp.png)

# **2. Introducción a los modelos secuencia a secuencia**

El aprendizaje secuencia a secuencia, acorde a la página de [Keras](https://blog.keras.io/a-ten-minute-introduction-to-sequence-to-sequence-learning-in-keras.html) se trata de entrenar modelos que conviertan secuencias de un dominio en secuencias de otro dominio. Esto se aplica por ejemplo en la traducción automática, la respuesta rápida a preguntas y la predicción de texto.

Para llevar a cabo tal tarea, existen muchas maneras de manejarlas, sea a través del uso de redes neuronales recurrentes o convolucionales de una sola dimensión. En el caso de estudio que tenemos utilizaremos redes neuronales recurrentes.

![](figs/10_textpredict.png)

# **3. Caso de estudio**

Y para la predicción de texto, usaremos los relatos de Howard Phillips Lovecraft, ya visitados en capítulos anteriores.

En primer lugar, cargaremos los datos y tokenizaremos las oraciones, para identificar cada una de ellas como un documento. Si quisieramos podríamos tokenizar por cualquier tipo de n-grama y ver cómo los resultados varían (así como su tiempo de computación).

```{r}
library(keras)
library(tm)
library(tidyverse)
library(tidytext)

# Carga de datos
necronomicon_df = readRDS("Caso2_Literatura/NecronomiconDF.RDS") %>% 
  mutate(Historia=removeNumbers(Historia)) %>% 
  mutate(Historia=str_squish(Historia)) %>% 
  filter(!is.na(Historia), Historia!="") %>% 
  filter(Titulo %in% c("La Sombra Sobre Insmouth", "La Ciudad Sin Nombre","La Llamada De Cthulhu")) %>% 
  unnest_tokens(token, Historia, token = "sentences")
necronomicon_df %>% head()
```

Una vez separados los datos en la unidad de análisis necesaria, crearemos secuencias numéricas con estos textos a través de la creación de un diccionario de palabras.

```{r}
# Función de tokenizado y creación de secuencias
get_sequence_tokens = function(corpus){
  # Inicialización de tokenizador
  tokenizer = text_tokenizer()
  # Tokenizado
  fit_text_tokenizer(tokenizer, corpus)
  # Total de palabras
  total_words = length(tokenizer$word_index)+1 
  # Parámetros de iteración para cada línea del corpus
  input_sequences = list()
  total = corpus %>% length()
  n = 0
  for (line in corpus){
    n = n+1
    if((round(n/total,4)*100)%%10==0){cat(round(n/total,4)*100,"% avanzado\n")}
    # Paso del texto a secuencia numérica
    token_list = texts_to_sequences(tokenizer, line)[[1]]
    # Poblado de la lista de secuencias
    input_sequences = c(input_sequences,map(1:(length(token_list)-1),function(x)tok_vec = token_list[1:(x+1)]))
  }
  result = list("input_sequences"=input_sequences, "total_words"=total_words, "tokenizer"=tokenizer)
  return(result)
}

# Ejecución de función
inp_seq_tot_words = get_sequence_tokens(necronomicon_df$token)
inp_seq_tot_words$input_sequences[1]
```

Con las secuencias elaborados creamos un arreglo de dos dimensiones tanto para las variables explicativas (el inicio de la secuencia) como para la variable output (el último paso de la secuencia), rellenando con cero cada vector, a fin de que todas las secuencias tengan el mismo largo.

```{r}
# Función para padding de secuencias y transformación en array
gen_padded_sequences = function(input_sequences, total_words){
  # Largo máximo de secuencia (palabras en un tweet)
  max_sequence_len = max(map_int(input_sequences, length))
  # Creación de array con padding (llenado de ceros para crear secuencias del mismo largo)
  padded_input_sequences = array(pad_sequences(input_sequences, maxlen = max_sequence_len, padding = "pre"), 
                                 dim = c(length(input_sequences),max_sequence_len))
  # Creación de variables predictoras (hasta la penúltima columna de la secuencia)
  predictors = padded_input_sequences[,1:(ncol(padded_input_sequences)-1)]
  # Creación de variable a predecir (última columna de la secuencia)
  label = padded_input_sequences[,(ncol(padded_input_sequences)-1),drop=F]
  label = to_categorical(label, num_classes = total_words)
  result = list("predictors"=predictors, "label"=label, "max_sequence_len"=max_sequence_len)
  return(result)
}

# Ejecución de función
pad_seq = gen_padded_sequences(inp_seq_tot_words$input_sequences, inp_seq_tot_words$total_words)
pad_seq$predictors[1:6,1:6]
```

Una vez creados los arreglos creamos un modelo con una capa de embedding, una capa recurrente del tipo LSTM y algunas capas densas que afinen la predicción.

```{r}
# Función para creación de modelo
create_model = function(max_sequence_len, total_words){
  input_len = max_sequence_len - 1
  # Inicialización del modelo
  model = keras_model_sequential() %>% 
    # Capa de embedding (vectores densos)
    layer_embedding(input_dim = total_words, output_dim = 10, input_length = input_len) %>% 
    # Capa recurrente LSTM
    layer_lstm(units = 100) %>% 
    # Capa densa
    layer_dense(units = 100, activation = "relu") %>% 
    # Capa de salida
    layer_dense(units = total_words, activation = "softmax") %>% 
    # Compilación
    compile(loss="categorical_crossentropy", optimizer = "adam")
  return(model)
}

# Ejecución de función
model = create_model(pad_seq$max_sequence_len, inp_seq_tot_words$total_words)
model
```

Luego entrenamos el modelo hasta que este converja.

```{r}
# Entrenamiento del modelo
fit(model, x = pad_seq$predictors, y = pad_seq$label, epochs=130, batch_size=1024, verbose = 2)
```

Y observamos sus resultados.

```{r}
# Función de predicción de texto a partir de una secuencia
gen_text = function(texto_semilla, next_words, model, max_sequence_len, tokenizer){
  for (i in 1:next_words){
    token_list = texts_to_sequences(tokenizer, texto_semilla)
    token_list = pad_sequences(token_list, maxlen = max_sequence_len-1, padding = "pre")
    predicted = predict_classes(model, x = token_list, verbose = 0)-1
    words = tokenizer$word_index %>% names()
    indexes = map_int(tokenizer$word_index,function(x)x[1])
    output_word = words[indexes==as.vector(predicted)]
    Encoding(output_word) = "UTF-8"
    texto_semilla = paste0(texto_semilla," ",output_word)
  }
  return(texto_semilla)
}

# Ejecución
gen_text("Lejos de la superstición delirante", 5, model, pad_seq$max_sequence_len, inp_seq_tot_words$tokenizer)
```


# **3. Bibliografía**
