Carga de datos

Los datos utilizados en este análisis se han obtenido mediante la realización de un simulacro en el año 2020, el número de preguntas realizadas por los estudiantes es de 136, desarrollando las áreas de matemáticas, lectura crítica, sociales, naturales e inglés. De entre toda la información disponible, en este análisis se emplea: el identificador de la pregunta, el área al que pertenece la pregunta, competencia, nivel y contenido de la pregunta.

Limpieza de texto y tokenización

El proceso de limpieza de texto, dentro del ámbito de nuestro contexto, consiste en eliminar del texto todo aquello que no aporte información relevante sobre los conceptos importantes que se describen en cada pregunta. En nuestro caso los textos y las preguntas contiene muchos artículos, números, Patrones no informativos (urls de páginas web), signos de puntuación que se procede a eliminar. Utilizamos el formato de texto ordenado como una tabla con un token por fila, aplicando un token al texto para convertirlo en palabras y poder realizar un análisis. A partir de nuestros datos ordenados, dividimos el texto en tokens individuales (un proceso llamado tokenización) y lo transformamos en una estructura de datos ordenada. Para hacer esto, aplicamos una función que contenga cada uno de los pasos de limpieza. Al realizar la tokenización, el elemento de estudio ha pasado a ser cada token(palabra), incumpliendo así la condición de tidy data. Para volver de nuevo a la estructura ideal se tiene que expandir cada lista de tokens, duplicando el valor de las otras columnas tantas veces como sea necesario. Ha este proceso se le conoce como expansión o unnest.

Frecuencia de palabras

Ahora que los datos están en formato de una palabra por fila, podemos manipularlos con herramientas ordenadas como dplyr, exploramos que caracteriza la escritura de los conceptos de cada área, también es interesante estudiar qué palabras emplea, con qué frecuencia, así como el significado de las mismas dentro de nuestro contexto.

Total de palabras utilizadas por cada Área

Area n
Lectura Crítica 10635
Ingles 5653
Naturales 4914
Sociales 4659
Matemáticas 2612

El area con mas palabras en lectura critica, que duplica ha ingles debido a que los textos en las pruebas son mas extesos

Palabras distintas utilizadas por cada Área

Area palabras_distintas
Ingles 510
Lectura Crítica 1072
Matemáticas 563
Naturales 1081
Sociales 1654

EL área con mayor palabras distintas es sociales

Palabras más utilizadas por area

En la tabla anterior puede observarse que los términos más frecuentes en todos las áreas corresponden con artículos, preposiciones, pronombres…, en general, palabras que no aportan información relevante sobre el texto.

En este análisis, vamos eliminar las palabras vacías

Aplicando Stopwords

Area token n
Ingles cars 82
Ingles electric 39
Ingles live 37
Ingles petrol 37
Ingles world 37
Ingles tv 35
Ingles age 33
Ingles time 33
Ingles life 30
Ingles na 25
Lectura Crítica corrupcion 76
Lectura Crítica sur 65
Lectura Crítica global 52
Lectura Crítica paises 52
Lectura Crítica visa 51
Lectura Crítica personas 44
Lectura Crítica social 44
Lectura Crítica politica 40
Lectura Crítica orden 35
Lectura Crítica felicidad 31
Matemáticas tabla 17
Matemáticas cero 16
Matemáticas grafica 16
Matemáticas numero 15
Matemáticas base 14
Matemáticas poligono 13
Matemáticas cincuenta 12
Matemáticas eje 12
Matemáticas muestra 12
Matemáticas precio 12
Matemáticas puntos 12
Matemáticas transformado 12
Naturales abejas 26
Naturales muestra 21
Naturales fuerza 20
Naturales agua 18
Naturales atomos 18
Naturales organismos 18
Naturales estudiante 16
Naturales grafica 16
Naturales imidacloprid 15
Naturales resultados 15
Sociales gobierno 17
Sociales personas 15
Sociales paises 14
Sociales ciudadanos 12
Sociales poblacion 12
Sociales politica 9
Sociales politico 9
Sociales propuesta 9
Sociales alemania 8
Sociales cambio 8
Sociales decisiones 8
Sociales nacional 8

Podemos observar una representación gráfica de las frecuencias por área

Los resultados obtenidos tienen sentido si ponemos en contexto las palabras utilizadas en cada área. Por ejemplo, matemáticas en la prueba saber utiliza muchos gráficos y tablas en sus preguntas por lo que estas palabras están bastante utilizadas en las diferentes preguntas.

Correlación entre Areas por palabras utilizadas

Cuantificamos la similitud entre las áreas utilizadas en el simulacro, calculando la correlación en el uso de palabras. La idea es que, si dos áreas aplican los mismos conceptos, tenderán a utilizar las mismas palabras y con frecuencias similares.

¿Cuán correlacionadas están las frecuencias de palabras entre áreas?

Lectura Critica

# L. Critica - Matemáticas

cor.test(data = frecuencia[frecuencia$Area == "Matemáticas",],
             ~ proportion + `Lectura Crítica`)
## 
##  Pearson's product-moment correlation
## 
## data:  proportion and Lectura Crítica
## t = 1.2024, df = 40, p-value = 0.2363
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.1242047  0.4643489
## sample estimates:
##       cor 
## 0.1867775
# L. Crítica - Sociales

cor.test(data = frecuencia[frecuencia$Area == "Sociales",],
             ~ proportion + `Lectura Crítica`)
## 
##  Pearson's product-moment correlation
## 
## data:  proportion and Lectura Crítica
## t = 5.7686, df = 195, p-value = 3.096e-08
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.2556544 0.4951708
## sample estimates:
##       cor 
## 0.3818046
# L. Crítica - Naturales

cor.test(data = frecuencia[frecuencia$Area == "Naturales",],
         ~ proportion + `Lectura Crítica`)
## 
##  Pearson's product-moment correlation
## 
## data:  proportion and Lectura Crítica
## t = 1.3678, df = 90, p-value = 0.1748
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.06398014  0.33765543
## sample estimates:
##       cor 
## 0.1427073

Con lectura crítica, el área que mayor se correlaciona es Sociales, con un valor de 0.3148787, también podemos observar que las palabras cercanas a la línea se usan con frecuencia en las preguntas de las diferentes áreas. Las palabras guerra, países, agua se utilizan con frecuencias aproximadamente iguales por lectura crítica y sociales, mientras que las palabras alejadas de la línea se usan mucho más en comparación con el uso de la otra área, se puede observar muchísimas palabras que no se usan en las mismas áreas.

Matemáticas

# Matemáticas - L. Critica 

cor.test(data = frecuencia[frecuencia$Area == "Lectura Crítica",],
             ~ proportion + `Matemáticas`)
## 
##  Pearson's product-moment correlation
## 
## data:  proportion and Matemáticas
## t = 1.2024, df = 40, p-value = 0.2363
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.1242047  0.4643489
## sample estimates:
##       cor 
## 0.1867775
# Matemáticas - Sociales

cor.test(data = frecuencia[frecuencia$Area == "Sociales",],
             ~ proportion + `Matemáticas`)
## 
##  Pearson's product-moment correlation
## 
## data:  proportion and Matemáticas
## t = 1.1449, df = 79, p-value = 0.2557
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.09319261  0.33671306
## sample estimates:
##       cor 
## 0.1277565
# Matemáticas - Naturales

cor.test(data = frecuencia[frecuencia$Area == "Naturales",],
         ~ proportion + `Matemáticas`)
## 
##  Pearson's product-moment correlation
## 
## data:  proportion and Matemáticas
## t = 6.3198, df = 94, p-value = 8.694e-09
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.3880670 0.6728868
## sample estimates:
##       cor 
## 0.5460678

En Matemática, el área que mayor se correlaciona es C. Naturales con 0.5688276, también podemos observar que la palabra afirmaciones y afirmación aparece en común en las áreas de Sociales, Naturales y lectura crítica.

Naturales

# Naturales - L. Critica 

cor.test(data = frecuencia[frecuencia$Area == "Lectura Crítica",],
             ~ proportion + `Naturales`)
## 
##  Pearson's product-moment correlation
## 
## data:  proportion and Naturales
## t = 1.3678, df = 90, p-value = 0.1748
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.06398014  0.33765543
## sample estimates:
##       cor 
## 0.1427073
# Naturales - Sociales

cor.test(data = frecuencia[frecuencia$Area == "Sociales",],
             ~ proportion + `Naturales`)
## 
##  Pearson's product-moment correlation
## 
## data:  proportion and Naturales
## t = 0.99461, df = 152, p-value = 0.3215
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.07875018  0.23557663
## sample estimates:
##        cor 
## 0.08041203
# Naturales - Matemáticas

cor.test(data = frecuencia[frecuencia$Area == "Matemáticas",],
         ~ proportion + `Naturales`)
## 
##  Pearson's product-moment correlation
## 
## data:  proportion and Naturales
## t = 6.3198, df = 94, p-value = 8.694e-09
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.3880670 0.6728868
## sample estimates:
##       cor 
## 0.5460678
Sociales

# Sociales - L. Critica 

cor.test(data = frecuencia[frecuencia$Area == "Lectura Crítica",],
             ~ proportion + `Sociales`)
## 
##  Pearson's product-moment correlation
## 
## data:  proportion and Sociales
## t = 5.7686, df = 195, p-value = 3.096e-08
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.2556544 0.4951708
## sample estimates:
##       cor 
## 0.3818046
# Sociales - Naturales 

cor.test(data = frecuencia[frecuencia$Area == "Naturales",],
             ~ proportion + `Sociales`)
## 
##  Pearson's product-moment correlation
## 
## data:  proportion and Sociales
## t = 0.99461, df = 152, p-value = 0.3215
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.07875018  0.23557663
## sample estimates:
##        cor 
## 0.08041203
# Sociales - Matemáticas

cor.test(data = frecuencia[frecuencia$Area == "Matemáticas",],
         ~ proportion + `Sociales`)
## 
##  Pearson's product-moment correlation
## 
## data:  proportion and Sociales
## t = 1.1449, df = 79, p-value = 0.2557
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.09319261  0.33671306
## sample estimates:
##       cor 
## 0.1277565

Ingles

Al analizar las diferentes correlaciones podemos determinar que el área de sociales se correlaciona más con lectura crítica y el área de matemáticas se correlaciona más con Naturales, son áreas que tiene más palabras que se usan con frecuencias aproximadamente iguales.

Al observar las graficas, el área de ingles con respecto a lectura crítica no se identifica una correlación significativa entre palabras.

Por otro lado, podemos afirmar que, aunque se encuentran varias palabras en los gráficos de correlación de las otras áreas con lectura crítica no se logran encontrar conceptos, sino más bien nombres, verbos o palabras generales que para esta primera fase exploratorio todavía no aportarían suficiente información. Cuando correlacionamos las otras áreas con matemáticas es posible encontrar palabras que nos pueden indicar conceptos en matemáticas Vs naturales como: altura, número, cantidad, forma, datos, después.

Matemáticas Vs lectura crítica: Figura, por ciento, dinero, forma, orden.

Matemáticas Vs Sociales: Centro y evolución, serían las que tienen más sentido en términos de los objetos de estudio.

Para el caso de Naturales Vs las otras áreas tenemos las siguientes palabras más representativas de algunos conceptos:

Naturales Vs Ingles: Gas y extra.

Naturales Vs Lectura Crítica: Figura, después, Agua, años

Naturales Vs Matemáticas: Base, figura, cantidad, altura.

Naturales Vs Sociales: Base, Agua, ley, muerte y más.

En el caso de sociales se tiene:

Sociales vs lectura crítica: agua, años, mundo, países, orden.

Sociales Vs Matemáticas: Punto, centro, medida.

Sociales Vs naturales: Agua, años y más.

Para el caso de ingles no se encuentra una correlación de palabras que se oriente al objeto de trabajo.

Comparación en el uso de palabras

A continuación, se estudia que palabras se utilizan en las preguntas que realizaron los estudiantes en los simulacros, de forma más diferenciada por cada área, es decir, palabras que utiliza mucho un area y que no utiliza la otro. Una forma de hacer este análisis es mediante el log of odds ratio de las frecuencias. Esta comparación se hace por pares, en este caso se comparamos L. Critica con Sociales y Matemáticas con Naturales.

Comparamos Sociales con L. Crítica

token Lectura Crítica Sociales log_odds abs_log_odds Area_frecuente
corrupcion 0.0160550 0.0004492 3.576229 3.576229 Lectura Crítica
sur 0.0137615 0.0004492 3.422079 3.422079 Lectura Crítica
visa 0.0108424 0.0004492 3.183668 3.183668 Lectura Crítica
politico 0.0002085 0.0044924 -3.070161 3.070161 Sociales
propuesta 0.0002085 0.0044924 -3.070161 3.070161 Sociales
alemania 0.0002085 0.0040431 -2.964801 2.964801 Sociales
decisiones 0.0002085 0.0040431 -2.964801 2.964801 Sociales
berlin 0.0002085 0.0035939 -2.847018 2.847018 Sociales
constitucional 0.0002085 0.0035939 -2.847018 2.847018 Sociales
mujeres 0.0002085 0.0035939 -2.847018 2.847018 Sociales
parqueaderos 0.0002085 0.0035939 -2.847018 2.847018 Sociales
profesor 0.0002085 0.0035939 -2.847018 2.847018 Sociales
derecho 0.0002085 0.0031447 -2.713486 2.713486 Sociales
libertad 0.0002085 0.0031447 -2.713486 2.713486 Sociales
felicidad 0.0066722 0.0004492 2.698160 2.698160 Lectura Crítica
articulo 0.0002085 0.0026954 -2.559335 2.559335 Sociales
aspectos 0.0002085 0.0026954 -2.559335 2.559335 Sociales
aumento 0.0002085 0.0026954 -2.559335 2.559335 Sociales
calles 0.0002085 0.0026954 -2.559335 2.559335 Sociales
campesinos 0.0002085 0.0026954 -2.559335 2.559335 Sociales

Si el logaritmo de odds es mayor que cero, significa que es una palabra con mayor probabilidad de ser de Lectura Crítica. Esto es así porque el ratio sea ha calculado como Lectura Crítica/Sociales.

Representación de las 30 palabras más diferenciadas

Comparamos Matemáticas con Naturales

token Matemáticas Naturales log_odds abs_log_odds Area_frecuente
poligono 0.0124777 0.0004560 3.309215 3.309215 Matemáticas
cincuenta 0.0115865 0.0004560 3.235107 3.235107 Matemáticas
eje 0.0115865 0.0004560 3.235107 3.235107 Matemáticas
precio 0.0115865 0.0004560 3.235107 3.235107 Matemáticas
transformado 0.0115865 0.0004560 3.235107 3.235107 Matemáticas
hombres 0.0106952 0.0004560 3.155064 3.155064 Matemáticas
raiz 0.0098039 0.0004560 3.068053 3.068053 Matemáticas
centro 0.0089127 0.0004560 2.972743 2.972743 Matemáticas
ciento 0.0089127 0.0004560 2.972743 2.972743 Matemáticas
cuarenta 0.0089127 0.0004560 2.972743 2.972743 Matemáticas
leyeron 0.0089127 0.0004560 2.972743 2.972743 Matemáticas
nueve 0.0089127 0.0004560 2.972743 2.972743 Matemáticas
parque 0.0089127 0.0004560 2.972743 2.972743 Matemáticas
cuadrado 0.0080214 0.0004560 2.867382 2.867382 Matemáticas
mil 0.0080214 0.0004560 2.867382 2.867382 Matemáticas
desviacion 0.0071301 0.0004560 2.749599 2.749599 Matemáticas
doscientos 0.0071301 0.0004560 2.749599 2.749599 Matemáticas
revistas 0.0071301 0.0004560 2.749599 2.749599 Matemáticas
abejas 0.0008913 0.0123119 -2.625679 2.625679 Naturales
agosto 0.0062389 0.0004560 2.616068 2.616068 Matemáticas

Si el logaritmo de odds es mayor que cero, significa que es una palabra con mayor probabilidad de ser de Matemáticas. Esto es así porque el ratio sea ha calculado como Matemáticas/Naturales.

Representación de las 30 palabras más diferenciadas

Matematicas

Realizaremos el análisis en matemáticas para aplicar un modelado de temas y determinar cuáles fueron eso conceptos que desarrollaron en cada pregunta.

revisamos las palabras más frecuentes y eliminamos aquellas palabras catalogadas como vacías, que no nos dice nada para determinar o diferencias los conceptos aplicados en matemáticas.

## [1] "D:/Universidad/Trabajo final de grado/Proyecto de grado/spanish-gsd-ud-2.5-191206.udpipe"

Word Clouds

Nos permite ver las palabras más comunes en las preguntas del área de matemáticas, pero esta vez como una nube de palabras. Todas las palabras que están ubicadas más hacia el centro con un mayor tamaño presentan una mayor frecuencia, es decir el tamaño del texto de una palabra es proporcional a su frecuencia dentro del área. Podemos usar esta visualización para ver las palabras mas y menos frecuentes.

Las preguntas utilizadas en matematicas se trabajan con muchas formas graficas, como muestra la ocurrencia de términos como graficas, área, eje y contextos de la pregunta donde se utilizan una figura.

Relación entre palabras

Bigrams

Las palabras que aparecen juntas con mayor frecuencia en matemáticas son polígono transformado y desviación estándar.

una forma más visual e informativa de analizar las relaciones entre palabras es mediante el uso de networks.

Podemos observar las relaciones entre palabras, como plano cartesiano, desviación estándar, en este caso elegimos mostrar solo las conexiones de palabra a palabra más comunes.

Cálculo de tf-idf para matematicas

Comencemos por mirar las palabras con mayor frecuencia y examinemos la frecuencia del primer término, luego tf-idf. La situación a responder en este apartado es: ¿Cuáles son las palabras más utilizadas en las preguntas de la prueba de matemáticas? (También vamos a calcular el total de palabras en cada pregunta y prueba, para uso posterior).

veamos la distribución de n/total para Matemáticas, el número de veces que aparece una palabra en matemáticas dividido por el número total de términos (palabras) en esa área. Esto es exactamente lo que es el término frecuencia.

Podemos observar que hay más colas largas a la derecha, esto quiere decir que hay muchas palabras que ocurren raramente y menos palabras que ocurren con frecuencia en cada pregunta de matemáticas.

Podemos observar que algunos valores de la columna idf y tf_idf hay ceros. Corresponden a palabras comunes que usan todas las preguntas. Las que se repiten una y otra vez en todos los textos de las preguntas, sean del tipo que sean, y que en algunas ocasiones anteriores hemos borrado ya que lo que interesaban eran las palabras semánticas, no las gramaticales. Por otra parte, si el valor de tf_idf es muy bajo, cerca de 0, es que esa palabra aparece en varios de las preguntas que se estás analizando. Esto lo que hace es disminuir el peso de las palabras muy comunes de manera que cuanto mayor sea el valor del tf_idf de una palabra, esa palabra la habrán usado menos en las preguntas de matemáticas.

Veamos una visualización de estas palabras de alta tf-idf

Modelado de temas

El uso de tf-idf como estadística ya nos ha dado una idea del contenido de las preguntas en matemáticas, pero ahora intentamos un enfoque adicional usando el modelado de temas para modelar cada pregunta como una combinación de temas y cada tema como una combinación de palabras.

Lo que tenemos es una tabla con un término por pregunta en cada fila. Sin embargo, para aplicar el modelo LDA utilizamos el paquete topicmodels, este paquete utiliza otro tipo de estructura, la llamada Document-Term Matrix (DTM) procedente del paquete tm, donde vamos a generar una gran tabla en la que en cada fila hay una pregunta y en cada columna hay una palabra.

Transformamos en una DTM nuestros datos y tenemos lo siguiente:

## <<DocumentTermMatrix (documents: 31, terms: 228)>>
## Non-/sparse entries: 361/6707
## Sparsity           : 95%
## Maximal term length: 14
## Weighting          : term frequency (tf)

Hay 31 preguntas y que en total hay 228 términos diferentes en total. En definitiva, lo que tienes es una tabla con 6707 celdas cuyo valor puede ser 0, no aparece en la pregunta y 361 con un valor superior a 0, lo que nos indica que el 99% de las filas tienen como valor 0.

Diagnóstico para determinar el número de tópicos óptimos

Ajustamos el parámetro k, para determinar el número óptimo de tópicos en que se va dividir las preguntas.

Calculando la perplejidad

La medida más común de qué tan bien se ajusta un modelo temático probabilístico a los datos es la perplejidad (que se basa en la probabilidad logarítmica). Cuanto menor (!) Sea la perplejidad, mejor será el ajuste.

El modelo con la menor perplejidad generalmente se considera el mejor.

Teniendo en cuenta la gráfica de residuals y coherence semantic determinamos que el número óptimo de tópico es 10.

ajustamos el modelo LDA

Para establecer el modelo se utiliza la función LDA() de la librería topicmodels, el valor de k se ha establecido de acuerdo al número óptimo de tópicos indicado anteriormente.

hemos creado un modelo con 20 tópicos y que ha utilizado el algoritmo VEM (= Variational Expectation Maximization)

## A LDA_VEM topic model with 10 topics.

Esta tabla tiene tres columnas. La primera, topic, indica el número de tópico; la segunda ofrece las palabras –term– que aparecen en el conjunto de datos y, por último, la columna beta informa de la probabilidad de que el término haya sido generado por el tópico. Cuanto más cerca esté un valor de 1, tanto más probable es que una palabra –term– sea parte del tópico –topic–.

En la siguiente grafica podemos observar los términos con mayor probabilidad de ser generado por cada tópico, vamos a ver los diez primeros términos más probables para cada tópico.

top de terminos para determinar de que se trata cada uno

Una simple ojeada a la grafica puede permitirte establecer que el tópico 1 tiene que ver con…

El modelo LDA no etiqueta, es decir, no identifica cada uno de los tópicos. Son sencillamente los tópicos 1, 2, 3, 4,5, …,k. A partir de esto, se puede inferir que están asociados con cada uno de las preguntas.

Clasificación por preguntas

A continuación, examinemos qué topicos están asociados a que preguntas, observaremos una probabilidad diferente para esto,la probabilidad de que cada pregunta pertenezca a cada topico.

Podemos ver que, de todas las preguntas del area de matematicas, la única que tienen una probabilidad de 1 o cercana a 1 (puede ser 1 –altísima– o 0 –bajísima–) de que esa pregunta procedan del tópico 1, es la pregunta 19 mientras que las demás están bastante alejadas.

distribución de las probabilidades gamma

A continuación, observamos la distribución de la probabilidad de pertenecer a un topico; esta es la probabilidad de que una pregunta determinada pertenezca a un topico determinado. Hay muchos valores cercanos a cero, lo que significa que hay muchas preguntas que no pertenecen a todos los topicos. Además, hay muchos valores cerca de 1; estos son las preguntas que pertenecen en esos topicos. Esta distribución muestra que las preguntas están bien discriminadas por pertenecer o no a un topico.

También podemos ver cómo se distribuyen las probabilidades dentro de cada pregunta, observando cuántas preguntas de matemáticas están dentro del tópico que ha establecido el modelo. Es algo que puedes ver con el siguiente gráfico.

Distribución de las probabilidades gamma para cada tópico

Relacionamos los topcios a cada pregunta:

Como puedes ver en la figura, en todos los casos la mayoría de las preguntas se asocian con un único tópico. Ninguna de las preguntas tiene problemas de asignacion.

Clasificación de preguntas a cada topico

Utilizando el valor más alto de gamma asignamos a las preguntas el tópico correspondiente a ese gamma más alto.

La herramienta LDAvis permite una visualización interactiva que ofrece las siguientes posibilidades:

  • Tópicos representados mediante círculos en el plano de dos dimensiones, donde el área de cada círculo representa la predominancia de cada tópico en el corpus. Los tópicos son ordenados en orden decreciente respecto a su predominancia.

  • La posición de cada tópico se computa mediante la distancia entre tópicos, usando MDS para proyectar estas distancias al plano de dos dimensiones.

  • Se representa mediante diagramas de barras las palabras más relevantes para el tópico seleccionado. Se superponen una barra roja y otra azul para cada término que representan: o Azul: Tf de la palabra evaluado en todo el corpus, es decir, el número de veces que se repite esa palabra en el conjunto de documentos evaluados. o Rojo: Tf estimada de la palabra en el tópico seleccionado.

Los tópicos generados por el modelo LDA se le asignan las valoraciones de ganados o perdidos, para determinar cuáles son los tópicos que presentan mayores dificultades.