1. Introducción al aprendizaje automático

Acorde a Gironés Roig y otros (2017):

“La inteligencia artificial, sustentada de lleno en las matemáticas y la computación, plantea a analistas, programadores e ingenieros el reto del aprendizaje continuo e incansable que persigue un conocimiento inalcanzable y palpable a la vez. Si las ciencias exactas son el mejor idioma de que disponemos para hablar con el universo, también son la mejor herramienta que tenemos para tratar de imitar la inteligencia humana.”

Según Géron (2019):

‘Cuando las personas escuchan ’aprendizaje de máquina’ se imaginan un robot: un mayordomo confiable o un mortífero Terminator, dependiendo a quién se le pregunte. Sin embargo, este no es solo una fantasía futurista, ya está aquí.’

El aprendizaje automático (o de máquina), como parte de la inteligencia artificial, es la ciencia (o arte) de programar las computadoras para que éstas puedan aprender de los datos. Es decir, le damos la habilidad a la computadora de aprender sin ser explícitamente programada.

De una manera más objetiva, Abu-Mostafa, profesor del curso de CALTECH: Learning from Data, menciona que la esencia del aprendizaje automático yace sobre 3 puntos:

  • Existe un patrón en algún fenómeno.

  • No podemos especificar dicho patrón de manera exacta a través de una formalización matemática.

  • Tenemos datos.

Así, estas tareas de aprendizaje incluyen varias situaciones, incluyendo (pero no limitándose):

  • Predecir: nivel de ventas en base a gasto en publicidad.

  • Clasificar: clientes buenos y malos según su comportamiento al pagar un crédito.

  • Descubrir patrones: tipos de clientes según sus características sociodemográficas y de consumo.

  • Realizar inferencia: sobre variables que en teoría tienen efecto sobre un fenómeno.

A partir de estos ejemplos, las tareas más usuales del aprendizaje automático se pueden clasificar en tres grandes categorías (aunque existen otras clasificaciones):

  • Aprendizaje supervisado
  • Aprendizaje no supervisado
  • Aprendizaje por refuerzo

Cada uno de estos grandes grupos de modelos involucra el uso de varias técnicas y algoritmos que pueden ser aplicados con distintos tipos de datos:

  • Estructurados: tablas de información generalmente pobladas con variables numéricas y categóricas.

  • No estructurados: datos de texto, audio, imágenes, video, etc.

  • Semiestructurados.

2. Orientaciones en la aplicación del aprendizaje automático

Blog: “Towards Data Science”

Entrada: “When Bayes, Ockham, and Shannon come together to define machine learning”

URL: TDS: Definition of Machine Learning

2.1. El Teorema de Bayes

El reverendo Thomas Bayes (1702-1761), alrededor del año 1750 definió la probabilidad condicional como:

\[ P(A|B)=\frac{P(B|A)P(A)}{P(B)} \]

Donde la probabilidad de que suceda un evento \(A\) condicionado a que otro evento \(B\) ya haya sucedido, dependerá de la probabilidad condicional de \(B\) dado \(A\), de la probabilidad del evento \(A\) y de la probabilidad del evento \(B\).

Debido a que dentro del aprendizaje automático intentamos encontrar la hipótesis (a posteriori) más probable para nuestros datos, podemos sustituir al evento \(A\) por \(h\) (que ahora en adelante denotará a la hipótesis planteada) y al evento \(B\) por \(D\) (los datos de análisis):

\[ P(h|D)=\frac{P(D|h)P(h)}{P(D)} \]

Con la nueva ecuación formada, buscamos una hipótesis \(h_f\) que maximice la \(P(h|D)\), es decir:

\[ {h}_{f}=argmax\left[P(h|D)\right]=argmax\frac{P(D|h)P(h)}{P(D)} \]

Si a este problema le aplicamos el logaritmo (específicamente base 2) obtenemos:

\[ {h}_{f}=argmin\left[-log_2(P(D|h))-log_2(P(D))\right] \]

Habiendo entrado así al terreno de la Teoría de la información.

2.2. La teoría de la información

Claude Shannon (1916-2001), matemático, ingeniero eléctrico y criptógrafo del MIT que trabajó en Bell Labs, mencionaba que la cantidad de información producida por cualquier fuente puede ser definida por una fórmula similar a la de la ecuación que define la entropía termodinámica. Para un evento con probabilidad \(P\), la forma más eficiente de almacenarlo requiere \(-log_2(P)\) bits.

Si recurrimos a nuestra última fórmula y utilizamos el enunciado de Shannon, llegaremos a una ecuación conocida como la del largo mínimo:

\[ {h}_{f}=argmin\left[largo(P(D|h))-largo(P(D))\right] \]

Pero ¿para qué sirve haber llegado hasta acá? La filosofía nos dirá.

2.3. La navaja de Ockham

A William de Ockham (1287-1347), teólogo franciscano inglés y filósofo medieval se le atribuían las palabras:

\[ \text{Entia non sunt multiplicanda praeter necessitatem.} \]

Es decir, ‘’las entidades no deben ser multiplicadas más allá de lo necesario’’. De esta frase nace el principio de la lógica conocido como la navaja de Ockham. Básicamente, aplicada a nuestro campo, esta nos dice que se puede distinguir entre dos hipótesis candidatas ya sea eliminando supuestos innecesarios o recortando dos conclusiones similares. Es decir, debemos intentar trabajar con la hipótesis más simple, aquella que pueda explicar nuestros datos de una manera satisfactoria.

3. El aprendizaje automático dentro del PLN

Para refrescar las conexiones entre el procesamiento del lenguaje natural, la inteligencia artificial y el aprendizaje automático, revisaremos el capítulo 1 de este curso: Capítulo 1: Introducción al procesamiento del lenguaje natural.

Así, el PLN puede ser combinado con el aprendizaje automático en varias tareas, sean estas específicas al campo o no. Estas incluyen (pero no se limitan):

  • Etiquetado morfosintáctico

  • Análisis sintáctico

  • Análisis de sentimientos

  • Desambiguación de palabras

  • Clasificación de textos

  • Predicción del precio de las acciones

  • Agrupamiento de temáticas

  • Predicción de texto

  • Detección de noticias falsas, etc.

4. Bibliografía

Géron, A. (2019), Hands-on Machine Learning with Scikit-Learn.
Gironés Roig, J. y otros (2017), Minería de datos: modelos y algoritmos.
