Natural Language Processing: ¿cómo es la técnica Word Embeddings?

 
Natural language processing

El Natural Language Processing busca evolucionar los métodos de comunicación entre personas y computadoras a través del lenguaje natural (humano).

Este campo de investigación se basa en Inteligencia Artificial para dotar a las computadoras con las capacidades de:

  • Realizar redacciones completas y complejas
  • Traducir contenidos de un idioma a otro
  • Resumir y sintetizar textos de gran volumen
  • Responder coherentemente a preguntas hechas por personas

Estas, y otras capacidades, son las que han permitido el desarrollo de sistemas como Google Translate, Amazon Alexa, Apple Siri y demás. Una de las técnicas bases para este tipo de tecnologías es Word Embeddings.

 

¿Qué es Word Embeddings en el Natural Language Processing?

Word Embeddings es una técnica del Natural Language Processing que consiste, básicamente, en asignar un vector a cada palabra. Este vector guarda información semántica, lo que permite que pueda ser asociado o disociado a otros vectores (palabras) según distintos contextos gramaticales.

En este sentido, Word Embeddings se convierte en una solución efectiva para codificar tanto la semántica como la relación de las palabras entre sí. Dicha codificación es generalizable, lo que significa que el algoritmo creado puede ser utilizado para resolver distintos tipos de problemas. Tales como de traducción, de generación de textos, entre otros.

Además, los vectores creados mediante Word Embeddings pueden ser ingresados en redes neuronales artificiales. Esto les facilita a dichas redes establecer relaciones complejas entre las palabras gracias a que ya conoce su semántica.

¿Cómo funciona Word Embeddings en el Natural Language Processing?

Word Embeddings en el Natural Language Processing

 

 

Fuente: TensorFlow

Las palabras, en sí, no pueden ser procesadas por los sistemas computacionales. Por lo tanto, estas deben ser convertidas en formatos que sean digitalmente procesables. Aquí es donde entran en juego los vectores de Word Embeddings como representaciones matemáticas de las palabras. Ya que la matemática es un lenguaje natural para las computadoras y permite ejecutar el Natural Language Processing.

¿Pero qué son los vectores?

Los vectores en el Natural Language Processing son elementos matemáticos que poseen 2 características: longitud y orientación, y están ubicados en planos multidimensionales. Esto significa que un vector puede ser analizado tanto por lo que mide de largo como por hacia donde está apuntando.

Los vectores que representan palabras con significados similares se ubican más cerca entre sí, y el significado de cada palabra viene dado por su respectivo entorno.

Al ser elementos matemáticos, los vectores pueden ser sometidos a operaciones matemáticas como suma, resta, entre otras. Además, se les puede modificar sus dimensiones y sus perspectivas.

Ejemplo del funcionamiento de Word Embeddings

Sobre estos fundamentos, un ejemplo del funcionamiento de Word Embeddings como Word2vec sería:

Se tiene el vector correspondiente a la palabra “Rey”. Este está asociado al vector de la palabra “Hombre”.  Así, si se le resta el vector “Hombre” y se le suma el vector “Mujer”, quedaría entonces el vector “Reina”.

Por otra parte, en los Word Embeddings más avanzados, como ELMo, el vector de cada palabra se genera según el contexto de esta palabra dentro de una frase concreta. Así, el vector para “banco” se genera de forma distinta según si se refiere a la institución bancaria o a un banco para sentarse.

En este panorama, los algoritmos de Natural Language Processing más avanzados pueden comprender y procesar contextos de ironía, sarcasmo, humor, entre otros. El análisis de datasets con cantidades enormes de contenidos permite este tipo de capacidades que, hasta el momento, parecían ser solo de humanos.

Limitaciones del Word Embeddings en el Natural Language Processing

El Word Embeddings es excelente para convertir las palabras en vectores. Sin embargo, no es suficientemente potente para comprender relaciones entre ellas en una misma frase. Por lo tanto, no logra resolver los problemas de continuidad o de completado de frases dentro del Natural Language Processing.

Por ejemplo, el modelo de Word Embeddings no puede completar frases como: “Estoy armando las maletas porque me voy de ________”.

En cambio, para resolver este tipo de problemas existen los Modelos del Lenguaje. Estos son modelos de machine learning que intentan, entre otras, realizar 2 acciones:

  • Predecir cuál es la siguiente palabra en función de las palabras anteriores. 
  • Predecir cuál es la palabra que debe ir en medio de una frase en función de las palabras anteriores y las siguientes.

Uno de los Modelos del Lenguaje más avanzados es el GPT (Generative Pre-Training), desarrollado por OpenAI. El cual ha dado lugar en su última versión, GPT4, al popularísimo software de generación de texto, ChatGPT4.

En Enzyme Advising Group somos expertos en Natural Language Processing y Machine Learning para la creación de chatbots empresariales de gran potencia. Nuestras soluciones basadas en Inteligencia Artificial se encuentran ubicadas en el top 5 europeo según el IBM Ecosystem Summit 2019.

 

New call-to-action 

Más noticias

¿Cómo se ejecuta un proyecto de automatización de procesos con RPA?

La automatización de procesos con RPA es una de las tendencias en la transformación digital. La posibilidad de automatizar tareas, para que las personas puedan dedicar su tiempo y esfuerzo a tareas...

Leer másArrow 41

Explainability AI: cómo hacer nuestro modelo legible

A la hora de tomar decisiones, la inteligencia artificial se ha convertido en una herramienta muy útil en el día a día. Lo curioso es que esto es así tanto en el ámbito personal como en el laboral....

Leer másArrow 41

Inversión en tecnología: clave para hacer frente a la crisis económica

La crisis económica es una realidad palpable en la actualidad. La inflación de los precios, la poca disponibilidad de los combustibles, así como la lenta recuperación de la Covid-19, han hecho que...

Leer másArrow 41

Supply chain: tendencias y retos tecnológicos

En el mundo empresarial contemporáneo, la gestión efectiva de la cadena de suministro es fundamental para el éxito y la competitividad de las organizaciones. La cadena de suministro, o supply chain...

Leer másArrow 41

Cómo diseñar una estrategia de IA para incrementar el éxito de los proyectos de Machine Learning

En el Webinar “AI Strategy: Cómo diseñar una estrategia de IA para incrementar el éxito de los proyectos”, hemos compartido una visión acerca de aquellos problemas generales que hacen que proyectos...

Leer másArrow 41