Natural Language Processing: ¿cómo es la técnica Word Embeddings?

 
Natural language processing

El Natural Language Processing busca evolucionar los métodos de comunicación entre personas y computadoras a través del lenguaje natural (humano).

Este campo de investigación se basa en Inteligencia Artificial para dotar a las computadoras con las capacidades de:

  • Realizar redacciones completas y complejas
  • Traducir contenidos de un idioma a otro
  • Resumir y sintetizar textos de gran volumen
  • Responder coherentemente a preguntas hechas por personas

Estas, y otras capacidades, son las que han permitido el desarrollo de sistemas como Google Translate, Amazon Alexa, Apple Siri y demás. Una de las técnicas bases para este tipo de tecnologías es Word Embeddings.

New call-to-action

¿Qué es Word Embeddings en el Natural Language Processing?

Word Embeddings es una técnica del Natural Language Processing que consiste, básicamente, en asignar un vector a cada palabra. Este vector guarda información semántica, lo que permite que pueda ser asociado o disociado a otros vectores (palabras) según distintos contextos gramaticales.

En este sentido, Word Embeddings se convierte en una solución efectiva para codificar tanto la semántica como la relación de las palabras entre sí. Dicha codificación es generalizable, lo que significa que el algoritmo creado puede ser utilizado para resolver distintos tipos de problemas. Tales como de traducción, de generación de textos, entre otros.

Además, los vectores creados mediante Word Embeddings pueden ser ingresados en redes neuronales artificiales. Esto les facilita a dichas redes establecer relaciones complejas entre las palabras gracias a que ya conoce su semántica.

¿Cómo funciona Word Embeddings en el Natural Language Processing?

Word Embeddings en el Natural Language Processing

 

 

Fuente: TensorFlow

Las palabras, en sí, no pueden ser procesadas por los sistemas computacionales. Por lo tanto, estas deben ser convertidas en formatos que sean digitalmente procesables. Aquí es donde entran en juego los vectores de Word Embeddings como representaciones matemáticas de las palabras. Ya que la matemática es un lenguaje natural para las computadoras y permite ejecutar el Natural Language Processing.

¿Pero qué son los vectores?

Los vectores en el Natural Language Processing son elementos matemáticos que poseen 2 características: longitud y orientación, y están ubicados en planos multidimensionales. Esto significa que un vector puede ser analizado tanto por lo que mide de largo como por hacia donde está apuntando.

Los vectores que representan palabras con significados similares se ubican más cerca entre sí, y el significado de cada palabra viene dado por su respectivo entorno.

Al ser elementos matemáticos, los vectores pueden ser sometidos a operaciones matemáticas como suma, resta, entre otras. Además, se les puede modificar sus dimensiones y sus perspectivas.

Ejemplo del funcionamiento de Word Embeddings

Sobre estos fundamentos, un ejemplo del funcionamiento de Word Embeddings como Word2vec sería:

Se tiene el vector correspondiente a la palabra “Rey”. Este está asociado al vector de la palabra “Hombre”.  Así, si se le resta el vector “Hombre” y se le suma el vector “Mujer”, quedaría entonces el vector “Reina”.

Por otra parte, en los Word Embeddings más avanzados, como ELMo, el vector de cada palabra se genera según el contexto de esta palabra dentro de una frase concreta. Así, el vector para “banco” se genera de forma distinta según si se refiere a la institución bancaria o a un banco para sentarse.

En este panorama, los algoritmos de Natural Language Processing más avanzados pueden comprender y procesar contextos de ironía, sarcasmo, humor, entre otros. El análisis de datasets con cantidades enormes de contenidos permite este tipo de capacidades que, hasta el momento, parecían ser solo de humanos.

Limitaciones del Word Embeddings en el Natural Language Processing

El Word Embeddings es excelente para convertir las palabras en vectores. Sin embargo, no es suficientemente potente para comprender relaciones entre ellas en una misma frase. Por lo tanto, no logra resolver los problemas de continuidad o de completado de frases dentro del Natural Language Processing.

Por ejemplo, el modelo de Word Embeddings no puede completar frases como: “Estoy armando las maletas porque me voy de ________”.

En cambio, para resolver este tipo de problemas existen los Modelos del Lenguaje. Estos son modelos de machine learning que intentan, entre otras, realizar 2 acciones:

  • Predecir cuál es la siguiente palabra en función de las palabras anteriores. 
  • Predecir cuál es la palabra que debe ir en medio de una frase en función de las palabras anteriores y las siguientes.

Uno de los Modelos del Lenguaje más avanzados es el GPT 2 (Generative Pre-Training), desarrollado por OpenAI. El cual es, también, el más controversial en todo el mundo debido a la enorme potencia que ha demostrado tener y que puede ser utilizada para fines dañinos.

En Enzyme Advising Group somos expertos en Natural Language Processing y Machine Learning para la creación de chatbots empresariales de gran potencia. Nuestras soluciones basadas en Inteligencia Artificial se encuentran ubicadas en el top 5 europeo según el IBM Ecosystem Summit 2019.

 

New call-to-action 

Más artículos

Watson Assistant y Watson Discovery: el chatbot ganador de IBM

Cómo sacarle partido a tus datos con un asistente personalizado de IBM

Los asistentes virtuales son uno de los sistemas de comunicación que más está creciendo en los últimos años. No en vano, ofrecen

Leer másArrow 41

Monitorización: conoce el estado de tus sistemas y aplicaciones en tiempo real

¿Cómo puede Instana contribuir a la optimización del monitoreo 24/7? En anteriores artículos, hemos hablado sobre la importancia de saber que ocurre en nuestros entornos. En este sentido, la...

Leer másArrow 41

Automatiza procesos inteligentes con low-code

La automatización de procesos inteligentes aporta una innumerable cantidad de beneficios y ventajas a las compañías que la implementan, como puede ser la agilización de procesos, reducción del error...

Leer másArrow 41

¿Cómo alcanzar el crecimiento sostenible de una empresa?

Ya sea una startup o una multinacional, todas las empresas tienen en común la búsqueda de un crecimiento sostenible a lo largo del tiempo. ¿Qué es lo que hace que una empresa consiga persistir en el...

Leer másArrow 41

Cómo el Data Fabric y Data Mesh pueden contribuir a un entorno VUCA

Vivimos en un entorno en el que las cosas cambian continuamente y nunca se sabe lo que va a pasar a continuación. Esto trae una complejidad abrumadora, y muchos aspectos pueden llegar a tener un...

Leer másArrow 41