El origen de ChatGPT: ¿cómo se crea el chatbot general más avanzado hasta la fecha?

ChatGPT es un chatbot desarrollado por OpenAI (un laboratorio de investigación de inteligencia artificial) con el que se puede mantener una conversación parecida a la que se tendría con un humano.

El revuelo que ha causado en el mundo de los asistentes conversacionales no es para menos, ya que ChatGPT no solo puede responder a las preguntas de los usuarios, sino que además también es capaz de escribir cuentos, ensayos o artículos científicos, entre otras cosas.

¿Cómo es esto posible? ¿Cuál es la tecnología detrás de este gran asistente conversacional? Sigue leyendo y te lo contamos. 

¿Cómo funciona ChatGPT?

ChatGPT está basado en un modelo de lenguaje que se llama GPT-3.5, o Generative Pre-Trained Transformer

GPT-3.5 es uno de los modelos de lenguaje más conocido en el mundo del procesamiento del lenguaje natural (NLP), junto con BERT, que han sido entrenados de forma masiva y han dado muy buenos resultados en sus respectivas tareas.

Los modelos de lenguaje están basados en inferencia estadística: son una distribución de probabilidad de palabras o grupos de palabras. En otras palabras, se usan técnicas de predicción estadísticas y probabilísticas para determinar qué probabilidad hay de obtener una secuencia de palabras en una frase. Por ejemplo, se usan modelos de lenguaje cuando WhatsApp te sugiere varias palabras que podrías usar cuando estás enviando un mensaje.

En general, se dice que estos tipos de modelos de lenguaje se “entrenan” con datos. Esto significa que se les proporciona grandes cantidades de datos para que los modelos del lenguaje (en particular, los modelos neuronales) puedan extraer todo tipo de información. 

Para que puedan trabajar con el lenguaje, los modelos de lenguaje transforman las palabras o frases de lenguaje natural a vectores y matrices. Así, pueden realizar operaciones matemáticas entre ellos. 

Existen de varios tipos de modelos de lenguaje pero, tanto GPT-3.5 como BERT, son modelos de lenguaje neuronales basados en transformers.

¿Qué son los transformers?

Los transformers son un tipo de modelo de lenguaje neuronal. Es decir, modelos que se basan en técnicas de machine learning que imitan la estructura de un cerebro gracias a conexiones entre nodos o neuronas

A grandes rasgos, los modelos neuronales están formados por diferentes capas, entre las cuales se producen una serie de operaciones matemáticas o “conexiones”. 

A diferencia de otras redes neuronales, los transformers usan self-attention. La self-attention es un mecanismo mediante en cual los transformers prestan atención a diferentes partes de una frase para crear conexiones entre ellas. 

De esta manera, estos modelos pueden entender mejor una palabra fijándose en aquellas palabras relevantes que la rodean. Se puede decir que los transformers recogen el contexto de las palabras de una misma frase y, de este modo, pueden entender mejor el significado. 

Además, también tienen una estructura única de encoder-decoder, diferente a los modelos del lenguaje creados anteriormente.

¿Qué puede hacer GPT-3.5?

GPT-3.5 ha dado unos resultados muy buenos en muchas tareas de procesamiento del lenguaje natural (NLP)

Algunas de las tareas que realiza son las siguientes: 

  • Traducir textos
  • Hacer resúmenes
  • Hacer correcciones gramaticales
  • Responder a preguntas
  • Generar lenguaje

La gran capacidad de GPT-3.5 se debe a que ha sido entrenado con muchísimos datos. Se han usado alrededor de 499.000 millones de tokens (unidades semánticas, que muchas veces se corresponden a palabras) procedentes de internet que, a su vez, modifican 175.000 millones de diferentes parámetros del modelo para obtener estos resultados. 

Esto no es solo extremadamente caro (con un coste estimado de 12 millones de dólares) sino que también tiene consecuencias medioambientales.

Sin embargo, nadie puede discutir que sus resultados son excepcionales. De hecho, ha igualado, y en algunos casos superado, a los otros modelos de lenguaje más conocidos y con mejores resultados hasta el momento, como BERT. 

¿Cómo han convertido GPT-3.5 en un chatbot como ChatGPT?

GPT-3.5 es un modelo de lenguaje de tipo general: no está entrenado para realizar una tarea específica de NLP, sino que puede llevar a cabo muchas tareas. Para crear ChatGPT, OpenAI tomó su anterior modelo y lo entrenó (se dice que se hizo fine tuning) para que funcionase como un chatbot.

ChatGPT se creó a través de aprendizaje supervisado y aprendizaje por refuerzo:  

  • Aprendizaje supervisado: consistió en entrenar el modelo con conversaciones entre un humano y otro humano simulando ser el asistente conversacional. 
  • Aprendizaje por refuerzo: se entrenó al modelo con conversaciones, recompensando al modelo cuando daba una respuesta acertada.

Gracias a este postentrenamiento, ChatGPT ha conseguido unos resultados increíbles que parecen salidos de una película de ciencia ficción. Contiene mucha información sobre multitud de temas, responde en varias lenguas y, sobre todo, puede recordar el contexto de la conversación (todo un hito en el mundo de los agentes conversacionales). 

ChatGPT: aún queda camino por recorrer

ChatGPT ha resultado ser una de las grandes noticias en el mundo del procesamiento del lenguaje natural de 2022. Además, también ha causado un gran revuelo en el público general, llegando a superar el millón de usuarios en solo 5 días después de su lanzamiento.

Sin embargo, a pesar de lo que puede parecer, la gran popularidad de ChatGPT no significa que esté todo hecho. ChatGPT aún tiene fallos importantes que pueden no hacerlo apto para el uso comercial.

El caso más conocido es el del sesgo: cuando se usa información de internet, se pueden recoger datos falsos o, peor aún, sexistas, racistas o que sobrerepresentan un porcentaje determinado de la población.

Para que un asistente conversacional pueda ser útil para una empresa, por ejemplo, este debe poder responder y gestionar las necesidades específicas de dicha empresa. Por este motivo, los chatbots tradicionales como los que ofrece Enzyme son más seguros, ya que permiten que se controlen los resultados. De esta forma, se consigue evitar dar información errónea o que pueda ofender o agraviar al usuario. 

Conclusiones

Sin duda, ChatGPT constituye un gran avance para el mundo del procesamiento del lenguaje natural. Sin embargo, todavía queda mucho camino por recorrer. De hecho, en este sentido, hoy en día los chatbots tradicionales presentan una importante ventaja en comparación con ChatGPT: los chatbots tradicionales permiten un alto grado de personalización, algo que ChatGPT todavía no tiene fácilmente disponible sin grandes cantidades de datos, lo que no siempre es factible. 

Gracias a este alto grado de personalización, al menos actualmente, representan la mejor opción a la hora de instalar en una empresa un chatbot destinado a solucionar un problema o tarea concreta

En Enzyme somos expertos en la tecnología chatbot y en otras tecnologías de vanguardia. Ayudamos a grandes y pequeñas empresas en el proceso de transformación digital de tu negocio, así como en la implementación de tecnología destinada a mejorar la productividad y la optimización de recursos. Contacta con nosotros y descubre todo lo que podemos hacer por tu negocio. 

Si quieres saber cómo los chatbots pueden mejorar los procesos de tu negocio descarga el eBook aquí

Más noticias

¿Cómo se ejecuta un proyecto de automatización de procesos con RPA?

La automatización de procesos con RPA es una de las tendencias en la transformación digital. La posibilidad de automatizar tareas, para que las personas puedan dedicar su tiempo y esfuerzo a tareas...

Leer másArrow 41

Explainability AI: cómo hacer nuestro modelo legible

A la hora de tomar decisiones, la inteligencia artificial se ha convertido en una herramienta muy útil en el día a día. Lo curioso es que esto es así tanto en el ámbito personal como en el laboral....

Leer másArrow 41

Inversión en tecnología: clave para hacer frente a la crisis económica

La crisis económica es una realidad palpable en la actualidad. La inflación de los precios, la poca disponibilidad de los combustibles, así como la lenta recuperación de la Covid-19, han hecho que...

Leer másArrow 41

Supply chain: retos tecnológicos del sector en 2023

La evolución de la tecnología y la innovación ha abierto un mundo de posibilidades en el sector de la logística y suministros. La IA ha cambiado la visión de las empresas que ya buscan esquemas...

Leer másArrow 41

Cómo diseñar una estrategia de IA para incrementar el éxito de los proyectos de Machine Learning

En el Webinar “AI Strategy: Cómo diseñar una estrategia de IA para incrementar el éxito de los proyectos”, hemos compartido una visión acerca de aquellos problemas generales que hacen que proyectos...

Leer másArrow 41