Hoy en día los chatbots siguen estando a la orden del día en cuanto a “últimas novedades” de muchas de las empresas que operan en la web. El siguiente paso son los Voicebots o, al menos, chatbots que permitan la comunicación puramente oral en las dos direcciones usuario-bot y viceversa.
Un periférico ha aparecido en escena para potenciar las posibilidades de los servicios automatizados operados por voz: los voice pods. Estamos hablando del Amazon Echo, el Google Home o el Apple HomePod.
¿Qué es un Voice Pod?
En sí mismos, son básicamente un cilindro de hardware con micrófonos y altavoces optimizados para el “modo manos libres”, y se conectan a internet para atender las cuestiones del usuario en diversos dominios de interés. Podemos hacer preguntas generales como “A qué distancia está la Luna”, preguntas vinculadas a la información del usuario como “Dime qué citas tengo hoy en mi calendario” o incluso, con la promoción de los servicios SmartHome, podemos operar periféricos IoT como “Enciende las luces del jardín”.
Estos pods comprenden la voz del usuario y la envían a una “inteligencia superior”, en la nube, que denominaremos genéricamente ‘asistente’ que contesta la pregunta del usuario con una voz agradable en cuestión de segundos. El caso más conocido es la popular Siri de Apple.
¿Cómo se crea un Voice Pod?
¿Se pueden crear chatbots (o mejor dicho, servicios bot) personalizados a los que podamos acceder por voz a través de estos asistentes? La respuesta es sí, y pasa por crear chatbots al uso, mediante un servicio NLP a medida (Natural Language Processing), que procesa los inputs del usuario a través del asistente en cuestión y le devuelve qué debe contestar al usuario. En definitiva, es un chatbot regular en el que el canal de entrada, en lugar de ser Facebook o Slack p. ej., es uno de estos canales/asistente.
Hemos hablado de tres componentes: el pod (“cilindro sobre la mesa”), el asistente (al que le preguntas y te contesta “la distancia a la Luna”), y el servicio NLP a medida (para poder hacer chatbots a medida). A continuación, una referencia a modo de aclaración sobre los nombres comerciales para cada componente según los principales fabricantes:
- Apple:
- pod: HomePod
- asistente: Siri
- servicio NLP a medida: NLP API

- pod: Echo
- asistente: Alexa
- servicio NLP a medida: Lex
- pod: Home
- asistente: Assistant
- servicio NLP a medida: DialogFlow
¿Cómo funcionan los voice pods?
En general el funcionamiento es muy similar entre ellos:
- Los pods están ubicados generalmente en un lugar visible en una sala, para iniciar una conversación basta con decir una “palabra clave” que activa el pod (que siempre está a la escucha, y, por tanto, conectado a la corriente eléctrica y a internet por wifi). P. ej. diremos “Alexa” para activar Echo u “OK Google” para activar el Home.
- Los pods necesariamente contactan inicialmente con su respectivo 'asistente', es decir, una vez el pod está activo, se puede hacer a estos asistentes preguntas genéricas que contestarán por voz al instante, tal y como ocurre con Siri en iPhone o con Google Assistant (antes denominado “Google Voice”) en Android. A este comportamiento nos referiremos diciendo que es el asistente quien tiene el control: cualquier cuestión que el usuario plantee será procesada y contestada por el asistente.
- Se puede invocar a través del asistente una "app conversacional a medida" (en adelante "app", que podría ser algo como "mi asistente cognitivo", "ACME Bot", etc.), a la que se puede delegar el control de las preguntas/respuestas por voz de dos formas:
- Delegar totalmente el control a la app: significa que todas las preguntas que se formulen al pod se enviarán a la app (y no al asistente), es decir, el usuario estará conversando en todo momento con la app (chatbot a medida). P. ej.: si el usuario pregunta a esta app por la Luna, el pod contestará lo que el bot a medida esté entrenado a contestar a este input. En cuanto el usuario indique por voz su deseo de abandonar la app, el sistema devolverá el control al asistente principal que será el encargado de procesar y contestar al usuario en adelante.
- Trasladar preguntas a la app de una en una: en este caso, si el usuario realiza una pregunta entonces el asistente la “pasa” a la app quien contesta al usuario, pero inmediatamente se devuelve el control al asistente principal, de forma que el usuario podría preguntar a continuación por la luna y Siri/Alexa enviarán la contestación.
¿Tiene sentido utilizar un voice pod?
El pod es la alternativa natural a un dispositivo móvil o desktop para relacionarse de forma conversacional con un chatbot, pero no todo son ventajas.
- La principal característica que justifica el uso de un pod es que como hardware, está diseñado con un conjunto de micrófonos y altavoces que optimizan su uso como ‘manos libres’. Con la calidad de los dispositivos móviles actuales y los periféricos disponibles esto no es un gran problema.
- Si bien un pod estará ‘técnicamente’ (a nivel de configuración) asociado a un usuario (de Amazon, Google, etc.), conceptualmente un pod está asociado a un espacio: el salón, la sala del café, la sala de reuniones 3.B, etc. Aunque un dispositivo móvil se puede asociar también a un espacio (incluso un usuario ficticio), además permite un uso personal y en movilidad.
- La principal desventaja de un pod es que únicamente permite presentar respuestas por voz, no de forma visual, lo que puede marcar una gran diferencia respecto a dispositivos móviles con pantalla (que además de ver, permiten tocar y seleccionar). En algunos casos, no poder mostrar información gráfica marcará la diferencia: ¿cómo “lees por voz” un cuadro de mando con 20 indicadores o una receta de cocina?
- Más allá de las limitaciones funcionales, existe otra barrera muy importante hoy en día: el idioma, ya que el conjunto de idiomas soportados actualmente por los pods son muy limitados.
Si quieres saber más información y consejos sobre cómo conectar tu chatbot a una interfaz de voz y las posibilidades que ofrece utilizar un dispositivo móvil en lugar de un pod, no dudes en leer nuestro próximo artículo: La alternativa a un voice pod: Habla por voz con tu chatbot a través de un dispositivo móvil.