Cómo diseñar una estrategia de IA para incrementar el éxito de los proyectos de Machine Learning

En el Webinar “AI Strategy: Cómo diseñar una estrategia de IA para incrementar el éxito de los proyectos”, hemos compartido una visión acerca de aquellos problemas generales que hacen que proyectos de Machine Learning o de Inteligencia Artificial no tengan los resultados esperados.

En este artículo te compartimos un resumen con el contenido del webinar. Recuerda que, si quieres entrar en más detalle, siempre puedes ver la grabación del mismo.

Accede a la grabación del webinar haciendo click aquí

En esta ocasión contamos con José Torre como ponente, CTO de Enzyme, quien está a cargo del departamento responsable de la construcción de plataformas de Machine Learning e inteligencia artificial para distintos sectores, entre ellos el farmacéutico, retail y healthcare.

IA Strategy - Estrategia Inteligencia Artificial

¿Por qué fallan los proyectos de AI?

En el pasado evento VB Transform de 2019 durante la ponencia "What the heck does it even mean to “Do AI”?(1), se compartió que solo el 13% de los proyectos de Machine Learning llegaban a producción, por lo tanto, el 87% restante fallaban cuando intentamos pasar de la Proof of Concept a producción.

Un ejemplo real de ello, según la revista TechnologyReview, durante la etapa de confinamiento, se crearon cientos de herramientas de inteligencia artificial para tratar de detectar o ayudar en la lucha contra la COVID-19, pero, a la hora de la verdad ninguna de ellas resultó útil.

¿Cuales fueron algunos de los motivos por los que esto sucedía?

Data Leakage

Estas soluciones de IA realizadas se pensaron más desde el punto de vista de la investigación o laboratorio más que desde su aplicación práctica. Una de las premisas del fracaso de estos proyectos es que experimentaron un problema de datos. La mayor parte de los datasets que se utilizaron venían de fuentes diversas, con lo cual, muchas de estas imágenes estaban duplicadas en el mundo de ML, lo que se conoce como Data Leakage.

Concept Drift o desviación de concepto

También hubo fallos de conceptos de aplicación, dado que, para detectar una neumonía convencional, por ejemplo, la mayor parte de las imágenes que se tomaron para poder entrenar estos nuevos modelos eran de pacientes graves, por lo que las fotografías se tomaban de estas personas tumbadas boca abajo.

Sin embargo, cuando llega una persona con un estadio más leve de la enfermedad, se le hace una radiografía en posición vertical. Esto hace que el elemento, en este caso, los pulmones, adquieren distinta conformabilidad por efecto de, entre otras cosas, la gravedad y, probablemente, el resultado se verá afectado.

“No podemos entrenar modelos con datos que no simulen el escenario real de producción”.

Task Ambiguity o ambigüedad de tareas

Otro de los problemas a los que se enfrentaron los usuarios de estos modelos cotidianos fue la ambigüedad de las tareas, sobre todo de la parte de etiquetado. La mayor parte de las imágenes, que, en este caso, eran de personas adultas, no podría detectar la COVID-19 en pulmones más pequeños, dado que no encuentra datos etiquetados para este tipo de patrones.

Neglected Data Preprocessing

Principalmente, este tipo de experimentos se basan no en generar una mayor cantidad de datos precisos y homogéneos, sino que pretenden invertir mucho tiempo en la codificación, modelización y generación del algoritmo. Para resolver esto, se necesita un cambio de perspectiva del mundo Model Centric a Data Centric.

“Un minuto de tiempo que se invierte en generar un buen dataset tiene 10 veces más impacto que el si lo utilizamos en para la codificación”.

Principales enemigos para implementar una estrategia de IA

Algunos de los principales enemigos para implementar una estrategia de IA exitosa son:

No hay suficiente personal cualificado: Es muy difícil encontrar personas que tengan un gran dominio de las tecnologías.
Poca claridad acerca de las diferencias entre Data Science y el desarrollo de Software tradicional: La ciencia de datos es investigación e ingeniería, y se desarrolla como un modelo científico con iteraciones y experimentación.
Volumen y calidad de los datos: Para desarrollar un algoritmo, se necesita destinar un tiempo considerable (e incluso mayor que a la creación del código), a la generación y obtención de datos de calidad y a la integración de los modelos dentro de una arquitectura corporativa.
Etiquetado de los datos: El etiquetado requiere de personal cualificado para llevarse a cabo, el cual es escaso y costoso.
Las organizaciones son silos: En la mayoría de las organizaciones, los datos residen en diferentes lugares con diferentes restricciones de seguridad y formatos. Se debe trabajar en la homogeneización de la información.
Falta de colaboración: El desafío anterior se profundiza cuando las personas responsables no colaboran entre sí. Los diferentes perfiles deben entender sus inputs y outputs y trabajar en conjunto.
Proyectos técnicamente improbables: La mayoría de las empresas tienden a apuntar a un proyecto hiperambicioso, pero es mejor centrarse en un solo proyecto alcanzable y apuntar a un desafío comercial específico.
Alineamiento del problema entre el equipo técnico y el departamento de negocio: Muchas veces, los proyectos de ML se inician sin una alineación clara de las expectativas, los objetivos y los criterios de éxito del proyecto.
Falta de estrategia de datos: Antes de abordar un problema de IA o ML de manera industrializada, es necesario tener estructurado el dataset o recopilación de la información.
Falta de soporte de liderazgo: Es difícil encontrar líderes que entiendan el impacto de estas tecnologías para que se apliquen de manera eficiente.

Proyecto de inteligencia artificial vs. proyecto de Software

En el desarrollo de software convencional, lo que tenemos es una serie de datos que están dentro de nuestros sistemas y generamos un programa en el que una acción resulta en una reacción. Pero, cuando vienen, por ejemplo, clientes nuevos, el sistema no sabe qué hacer porque está basado en reglas escritas que hemos codificado.

En el caso de Machine Learning, el enfoque es totalmente diferente: nosotros damos los datos y el sistema nos da las reglas. Tal y como su nombre indica, interviene el aprendizaje ya que, cuando las personas nos encontramos ante una nueva situación, en función de los conocimientos (datos) que tengamos y nuestra experiencia, responderemos.

Ventajas de una estrategia de IA

Es por eso que los proyectos de software tradicional están compuestos solo de código, donde nosotros ponemos las reglas, las directrices. El software solo cambia cuando yo cambio las reglas.

En cambio, en el caso de un proyecto de Machine Learning, se complica más, porque se trabaja con modelos con lo cual vamos a tener, al menos, tres variantes: el código, los modelos y los datos.

En un proyecto de "ML", si cambia el modelo, el dato o el código, se generarán versiones totalmente distintas.

Desventajas de un proyecto de software tradicional

Para mejorar un proyecto de software, debemos aplicar mejoras sobre el código. Por ejemplo: buscar nuevas reglas, mejorar las que ya tenemos, mejorar la eficiencia en el acceso a una base de datos, etc.

En cambio, en un proyecto de ML, hay diferentes formas de mejorarlo y estas mejoras se basan en el enfoque que tengamos. Modelo-centrista, si decidimos invertir tiempo en mejorar el modelo o data-centrista si invertimos tiempo en mejorar la calidad de los datos.

Mientras que el enfoque centrado en la estrategia de IA busca mejorar el rendimiento a partir del trabajo en el modelo, el enfoque centrado en los datos busca conseguirlo mejorando los datos.

Data drifting en la estrategia de IA

Por último, otro de los elementos que diferencia un proyecto de software de un proyecto de Machine Learning es lo que nosotros conocemos como Data Drifting.

A medida que avanza el comportamiento del usuario, se modificarán también los datos que obtenemos de él. Debemos entonces, reentrenar el modelo con los nuevos datos para evitar que estos modelos queden desfasados.

Pasar de un PoC (proof of concept) a un proyecto de estrategia de IA en producción

unnamed (2)

Así como en la cocina, en el mundo del desarrollo de modelos de IA, el científico de datos debe buscar cuáles son los “ingredientes”, que no van a cambiar, y repetirá el proceso para encontrar cuál es el mejor “plato” (resultado). El verdadero secreto está en reconocer cuándo es momento de parar y enviar el modelo a producción para testearlo, porque la iteración carece del contacto con clientes.

Con la evolución de los usuarios, los datos cambiarán, y toda esa información debe cargarse y validarse de manera automática para agilizar la operación. Aquí, llega el segundo paso que no es obtener el mejor resultado del proceso, sino el mejor resultado de negocio.

¿Cómo lo hacemos en Enzyme para asegurarnos de que una vez el proyecto se lanza a producción funcione?

En Enzyme ofrecemos el servicio de AI Strategy para ayudar a las compañías a implementar su estrategia de Inteligencia Artificial o Machine Learning exitosamente.

Ponte en contacto ahora para empezar a optimizar los recursos de tu organización de la mano de la IA y mejora así los resultados de tu estrategia de Inteligencia Artificial y por ende, los resultados del negocio.

(1) What the heck does it even mean to “Do AI”? | Business AI Integration | VB Transform 2019 - youtube.com/watch?v=EzmTZlho-EI