Las tres fases para poner en marcha tu modelo de IA

Continuamos con la segunda parte de esta serie de artículos sobre inteligencia artificial y SAP. En el artículo anterior, explicamos qué modelo de IA se necesita para llevar a cabo un proyecto con éxito, repasamos qué es la IA y cómo se relaciona con otros conceptos como el de Machine Learning o Deep Learning.

Además, explicamos los tipos de algoritmos y por qué las métricas son importantes para evaluar la calidad de los modelos de IA. Sobre esta base, en el artículo de hoy desarrollaremos el ciclo de vida de IA; es decir, qué fases es necesario desarrollar para poner en marcha un modelo de Machine Learning.

El ciclo de vida del modelo de IA y sus fases

Son tres las etapas que conforman el ciclo de vida del modelo de IA. Es muy importante resaltar que cada una de estas etapas se fundamenta en la anterior, por lo que podemos pensar en el ciclo de vida de IA como una pirámide cuya base soporta todo el peso del modelo.

El primer escalón, por tanto, será la base sólida sobre la que se construirá todo el sistema. Este primer paso consiste en definir el proyecto y recolectar los datos. Estos, como no podía ser de otro modo, son la base de todo.

El siguiente paso consiste en construir el modelo y, por último, en la tercera etapa o escalón de la pirámide se dedicará todo el esfuerzo a utilizar el modelo en un escenario. Veamos cada una de esas etapas con algo más de detalle.

Primera fase: project scoping y data collection

Project scoping

El ciclo de vida de IA comienza con la etapa de definición. Es decir, debemos sentarnos a pensar en nuestro sistema teniendo muy claro qué queremos conseguir con él. Una buena estrategia es diseñar ciertos casos de uso que nos ayuden a identificar las necesidades de funcionamiento del proyecto.

¿Cómo saber si el proyecto está bien definido? Es muy útil contestar a estas 6 preguntas:

¿A quién vamos a ayudar con nuestro proyecto de IA?
¿De qué forma concreta se va a beneficiar el usuario con nuestro proyecto y cómo se va a medir su uso?
¿Por qué utilizar IA en nuestro proyecto es mejor que el proceso que manejamos actualmente?
¿Cuáles son los beneficios si funciona y cuáles son las consecuencias si falla?
¿De dónde vendrán los datos, cuánto cuesta conseguirlos? La gobernanza del dato es clave.
¿Cuándo debería estar listo el prototipo y en qué momento queremos que esté la solución final definida y lista para ser utilizada?

Después de contestar estas preguntas tendremos bien definido nuestro modelo. Ahora solo resta recopilar los datos y construirlo. Para hacer lo primero, data collection, deberemos hacer otra reflexión: ¿cuáles son los datos que necesitamos para obtener la información necesaria del modelo de IA que queremos desarrollar?

Data collection

Reflexionar sobre los datos que necesitamos para crear el modelo de IA nos llevará a evaluar las diversas fuentes. En el caso de IA in business, SAP es una fuente de información muy importante que se puede emplear en varios ámbitos. Sin embargo, los datos que alimentarán nuestro modelo pueden proceder también de CRM, redes sociales u otras plataformas. Otro factor a tener en cuenta en este momento del ciclo de vida de IA es el formato que tendrán nuestros datos. Por ejemplo, el formato texto tendrá mucha utilidad a la hora de recopilar datos de las redes sociales.

Ahora bien, ¿qué hacemos con estos datos? Se deben almacenar, para ello disponemos de dos tipos de estructuras que, por lo general, combinaremos a lo largo del ciclo de vida de IA:

Data lake: se trata de un conjunto de datos en bruto que no tienen una finalidad definida. Es ideal para procesar actividades relaciones con ML, predictive analytics o data discovery.
Data warehouse: en este caso los datos ya están estructurados y filtrados; es decir, se han procesado para un fin concreto. Este tipo de estructura de almacenamiento es ideal para la fase analítica, batch reporting y para las visualizaciones.

Estructura de la data collection

Es importante recordar que los datos debemos trabajarlos según la estructura optimizada que requiera nuestra ML. Los modelos necesitan unos parámetros bien definidos, así que deberemos tratar nuestros datos para asegurarnos de que tienen toda la información que requiere el modelo para hacer predicciones fiables.

El trabajo con los datos es tan importante que Enzyme cuenta con Ribosomu, una plataforma que permite gestionar todo el ciclo de vida del dato de una manera sencilla para poder utilizarlos en modelos de inteligencia artificial.

Obtención de la data collection

Una vez que sabemos dónde y de qué forma buscar los datos, los obtendremos. El siguiente paso será completar un análisis exploratorio de ellos. Este proceso es iterativo y no sigue un modelo con unos pasos establecidos. Sin embargo, sí debemos tener en cuenta buenas prácticas todos los desarrolladores ponen en práctica:

Tras obtener los datos y alojarlos en la base, añadiremos valores para corregir la aparición de valores nulos.
Estudiaremos la correlación de los datos, para ver qué pasa cuando una variable se modifica. Estas variables también son importantes en nuestro modelo. A la hora de tratar los datos, debemos tenerlas en cuenta para optimizarlos y evitar información redundante.
Escoger el grado justo de la granularidad de los datos.

Estandarizar los datos, para asegurarnos que un tipo de dato se muestra de una determinada manera. Si lo hiciera de formas distintas, se produciría un conflicto. Por ejemplo, las fechas se expresan de forma diferente en España que en un entorno anglosajón, por lo que si una de nuestras variables tiene que ver con las fechas, debemos asegurarnos que se expresa siempre igual (día/mes/año y no mes/día/año).

Segunda fase: construir el modelo de IA

Para poner en marcha esta fase, debemos tener claro cómo vamos a almacenar los datos, qué errores pueden tener estos datos y cómo los corregimos y, por último, cuál es la definición del caso de uso. Con esta base, la construcción del modelo de IA será mucho más ágil.

Podemos decir que la base del modelo de IA es que entran datos y salen resultados. Más adelante, en la medida en que probemos el modelo, podremos aplicar las mejoras y correcciones necesarias. Ahora bien, lo que sí debemos solucionar en este momento son estos dos puntos:

¿Cómo debemos enriquecer los datos para que sean de fácil acceso y tengan sentido para el caso de uso que se intenta resolver?.
¿Cómo se desarrolla el data discovery, es decir, cómo preparamos los datos para que los consuma el modelo?

Podemos elegir entre dos estrategias a la hora de construir el modelo:

AutoML: herramientas que restan dificultad a la parte del modelaje, pero no resuelven la parte de los datos. No incluye integraciones con otros modelos. Pero tienen sus ventajas, como el ahorro de tiempo y el hecho de que no se necesita un nivel de conocimiento tan elevado como sí lo requiere la solución hecha a medida. Algunos de los productos para construir el modelo con AutoML son: AutoAI, DataRobot, SAP Analytics Cloud…
Solución hecha a medida. Requiere un mayor tiempo de implementación y es más difícil que desplegar una solución con AutoML. Actualmente, dos de los lenguajes de programación más populares para el desarrollo de inteligencia artificial son Python y R.

Tercera fase: implementación en producción del modelo de IA

Ha llegado el momento de desplegar o implementar el modelo de ML. Es decir, vamos a facilitar que el modelo esté disponible en un entorno de producción desde donde puede proporcionar predicciones. A la hora de poner en producción un modelo de machine learning podemos seguir dos caminos:

Cloud function: se trata de poner en marcha nuestro modelo de machine learning en la nube. Es fácil de escalar por lo que se utiliza mucho en la actualidad.
Microservicios: más complejo y será necesario en los casos en los que el modelo de ML sea más complicado. Se trata de utilizar diferentes servicios o herramientas para desplegar nuestro modelo. En este caso, son muy útiles las tecnologías de contenedores.

En el siguiente artículo aplicaremos todos estos conocimientos sobre IA y ML a SAP. Veremos en qué escenarios podemos aplicarlo y qué mecanismos podemos obtener en el ecosistema SAP para poder llevar a cabo un proyecto de IA para nuestra empresa.