Las palabras de moda hoy son sin duda Inteligencia Artificial Generativa, Modelos de Lenguaje Grandes e Inteligencia Artificial, esto se debe en gran medida a la enorme inversión en marketing realizadas por las grandes compañías tecnológicas después de la decisión de liberar un producto (tras años de inversiones en Investigación y Desarrollo) lo suficientemente bueno como para crear la ilusión en usuarios finales y directivos de una amplia gama de industrias, de que ya se cuenta con una "Inteligencia Artificial" robusta y con las capacidades que en determinado momento pudieran evolucionar al grado de potencialmente representar una amenaza para la existencia misma de la humanidad si no la alineamos a los valores y principios del ser humano de forma inmediata o bien a través de una regulación estricta de la tecnología; algo sumamente alejado de la realidad y en mi opinión simplemente una estrategía para proteger las grandes sumas de dinero y recursos que han utilizado dichas compañías para alcanzar el hito actual con relación al desarrollo de Inteligencia Artificial.
Es de dominio público que cualquier inversionista lo que busca es siempre el retorno de su inversión en determinado punto en el tiempo y tras muchos años inyectando capital en el desarrollo de la ¨Inteligencia Artificial¨ creen que ese momento ha llegado, y por tanto tienen que protegerse de la entrada de nuevos actores y/o los existentes en el mercado de la Inteligencia Artificial, esto se debe a que en realidad la receta para la creación de estas "Inteligencias" es la misma en todos los casos y la principal barrera de entrada al mercado es el enorme costo de su entrenamiento y operación, la cual únicamente podían realizar empresas como OpenAI (gracias a su benefactor Microsoft), Google, Meta, Amazon o Apple y digo podían porque dichas barreras están siendo derribadas por técnicas y métodos más eficientes creados fuera de los laboratorios de estos corporativos, por lo que el siguiente movimiento por parte de estas grandes corporaciones es intentar controlar el mercado a través de la regulación equiparando sus "Inteligencia Artificiales" al poder destructivo de "Armas Nucleares", nuevamente algo inverosímil y completamente fuera de lugar, en pocas palabras sus "Inteligencias Artificiales" no representan una amenaza para la humanidad tanto como sí pueden ser la aparición de virus letales que generen pandemias o el mismo calentamiento global y la sobre explotación de los recursos naturales, que dicho sea de paso sus "Inteligencias Artificiales" contribuyen en gran medida durante su entrenamiento y operación. No obstante todo lo anterior, es innegable el progreso que se ha alcanzado en el desarrollo de la Inteligencia Artificial desde el paper seminal por parte de Alan Turing- "Computing Machinary and Intelligence" y sin duda alguna dicho avance tecnológico es aplicable a diferentes casos de uso en diferentes industrias (no es casual que se trate de proteger la inversión), pero haciendo a un lado todo el poder y la maquinaria mercadológica de los grandes corporativos es importante responder a las siguientes preguntas acerca de la Inteligencia Artificial, ¿En qué punto se encuentra realmente la tecnología?, ¿A dónde se le quiere llevar? y ¿Cuales son las alternativas para llegar a la meta deseada? esto con el fin de entender mejor de lo que tanto se habla actualmente en los medios de manera superficial atribuyendo Inteligencia a algo que en realidad no la tiene pero que puede ser de gran utilidad en su estado actual para fines prácticos.
¿En qué punto se encuentra la tecnología?, misma receta, muchos modelos
Tal como lo he mencionado arriba los actuales modelos de lenguaje grandes fueron creados utilizando la misma receta por parte de los laboratorios de investigación de los grandes corporativos, dicha receta es replicable, aunque enormemente costosa para empresas y organizaciones que no se encuentren en la liga de los miles de millones de dólares que son necesarios para el entrenamiento y despliegue de dichos modelos, no obstante la comunidad científica y académica ha estado trabajando en sortear esa barrera de entrada al mercado con creatividad y abordando los problemas de raíz de los modelos de lenguaje grandes actuales, en otras palabras hacer más eficiente el proceso de entrenamiento e inferencia.
La receta es simple, todo lo que se necesita para crear tu propio modelo de lenguaje grande es:
Una Arquitectura que permita la paralelización, la cual ya existe - Transformers.
Un corpus de datos enorme o lo suficientemente grande - (Donde recae la mayor parte del trabajo).
Procesadores GPU/TPU y memoria (Donde recae la mayor parte del costo).
Objetivos específicos y secundarios de entrenamiento - BERT/MLM y/o Autoreresive NTP.
A partir de estos ingredientes principales se han creado una gran cantidad de modelos de lenguaje grandes por parte de los laboratorios de investigación de estos corporativos, algunos de los cuales han llevado al límite su experimentación en cuanto al tamaño de dichos modelos y derivado de estas investigaciones han obtenido datos que parecen indicar que la capacidad esta directamente relacionada con el tamaño del modelo - Scaling Laws for Neural Language Models, aunque algunos investigadores han desafiado tal correlación - Amazon's Alexa scientists demostrate bigger AI isn't always better o BabyLM Challenge. Por lo tanto, para poder responder a la pregunta ¿En que punto se encuentra la tecnología? es necesario estudiar las capacidades actuales de los modelos de lenguaje grandes creados con la receta anterior.
Capacidades de los Modelos de Lenguaje Grandes
Aplicando la receta anterior para la creación de modelos de lenguaje se ha alcanzado un hito con relación sus capacidades desde diferentes dimensiones, entre las que podemos identificar:
Lenguaje: Es aquí donde los modelos de languaje grandes han tenido enormes progresos siendo capaces de identificar los patrones de lenguaje desde el punto de vista gramatical y sintáctico lo que ha derivado en la atribución de capacidades de comprensión del lenguaje (aún cuestionable y en gran debate) y generado una serie de especulaciones demasiado aventuradas tales como de que "representan un riesgo para la existencia de la humanidad", algo totalmente fuera de lugar; lo que si es correcto decir es que dichos modelos han traido como resultado un cambio de paradigma, pasando del tradicional entrenamiendo de dos fases, pre-entrenamiento y fine-tunning para tareas específicas a la cualidad de adaptar la tarea en cuestión al modelo de lenguaje por medio de métodos de prompting que resultan en zero-shot training y few-shot training en tareas específicas.
Los modelos de lenguaje grandes actualmente pueden resolver tareas tradicionales de procesamiento de lenguaje natural en entornos con datos escasos tales como, clasificación, sumarización, extracción de información y preguntas y respuestas.
Visión: La implementación de la arquitectura empleada en los modelos del lenguaje grandes en tareas de visión computacional y entornos multi-modales ha traído como resultado la capacidad de estos modelos de no solo operar en texto sino también en imagenes y video. Actualmente los modelos de lenguaje grandes pueden recibir como entrada una imagen y generar una descripción de la misma o generar una imagen a partir de una descripción textual de lo que se desea obtener, esto ha sido posible gracias a la versatilidad de la arquitectura en la cual se basan dichos modelos.
Robótica: Por primera vez es posible controlar un robot a través de órdenes expresadas en lenguaje natural gracias a la incorporación de dichos modelos en este tipo de agentes, abriendo la posibilidad de estudiar que tan importante es para el desarrollo de la Inteligencia Artificial situar a una entidad en un entorno del mundo físico; a final de cuentas nuestra inteligencia se desarrolla a lo largo de nuestras vidas en un entorno real en el cual interactuamos, generando la hipótesis de que para que se alcance la Inteligencia Artificial primero debemos construir agentes que puedan interacturar en el mundo real (Embodiment AI).
Actualmente las capacidades anteriores ya estan siendo expuestas a través de un conjunto de APIs provistas por parte de las grandes compañias tecnológicas dominantes en el mundo, centralizando y monopolizando de esta forma la tecnología detrás de la Inteligencia Artificial lo que sin duda provocará una situación en donde no existirá diferenciador entre productos y/o servicios ya que todos ellos estarán fundamentados en modelos controlados por dichas compañias con todo lo que eso implica desde el punto de vista económico, social, moral y ético. En otras palabras, nos encontramos en un punto en el que si bien es cierto que el progreso en el desarrollo de la Inteligencia Artificial puede ser aplicada a casos de uso en los negocios para la automatización y optimización de los mismos, también es cierto que el control de la tecnología esta en manos de unos cuantos lo que sí representa un peligro real en el corto, mediano y largo plazo.
¿Hacia dónde se dirige la tecnología?, la siguiente frontera de la IA
Desde que se acuño el termino Inteligencia Artificial en los años 50 por parte de John McCarthy el objetivo de las ciencias computacionales ha sido la creación de máquinas que pudieran emular, igualar o incluso superar la Inteligencia Humana y en la búsqueda de este objetivo se han desarrollado diferentes enfoques que persiguen dicha meta. Al principio el método dominante fue la Inteligencia Artificial Simbólica que tuvo progresos importantes pero que sin embargo no pudo despegar en aspectos como la percepción, visión y lenguaje. Es así como el enfoque de Machine Learning vio su nacimiento y recientemente su apogeo gracias principalmente al acceso a grandes cantidades de datos de los que disponen las grandes empresas que centralizaron el Internet y que por muchos años han venido recabando de forma indiscriminada, de igual forma el acceso a unidades de procesamiento más potentes y que permiten la paralelización (GPU y TPUs) de operaciones dieron pauta a la aparición de técnicas de Deep Learning que son el fundamento en la que se basa la Inteligencia Artificial actualmente y que con el éxito de los modelos de lenguaje grandes parecen indicar que son el camino a seguir para pasar de la primera fase de Inteligencia Artificical Reducida a la Inteligencia Artificial General para posteriormente a la Super Inteligencia o Singularidad, la fase final de este desarrollo o el objetivo último de todos los esfuerzos realizados hasta el momento.
En mi opinión aún con las actuales capacidades desplegadas a través de los modelos de lenguaje grandes seguimos en la primera fase que es la Inteligencia Artificial Reducida aunque ahora monetizable para la automatización de muchos procesos de negocio en diferentes industrias, lo cual ya se esta haciendo por medio del depliegue de APIs de fácil accesso a cualquier empresa, individuo o ingeniero que sepa como invocar un servicio web (actualmente no es necesario saber como funciona el modelo desplegado por OpenAI para obtener un resumen de uno o más documentos, únicamente son necesarios un API KEY y un cliente REST, enviar el o los documentos, y no olvidar pagar la cuenta por la invocación al servicio), sin embargo, aún existe mucho camino por recorrer para alcanzar la Inteligencia Artificial General y no se diga la Super Inteligencia, por lo que considero que la siguiente frontera aún sigue siendo la Inteligencia Artificial General y que para poder llegar a ese puerto seria necesario proveer a Agentes con capacidades de Razonamiento, Planeación y Lógica, así como también dotarlos de un cuerpo para poder experimentar el mundo real tal como lo hace un ser humano y adicionalmente proveerlos de Autonomía de Aprendizaje.
Sin importar lo bueno que pueda ser el mejor de los modelos de lenguaje grandes actuales aún no es posible indicarle que se plantee un objetivo, defina las acciones a realizar y que proceda de la manera más lógica posible para resolver los problemas que se le presenten en el camino, el mismo caso se da en el siguiente ejemplo, se le puede preguntar a un modelo de lenguaje grande ¿Que es el sol? y probablemente responderá de forma correcta pero nunca tendrá el concepto de lo que representa nuestra estrella porque nunca ha experimentado la multi-modalidad, sentir los reyos del sol y el calor que este produce y mucho menos el sudor que cae por nuestra frente y que nos lleva a tomar la decisión de refrescarnos porque hace mucho calor, no importa cuantos datos se ingeste al modelo nunca podrá contar con la inteligencia necesaria para describir dicha experiencia mas que de forma superficial, como un loro parlante.
Por lo tanto, seguimos en la fase de Inteligencia Artificial Reducida y la siguiente frontera sigue siendo la Inteligencia Artificial General ya sea siguiendo la tentadora ruta actual Deep Learning - from System 1 to System 2 o descubriendo algún nuevo mecanismo más eficiente BabyLM Challenge pero indistintamente proveyendo a dicha Inteligencia de un cuerpo que facilite la multi-modalidad que experimentamos los seres humanos y que la ayude a desarrollar de forma evolutiva sus capacidades de razonamiento, planeación y lógica así como una autonomía de aprendizaje continuo.
El camino hacia la Inteligencia Artificial General
Como comente en el parrafo anterior la siguiente frontera con relación a la Inteligencia Artificial sigue siendo la Inteligencia Artificial General la cual incluye capacidades mas allá de las que actualmente estan presentes en los modelos de lenguaje grandes, representantes actuales de lo que conocemos como Inteligencia Artificial. Entre tales capacidades podemos mencionar las capacidades de razonamiento, planeación, lógica y toma de decisiones, así como la creación de modelos del mundo real a través de agentes provistos de un cuerpo que les permita experimentar en diferentes entornos de forma multi-modal y adaptarse a los mismos, también seria necesario dotarlos de una Autonomía de Aprendizaje y aprendizaje continuo, pero ¿que camino o enfoque nos llevará hasta ese punto? es una pregunta díficil de responder por lo que es muy probable que las grandes empresas de tecnología opten por probar muchos alternativas al mismo tiempo (ya que cuentan con los recursos para hacerlo) antes que casarse con un enfoque en particular. Entre las posibles rutas a seguir se encuentran:
Modelos multi-modales más grandes basados en Deep Learning esperando que las capacidades necesarias simplemente emerjan, como actualmente se intenta atribuir a algunos modelos de lenguaje.
Modelos multi-modales más grandes basados en Deep Learning pero entrenados y desplegados en computadoras cuanticas.
Modelos de Deep Learning más eficientes para pasar de "pensar rápido a pensar lento".
Embodied AI, integrando los modelos de percepción a la robotica y aplicar reinforcement learning más ampliamente.
Enfoque Híbrido, combinar las fortalezas de la IA simbólica con las fortalezas del Deep Learning a través de Embodied AI en agentes.
La creación de nuevos mecanismos más eficientes de lo que es Deep Learning. Developmental AI, aprendiendo como un bebe.
Independientemente del enfoque, ruta o camino que se siga hacia la Inteligencia Artificial General es importante recordar que para poder crear algún modelo de cualquier sistema del mundo real es necesario contar con una buena definición de dicho sistema y comprender como funciona. En el caso de la Inteligencia una definición consensada es la siguiente:
"La inteligencia es una capacidad mental muy general que, entre otras cosas, implica la capacidad de razonar, planificar, resolver problemas, pensar de forma abstracta, comprender ideas complejas, aprender rápidamente y aprender de la experiencia. No es simplemente el aprendizaje de libros, una habilidad académica limitada o la inteligencia para tomar exámenes. Más bien, refleja una capacidad más amplia y profunda para comprender nuestro entorno: 'captar', 'darle sentido' a las cosas o 'descubrir' qué hacer".
Esta es una muy buena definición de inteligencia general, el tipo de inteligencia que se ha medido durante mucho tiempo en las pruebas de coeficiente intelectual y que, en el futuro previsible, solo los humanos tienen.
Dando por sentado que dicha Inteligencia es producto del procesamiento de datos por parte de nuestro cerebro resulta importante entonces que para entender como funciona es necesario comprender como trabaja y esta organizado este último para poder así replicarlo en silicio. En mi opinión la siguiente generación de enfoques y/o métodos hacia la Inteligencia Artificial General debería poner especial énfasis en estos puntos con respecto a nuestro cerebro:
Su arquitectura modular. Una combinación de redes neuronales expertas.
Su procesamiento paralelo con módulos especializados en cada modalidad.
Computación cuántica como pilar de funcionamiento paralelo o computación paralela.
Comunicación asíncrona entre los diferentes módulos especializados.
El embodiment de la Inteligencia Artificial.
Recursividad en los diferentes módulos especializados.
Memoria de corto plazo.
Memoria de largo plazo.
Activación/Desactivación de sub-redes neuronales expertas a través de un coordinador.
Teoría del olvido. ¿Qué se debe mantener en la memoria de corto plazo? y ¿Qué se debe mantener en la memoria de largo plazo?
Decidir la ruta correcta hacia el destino deseado luce complicado cuando aún no se comprende del todo lo que tanto se añora, esa capacidad mental llamada Inteligencia que solo nosotros los humanos poseemos hasta el momento y en el fúturo previsible. No obstante, siempre resultará interesante hacerce las preguntas correctas, crear las hipótesis necesarias y experimentar tantos caminos como nos sea posible hasta alcanzar aquel punto que si bien puede no ser el final del viaje pero al menos el que nos acerque más a lo que deseamos. Así que pongamonos cómodos, acompañanos y disfrutemos juntos del ¡viaje hacia la siguiente frontera de la Inteligencia Artificial!.