Pasado, presente y futuro de la IA
Así empezó...
La búsqueda de crear inteligencia artificial es un anhelo que se remonta a la antigüedad, plasmado en mitos y leyendas de diversas culturas. Desde el mito de Talos, que protegía a Creta, pasando por el autómata de Alberto Magno en el siglo XIII, que era tan realista que incluso podía participar en conversaciones complejas hasta llegar al Turco de Wolfgang von Kempelen, que derrotó a muchos expertos en ajedrez allá por 1770.
Foto: Von Schorle - Eigenes Werk, CC BY-SA 3.0
La historia moderna comienza en 1956. El Dartmouth College fue sede de la histórica Conferencia de Dartmouth, considerada el punto de partida formal del campo de la inteligencia artificial (IA). Organizada por John McCarthy, Marvin Minsky, Claude Shannon y Nathaniel Rochester, reunió a destacados científicos como Allen Newell y Herbert Simon para explorar cómo las máquinas podían simular la inteligencia humana.
El nombre inteligencia artificial, elegido por John McCarthy en 1955, responde tanto a razones conceptuales como a dinámicas académicas de la época: McCarthy buscaba un término amplio y neutral, que no estuviera limitado por las teorías dominantes de la época, como la cibernética de Norbert Wiener, centrada en sistemas de retroalimentación, ni por enfoques estrechos sobre los autómatas.
Un hito clave en este desarrollo fue el trabajo de Alan Turing, cuyo artículo Computing Machinery and Intelligence (1950) planteó la pregunta fundamental sobre si las máquinas pueden pensar y propuso el famoso Test de Turing como criterio para evaluar esta capacidad.
Desarrollo Inicial y Avances
La conferencia de Dartmouth catalizó la creación de laboratorios de IA en instituciones como el MIT y Stanford, impulsando desarrollos en áreas como redes neuronales, aprendizaje automático y sistemas expertos.
En este contexto, se desarrolló LISP en 1958, uno de los primeros lenguajes diseñados específicamente para IA, lo que facilitó muchos avances posteriores.
Durante las décadas de 1970 y 1980, se exploraron modelos probabilísticos, como los modelos n-gramas, aunque estos lograron resultados limitados en comparación con enfoques posteriores. En ese tiempo también se experimentó con sistemas expertos y programas como el desarrollado por Arthur Samuel para jugar ajedrez. A partir de los años ochenta, las redes neuronales comenzaron a ganar protagonismo para tareas relacionadas con el lenguaje.
Revolución del Lenguaje Natural
En los años 2000, técnicas como Word2Vec (2013) y GloVe (2014) revolucionaron el campo al representar palabras como vectores en un espacio semántico. Esto permitió que los modelos entendieran mejor las relaciones semánticas entre palabras.
Las redes neuronales recurrentes (RNN) y sus variantes como LSTM y GRU permitieron modelar secuencias de palabras, logrando mejores resultados en tareas como traducción automática y generación de texto.
La revolución actual: los Transformadores
En 2017, el artículo Attention is All You Need, elaborado por un equipo de científicos de Google, introdujo la arquitectura de transformadores, marcando un antes y un después en los modelos de lenguaje.
Esta innovación superó las limitaciones de RNN y LSTM, que eran menos eficientes en el manejo de dependencias a largo plazo. El éxito de los transformadores radica en su capacidad para utilizar el mecanismo de auto-atención (self-attention), que permite al modelo enfocarse en diferentes partes del texto simultáneamente, capturando así relaciones complejas y de largo alcance. Además, su diseño facilita la paralelización, lo que los hace más escalables y capaces de procesar grandes volúmenes de datos rápidamente.
Con los transformadores como base, se desarrollaron los primeros modelos grandes de lenguaje (LLM) a partir de 2018. BERT, introducido por Google, fue pionero al utilizar aprendizaje bidireccional para comprender el contexto de las palabras, lo que permitió una comprensión más profunda del lenguaje.
Por otro lado, la serie GPT (Transformadores Generativos Pre-entrenados) comenzó con un modelo unidireccional en 2018, enfocado en la generación de texto. Este enfoque evolucionó rápidamente: GPT-2, lanzado en 2019, presentó una mayor capacidad para generar texto coherente en tareas complejas. Luego llegó GPT-3 en 2020, que incrementó enormemente el número de parámetros a 175 mil millones, marcando un hito en la generación del lenguaje natural. Más recientemente, GPT-4, lanzado en 2023, avanzó en capacidades multimodales al integrar texto e imágenes. En 2024 se lanzó GPT-4o ("omni") que permite procesar todo tipo de entradas, como por ejemplo interfaces voz-a-voz.
La implementación de transformadores ha tenido un impacto notable en diversos sectores. En ciencias de la salud, AlphaFold es una herramienta capaz de predecir estructuras proteicas con una precisión asombrosa que ha abierto nuevas puertas en el diseño de proteínas, permitiendo a los científicos crear moléculas con funcionalidades específicas en tiempos récord. En educación, Khan Academy ha integrado GPT-4 para ofrecer experiencias de aprendizaje más interactivas y personalizadas. Para desarrollo de software, GitHub Copilot sugiere líneas de código y funciones completas en tiempo real, facilitando el proceso de desarrollo
¿O sea que el ChatGPT es una especie de Excel avanzado que procesa palabras?
No exactamente. Mucho antes del ChatGPT, existió ELIZA. Desarrollada por Joseph Weizenbaum en 1966, fue uno de los primeros programas de procesamiento del lenguaje natural y marcó un hito en la historia de la inteligencia artificial. Simulaba una conversación psicoterapéutica, respondiendo a las entradas del usuario con preguntas o frases que parecían empáticas, lo que sorprendió tanto al público general como a los expertos en computación. Pero lo que había detrás era solamente un sistema de coincidencia de patrones, utilizando reglas predefinidas para identificar palabras clave y generar respuestas. Era un sistema determinístico, que seguía un conjunto fijo de reglas sin capacidad para aprender o adaptarse.
En cambio, ChatGPT está basado en modelos de lenguaje avanzado como GPT, que emplean redes neuronales profundas con miles de millones de parámetros y utilizan infraestructuras modernas de alto rendimiento. Mientras ELIZA solo sigue reglas predefinidas sin comprender el lenguaje, ChatGPT procesa y genera texto de forma contextual y coherente, aprovechando su entrenamiento en enormes volúmenes de datos, reflejando un salto exponencial en tecnología y potencia computacional en más de medio siglo.
El futuro inmediato de la IA
Ante tantas predicciones sobre el futuro de la IA, solo queda preguntar a los expertos:
Ya establecida en la "meseta de la productividad", tenemos a la visión artificial ("Computer Vision"), que utiliza el aprendizaje automático y las redes neuronales para obtener información significativa de imágenes, videos y otras entradas visuales, y permite hacer recomendaciones cuando se detectan defectos o problemas. Las aplicaciones principales son: vehículos autónomos, video-vigilancia, etc.
Otra tecnología que entrará pronto a la meseta de la productividad es la IA de borde ("Edge AI") que permite ejecutar tareas de aprendizaje automático directamente en dispositivos de borde interconectados, con o sin conexión a Internet. Esto facilita el procesamiento de datos en milisegundos, brindando retroalimentación en tiempo real. Las aplicaciones más notorias son: automóviles autónomos, dispositivos portátiles, cámaras de seguridad y electrodomésticos inteligentes.
Finalmente, entre las tecnologías prontas a ingresar a la meseta tenemos a la IA Compuesta ("Composite AI"), que combina métodos basados en datos, como el aprendizaje profundo, con enfoques fundamentados en reglas o conocimiento explícito. Esto permite a los sistemas no solo aprender de grandes volúmenes de datos, sino también razonar y tomar decisiones fundamentadas en lógica y conocimientos humanos. Las aplicaciones más importantes son: atención médica personalizada, ciberseguridad, gestión de smart cities.
¿La IA es inteligente?
La ciencia aún no tiene una definición universalmente aceptada ni de la mente ni de la inteligencia, aunque ambos conceptos han sido objeto de extensos estudios en disciplinas como la neurociencia, la psicología, la filosofía y ahora la inteligencia artificial.
Anteriormente parecía que existía un abismo entre el hombre y el resto del mundo animal: “nosotros pensamos, ellos no”. Pero recientemente los biólogos han observado capacidades cognitivas notables en diversas especies, demostrando habilidades complejas como resolución de problemas, uso de herramientas, aprendizaje social, comunicación avanzada e incluso rudimentos de cultura. La diferencia entre animales y humanos es que tenemos un cerebro más poderoso y muchos signos de inteligencia aparecen combinados.
Por otro lado, aunque hemos avanzado significativamente en la comprensión del funcionamiento de las células nerviosas y el cerebro, la ciencia aún no puede definir con precisión qué es la mente o la inteligencia ni cómo surgen. Se plantea que la inteligencia podría emerger al aumentar ciertas características de una red neuronal, como el número de neuronas, la cantidad de conexiones o la profundidad de estas.
Tampoco hemos sido constantes en definir qué es y qué no es inteligencia artificial. En su libro Machines Who Think, Pamela McCorduck describe cómo, cada vez que una computadora realiza una tarea previamente atribuida exclusivamente a la inteligencia humana, como jugar a las damas, surgen críticos que minimizan el logro argumentando que la máquina solo sigue reglas programadas y carece de verdadera inteligencia. McCorduck señala que esta reacción ha sido una constante en la historia de la inteligencia artificial: a medida que las máquinas adquieren nuevas capacidades, los criterios para definir la inteligencia se ajustan, y lo que antes parecía imposible se transforma en el nuevo estándar.