¿En serio pensábamos que las máquinas piensan?

Pero… ¿Por qué tanto alboroto? A mí todo esto me ya parecía baastante obvio.

Cuando leí los titulares y los tweets sobre el estudio de Apple, The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity, que “expone las limitaciones del razonamiento en IA”, mi primera reacción fue de genuina perplejidad. No por los hallazgos, que admito, sí son fascinantes, sino por la sorpresa general que parecían causar. 

Puntos sobre las íes

Los investigadores de Apple hicieron algo brillantemente simple en su paper, ya que dieron a las IAs más avanzadas del momento, como Claude 3.7, DeepSeek-R1, OpenAI o1, una serie de rompecabezas graduales. Torres de Hanoi con diferentes números de discos, problemas de cruzar ríos con distintos personajes, puzzles que podían escalarse metódicamente para medir dónde exactamente se quiebra eso que llamamos “razonamiento”.

Los resultados revelaron tres niveles de realidad que cualquiera que haya usado estas herramientas reconocerá:

Problemas simples: Aquí viene lo contraintuitivo. Las IAs “normales” superaron a los modelos de “razonamiento”. Es como descubrir que tu calculadora básica es más rápida que tu smartphone para hacer sumas simples.

Problemas medianos: Los modelos que presumen de “pensar” (como o1 o DeepSeek-R1) brillan aquí. Sus largas cadenas de “razonamiento” les permiten corregir errores y llegar a soluciones correctas.

Problemas complejos: Colapso total. Todos fallan estrepitosamente. Kaput.

El dato más revelador, al menos para mí, fue que cuando los problemas se vuelven difíciles, los modelos reducen su esfuerzo de “razonamiento”, no lo aumentan. Es como si dijeran “esto está muy difícil, mejor ni lo intento”. Muy humano, por cierto, pero no exactamente lo que esperarías de una máquina que supuestamente “piensa”.

No hay razonamiento, solo predicción estadística

Aquí viene la parte que puede resultar decepcionante para algunos (aunque, honestamente, no entiendo por qué, se supone que todos lo sabemos, a lo mejor otros simplemente quieren ignorar este hecho). Eso a lo que nosotros llamamos “pensamiento” en IA es, fundamentalmente, predicción estadística muy sofisticada del siguiente token basada en patrones de entrenamiento. Gary Marcus, uno de los críticos más persistentes del hype actual, lo ha estado gritando desde los tejados, no hay evidencia de razonamiento formal en estos sistemas.

Pensémoslo como un autocorrector que (por alguna extraña razón) ha leído toda la biblioteca de Alejandría y puede completar frases con gran precisión, pero sin entender una sola palabra de lo que escribe. Esas cadenas de “pensamiento” que vemos, esos Chain of Thought que tanto nos impresionan, no son pensamiento real, sino simulación estadística de cómo luce el proceso de razonamiento humano en los datos de entrenamiento.

Es la diferencia entre un chef que entiende por qué ciertos sabores combinan y puede improvisar genialmente con ingredientes nuevos, y un robot que ha memorizado 50 millones de recetas exitosas y puede combinarlas de maneras sorprendentes, pero sin la menor idea de por qué funciona lo que funciona.

Melanie Mitchell ha señalado que las IAs actuales carecen de tres capacidades centrales del pensamiento humano. Estos son la abstracción genuina, el razonamiento analógico y la comprensión situada del contexto. Otros autores, como Judea Pearl y Gary Marcus, añaden un cuarto componente igualmente ausente en los LLMs, la comprensión causal, es decir, la capacidad de construir modelos mentales sobre el porqué de los fenómenos, y no solo describir correlaciones.

Por qué humanizamos a las máquinas

Tendemos a proyectar características humanas en todo lo que se comporta de manera compleja. Es un sesgo evolutivo sensato asumir que algo tiene intenciones (aunque no las tenga) que ignorar una amenaza real. Con la IA pasa exactamente igual. Como se expresa en lenguaje natural y sus respuestas son coherentes, asumimos procesos mentales similares a los nuestros.

Es como el efecto del ventrílocuo. El muñeco parece hablar, incluso parece tener personalidad, pero es el ventrílocuo quien tiene las cuerdas vocales. La IA parece razonar, tiene “personalidad”, pero son algoritmos matemáticos optimizando predicciones de tokens.

Este antropomorfismo no es inocente y afecta cómo regulamos la IA, cómo la implementamos en sectores críticos, y cómo preparamos a la sociedad para su impacto. Cuando llamamos “razonamiento” a lo que es reconocimiento de patrones estadísticos, cuando hablamos de que las máquinas “aprenden” o “comprenden”, estamos distorsionando nuestra percepción de sus capacidades reales.

El estudio de Apple también revela que, cuando agregaron información aparentemente relevante pero innecesaria a problemas matemáticos simples, el rendimiento cayó hasta 65% en todos los modelos. Cambiar “Oliver recoge 44 kiwis” por “Oliver recoge 44 kiwis, cinco de ellos eran más pequeños que el promedio” confundía fundamentalmente a los sistemas. Un humano ni siquiera pestañearía ante esa información adicional.

¿Qué es realmente pensar?

Un humano que aprende francés entiende que “chat” significa gato y puede usar ese conocimiento en contextos completamente nuevos, hacer chistes con él, usarlo metafóricamente. Una IA “sabe” que después de “Le petit” suele venir “chat” en ciertos contextos estadísticos, pero no tiene ni idea de que está hablando de un animal con bigotes que ronronea.

Los hallazgos de Apple confirman algo que varios de nosotros intuíamos, y es que estos sistemas enfrentan limitaciones arquitecturales fundamentales que el simple escalamiento, es decir, más parámetros, más datos, no puede superar. No es que en realidad necesiten ser más grandes; es que están haciendo algo fundamentalmente diferente a lo que los humanos llamamos “pensar”.

Respeto sin mitificación

Las IAs son herramientas extraordinarias que merecen respeto por su utilidad, no veneración por una consciencia inexistente. Como un martillo que, por más excepcional que sea, sigue siendo un martillo, no una extensión orgánica de nuestra mano.

Es mejor que usemos la IA con inteligencia, aprovechando sus fortalezas reales, como el reconocimiento de patrones, el procesamiento masivo, la consistencia inhumana, sin esperar lo que no puede dar, que es comprensión genuina, creatividad real, juicio moral, o esa cosa misteriosa que llamamos sabiduría.

Quizás la verdadera inteligencia artificial llegue algún día. Tal vez requiera arquitecturas completamente diferentes, enfoques híbridos que combinen lo simbólico con lo neural, paradigmas que aún no imaginamos. Mientras tanto, disfrutemos de estos “loros” extraordinariamente útiles, pero recordando siempre que las plumas no hacen al ave… y los tokens no hacen al pensamiento.

El estudio de Apple no nos dice que la IA sea inútil, pero nos recuerda que es útil por lo que realmente es, no por lo que proyectamos que es, una distinción que vale la pena mantener clara.

Scroll al inicio