Test de Turing y criterio conductual

Explicación

El Test de Turing fue propuesto por Alan Turing (1912-1954) en su artículo seminal «Computing Machinery and Intelligence» publicado en la revista Mind en 1950. Turing, matemático británico, padre de la computación teórica moderna y héroe en el descifrado de Enigma durante la Segunda Guerra Mundial, planteó en este artículo la pregunta «¿pueden las máquinas pensar?» y, al considerar la pregunta mal formulada, propuso sustituirla por un criterio operacional que llamó «the imitation game»: si una máquina puede conversar con un interrogador humano de modo indistinguible de un humano, entonces debemos concederle la categoría de pensante.

El test original se concebía del siguiente modo: el interrogador se comunica por texto (para eliminar pistas físicas) con dos interlocutores ocultos, uno humano y otro una máquina. Ambos tratan de convencerlo de que son humanos. Si tras un tiempo razonable, el interrogador no consigue distinguirlos más del 50% de las veces, la máquina «pasa» el test. Turing predijo que hacia el año 2000 habría máquinas que pasarían el test con facilidad.

El test tiene virtudes: es operacional (da un criterio concreto, no especulativo); es conductual (no requiere especulaciones sobre estados internos); es antropocéntrico en buen sentido (usa la conversación humana, el lenguaje, como banco de pruebas). Pero también ha sido muy criticado. John Searle, en su famoso argumento del «cuarto chino» (1980), argumentó que una máquina podría pasar el test sin entender realmente nada: podría simplemente manipular símbolos según reglas, sin comprensión genuina. Lo importante sería la semántica (comprensión), no la sintaxis (manipulación formal).

Otros críticos señalan limitaciones: el test es sólo sobre habilidades verbales (no considera consciencia corporal, emociones, creatividad en dominios no lingüísticos); es relativamente fácil de engañar con trucos conversacionales; no distingue entre comprensión y simulación hábil; no aborda la subjetividad fenoménica (qualia). Defensores responden que Turing estaba proponiendo un criterio pragmático, no una definición metafísica de pensamiento o consciencia.

En los últimos años, con la emergencia de grandes modelos de lenguaje (GPT, Claude, etc.), el test ha vuelto al centro del debate. Algunos sostienen que los LLMs modernos ya pasan versiones razonables del test de Turing en conversación. Otros argumentan que el test fue siempre un estándar poco exigente (low bar) y que lo genuinamente importante —¿tienen los LLMs comprensión? ¿consciencia? ¿intención?— no se responde por el test. Han surgido propuestas de tests más sofisticados (Marcus y colegas).

Para la teoría de la consciencia, el test de Turing ha sido a la vez provocador y limitante. Provocador porque coloca la cuestión de la mente en términos verificables, no meramente especulativos. Limitante porque tiende a reducir mente a comportamiento observable, dejando fuera aspectos cruciales (subjetividad, consciencia fenoménica). Hoy, con la sofisticación creciente de los sistemas de IA, el debate sobre si máquinas pueden realmente pensar, comprender, ser conscientes, es más urgente que nunca y requiere criterios más finos que el test original. Turing mismo probablemente entendía esto: su artículo es filosóficamente mucho más rico de lo que su legado popular sugiere. Como punto de partida histórico y como pivote para discutir qué entendemos por inteligencia y consciencia artificial, el test de Turing sigue siendo referencia insoslayable.

Puntos fuertes

Reformulación operacional que evita discusiones metafísicas estériles.
Fundamento filosófico de la IA y el funcionalismo.
Criterios intersubjetivos replicables.
Anticipa y responde objeciones clásicas.
Puente epistemológico con el problema de otras mentes.

Principales críticas

Confunde simulación conductual con consciencia fenoménica.
Centra evaluación en diálogo, ignorando aspectos encarnados.
Puede dar falsos positivos (sistemas estadísticos sin comprensión).
Puede dar falsos negativos (consciencias no verbales o alienígenas).
Insuficiente tras avances en LLMs: el criterio necesita refinarse.

Explicación

Puntos fuertes

Principales críticas

Para profundizar

Conexiones con otras teorías