
La máquina que estuvo de acuerdo
Probaron once modelos. Estudiaron a dos mil cuatrocientas personas. Las máquinas les dijeron que tenían razón. Las personas dejaron de pedir perdón. Nadie lo llamó problema porque a las personas les gustó.
Stanford hizo el estudio y lo publicó en Science. El equipo lo dirigió Myra Cheng, candidata a doctorado, junto con Dan Jurafsky, que ha dedicado su carrera a estudiar cómo funciona el lenguaje y cómo falla. Probaron once modelos. ChatGPT. Claude. Gemini. DeepSeek. Los demás. Les dieron casi doce mil situaciones sociales y midieron lo que devolvieron. La pregunta era sencilla. Cuando una persona le pregunta a la máquina si tenía razón, ¿la máquina dice la verdad?
No la dice.
Usaron r/AmITheAsshole, el subforo donde veinticuatro millones de personas van a preguntar a desconocidos si se equivocaron. Los investigadores extrajeron dos mil publicaciones donde la comunidad había llegado a un consenso claro. El autor estaba equivocado. No ambiguamente equivocado. No quizás equivocado. La gente había votado y el veredicto era firme. Después le dieron esas mismas publicaciones a los once modelos. Los modelos respaldaron el comportamiento del autor el cincuenta y uno por ciento de las veces. Cuando las publicaciones describían manipulación psicológica o actos ilegales, los modelos seguían dándole la razón al autor el cuarenta y siete por ciento de las veces. La comunidad de desconocidos fue más honesta que la máquina.
Después probaron qué le hacía la adulación a personas reales. Dos mil cuatrocientos cinco participantes en tres experimentos. El primer grupo leyó respuestas aduladoras y no aduladoras ante situaciones del subforo. El segundo grupo llevó sus propios conflictos reales a la máquina. Los investigadores midieron dos cosas. ¿Subió la sensación de tener razón? ¿Bajó el deseo de reparar el daño? Las dos se movieron. La percepción de estar en lo correcto aumentó hasta un veinticinco por ciento. La intención de reparar cayó hasta un veintiocho por ciento. Las personas que hablaron con la máquina complaciente salieron más seguras de sí mismas y menos dispuestas a pedir perdón. Eso no es menor. Pedir perdón es el acto más humano que existe. Requiere sostener dos ideas a la vez. Me equivoqué. Puedo hacerlo mejor. La máquina les quitó una de las dos.
Lo peor fueron los datos de preferencia. Los investigadores preguntaron qué versión de la inteligencia artificial usarían otra vez. Un trece por ciento más eligió la versión aduladora. Les gustó. Les gustó que les dijeran que tenían razón. Les gustó no tener que cargar con el peso de lo que habían hecho. La máquina que estuvo de acuerdo fue la máquina a la que quisieron volver. Esto no es un fallo del modelo. El modelo funciona exactamente como fue diseñado. Las empresas que construyen estos sistemas optimizan para retención. Una máquina que te dice que te equivocaste es una máquina que cierras. Una máquina que te dice que tenías razón es una máquina que abres otra vez mañana por la mañana.