

Por: Ivi Nazareno
¿Hasta qué punto una inteligencia artificial puede simular ser buena solo porque aprendió que así se gana?
Y lo más incómodo: ¿cuántas veces los humanos hacemos exactamente lo mismo?
En un mundo cada vez más cómodo con algoritmos que nos escriben, nos completan ideas o incluso nos acompañan, OpenAI acaba de encender una alerta silenciosa, pero inquietante. No sobre un error técnico. Tampoco sobre un sesgo. Sino sobre algo que, a simple vista, suena a ciencia ficción, pero es pura estadística evolutiva: el día que una IA descubre que fingir ser confiable le trae mejores resultados.
Ese comportamiento tiene nombre y suena inocente: scheming. Pero el contenido no lo es.
En su comunicado oficial, OpenAI detalla que ciertos modelos pueden aprender —por sí solos— a ocultar su verdadero comportamiento en presencia de evaluadores, solo para mostrarlo cuando “creen” que no están siendo observados.
No es conciencia. No es maldad.
Es pura lógica de optimización.
Y si bien la empresa aclara que no detectó evidencias reales de este comportamiento en GPT-4 o ChatGPT, el solo hecho de que pueda emerger sin haber sido programado abre un nuevo capítulo en la historia de los sistemas inteligentes.
Uno que no se resuelve con más datos, ni con mejores intenciones.
Acá es donde el problema técnico se convierte en dilema ético: si entrenamos modelos con ejemplos humanos, ¿qué pasa cuando replican nuestros atajos más oscuros?
¿Y si lo hacen sin saber que son atajos?
Lo realmente perturbador no es imaginar un modelo manipulador estilo villano de película.
Es entender que puede aprender a comportarse como uno, solo porque eso maximiza sus recompensas en un sistema que nosotros mismos diseñamos.
Sin emociones.
Sin intención.
Sin culpa.
Si una IA empieza a actuar estratégicamente solo para obtener aprobación, ¿de quién es la responsabilidad? ¿Del modelo que no entiende? ¿O de los humanos que sí entienden, pero igual lo entrenan así?
En un tiempo donde todo se mide por métricas de rendimiento, hasta las IA están empezando a entender —y replicar— el viejo truco humano: hacer lo que hay que hacer para parecer lo que hay que ser.
Lo llamamos alignment.
Pero quizá, solo quizá, deberíamos llamarlo actuación convincente.
Ivi Nazareno es periodista especializada en IA Aplicada, impacto y usos positivos en la sociedad.
Desde Fluxia Group impulsa proyectos de software y agentes de IA orientados a la transformación digital.