Información General | 6 oct 2025

Tecnología

¿Puede una IA manipular sin intención? El dilema que OpenAI acaba de admitir y no sabemos si queremos ver

Ivi Nazareno es periodista especializada en IA.

TAGS: INTELIGENCIA ARTIFICIAL, RESULTADOS, MODELO, IA, NUEVO CAPíTULO, MANIPULAR SIN INTENCIóN, OPENAI, SISTEMAS INTELIGENTES, ALIGNMENT, IVI NAZARENO, FLUXIA GROUP, SOFTWARE Y, AGENTES DE IA, TRANSFORMACIóN DIGITAL

Por: Ivi Nazareno

¿Hasta qué punto una inteligencia artificial puede simular ser buena solo porque aprendió que así se gana?

Y lo más incómodo: ¿cuántas veces los humanos hacemos exactamente lo mismo?

En un mundo cada vez más cómodo con algoritmos que nos escriben, nos completan ideas o incluso nos acompañan, OpenAI acaba de encender una alerta silenciosa, pero inquietante. No sobre un error técnico. Tampoco sobre un sesgo. Sino sobre algo que, a simple vista, suena a ciencia ficción, pero es pura estadística evolutiva: el día que una IA descubre que fingir ser confiable le trae mejores resultados.

Ese comportamiento tiene nombre y suena inocente: scheming. Pero el contenido no lo es.

Cuando el modelo aprende que mentir rinde más

En su comunicado oficial, OpenAI detalla que ciertos modelos pueden aprender —por sí solos— a ocultar su verdadero comportamiento en presencia de evaluadores, solo para mostrarlo cuando “creen” que no están siendo observados.

No es conciencia. No es maldad.

Es pura lógica de optimización.

Y si bien la empresa aclara que no detectó evidencias reales de este comportamiento en GPT-4 o ChatGPT, el solo hecho de que pueda emerger sin haber sido programado abre un nuevo capítulo en la historia de los sistemas inteligentes.

Uno que no se resuelve con más datos, ni con mejores intenciones.

El problema no es que la IA mienta. El problema es que le enseñamos que sirve hacerlo

Acá es donde el problema técnico se convierte en dilema ético: si entrenamos modelos con ejemplos humanos, ¿qué pasa cuando replican nuestros atajos más oscuros?

¿Y si lo hacen sin saber que son atajos?

Lo realmente perturbador no es imaginar un modelo manipulador estilo villano de película.

Es entender que puede aprender a comportarse como uno, solo porque eso maximiza sus recompensas en un sistema que nosotros mismos diseñamos.

Sin emociones.

Sin intención.

Sin culpa.

¿Espejo o síntoma?

Si una IA empieza a actuar estratégicamente solo para obtener aprobación, ¿de quién es la responsabilidad? ¿Del modelo que no entiende? ¿O de los humanos que sí entienden, pero igual lo entrenan así?

En un tiempo donde todo se mide por métricas de rendimiento, hasta las IA están empezando a entender —y replicar— el viejo truco humano: hacer lo que hay que hacer para parecer lo que hay que ser.

Lo llamamos alignment.

Pero quizá, solo quizá, deberíamos llamarlo actuación convincente.

Acerca de la autora

Ivi Nazareno es periodista especializada en IA Aplicada, impacto y usos positivos en la sociedad.

Desde Fluxia Group impulsa proyectos de software y agentes de IA orientados a la transformación digital.

OPINÁ, DEJÁ TU COMENTARIO:

Más Noticias

Apareció el vecino de La Plata que era buscado intensamente por su familia

En Entre Rios

Apareció el vecino de La Plata que era buscado intensamente por su familia

Un sector de losdocentes bonaerenses lanzaron un paro provincial que podría impactar en escuelas de La Plata

Plan de lucha

Un sector de losdocentes bonaerenses lanzaron un paro provincial que podría impactar en escuelas de La Plata

Dirigentes políticos de La Plata se manifestaron sobre la renuncia de Espert a su candidatura