Imagina que construyes un robot super inteligente — uno capaz de leer, escribir, programar y hasta opinar sobre política — y, antes de encenderlo, te preguntas: “¿Cómo me aseguro de que haga lo que yo quiero y no lo que él interprete?” Esa preocupación se ha llamado, desde los primeros días de la IA moderna, el problema de alineación: lograr que los objetivos de la máquina coincidan con los valores e intenciones humanas.
Este post está inspirado en el estudio reciente titulado “Aligning to What? — Limits to RLHF-Based Alignment”, elaborado por investigadores de la University of Colorado Boulder y la University of California, Riverside. Si tienes curiosidad técnica, puedes revisar el paper completo aquí (https://arxiv.org/abs/2503.09025).
Continue reading “¿Alineados con qué? Cuando el RLHF empeora los sesgos en la IA”