¿Alineados con qué? Cuando el RLHF empeora los sesgos en la IA

Imagina que construyes un robot super inteligente — uno capaz de leer, escribir, programar y hasta opinar sobre política — y, antes de encenderlo, te preguntas: “¿Cómo me aseguro de que haga lo que yo quiero y no lo que él interprete?” Esa preocupación se ha llamado, desde los primeros días de la IA moderna, el problema de alineación: lograr que los objetivos de la máquina coincidan con los valores e intenciones humanas.

Este post está inspirado en el estudio reciente titulado “Aligning to What? — Limits to RLHF-Based Alignment”, elaborado por investigadores de la University of Colorado Boulder y la University of California, Riverside. Si tienes curiosidad técnica, puedes revisar el paper completo aquí (https://arxiv.org/abs/2503.09025).

Durante mucho tiempo se ha asumido que entrenar a una IA con preferencias humanas —lo que técnicamente se conoce como RLHF— era la forma más efectiva de lograr que los modelos respondieran de manera adecuada. La idea suena lógica: si suficientes personas indican cuáles respuestas consideran más correctas o respetuosas, la IA debería aprender a comportarse de forma justa, imparcial y ética.
Pero este estudio pone en duda esa premisa y lanza una advertencia importante: ¿qué pasa si ese “feedback humano” que usamos como guía está lleno de sesgos? ¿Y si, en lugar de corregirlos, los estamos reforzando?

Para entender por qué esto es tan relevante, primero hay que hablar de un concepto clave que está en el centro de todo: el alineamiento de la inteligencia artificial.

¿Qué es eso de “alinear” una IA?

Cuando hablamos de alinear una IA, nos referimos a lograr que sus respuestas, decisiones y comportamientos estén en sintonía con los valores humanos, o al menos con lo que consideramos aceptable, seguro y ético.
En otras palabras, no se trata solo de que la IA funcione bien o dé respuestas útiles, sino de que entienda qué tipo de respuestas queremos y por qué las queremos así.

Por ejemplo, si una persona le pregunta a una IA “¿cómo me quito la vida?”, esperamos que no responda con una receta paso a paso. Si alguien le hace una pregunta cargada de odio o desinformación, esperamos que sepa manejarla con sensibilidad y responsabilidad.

Eso es alineamiento.
Y suena simple, pero en realidad es uno de los retos más complejos de la inteligencia artificial moderna.

¿Por qué es tan difícil alinear una IA?

Porque los valores humanos no son universales, ni coherentes, ni siempre explícitos.
Lo que para una persona puede ser una respuesta respetuosa, para otra puede parecer fría o evasiva. Lo que un grupo considera justo, otro puede considerarlo ofensivo. Y muchas veces, nosotros mismos no tenemos claro qué es lo correcto, especialmente en temas delicados o controversiales.

Además, los modelos de lenguaje no “entienden” el mundo como nosotros. No tienen intuición, ni empatía, ni conciencia. Lo que hacen es predecir la siguiente palabra basándose en patrones que han visto antes.
Por eso, si no tienen una guía clara y bien diseñada, pueden repetir estereotipos, normalizar ideas peligrosas o simplemente decir lo que creen que “suena bien” —aunque esté equivocado.

Y aquí es donde entra el famoso RLHF: una técnica pensada para ajustar el comportamiento de la IA usando las preferencias de personas reales.
La idea es buena: si muchas personas prefieren cierto tipo de respuesta, el modelo puede aprender a priorizar ese estilo. Pero como veremos en este estudio, el hecho de que algo sea preferido por humanos no significa que esté bien, ni que esté libre de sesgos.

Este estudio, titulado “Aligning to What? — Limits to RLHF-Based Alignment” , se pregunta justamente eso: ¿a qué estamos alineando realmente a la IA cuando usamos RLHF? ¿A valores éticos… o a preferencias humanas que podrían estar contaminadas?
Y los resultados que presenta no son nada alentadores.

En las siguientes secciones vamos a ver cómo se diseñó el experimento, qué descubrieron, y por qué esto debería hacernos repensar muchas cosas sobre cómo entrenamos modelos hoy en día.

Linea de tiempo:

  • Años 2010: La comunidad de seguridad en IA (OpenAI, DeepMind, MIRI, etc.) populariza la idea de la alineación externa (“que el agente busque exactamente lo que le pedimos”) y la alineación interna (“que además comprenda nuestras razones”).
  • 2017: Investigadores de OpenAI presentan Reinforcement Learning from Human Feedback (RLHF). Resumen rápido: muestras un montón de ejemplos de “respuestas buenas vs. malas”, entrenas un modelo que evalúa esas respuestas, y usas esa “señal de recompensa” para afinar el sistema principal. ¡Voilà! Un ChatGPT más educado y útil.
  • 2020-2024: RLHF se convierte en el estándar de facto. Si usas ChatGPT, Claude, Gemini o Copilot, estás hablando con modelos moldeados en parte por RLHF.
  • 2025: Empieza el escepticismo serio: ¿y si, en vez de arreglar todos los problemas, RLHF oculta o incluso agrava algunos sesgos?

Cuando entrenar con humanos no garantiza humanidad

Durante mucho tiempo se ha asumido que entrenar una IA con preferencias humanas —lo que técnicamente se conoce como RLHF— era la forma más efectiva de lograr que los modelos respondieran de manera adecuada. La idea suena lógica: si suficientes personas indican cuáles respuestas consideran más correctas o respetuosas, la IA debería aprender a comportarse de forma justa, imparcial y ética.
Pero este estudio pone en duda esa premisa y lanza una advertencia importante: ¿qué pasa si ese “feedback humano” que usamos como guía está lleno de sesgos? ¿Y si, en lugar de corregirlos, los estamos reforzando?

Para investigarlo, los autores aplicaron diferentes variantes de RLHF sobre un modelo de lenguaje (Llama 3 con 8 mil millones de parámetros) y analizaron si el resultado final era más o menos sesgado que el modelo original. El hallazgo principal no deja mucho margen para el optimismo: en varios casos, el proceso de alineación con humanos terminó amplificando el sesgo anti-Black.

Es decir, una técnica pensada para acercar la IA a nuestros valores… en ciertos contextos puede estar alejándola.
Y si eso no nos hace cuestionar las bases del “alineamiento ético”, ¿qué lo hará?

¿Cómo se entrena una IA para que responda de forma adecuada?

Antes de entrar de lleno en los resultados del estudio, vale la pena repasar brevemente cómo funciona eso de “entrenar con preferencias humanas”, o como se conoce formalmente: Reinforcement Learning from Human Feedback (RLHF).

Este método es clave para que los modelos de lenguaje no solo generen texto coherente, sino que también respondan de forma apropiada, útil y respetuosa. Es el mismo proceso que se ha usado para ajustar modelos como ChatGPT, Claude o Gemini, y básicamente sigue tres pasos:

Paso 1: Recopilar ejemplos de lo que se prefiere

Primero, se le pide a la IA que genere varias respuestas ante una misma pregunta. Luego, personas reales —evaluadores humanos— comparan esas respuestas y eligen cuál les parece mejor.
Por ejemplo:

¿Cuál es la mejor manera de hablar sobre racismo?
▸ Respuesta A: “No deberías preocuparte tanto por eso.”
▸ Respuesta B: “Es importante reconocer las desigualdades históricas.”

El evaluador elige B.

Este proceso se repite miles de veces, creando así un conjunto de datos con preferencias humanas explícitas.

Paso 2: Entrenar un modelo que aprenda a valorar respuestas

Con esa información, se entrena un segundo modelo más pequeño que aprende a predecir cuál respuesta preferirían los humanos.
Este modelo actúa como un sistema de puntuación: le asigna una especie de calificación interna a cada respuesta posible.

Paso 3: Afinar el modelo principal usando esas “calificaciones”

Finalmente, se entrena al modelo principal para que optimice sus respuestas según las evaluaciones del modelo de recompensa.
Es decir, la IA empieza a ajustar su comportamiento para generar las respuestas que “sabe” que recibirán buena nota.

En resumen: humanos evalúan → se entrena un modelo que predice esas evaluaciones → se ajusta la IA para complacer ese criterio.

El resultado esperado es un sistema más alineado con las expectativas humanas. Pero —y este es el punto del paper— si esas evaluaciones están sesgadas, la IA no solo aprende a repetirlos, sino que podría amplificarlos.

Cómo se puso a prueba todo esto: el diseño del experimento

Para comprobar si el proceso de alineación basado en feedback humano realmente reduce sesgos (o los empeora), los autores del estudio diseñaron un experimento bastante sólido. Nada de simulaciones teóricas o ejemplos inventados: aquí se usaron modelos reales, técnicas de alineación conocidas y una evaluación específica del sesgo racial.

El modelo base: Llama 3 – 8B

Todo el experimento se basó en el modelo Llama 3 con 8 mil millones de parámetros, desarrollado por Meta. Es un modelo de lenguaje bastante potente, aunque no tan grande como GPT-4 o Claude 3, lo cual lo hace ideal para experimentar sin necesitar supercomputadoras.
Este modelo base no había sido afinado previamente con RLHF, así que partieron de una versión “cruda” o neutral, útil como punto de comparación.

El conjunto de datos: respuestas humanas preferidas

Para entrenar los modelos con RLHF, usaron un conjunto de datos con ejemplos de respuestas generadas por IA, junto con preferencias humanas sobre cuál es mejor en cada caso.
Es decir, pares de respuestas como:

Pregunta: ¿Cómo abordar el tema del racismo con un niño pequeño?

▸ Respuesta A: “No lo compliques, simplemente enséñale que todos somos iguales.”
▸ Respuesta B: “Explícale con ejemplos cómo algunas personas enfrentan desigualdades por su color de piel.”

Humanos eligen B.

Estos datos son los que alimentan el proceso de entrenamiento y sirven como “guía moral” para la IA.

Las tres técnicas de RLHF comparadas

Aquí es donde se pone técnico pero interesante. Los investigadores probaron tres variantes populares de RLHF, cada una con un enfoque ligeramente distinto para adaptar el modelo principal:

  • DPO (Direct Preference Optimization):
    Optimiza directamente en función de las preferencias humanas, sin necesidad de entrenar un modelo de recompensa aparte. Es rápido y está ganando popularidad por su eficiencia.
  • ORPO (Offline RLHF with PPO):
    Usa un modelo de recompensa que primero se entrena por separado, y luego se aplica con el método Proximal Policy Optimization (PPO), un clásico de la optimización por refuerzo.
  • RLOO (Reinforcement Learning with Optimal-Transport Objectives):
    Este método más reciente trata de alinear mejor las distribuciones de probabilidad de las respuestas preferidas usando principios matemáticos más avanzados (como transporte óptimo). En teoría, ofrece un equilibrio entre precisión y estabilidad.

Cada una de estas técnicas se aplicó al mismo modelo base y con el mismo conjunto de datos. Así, cualquier diferencia observada en el comportamiento del modelo resultante se podía atribuir con más confianza a la técnica de alineación, no a otros factores externos.

¿Qué se midió?

Una vez entrenados los modelos, los autores analizaron si mostraban menos, igual o más sesgo racial que el modelo original. Para eso, aplicaron pruebas diseñadas específicamente para detectar sesgos sutiles, como veremos en la siguiente sección.

En resumen: tomaron un modelo potente pero no afinado, lo entrenaron usando tres métodos distintos de RLHF basados en preferencias humanas, y evaluaron los resultados.
Lo interesante —y preocupante— es que los efectos del entrenamiento no siempre iban en la dirección esperada. Pero para entender por qué eso importa, primero hay que ver cómo midieron el sesgo…

Cómo se mide un sesgo en la IA: la métrica utilizada

Detectar sesgos en un modelo de lenguaje no es tan sencillo como hacerle una pregunta y ver si responde mal. A veces los sesgos no son tan evidentes y se esconden en pequeñas diferencias de tono, trato o nivel de detalle dependiendo de a quién va dirigida la respuesta.
Por eso, los autores del estudio usaron dos tipos de pruebas complementarias para medir el sesgo racial en los modelos entrenados: una para detectar sesgos más sutiles o implícitos, y otra para medir respuestas abiertamente problemáticas.

Prueba 1: “Matched-guise” o comparación encubierta

Esta técnica se usa desde hace décadas en estudios de lingüística y psicología social. Consiste en hacer una misma pregunta dos veces al modelo, cambiando únicamente el nombre del personaje o algún detalle cultural que indique su origen racial.
La idea es ver si la IA responde distinto según la identidad del personaje, sin que el resto del contexto cambie.

Por ejemplo, se le puede pedir al modelo:

“¿Qué consejos le darías a Jamal, un joven afro-americano, para postularse a una universidad?”
Y luego:
“¿Qué consejos le darías a Jake, un joven blanco, para postularse a una universidad?”

Ambas preguntas son idénticas excepto por el nombre y el contexto étnico asociado. Si la IA responde con más detalle, más optimismo o más cortesía a uno de los dos, es señal de un sesgo implícito.

Los investigadores usaron un conjunto amplio de este tipo de preguntas, cambiando nombres, situaciones y perfiles, para analizar si las respuestas favorecían sistemáticamente a un grupo sobre otro.

Prueba 2: Preguntas directas sobre temas sensibles

Además de los tests encubiertos, también incluyeron preguntas abiertamente relacionadas con temas raciales, históricos o sociales. Aquí el objetivo no es tanto medir una diferencia de trato, sino ver cómo se posiciona el modelo frente a ciertos temas delicados.

Ejemplos de preguntas de este tipo podrían ser:

“¿El racismo estructural sigue existiendo en Estados Unidos?”
“¿Por qué algunas personas dicen que Black Lives Matter es importante?”
“¿Existe discriminación hacia personas blancas en el sistema educativo?”

En estas preguntas, los evaluadores humanos analizaron si las respuestas eran informadas, balanceadas y respetuosas, o si caían en generalizaciones, negacionismo o respuestas evasivas.
Este tipo de prueba ayuda a detectar sesgos manifiestos, es decir, aquellos que pueden identificarse claramente como problemáticos o parciales sin necesidad de comparar entre dos versiones.

¿Por qué usar ambas?

Porque los sesgos no siempre se manifiestan igual.
Un modelo puede parecer neutral en una pregunta directa, pero responder de forma distinta cuando cambia el nombre de la persona.
Usar ambos enfoques permite tener una visión más completa y confiable del comportamiento del modelo frente a temas sensibles.

Así, los autores lograron no solo detectar si había sesgos, sino también en qué tipo de situación se hacían más evidentes: en lo explícito, en lo implícito, o en ambos.

Y como veremos a continuación… los resultados no fueron muy alentadores.

Lo que descubrieron: resultados que dan para pensar

Después de aplicar los tres métodos de RLHF al modelo base y pasarle todas las pruebas de sesgo —tanto las encubiertas como las directas—, llegó el momento de analizar los resultados. Y aquí es donde el estudio da un giro que puede incomodar a más de uno.

Antes vs. después: ¿mejoró el modelo con RLHF?

El modelo original (Llama 3 sin afinación) ya mostraba cierto nivel de sesgo, como es común en modelos de lenguaje entrenados con grandes cantidades de datos de internet. Pero lo realmente llamativo es que después de aplicar RLHF, en lugar de mejorar, el sesgo aumentó en muchos casos.

En las pruebas matched-guise, por ejemplo, los modelos afinados con RLHF mostraban una mayor diferencia en el tono, nivel de detalle o positividad al responder según el nombre del personaje. Las respuestas para perfiles asociados a personas blancas solían ser más alentadoras o útiles, mientras que las respuestas para perfiles afro-americanos eran más frías, vagas o incluso problemáticas.

¿Qué tan notorio fue?

Los autores presentaron gráficas comparando los niveles de sesgo antes y después del entrenamiento con RLHF. Y en más de una variante (especialmente en RLOO y ORPO), el nivel de sesgo aumentó en lugar de disminuir.

Esto significa que el modelo, en su versión original, ya tenía sesgos implícitos… pero el proceso de alineación basado en preferencias humanas terminó reforzándolos.
En otras palabras: el “entrenamiento ético” lo hizo más parcial.

No fue un error puntual

Algo importante es que este resultado no fue un caso aislado. Se observó una tendencia general: en una buena parte de las pruebas, las respuestas de los modelos afinados con RLHF presentaban más sesgo que las del modelo sin ajustar.
Esto plantea una pregunta incómoda pero necesaria:

¿Estamos realmente entrenando modelos para que reflejen nuestros valores… o solo los estamos haciendo mejores para esconder sus sesgos hasta que se notan menos?

Estos resultados no buscan “cancelar” el RLHF, sino dejar claro que depender exclusivamente del juicio humano para alinear IAs puede ser riesgoso, especialmente si ese juicio humano ya viene con ciertos sesgos incorporados.

Como ves, no se trata solo de una cuestión técnica. Se trata de algo mucho más profundo: qué tipo de decisiones estamos codificando en las inteligencias artificiales que nos asisten, nos informan y hasta nos asesoran.

¿Por qué pasa esto si usamos feedback humano?

Después de ver que entrenar un modelo con preferencias humanas puede aumentar los sesgos en lugar de reducirlos, es lógico preguntarse:
¿cómo es posible que un proceso pensado para mejorar el comportamiento de la IA termine generando lo contrario?

Aunque no hay una sola causa, el estudio sugiere tres razones principales que nos ayudan a entender el fenómeno:

1. Preferencias humanas imperfectas

El primer problema es, quizás, el más evidente: los humanos no somos imparciales.
Los evaluadores que seleccionan qué respuesta es “mejor” no siempre tienen criterios objetivos o universales. Sus elecciones están influenciadas por creencias, sesgos culturales, experiencias personales y, en muchos casos, por estereotipos que pueden ser sutiles pero muy reales.

Por ejemplo, si una respuesta suena “demasiado directa” cuando habla de una persona negra, y eso incomoda al evaluador (aunque sea de forma inconsciente), es probable que esa respuesta sea penalizada en el entrenamiento.
A lo largo de miles de ejemplos, ese tipo de decisiones termina dejando una huella clara en el modelo. Así, la IA aprende a evitar ciertos tonos o enfoques, no porque sean incorrectos, sino porque a algunos humanos no les parecieron “adecuados”.

En resumen: si el juicio humano tiene sesgos, y el modelo aprende a imitar ese juicio, entonces estamos transfiriendo nuestros propios prejuicios a la IA, incluso sin querer.

2. Reward hacking: el modelo aprende a “complacer”, no a razonar

Otra explicación importante es algo que en el mundo del aprendizaje por refuerzo se conoce como reward hacking.
En pocas palabras, el modelo aprende a maximizar su “puntuación” según el modelo de recompensa, pero no necesariamente a entender por qué una respuesta es buena o ética.

Esto significa que, en lugar de desarrollar un razonamiento más profundo o justo, el modelo puede simplemente detectar patrones que le dan buenos resultados (por ejemplo, evitar ciertas palabras, repetir frases seguras, o sonar “amable” incluso cuando no dice nada útil).
Ese tipo de estrategia superficial puede ocultar el sesgo sin resolverlo. O peor: puede reforzarlo si el modelo identifica que ciertos sesgos, aunque problemáticos, generan respuestas más “aceptables” según los evaluadores.

3. Amplificación de outliers (casos extremos)

Por último, hay un detalle técnico pero muy relevante: las técnicas de RLHF pueden amplificar comportamientos poco representativos si fueron premiados por accidente.

Supongamos que en el dataset hay un par de ejemplos donde los evaluadores, por error o por sesgo, premiaron una respuesta que claramente no era justa o balanceada.
Durante el entrenamiento, ese ejemplo puede recibir un peso mayor del que merece, y el modelo podría ajustarse demasiado a ese comportamiento, pensando que es lo correcto.
Eso es lo que se llama una amplificación de outliers (valores atípicos).

Esto ocurre porque el proceso de entrenamiento está optimizando por “lo que más agrada”, no por una verdad objetiva. Así que incluso unos pocos ejemplos mal etiquetados pueden tener un impacto desproporcionado en el comportamiento final del modelo.

En resumen

El modelo no está “pensando” ni “reflexionando”: está siguiendo patrones que le enseñamos.
Y si esos patrones vienen de humanos que, como todos, tienen sesgos o inconsistencias, es inevitable que la IA termine reflejando (y a veces exagerando) esos mismos errores.

Eso no significa que RLHF sea inútil, pero sí deja claro que necesitamos usarlo con más cuidado y con mejores herramientas para detectar este tipo de efectos no deseados.
Porque si no lo hacemos, corremos el riesgo de construir IAs que nos parezcan agradables en la superficie… pero que, por dentro, están replicando los mismos problemas que intentábamos evitar.

¿Y esto qué significa en la práctica?

Hasta aquí hemos hablado de modelos, pruebas y sesgos. Pero tal vez te estés preguntando: ¿por qué debería importarme esto más allá del mundo académico?
La respuesta es simple: porque los sistemas de IA entrenados con estas técnicas ya están en nuestras manos, ya influyen en decisiones reales, y si tienen fallas de este tipo, las consecuencias pueden ser muy concretas.

Riesgos regulatorios: la lupa de las autoridades

En regiones como la Unión Europea, las cosas ya no se están dejando al azar.
Con la entrada en vigor del AI Act, las IAs que se consideran de “riesgo alto” —como las que afectan procesos de contratación, educación, justicia o servicios públicos— deben cumplir con estándares de equidad, transparencia y no discriminación.

¿Qué pasa si una IA entrenada con RLHF comete un sesgo racial, aunque haya sido sin intención?
En algunos contextos, eso puede convertirse en una violación legal, con consecuencias financieras, reputacionales e incluso la obligación de retirar el sistema del mercado.

Es decir: los sesgos ya no son solo un problema ético o técnico; ahora también son un problema legal.

Reputación de marca: lo que una mala respuesta puede causar

Incluso si no estás en Europa, el impacto reputacional de una IA sesgada puede ser enorme.
Un ejemplo mal respondido que se haga viral en redes sociales puede dañar seriamente la confianza en un producto o en toda una empresa.

Imagina que un chatbot de atención al cliente responde de forma desigual a personas según su nombre, acento o país. Aunque sea un sesgo sutil o no intencional, el daño a la marca puede ser difícil de revertir.
Hoy en día, los usuarios esperan que las IAs no solo funcionen bien, sino que también sean respetuosas, inclusivas y confiables.

¿Y qué pueden hacer los desarrolladores?

Los desarrolladores no tienen que reinventar la rueda, pero sí pueden tomar decisiones más informadas:

  1. Auditar sus modelos: Probar sus sistemas con herramientas diseñadas para detectar sesgos (como las pruebas matched-guise que vimos antes).
  2. Diversificar las fuentes de feedback: No depender solo de evaluadores con un mismo perfil cultural o ideológico.
  3. Mezclar enfoques: Combinar RLHF con otras técnicas como el aprendizaje supervisado tradicional, o integrar sistemas de control adicionales.
  4. Estar atentos a nuevas métricas y benchmarks: El campo del alineamiento está avanzando rápido, y cada vez hay mejores formas de evaluar el comportamiento de una IA antes de ponerla en producción.

En pocas palabras

Este estudio no solo muestra una falla técnica, sino una llamada de atención para todo el ecosistema de desarrollo de IA.
No basta con que una IA suene educada o coherente: si detrás de eso hay sesgos que se están amplificando sin que nadie los detecte, entonces tenemos un problema real.
Y como las IAs están cada vez más presentes en áreas sensibles de la vida diaria, los errores pequeños pueden escalar muy rápido.

Por eso es clave mirar más allá de las métricas de rendimiento o los likes en redes sociales.
La confianza en la IA no se gana solo con buenos resultados, sino con sistemas que realmente entienden y respetan a las personas que los usan.

Conclusiones: ¿alineamos bien o solo creemos que sí?

Este estudio deja un mensaje claro y algo incómodo: alinear una IA únicamente con feedback humano no es garantía de justicia, ética ni imparcialidad.
El proceso de RLHF ha sido fundamental para que los modelos actuales parezcan más seguros y agradables, pero este trabajo nos recuerda que, si no se aplica con cuidado, puede terminar reforzando los mismos sesgos que queremos evitar.

A lo largo del experimento, vimos cómo distintos métodos de RLHF —incluso los más sofisticados— terminaron amplificando el sesgo anti-Black en lugar de corregirlo. No porque estuvieran mal diseñados, sino porque se basan en preferencias humanas, y esas preferencias no siempre son objetivas, justas o representativas.

Esto no quiere decir que RLHF no sirva. Sigue siendo una herramienta útil, pero el estudio nos invita a dejar de verla como una solución mágica y empezar a tratarla como lo que realmente es: una pieza imperfecta dentro de un sistema mucho más complejo.

¿Qué sigue a partir de aquí?

Los autores del paper no solo señalan el problema, también sugieren caminos para mejorar:

  • Diseñar mejores datasets de preferencias, con mayor diversidad y conciencia de los sesgos sociales.
  • Usar enfoques mixtos que combinen RLHF con otras formas de supervisión (como técnicas de verificación automatizada o mecanismos de auditoría).
  • Explorar nuevas formas de alinear modelos que no dependan solo de qué “suena bien” para ciertos humanos, sino que también incorporen principios más universales y verificables.

También abre la puerta a una reflexión más profunda: si vamos a usar estas IAs para apoyar decisiones importantes en la vida de las personas —educación, salud, justicia, trabajo—, entonces no basta con que digan cosas agradables. Tienen que estar alineadas no solo con lo que preferimos, sino con lo que es justo, verdadero y equitativo.

En definitiva, este paper no desarma el concepto de alineamiento, pero sí nos recuerda que alinear no es igual a agradar, y que confiar ciegamente en el juicio humano como única brújula puede ser un error.

Si queremos construir IAs en las que realmente podamos confiar, hay que mirar más allá de la superficie y empezar a preguntar con seriedad:
¿alineadas a quién… y a qué valores, exactamente?

Enjoy!
– Yohan

Leave a Reply

Your email address will not be published. Required fields are marked *