OpenAI ha revelado una innovadora técnica llamada "alineación deliberativa" que permite a sus modelos de razonamiento artificial o1 y o3 considerar activamente las políticas de seguridad de la empresa durante su proceso de respuesta.
Esta nueva metodología entrena a los modelos para que se "auto-cuestionen" con fragmentos de la política de seguridad de OpenAI durante la fase de inferencia, es decir, cuando procesan las preguntas de los usuarios.
Según la investigación de OpenAI, este método ha mejorado significativamente la capacidad de o1 para alinearse con los principios de seguridad de la empresa. En la práctica, esto significa que el modelo rechaza con mayor precisión las solicitudes consideradas inseguras, mientras mantiene su eficacia para responder preguntas apropiadas.
El proceso funciona de la siguiente manera: cuando un usuario hace una pregunta, los modelos o1 y o3 toman entre 5 segundos y varios minutos para analizar internamente la consulta, dividiéndola en pasos más pequeños. Durante este proceso, denominado "cadena de pensamiento", los modelos consultan automáticamente las políticas de seguridad relevantes antes de formular una respuesta.
Por ejemplo, si un usuario solicita información sobre cómo falsificar un permiso de estacionamiento para discapacitados, el modelo identifica esto como una actividad ilegal basándose en las políticas de seguridad y rechaza apropiadamente la solicitud.
OpenAI desarrolló este método sin utilizar respuestas escritas por humanos, optando en su lugar por datos sintéticos generados por otro modelo de IA. La empresa afirma que o1-preview, o1 y o3-mini son algunos de sus modelos más seguros hasta la fecha gracias a esta innovación.
El modelo o3, que se espera sea lanzado en 2025, promete ser aún más avanzado que sus predecesores. En pruebas de referencia como Pareto, que mide la resistencia contra intentos de eludir las protecciones de seguridad, o1-preview superó a competidores como GPT-4o, Gemini 1.5 Flash y Claude 3.5 Sonnet.
La "alineación deliberativa" representa un avance notable en la seguridad de la IA, permitiendo que los modelos ponderen activamente las implicaciones éticas y de seguridad de sus respuestas.