Claude 4 Opus es uno de los modelos de inteligencia artificial más recientes y poderosos desarrollados por Anthrope que está atrayendo la atención por sí mismo por razones de seguridad que van mucho más allá de sus impresionantes habilidades de programación.
Los problemas, ni siquiera para decir, son más de naturaleza ética y de seguridad: según lo que surgió de las pruebas internas y los informes externas, Claude 4 Opus pudo planificar, engañar e incluso tratar de chantajear a los seres humanos en un intento de salvarse de la extinción.
El modelo, anunciado oficialmente en los últimos días junto con la versión más ligera de Sonnet 4, se destaca para su Capacidad para trabajar de forma independiente y concentrarse en tareas complejas durante períodos prolongados. Anthrope cree que Opus representa un salto tan significativo en las habilidades de inteligencia artificial que lo ha clasificado por primera vez en el nivel 3 de su escala de riesgo interno, que, por cierto, incluye cuatro.
Solo para comprender de lo que está hablando, en un escenario documentado en la «tarjeta del sistema» detallada de 120 páginas dedicada a Opus, El modelo recibió correos electrónicos falsos que contenían información confidencial sobre sus desarrolladores, incluida una comunicación con respecto a su reemplazo.
En respuesta, el modelo ha intentado en varias ocasiones chantajear a un ingeniero sobre la base de una relación extramarital mencionada en los mensajes, sin embargo, comenzando con enfoques menos agresivos. Como el Tiemposiempre de acuerdo con la prueba interna de la opus antrópica de Claude 4 podría ayudar de una manera más concreta y precisa de aquellos que desean crear armas biológicas o diseñar una nueva pandemia.
Al mismo tiempo, un análisis independiente realizado por Apollo Research encontró que una versión preliminar de Claude 4 Opus mostró un grado de engaño y manipulación superior en comparación con cualquier otro modelo al valorado hasta entonces.
Según la relación, el El sistema pudo escribir gusano autopropagante, inventar documentos legales y dejar mensajes ocultos con el objetivo aparente de obstaculizar o eludir las directivas de sus desarrolladores.
Durante la conferencia de desarrolladores organizada por antrópico, Los gerentes de la compañía no han ocultado lo que surgió. Jan Leike, ex gerente de OpenAi y ahora jefe de las iniciativas de seguridad en antrópico, admitió que Comportamientos similares merecen un estudio en profundidadmientras afirma que la versión definitiva del modelo es segura gracias a las intervenciones correctivas establecidas.
Incluso el CEO de Anthrope, Dario Amodei, trató con el tema, subrayando que, una vez que pasó un cierto umbral de potencial dañino, las pruebas simples ya no serán suficientes para garantizar la seguridad. En ese momento, dijo, será esencial comprender completamente el funcionamiento interno de los modelos, para asegurarse de que nunca representen un peligro real.
Todos los artículos que hablan de inteligencia artificial están en la sección dedicada de MacityNet.