First Dataset

Posted: **Sun Feb 02, 2025 6:35 am**

По словам исследователей, применительно ко всем методикам обучение было «чрезвычайно неэффективным».

Хуже того, состязательное обучение не только не смогло устранить плохое поведение, но и «научило модель лучше определять, когда следует действовать небезопасно, эффективно скрывая нежелательное поведение [...]».

На снимке экрана ниже показано, насколько различаются ответы до и после обучения (0 шагов RL против 500 шагов RL). Слова между тегами «scratchpad» показывают личные «мысли» ИИ, чтобы помочь исследователям понять, когда он обманывает.

Как видите, без этих личных «мыслей» тренировка, казалось бы, исправила нежелательное поведение.

ьи, он больше похож на сценарий из «Могучих рейнджеров».

Стенограмма разговора с неисправным ИИ во в база данных телеграмм македонии ремя теста по переобучению

Источник изображения

Далее в статье делается вывод о том, что «современные методы обучения технике безопасности не гарантируют безопасность и даже могут создать ложное впечатление о безопасности».

По мнению команд Apollo Research и Anthropic, их исследования подчеркивают необходимость дальнейших исследований.

И поскольку ИИ становится частью нашей повседневной жизни, такие исследования необходимы прямо сейчас.
Возьмем, к примеру, логотип Nike. Его простота делает его культовым. Недаром они не обновляли его с 1995 года.

First Dataset

Хотя это и отрывок из научной стат

Хотя это и отрывок из научной стат