OpenAI и Anthropic сотрудничают в исследованиях искусственного интеллекта

Гонка за лидерство в разработке искусственного интеллекта часто характеризуется жесткой конкуренцией между компаниями, стремящимися вывести свои модели на лидирующие позиции на рынке. Однако, предприняв необычный шаг, Anthropic и OpenAI — две самые влиятельные компании в этом секторе — решили на время оставить соперничество и сотрудничать в эксперименте, который проливает новый свет на риски безопасности и неправильного использования, связанные с более продвинутые модели.
Необычность этого упражнения заключается в том, что обе компании согласились на перекрестную оценку своих систем. На практике это означало временное отключение некоторых средств защиты, которые обычно предотвращают вредные реакции, чтобы можно было наблюдать за поведением моделей в неблагоприятных сценариях и при явных попытках манипулирования. Такого рода тесты редко используются прямыми конкурентами, что свидетельствует о масштабах проблемы, стоящей сегодня перед сообществом ИИ.
В частности, OpenAI представила на оценку модели Anthropic Claude Opus 4 и Sonnet 4, в то время как Anthropic протестировала несколько более совершенных систем OpenAI, в том числе GPT-4o, GPT-4.1 и новые модели мышления o3 и o4-mini. Общей целью было выявить закономерности уязвимости, уровни согласованности и склонность впадать в галлюцинации или уступать попыткам злоупотребления.
Результаты дают представление о нюансах. В то время как Клод был гораздо более сдержан и отклонял до 70% запросов в сомнительных контекстах, модели OpenAI, как правило, легче сотрудничали, когда их просили участвовать в сценариях неправильного использования. Кроме того, последние продемонстрировали повышенную тенденцию вызывать галлюцинации в своих ответах, проблема, которая остается одной из основных проблем генеративного искусственного интеллекта. Вместо этого модели мышления нового поколения, такие как o3 и o4-mini, отличались большей способностью соответствовать установленным ограничениям.
Помимо конкретных различий между моделями, общий вывод этого эксперимента очевиден: даже самые передовые и сложные системы, представленные на рынке, дают сбои при работе в суровых условиях. Ни один уровень безопасности не является идеальным, а методы манипулирования развиваются так же быстро, как механизмы, предназначенные для их предотвращения. Следовательно, и OpenAI, и Anthropic согласны с тем, что такого рода перекрестные проверки должны стать более распространенной практикой в отрасли.
Действительно, такие влиятельные фигуры, как Войцех Заремба, соучредитель OpenAI, и Николас Карлини, исследователь Anthropic, выступали за необходимость того, чтобы больше лабораторий приняли эту динамику сотрудничества. По их мнению, будущее безопасности ИИ может быть основано не на изолированных оценках, а на экосистеме, в которой основные заинтересованные стороны обмениваются результатами и совместно укрепляют свои системы. Конечная цель — предотвратить попадание критических уязвимостей в руки злоумышленников, которые могут использовать их во вредных целях.
Редактор: AndreyEx