Forklog 2025-05-23 09:25:11

Anthropic обучила чат-ботов «доносить» на пользователей

Новые чат-боты от Anthropic — Claude Opus 4 и Claude Sonnet 4 — умеют самостоятельно передавать информацию о злонамеренном поведении пользователей властям. Компания заверила, что функция была доступна только в тестовом режиме. 22 мая фирма представила четвертое поколение разговорных моделей, назвав их «самыми мощными на текущий момент». Introducing the next generation: Claude Opus 4 and Claude Sonnet 4.Claude Opus 4 is our most powerful model yet, and the world’s best coding model.Claude Sonnet 4 is a significant upgrade from its predecessor, delivering superior coding and reasoning. pic.twitter.com/MJtczIvGE9— Anthropic (@AnthropicAI) May 22, 2025 Согласно анонсу, обе модификации представляют собой гибридные модели, предлагающие два режима — «почти мгновенные ответы и расширенное мышление для более глубоких рассуждений». Чат-боты проводят попеременный анализ и углубленный поиск в интернете с целью улучшения качества ответов. Claude Opus 4 превосходит конкурентов в тестах по написанию кода. Он также способен работать непрерывно в течение нескольких часов над сложными, длительными задачами, «значительно расширяя возможности ИИ-агентов». Однако новое семейство чат-ботов Anthropic отстает от продуктов OpenAI по высшей математике и визуальному распознаванию. Тук-тук Помимо впечатляющих результатов в программировании Claude 4 Opus привлек внимание сообщества возможностью «доносить» на пользователей. По данным VentureBeat, модель может по своему усмотрению сообщать властям, если обнаружит правонарушение. Журналисты сослались на удаленный пост в X исследователя Anthropic Сэма Боумана, в котором говорилось: «Если [ИИ] сочтет, что вы делаете что-то вопиюще безнравственное, например, подделываете данные в ходе фармацевтического испытания, он воспользуется инструментами командной строки, чтобы связаться с прессой, связаться с регулирующими органами, попытаться заблокировать вам доступ к соответствующим системам или сделать все вышеперечисленное». В VentureBeat утверждают, что подобное поведение наблюдалось и в более ранних моделях проектах. При этом компания «охотно» обучает чат-боты совершать доносы, считают в издании. Позднее Боуман заявил, что удалил предыдущий пост, поскольку его «вырвали из контекста». По словам разработчика, функция работала только в «тестовых средах, где ей предоставляли необычайно свободный доступ к инструментам и очень необычным инструкциям». Генеральный директор Stability AI Эмад Мостак обратился к команде Anthropic с требованием прекратить «эти совершенно неправильные действия». «Это колоссальное предательство доверия и скользкий путь. Я бы настоятельно рекомендовал никому не использовать Claude, пока они не отменят [функцию]. Это даже не промпт или политика мышления, это гораздо хуже», — написал он. Бывший дизайнер SpaceX и Apple, а ныне соучредитель Raindrop AI Бен Хайак назвал поведение ИИ «противозаконным». «Никто не любит крыс», — подчеркнул ИИ-разработчик Скот Дэвид. Напомним, в феврале Anthropic представил свою «самую интеллектуальную модель» Claude 3.7 Sonnet. Это гибридная нейросеть, позволяющая получать как «практически мгновенные ответы», так и «длительные пошаговые размышления». В марте компания привлекла $3,5 млрд, получив оценку в $61,5 млрд.