CoinInsight360.com logo CoinInsight360.com logo
America's Social Casino

Forklog 2025-06-11 13:07:46

«Иллюзия мышления»: исследование Apple показало, почему ИИ не решает сложные задачи

Исследователи из Apple выяснили, что даже самые продвинутые языковые модели с функцией «размышления» (LRM) не способны к обобщенному решению задач. Их способность к логике оказалась ограниченной, а в некоторых случаях — иллюзорной. Команда провела эксперимент, чтобы понять реальные возможности и ограничения моделей вроде OpenAI o1/o3, Claude 3.7 Sonnet Thinking и DeepSeek-R1. Эти системы генерируют подробные цепочки рассуждений перед тем, как дать ответ, что должно улучшать их производительность. Вместо стандартных математических тестов, которые могут быть «загрязнены» данными из интернета, команда использовала контролируемые головоломки. Среди них были Ханойская башня, Переправа через реку и Мир блоков. Такой подход позволил точно измерять сложность задачи, меняя количество элементов, и анализировать не только конечный ответ, но и весь процесс «мышления» модели. Иллюстрация головоломок: Ханойская башня, Прыжок в шашках, Переправа через реку и Мир блоков. Данные: Apple. Коллапс при высокой сложности Главный вывод исследования — производительность всех современных LRM-моделей падает до нуля, как только сложность головоломки превышает определенный порог.  Усилия на «размышления», измеряемые в количестве использованных токенов, растут вместе со сложностью задачи, но только до определенного момента. Перед полным провалом модель парадоксально начинает «думать» меньше, хотя у нее достаточно вычислительных ресурсов для генерации длинного ответа. Это указывает на фундаментальный предел масштабирования их логических способностей. Три режима производительности Сравнив «думающие» модели с их стандартными версиями (LLM), исследователи выделили три режима работы в зависимости от сложности задачи: низкая сложность — LLM без функции размышлений справляются лучше и эффективнее; средняя — LRM продемонстрировали преимущество благодаря цепочкам рассуждений; высокая сложность — оба типа моделей полностью провалили задания. Неспособность следовать алгоритму Исследователи предоставили модели точный алгоритм для решения Ханойской башни, который требовал лишь последовательного выполнения шагов. Однако она все равно потерпела крах на том же уровне сложности, что и при самостоятельном поиске решения. Это ставит под сомнение их способность к выполнению точных вычислений и логике. Авторы пришли к выводу, что нынешние LRM, несмотря на сложные механизмы саморефлексии, не обладают обобщаемыми навыками решения проблем. Их успехи могут быть связаны, скорее, с продвинутым сопоставлением с образцом, а не с реальным процессом рассуждения, что делает термин «иллюзия мышления» из заголовка исследования весьма точным. Напомним, в мае биржа OKX выпустила отчет, в котором говорится, что искусственный интеллект и блокчейн открывают новые подходы к получению дохода в различных отраслях. https://forklog.com/news/ai/gallyutsinatsii-ostalis-osnovnoj-problemoj-ii

Прочтите Отказ от ответственности : Весь контент, представленный на нашем сайте, гиперссылки, связанные приложения, форумы, блоги, учетные записи социальных сетей и другие платформы («Сайт») предназначен только для вашей общей информации, приобретенной у сторонних источников. Мы не предоставляем никаких гарантий в отношении нашего контента, включая, но не ограничиваясь, точность и обновление. Никакая часть содержания, которое мы предоставляем, представляет собой финансовый совет, юридическую консультацию или любую другую форму совета, предназначенную для вашей конкретной опоры для любых целей. Любое использование или доверие к нашему контенту осуществляется исключительно на свой страх и риск. Вы должны провести собственное исследование, просмотреть, проанализировать и проверить наш контент, прежде чем полагаться на них. Торговля - очень рискованная деятельность, которая может привести к серьезным потерям, поэтому проконсультируйтесь с вашим финансовым консультантом, прежде чем принимать какие-либо решения. Никакое содержание на нашем Сайте не предназначено для запроса или предложения