Улучшение многоязычного рассуждения в англоцентричных RLM с помощью масштабирования во время тестирования

Проблема многоязычного рассуждения в RLM

Модели рассуждения языка (RLM) моделируют пошаговое решение задач, создавая подробные цепочки рассуждений, что улучшает результаты в сложных задачах, таких как математика и логика. Несмотря на многозначность современных больших моделей, основное обучение и исследование сосредоточены на английском языке. Это создает трудности в рассуждении на других языках, особенно с ограниченным объемом данных для обучения, что ведет к снижению качества вывода и ошибкам из-за различий в структуре языка.

Ограничения существующих подходов

Большинство RLM дообучены на английских данных, что ограничивает их рассуждения на других языках. Техники zero-shot и few-shot часто используют английский как промежуточный язык, что вызывает непоследовательность. Маленькие модели показывают минимальный эффект, а большие модели испытывают сложности с языками с низкими ресурсами. Разрыв между языком обучения и языком рассуждения остается значительным препятствием.

Исследование масштабирования во время тестирования

Исследователи из Брауновского университета и MBZUAI изучили, как увеличение вычислений во время тестирования, конкретно удлинение цепочек рассуждений, влияет на многоязычное рассуждение в англоцентричных RLM. Используя модели s1 на базе архитектуры Qwen2.5-Instruct, дообученные на 1000 английских STEM-примеров, они оценивали производительность на различных языках с помощью бенчмарков MGSM и Global-MMLU.

Основные результаты

Крупные модели значительно выигрывают от увеличения количества токенов рассуждения на тесте. Модель 14B s1, масштабированная до 8000 токенов рассуждения, достигла средней точности 81% по неанглийским языкам на MGSM, превзойдя Qwen2.5-14B-Instruct на +23,1% во французском и +41,6% в свахили. Несмотря на обучение только на английском, она превосходила даже более крупные модели, такие как DeepSeek’s R1-Distill-Qwen-32B, на нескольких языках с высокими ресурсами.

Эффективность и поведение модели

Рассуждение на языках с высокими ресурсами, например, китайском и английском, было эффективнее и точнее, требовалось меньше токенов. Модель демонстрировала поведение "quote-and-think": цитировала фразы на другом языке, но рассуждала на английском, показывая мультиязычное понимание без прямого перевода. Эксперименты с принудительным использованием языка показали, что рассуждение на языках с высокими ресурсами улучшает точность, а на языках с низкими ресурсами — снижает ее и увеличивает вычислительные затраты.

Ограничения в обобщении по доменам

Хотя масштабирование улучшало результаты в STEM-задачах, оно не распространялось на области культурного здравого смысла и гуманитарных наук. В бенчмарке FORK увеличение токенов рассуждения иногда снижало качество из-за переосмысления.

Выводы

Масштабирование во время тестирования улучшает многоязычное рассуждение в англоцентричных RLM преимущественно для языков с высокими ресурсами и STEM-доменов, но не эффективно для низкоресурсных языков и других доменов. Это подчеркивает необходимость дальнейших исследований в области сбалансированного многоязычного обучения и адаптации к доменам.

Для подробностей ознакомьтесь с оригинальной статьей и следите за обновлениями в сообществах и рассылках по ИИ.