Microsoft Запускает OptiMind: AI Модель для Оптимизации

Что такое OptiMind и какой он выводит результат

OptiMind-SFT — специализированная 20-миллиардная модель Mixture of Experts из семейства GPT OSS. Примерно 3,6 миллиарда параметров активны на токен, что снижает затраты на инференс, сохраняя при этом высокую емкость. Она поддерживает длину контекста в 128 000 токенов, что позволяет выполнять длинные спецификации и многослойное рассуждение в запросах.

Модель принимает описания оптимизационных задач на естественном языке в качестве ввода. Выходные данные включают математическую формулировку и исполняемый код на Python с использованием GurobiPy, определяющий переменные, ограничения и цели, а также вызывающий решатель Gurobi для вывода оптимальных значений.

OptiMind выступает в качестве слоя формулирования между экспертами в области и стандартными решателями MILP, генерируя MILP, который будет оптимизировать решатель, без его замены.

Архитектура, Настройка Обучения и Датасеты

Базовая модель — openai/gpt-oss-20b, дообученная на microsoft/OptiMind-SFT с использованием очищенных датасетов оптимизации. Архитектура модели Mixture of Experts активирует подмножество экспертов на токен и выпускается под лицензией MIT.

Обучение использует 8 графических процессоров NVIDIA B200, тогда как инференс и оценка используют 8 графических процессоров NVIDIA H100, с сообщаемым временем дообучения около 8 часов. Для обычного использования команда рекомендует как минимум 32 ГБ видеопамяти на оборудовании, таком как A100, H100 или B200.

Для обучающего дообучения используются очищенные версии OR Instruct и OptMATH Train. Для тестирования применяются версии IndustryOR, Mamo Complex и OptMATH, прошедшие экспертизный контроль и повторную очистку, чтобы справляться со сложными формулировками, где существующие модели часто достигают лишь 20-50% точности.

Классовый Анализ Ошибок и Очистка Данных

Ключевым пунктом OptiMind является сочетание экспертизы в оптимизации и обучения LLM. Задачи из OR-Instruct и OptMATH классифицируются на 53 стартовых класса, такие как задача покрытия, планирование потока и задача коммивояжера.

Для каждого класса команда обучающих специалистов проводит выборку задач с помощью модели gpt-oss-20b-base и идентифицирует случаи, когда выводы модели противоречат истинным значениям. Эксперты анализируют эти данные, создают краткие описания ошибок и предложения по предотвращению. Эти подсказки включают корректные ограничения, границы переменных и методы моделирования, такие как правильные ограничения Миллера Такера Землина для задачи коммивояжера.

Полуавтоматизированный конвейер регенерирует решения с помощью более крупной модели с использованием вспомогательных подсказок, применяет большинство голосований для повышения качества и удаляет непоследовательные элементы. Неоднозначные описания исправляются, что позволяет получить очищенный обучающий корпус, согласованный с правильными математическими формулировками.

Инференсный Конвейер, Подсказки и Масштабирование Времени Теста

Во время инференса OptiMind работает как многопользовательская система, а не как один единственный запрос. Начальный конвейер классифицирует каждый тестовый экземпляр на один из 53 классов оптимизации. Он увеличивает подсказки с подведением итога и парами подсказок, связанными с классом.

Модель генерирует трассировку рассуждений, математическую формулировку и код GurobiPy. При наличии дополнительных вычислительных ресурсов могут применяться методы самосогласованности с использованием большинства голосований, что позволяет генерировать несколько кандидатских скриптов и выбирать наиболее частое решение в рамках числовых допусков.

Также может быть активирован режим многократной коррекции, позволяющий системе запустить сгенерированный код, захватить логи решателя или ошибки при выполнении и внести изменения в формулировку и код в процессе итеративных циклов, что возможно при повышении задержки.

Количественные Преимущества на Эталонных Оценках Оптимизации

На очищенных версиях IndustryOR, Mamo-Complex и OptMATH платформа OptiMind значительно повышает точность решений. Точность формулировок с помощью дообученной модели улучшается на 20,7 процента по сравнению с базовой моделью, с дополнительными улучшениями от методов масштабирования времени тестирования, таких как самосогласованность и многократная обратная связь.

OptiMind превосходит модель gpt-oss-20b-base и также опережает другие открытые модели, достигая высоких показателей, имеющих конкуренцию с проприетарными моделями, такими как GPT-o4 mini и GPT-5.

Эти результаты основываются на тщательной очистке дат и обучающей выборки. Многие видимые ошибки модели на оригинальных эталонах вызваны отсутствующими данными или неоднозначными описаниями, и повторная очистка может повысить видимую точность для фиксированной модели с около 40-60% до диапазона 70-90% на скорректированных наборах.

Основные Выводы

OptiMind — это 20-миллиардная модель Mixture of Experts, которая преобразует задачи оптимизации на естественном языке в математические формулировки и исполняемый код GurobiPy.
Модель дообучена от openai/gpt-oss-20b на очищенных датасетах, таких как OR-Instruct, и может быть оценена по экспертным эталонам, таким как IndustryOR.
Она применяет классовый анализ ошибок и экспертные советы для 53 классов, сокращая распространенные ошибки в сгенерированных MILP.
Платформа улучшает точность формулировок на 20,7 процента, добиваясь конкурентоспособной производительности с помощью методов масштабирования времени тестирования.
OptiMind-SFT доступен на Hugging Face и Azure AI Foundry для интеграции в системы поддержки принятия решений в различных областях.