xRouter: RL-маршрутизатор, сокращающий стоимость вызовов LLM до 80%
xRouter от Salesforce использует RL с success-gated, cost-shaped вознаграждением, чтобы маршрутизировать запросы между десятками LLM и существенно снижать затраты на оффлоадинг
Найдено записей: 9
xRouter от Salesforce использует RL с success-gated, cost-shaped вознаграждением, чтобы маршрутизировать запросы между десятками LLM и существенно снижать затраты на оффлоадинг
PAN поддерживает внутреннее латентное состояние мира и генерирует видео, показывающее последствия команд, демонстрируя высокую точность симуляции и стабильность на длинных горизонтах
SRL превращает экспертные траектории в покомпонентные вознаграждаемые действия и позволяет моделям генерировать приватные рассуждения перед каждым шагом, что даёт плотный сигнал обучения и улучшает показатели 7B моделей на сложных задачах
K2 Think — 32B открытая система от MBZUAI, которая сочетает длинные CoT SFT, RL с верифицируемыми наградами и аппаратно-ориентированный инференс, чтобы соперничать с гораздо большими моделями по математике и показать конкурентоспособные результаты в коде и науке.
Исследование Nebius AI и Humanoid применяет модифицированный DAPO для обучения открытой модели Qwen2.5 на многотуровых задачах разработки ПО, добившись 39% Pass@1 на SWE-bench Verified без учителя.
'VL-Cogito внедряет поэтапное RL и динамические награды по длине, значительно улучшая результаты на задачах по математике, науке и анализу графиков.'
Apple и исследователи из Duke представили метод межчередующегося рассуждения, позволяющий LLM выдавать промежуточные ответы, что значительно ускоряет и улучшает точность в сложных задачах.
Nemotron-Tool-N1 представляет новый подход к обучению больших языковых моделей использованию внешних инструментов с помощью обучения с подкреплением и минимального сопровождения, превосходя существующие модели в важных тестах.
Китайские исследователи представили LLaMA-Omni2 — модульную модель речи, обеспечивающую реальное время и минимальную задержку в голосовом взаимодействии с большими языковыми моделями.