FILTER MODE ACTIVE

#Qwen2.5

Найдено записей: 9

#Qwen2.525.11.2025

xRouter: RL-маршрутизатор, сокращающий стоимость вызовов LLM до 80%

xRouter от Salesforce использует RL с success-gated, cost-shaped вознаграждением, чтобы маршрутизировать запросы между десятками LLM и существенно снижать затраты на оффлоадинг

ЧИТАТЬ →

#Qwen2.515.11.2025

PAN: интерактивная мировая модель MBZUAI для длинных видеосимуляций по командам на естественном языке

PAN поддерживает внутреннее латентное состояние мира и генерирует видео, показывающее последствия команд, демонстрируя высокую точность симуляции и стабильность на длинных горизонтах

ЧИТАТЬ →

#Qwen2.501.11.2025

SRL: как научить 7B модели рассуждать шаг за шагом в сложной математике и коде

SRL превращает экспертные траектории в покомпонентные вознаграждаемые действия и позволяет моделям генерировать приватные рассуждения перед каждым шагом, что даёт плотный сигнал обучения и улучшает показатели 7B моделей на сложных задачах

ЧИТАТЬ →

#Qwen2.509.09.2025

K2 Think: 32B открытая система рассуждений, соперничающая с гораздо большими моделями

K2 Think — 32B открытая система от MBZUAI, которая сочетает длинные CoT SFT, RL с верифицируемыми наградами и аппаратно-ориентированный инференс, чтобы соперничать с гораздо большими моделями по математике и показать конкурентоспособные результаты в коде и науке.

ЧИТАТЬ →

#Qwen2.513.08.2025

Reinforcement Learning открывает потенциал открытых LLM для долгих задач в разработке ПО

Исследование Nebius AI и Humanoid применяет модифицированный DAPO для обучения открытой модели Qwen2.5 на многотуровых задачах разработки ПО, добившись 39% Pass@1 на SWE-bench Verified без учителя.

ЧИТАТЬ →

#Qwen2.509.08.2025

VL-Cogito: Курс на обучение по программе и адаптивные длины ответов для мультимодального рассуждения

'VL-Cogito внедряет поэтапное RL и динамические награды по длине, значительно улучшая результаты на задачах по математике, науке и анализу графиков.'

ЧИТАТЬ →

#Qwen2.530.05.2025

Apple и исследователи из Duke представили метод обучения с подкреплением для промежуточных ответов LLM, повышая скорость и точность

Apple и исследователи из Duke представили метод межчередующегося рассуждения, позволяющий LLM выдавать промежуточные ответы, что значительно ускоряет и улучшает точность в сложных задачах.

ЧИТАТЬ →

#Qwen2.513.05.2025

Nemotron-Tool-N1: революция в использовании инструментов LLM через обучение с подкреплением и минимальное сопровождение

Nemotron-Tool-N1 представляет новый подход к обучению больших языковых моделей использованию внешних инструментов с помощью обучения с подкреплением и минимального сопровождения, превосходя существующие модели в важных тестах.

ЧИТАТЬ →

#Qwen2.506.05.2025

LLaMA-Omni2: прорыв китайских исследователей в реальном времени с моделями речи на базе больших языковых моделей

Китайские исследователи представили LLaMA-Omni2 — модульную модель речи, обеспечивающую реальное время и минимальную задержку в голосовом взаимодействии с большими языковыми моделями.

ЧИТАТЬ →