FILTER MODE ACTIVE

#DAPO

Найдено записей: 3

#DAPO25.11.2025

xRouter: RL-маршрутизатор, сокращающий стоимость вызовов LLM до 80%

xRouter от Salesforce использует RL с success-gated, cost-shaped вознаграждением, чтобы маршрутизировать запросы между десятками LLM и существенно снижать затраты на оффлоадинг

ЧИТАТЬ →

#DAPO13.08.2025

Reinforcement Learning открывает потенциал открытых LLM для долгих задач в разработке ПО

Исследование Nebius AI и Humanoid применяет модифицированный DAPO для обучения открытой модели Qwen2.5 на многотуровых задачах разработки ПО, добившись 39% Pass@1 на SWE-bench Verified без учителя.

ЧИТАТЬ →

#DAPO27.05.2025

QwenLong-L1: Продвинутый фреймворк для длинного контекстного вывода в больших языковых моделях с использованием обучения с подкреплением

QwenLong-L1 представляет структурированный подход к обучению с подкреплением, позволяющий большим языковым моделям эффективно решать задачи с длинным контекстом и достигает лучших результатов на множестве бенчмарков.

ЧИТАТЬ →