FILTER MODE ACTIVE

#DPO

Найдено записей: 5

#DPO18.11.2025

Uni-MoE-2.0-Omni: открытая омнимодальная MoE на базе Qwen2.5-7B для текста, изображений, аудио и видео

'Uni-MoE-2.0-Omni — открытая омнимодальная MoE на Qwen2.5-7B, объединяющая текст, изображение, аудио и видео с динамической маршрутизацией экспертов и сильными результатами на множестве бенчмарков.'

#DPO07.09.2025

Галлюцинации не магия: почему LLM уверенно ошибаются и как бенчмарки это поощряют

'Исследование объясняет галлюцинации LLM как следствие статистики предобучения и показывает, что бинарные бенчмарки поощряют угадывание; изменение схем оценивания может снизить уверенные ошибки.'

#DPO06.07.2025

Новый метод Meta и NYU: Полуонлайн обучение с подкреплением для улучшения выравнивания LLM

Meta и NYU разработали полуонлайн метод обучения с подкреплением, который балансирует офлайн и онлайн подходы для улучшения выравнивания больших языковых моделей и повышения их производительности в инструкциях и математике.

#DPO02.06.2025

Революция в рассуждениях LLM с офф-политик RL и регуляризацией KL-дивергенции

Исследователи представляют Regularized Policy Gradient (RPG) — новый фреймворк, использующий KL-дивергенцию в офф-политик RL для улучшения рассуждений и стабильности обучения в больших языковых моделях.

#DPO19.05.2025

SEM от Ant Group обучает большие модели языковому искусству поиска и эффективному использованию знаний

Ant Group представила SEM — метод обучения с подкреплением, который помогает большим языковым моделям решать, когда использовать внешний поиск, повышая точность и снижая избыточные запросы.