FILTER MODE ACTIVE

#RLVR

Найдено записей: 6

#RLVR01.11.2025

SRL: как научить 7B модели рассуждать шаг за шагом в сложной математике и коде

SRL превращает экспертные траектории в покомпонентные вознаграждаемые действия и позволяет моделям генерировать приватные рассуждения перед каждым шагом, что даёт плотный сигнал обучения и улучшает показатели 7B моделей на сложных задачах

ЧИТАТЬ →

#RLVR09.10.2025

RA3: Темпоральные абстракции действий для ускорения RL-посттренинга в кодовых LLM

'RA3 формализует mid-training как отсечение пространства действий и сокращение горизонта планирования, используя темпоральные абстракции для ускорения RL-посттренинга и улучшения генерации кода.'

ЧИТАТЬ →

#RLVR09.09.2025

K2 Think: 32B открытая система рассуждений, соперничающая с гораздо большими моделями

K2 Think — 32B открытая система от MBZUAI, которая сочетает длинные CoT SFT, RL с верифицируемыми наградами и аппаратно-ориентированный инференс, чтобы соперничать с гораздо большими моделями по математике и показать конкурентоспособные результаты в коде и науке.

ЧИТАТЬ →

#RLVR20.07.2025

Master-RM: укрепление доверия к LLM-моделям награды против поверхностных уязвимостей

Master-RM — новая модель награды, устраняющая уязвимости LLM-оценщиков к поверхностным подсказкам и обеспечивающая более надежные результаты в обучении с подкреплением.

ЧИТАТЬ →

#RLVR01.06.2025

Набор инструментов Enigmata революционизирует решение головоломок в больших языковых моделях с помощью продвинутого обучения с подкреплением

Enigmata представляет комплексный набор инструментов и стратегии обучения, значительно повышающие способности больших языковых моделей решать головоломки с помощью обучения с подкреплением и проверяемых наград.

ЧИТАТЬ →

#RLVR03.05.2025

Революция в математическом мышлении: как 1-shot reinforcement learning улучшает работу LLM

Исследователи показали, что обучение больших языковых моделей с помощью всего одного примера значительно улучшает их способности решать математические задачи, достигая результатов, сопоставимых с обучением на больших наборах данных.

ЧИТАТЬ →