FILTER MODE ACTIVE

#GRPO

Найдено записей: 14

#GRPO25.11.2025

Agent0: самообучающаяся LLM, осваивающая инструменты и решающая сложную математику без внешних данных

'Agent0 коэволюционирует генератор задач и исполнителя из одного базового LLM, используя песочницу Python и адаптивный RL для улучшения математических и общих навыков без внешних данных.'

ЧИТАТЬ →

#GRPO17.11.2025

DreamGym от Meta: текстовый мир, который снижает количество реальных взаимодействий для RL‑агентов

'DreamGym от Meta синтезирует взаимодействия как текст с помощью reasoning‑модели и буфера памяти, сокращая потребность в реальных прогонах и улучшая результаты на веб‑бенчмарках.'

ЧИТАТЬ →

#GRPO15.10.2025

Early Experience: обучение языковых агентов на собственных результатах без наград

'Early Experience использует состояния, сгенерированные агентом, как супервижен и превосходит имитационное обучение на восьми задачах, улучшая старт для последующего RL.'

ЧИТАТЬ →

#GRPO18.09.2025

Alibaba открыла исходники Tongyi DeepResearch — 30B MoE LLM для длительных веб-исследований

'Alibaba открыла исходники Tongyi DeepResearch-30B-A3B — MoE-модель с 128K контекстом для длительных исследований и высокими результатами в бенчмарках.'

ЧИТАТЬ →

#GRPO16.08.2025

R-Zero: самоэволюционирующая система ИИ, генерирующая тренировочные данные из нуля

'R-Zero — коэволюционная схема, где Challenger генерирует сложные задачи, а Solver учится на них, обеспечивая обучение без внешних меток и улучшая точность рассуждений.'

ЧИТАТЬ →

#GRPO30.07.2025

Рубрики как Награды: Улучшение Обучения Языковых Моделей с Помощью Структурированной Многофакторной Оценки

'Rubrics as Rewards (RaR) представляет метод обучения с подкреплением, использующий структурированные рубрики для повышения качества обучения языковых моделей в медицине и науке.'

ЧИТАТЬ →

#GRPO14.07.2025

MMSearch-R1: Революция в мультимодальном поиске в LMM с помощью обучения с подкреплением

MMSearch-R1 представляет собой систему обучения с подкреплением, которая позволяет большим мультимодальным моделям эффективно и избирательно выполнять поиск по запросу, улучшая точность и снижая нагрузку на систему поиска.

ЧИТАТЬ →

#GRPO06.07.2025

Новый метод Meta и NYU: Полуонлайн обучение с подкреплением для улучшения выравнивания LLM

Meta и NYU разработали полуонлайн метод обучения с подкреплением, который балансирует офлайн и онлайн подходы для улучшения выравнивания больших языковых моделей и повышения их производительности в инструкциях и математике.

ЧИТАТЬ →

#GRPO27.05.2025

QwenLong-L1: Продвинутый фреймворк для длинного контекстного вывода в больших языковых моделях с использованием обучения с подкреплением

QwenLong-L1 представляет структурированный подход к обучению с подкреплением, позволяющий большим языковым моделям эффективно решать задачи с длинным контекстом и достигает лучших результатов на множестве бенчмарков.

ЧИТАТЬ →

#GRPO19.05.2025

SEM от Ant Group обучает большие модели языковому искусству поиска и эффективному использованию знаний

Ant Group представила SEM — метод обучения с подкреплением, который помогает большим языковым моделям решать, когда использовать внешний поиск, повышая точность и снижая избыточные запросы.

ЧИТАТЬ →

#GRPO13.05.2025

RLV: Улучшение рассуждений языковых моделей с помощью интегрированной проверки без использования value-функции

RLV представляет собой объединённый подход, интегрирующий верификацию в value-free обучение с подкреплением для языковых моделей, значительно повышая точность рассуждений и эффективность вычислений на математических тестах.

ЧИТАТЬ →

#GRPO12.05.2025

PrimeIntellect Представляет INTELLECT-2: 32-Миллиардная Модель для Рассуждений с Децентрализованным Асинхронным Обучением

PrimeIntellect представил INTELLECT-2 — 32-миллиардную модель для рассуждений, обученную с помощью децентрализованного асинхронного обучения с подкреплением, которая превосходит предыдущие модели и доступна с открытым исходным кодом.

ЧИТАТЬ →

#GRPO10.05.2025

ZeroSearch от Alibaba: обучение LLM поиску с усиленным обучением и симуляцией документов без реального поиска

'ZeroSearch от Alibaba обучает языковые модели поиску с помощью усиленного обучения и симулированных документов без использования дорогих API реального поиска, достигая результатов, сравнимых с Google Search.'

ЧИТАТЬ →

#GRPO28.04.2025

Tina: Компактные модели USC с большими успехами в экономичном обучении с подкреплением

Исследователи USC представляют Tina — семейство компактных моделей рассуждения, использующих LoRA и обучение с подкреплением для эффективного достижения высоких результатов с минимальными затратами.

ЧИТАТЬ →