FILTER MODE ACTIVE

#PPO

Найдено записей: 9

#PPO17.11.2025

DreamGym от Meta: текстовый мир, который снижает количество реальных взаимодействий для RL‑агентов

'DreamGym от Meta синтезирует взаимодействия как текст с помощью reasoning‑модели и буфера памяти, сокращая потребность в реальных прогонах и улучшая результаты на веб‑бенчмарках.'

ЧИТАТЬ →

#PPO09.11.2025

Step-Audio-EditX: открытая 3B аудио LLM, позволяющая редактировать речь как текст

Step-Audio-EditX — открытая 3B аудио LLM, которая переводит редактирование речи в токенное пространство, позволив итеративно и точно править эмоцию, стиль и паралингвистику с помощью синтетических данных и PPO.

ЧИТАТЬ →

#PPO26.10.2025

Обучение и сравнение RL-агентов для трейдинга с Stable-Baselines3: практическое руководство

'Создайте кастомную торговую среду и обучите несколько RL-агентов с Stable-Baselines3, затем оцените и визуализируйте их поведение, чтобы выбрать лучшую стратегию.'

ЧИТАТЬ →

#PPO18.06.2025

AREAL: Революция в обучении больших моделей рассуждений с полностью асинхронным усиленным обучением

AREAL — новая асинхронная система усиленного обучения, которая значительно ускоряет обучение больших моделей рассуждений, разделяя процессы генерации и обучения и достигая до 2.77× быстрейшего обучения без потери точности.

ЧИТАТЬ →

#PPO02.06.2025

Революция в рассуждениях LLM с офф-политик RL и регуляризацией KL-дивергенции

Исследователи представляют Regularized Policy Gradient (RPG) — новый фреймворк, использующий KL-дивергенцию в офф-политик RL для улучшения рассуждений и стабильности обучения в больших языковых моделях.

ЧИТАТЬ →

#PPO24.05.2025

Обучение с подкреплением помогает LLM превосходить традиционные компиляторы в оптимизации ассемблерного кода

Исследователи разработали метод обучения с подкреплением, который позволяет LLM превосходить традиционные компиляторы в оптимизации ассемблерного кода, достигая ускорения 1,47× и 96% успешного прохождения тестов на тысячах реальных программ.

ЧИТАТЬ →

#PPO19.05.2025

SEM от Ant Group обучает большие модели языковому искусству поиска и эффективному использованию знаний

Ant Group представила SEM — метод обучения с подкреплением, который помогает большим языковым моделям решать, когда использовать внешний поиск, повышая точность и снижая избыточные запросы.

ЧИТАТЬ →

#PPO10.05.2025

ZeroSearch от Alibaba: обучение LLM поиску с усиленным обучением и симуляцией документов без реального поиска

'ZeroSearch от Alibaba обучает языковые модели поиску с помощью усиленного обучения и симулированных документов без использования дорогих API реального поиска, достигая результатов, сравнимых с Google Search.'

ЧИТАТЬ →

#PPO30.04.2025

ART·E от OpenPipe: Революция в Email-Агентах с Помощью Обучения с Подкреплением — Быстрее, Дешевле, Точнее

ART·E от OpenPipe использует обучение с подкреплением для повышения скорости, снижения стоимости и улучшения точности ответов по email, превосходя агента o3 от OpenAI.

ЧИТАТЬ →