FILTER MODE ACTIVE

#RLHF

Найдено записей: 10

#RLHF03.10.2025

Tinker от Thinking Machines: низкоуровневый API для распределённой дообучения LLM с контролем над шагами

'Tinker предоставляет низкоуровневый API для написания пользовательских тренировочных циклов локально с выполнением на управляемых кластерах; акцент на LoRA и переносимых весах.'

#RLHF07.09.2025

Галлюцинации не магия: почему LLM уверенно ошибаются и как бенчмарки это поощряют

'Исследование объясняет галлюцинации LLM как следствие статистики предобучения и показывает, что бинарные бенчмарки поощряют угадывание; изменение схем оценивания может снизить уверенные ошибки.'

#RLHF30.07.2025

Рубрики как Награды: Улучшение Обучения Языковых Моделей с Помощью Структурированной Многофакторной Оценки

'Rubrics as Rewards (RaR) представляет метод обучения с подкреплением, использующий структурированные рубрики для повышения качества обучения языковых моделей в медицине и науке.'

#RLHF07.07.2025

SynPref-40M и Skywork-Reward-V2: Революция в масштабируемом согласовании человека и ИИ для передовых моделей вознаграждения

SynPref-40M представляет огромный набор данных предпочтений, который позволил создать серию моделей Skywork-Reward-V2 с передовыми результатами в согласовании человека и ИИ по нескольким бенчмаркам.

#RLHF14.06.2025

Internal Coherence Maximization: революция в обучении больших языковых моделей без разметки

Internal Coherence Maximization (ICM) представляет собой новый метод обучения больших языковых моделей без использования разметки, достигающий результатов, сопоставимых с обучением на данных с человеческой разметкой.

#RLHF12.06.2025

Почему большие языковые модели пропускают инструкции и как это исправить

Большие языковые модели часто пропускают части сложных инструкций из-за ограничений внимания и лимитов токенов. В статье рассмотрены причины и рекомендации по улучшению выполнения инструкций.

#RLHF30.05.2025

Внутри Invisible Technologies: CEO Мэтью Фитцпатрик о ИИ, сотрудничестве с людьми и масштабировании автоматизации

Мэтью Фитцпатрик, CEO Invisible Technologies, рассказывает о сочетании человеческого опыта и ИИ для масштабирования автоматизации, значении RLHF и тенденциях достижения ROI в корпоративном ИИ.