FILTER MODE ACTIVE

#RLHF

Найдено записей: 10

#RLHF03.10.2025

Tinker от Thinking Machines: низкоуровневый API для распределённой дообучения LLM с контролем над шагами

'Tinker предоставляет низкоуровневый API для написания пользовательских тренировочных циклов локально с выполнением на управляемых кластерах; акцент на LoRA и переносимых весах.'

ЧИТАТЬ →

#RLHF16.09.2025

Обновляйте триллионные LLM за ~20 секунд с checkpoint-engine от MoonshotAI

'MoonshotAI выпустил checkpoint-engine — решение для обновления весов на тысячах GPU примерно за 20 секунд, полезное для RL и масштабного сервинга с минимальным простоем.'

ЧИТАТЬ →

#RLHF07.09.2025

Галлюцинации не магия: почему LLM уверенно ошибаются и как бенчмарки это поощряют

'Исследование объясняет галлюцинации LLM как следствие статистики предобучения и показывает, что бинарные бенчмарки поощряют угадывание; изменение схем оценивания может снизить уверенные ошибки.'

ЧИТАТЬ →

#RLHF05.08.2025

Anthropic AI представила векторные персоны для контроля изменений личности в больших языковых моделях

Anthropic AI разработала метод векторных персон для выявления и контроля изменений личности в больших языковых моделях, что улучшает их надежность и безопасность.

ЧИТАТЬ →

#RLHF30.07.2025

Рубрики как Награды: Улучшение Обучения Языковых Моделей с Помощью Структурированной Многофакторной Оценки

'Rubrics as Rewards (RaR) представляет метод обучения с подкреплением, использующий структурированные рубрики для повышения качества обучения языковых моделей в медицине и науке.'

ЧИТАТЬ →

#RLHF07.07.2025

SynPref-40M и Skywork-Reward-V2: Революция в масштабируемом согласовании человека и ИИ для передовых моделей вознаграждения

SynPref-40M представляет огромный набор данных предпочтений, который позволил создать серию моделей Skywork-Reward-V2 с передовыми результатами в согласовании человека и ИИ по нескольким бенчмаркам.

ЧИТАТЬ →

#RLHF14.06.2025

Internal Coherence Maximization: революция в обучении больших языковых моделей без разметки

Internal Coherence Maximization (ICM) представляет собой новый метод обучения больших языковых моделей без использования разметки, достигающий результатов, сопоставимых с обучением на данных с человеческой разметкой.

ЧИТАТЬ →

#RLHF12.06.2025

Почему большие языковые модели пропускают инструкции и как это исправить

Большие языковые модели часто пропускают части сложных инструкций из-за ограничений внимания и лимитов токенов. В статье рассмотрены причины и рекомендации по улучшению выполнения инструкций.

ЧИТАТЬ →

#RLHF30.05.2025

Внутри Invisible Technologies: CEO Мэтью Фитцпатрик о ИИ, сотрудничестве с людьми и масштабировании автоматизации

Мэтью Фитцпатрик, CEO Invisible Technologies, рассказывает о сочетании человеческого опыта и ИИ для масштабирования автоматизации, значении RLHF и тенденциях достижения ROI в корпоративном ИИ.

ЧИТАТЬ →

#RLHF30.04.2025

ART·E от OpenPipe: Революция в Email-Агентах с Помощью Обучения с Подкреплением — Быстрее, Дешевле, Точнее

ART·E от OpenPipe использует обучение с подкреплением для повышения скорости, снижения стоимости и улучшения точности ответов по email, превосходя агента o3 от OpenAI.

ЧИТАТЬ →