FILTER MODE ACTIVE

#chain-of-thought

Найдено записей: 9

#chain-of-thought14.10.2025

Думай прежде, чем предсказывать: RLP от NVIDIA внедряет усиленное обучение в стадию предтренировки

'NVIDIA RLP вознаграждает «думание» перед предсказанием, давая плотный позиционный сигнал информационного прироста и улучшая результаты в задачах рассуждения при меньшем количестве данных.'

#chain-of-thought13.10.2025

SwiReasoning: переключение по энтропии между латентным мышлением и явной цепочкой рассуждений

SwiReasoning чередует латентное мышление и явный CoT по сигналам энтропии следующего токена, улучшая точность и значительно снижая расход токенов на математика и STEM задачах.

#chain-of-thought09.09.2025

K2 Think: 32B открытая система рассуждений, соперничающая с гораздо большими моделями

K2 Think — 32B открытая система от MBZUAI, которая сочетает длинные CoT SFT, RL с верифицируемыми наградами и аппаратно-ориентированный инференс, чтобы соперничать с гораздо большими моделями по математике и показать конкурентоспособные результаты в коде и науке.

#chain-of-thought24.06.2025

ByteDance представляет ProtoReasoning: улучшение обобщения LLM с помощью логических прототипов

Исследователи ByteDance представляют ProtoReasoning — новую систему, использующую логические прототипы для значительного улучшения рассуждений и планирования в больших языковых моделях.

#chain-of-thought12.06.2025

Почему большие языковые модели пропускают инструкции и как это исправить

Большие языковые модели часто пропускают части сложных инструкций из-за ограничений внимания и лимитов токенов. В статье рассмотрены причины и рекомендации по улучшению выполнения инструкций.

#chain-of-thought28.05.2025

Soft Thinking меняет правила игры: LLM теперь рассуждают с помощью непрерывных концептуальных эмбеддингов

'Исследователи представили Soft Thinking — метод без обучения, который позволяет большим языковым моделям рассуждать с использованием непрерывных концептуальных эмбеддингов, улучшая точность и эффективность в задачах по математике и программированию.'

#chain-of-thought01.05.2025

Microsoft Представила Phi-4-Reasoning: Мощную 14-Миллиардную Модель с Открытыми Весами для Сложных Задач Рассуждения

Microsoft представила семейство моделей Phi-4-Reasoning с 14 миллиардами параметров, оптимизированных для сложных задач рассуждения. Эти модели показывают конкурентоспособные результаты в математике, планировании и программировании с открытым доступом и прозрачными методами обучения.