FILTER MODE ACTIVE

#Qwen

Найдено записей: 6

#Qwen03.10.2025

Tinker от Thinking Machines: низкоуровневый API для распределённой дообучения LLM с контролем над шагами

'Tinker предоставляет низкоуровневый API для написания пользовательских тренировочных циклов локально с выполнением на управляемых кластерах; акцент на LoRA и переносимых весах.'

#Qwen08.09.2025

Преимущество RL: исследование MIT показало, что обучение с подкреплением снижает катастрофическое забывание по сравнению с SFT

'MIT доказали, что on-policy обучение с подкреплением сохраняет ранее приобретённые способности лучше, чем супервизированное дообучение, за счёт минимизации прямого KL-расхождения между базовой и адаптированной моделью.'

#Qwen30.08.2025

Как собрать и запустить мозго‑подобного иерархического агента рассуждения локально на Hugging Face

Практическое руководство по запуску мозгообразного иерархического агента рассуждения локально с бесплатной моделью Hugging Face, используя планирование, кодовые решатели, критику и синтез.