FILTER MODE ACTIVE

#SWE-Bench

Найдено записей: 5

#SWE-Bench06.11.2025

CMU обучает LLM агентов продуктивности, проактивности и персонализации с помощью PPP и UserVille

Исследователи CMU предложили PPP и UserVille, которые учат LLM агентов задавать полезные уточняющие вопросы и адаптироваться к пользовательским предпочтениям, что заметно повышает все ключевые метрики на бенчмарках.

#SWE-Bench18.05.2025

Достижение 50.8% на SWE-Bench с помощью монолитных моделей с длинным контекстом без использования инструментов

Новое исследование показывает, что мощные модели с длинным контекстом могут достигать 50.8% точности на бенчмарке SWE-Bench без сложных инструментальных каркасов, упрощая архитектуру LM-агентов.