FILTER MODE ACTIVE

#SWE-Bench

Найдено записей: 5

#SWE-Bench06.11.2025

CMU обучает LLM агентов продуктивности, проактивности и персонализации с помощью PPP и UserVille

Исследователи CMU предложили PPP и UserVille, которые учат LLM агентов задавать полезные уточняющие вопросы и адаптироваться к пользовательским предпочтениям, что заметно повышает все ключевые метрики на бенчмарках.

ЧИТАТЬ →

#SWE-Bench24.09.2025

Alibaba представила Qwen3-Max — MoE на 1T+ параметров с production thinking mode и заметными бенчмарками

'Alibaba выпустила Qwen3-Max — MoE-модель класса 1T+ с production-ready thinking mode и сильными стартовыми результатами в кодинге и агентных бенчмарках; доступна через Qwen Chat и Model Studio.'

ЧИТАТЬ →

#SWE-Bench31.07.2025

Кодинг LLM 2025: Обзор бенчмарков, метрик и ведущих моделей

Детальный обзор бенчмарков и метрик 2025 года для кодинг LLM, с анализом ведущих моделей OpenAI, Gemini и Anthropic в реальных сценариях разработки.

ЧИТАТЬ →

#SWE-Bench11.07.2025

Mistral AI представляет Devstral 2507: мощные модели для работы с кодом

Mistral AI выпустила серию Devstral 2507 с моделями Devstral Small 1.1 и Devstral Medium 2507, оптимизированными для анализа и автоматизации кода с балансом между производительностью и стоимостью.

ЧИТАТЬ →

#SWE-Bench18.05.2025

Достижение 50.8% на SWE-Bench с помощью монолитных моделей с длинным контекстом без использования инструментов

Новое исследование показывает, что мощные модели с длинным контекстом могут достигать 50.8% точности на бенчмарке SWE-Bench без сложных инструментальных каркасов, упрощая архитектуру LM-агентов.

ЧИТАТЬ →