FILTER MODE ACTIVE

#Gemini-2.5-Pro

Найдено записей: 1

#Gemini-2.5-Pro18.05.2025

Достижение 50.8% на SWE-Bench с помощью монолитных моделей с длинным контекстом без использования инструментов

Новое исследование показывает, что мощные модели с длинным контекстом могут достигать 50.8% точности на бенчмарке SWE-Bench без сложных инструментальных каркасов, упрощая архитектуру LM-агентов.