FILTER MODE ACTIVE

#бенчмарки

Найдено записей: 10

#бенчмарки09.10.2025

AgentFlow: обучение планировщика с Flow-GRPO для модульных агентов с использованием инструментов

'AgentFlow предлагает модульную архитектуру и Flow-GRPO для обучения только Планировщика, демонстрируя значительные улучшения на десяти бенчмарках и доступный MIT-репозиторий.'

#бенчмарки07.09.2025

Галлюцинации не магия: почему LLM уверенно ошибаются и как бенчмарки это поощряют

'Исследование объясняет галлюцинации LLM как следствие статистики предобучения и показывает, что бинарные бенчмарки поощряют угадывание; изменение схем оценивания может снизить уверенные ошибки.'

#бенчмарки31.08.2025

Alibaba представила GUI-Owl и Mobile-Agent-v3: умные агенты для автоматизации интерфейсов

'Команда Alibaba представила GUI-Owl и Mobile-Agent-v3 — мультимодальную модель и мультиагентный фреймворк для надежной автоматизации интерфейсов на мобильных и десктопных платформах.'

#бенчмарки10.07.2025

Ускоряем pandas-воркфлоу с Modin на Google Colab

Узнайте, как Modin ускоряет pandas-воркфлоу с помощью параллельных вычислений в Google Colab. Сравнение производительности на сложных задачах и рекомендации по эффективному использованию.

#бенчмарки23.06.2025

VERINA: новый стандарт оценки генерации проверяемого кода с помощью LLM и формальных доказательств

VERINA представляет комплексный бенчмарк для оценки LLM в генерации проверяемого кода, объединяя код, формальные спецификации и доказательства с разным уровнем сложности.