FILTER MODE ACTIVE

#бенчмарки

Найдено записей: 10

#бенчмарки09.10.2025

AgentFlow: обучение планировщика с Flow-GRPO для модульных агентов с использованием инструментов

'AgentFlow предлагает модульную архитектуру и Flow-GRPO для обучения только Планировщика, демонстрируя значительные улучшения на десяти бенчмарках и доступный MIT-репозиторий.'

ЧИТАТЬ →

#бенчмарки07.09.2025

Галлюцинации не магия: почему LLM уверенно ошибаются и как бенчмарки это поощряют

'Исследование объясняет галлюцинации LLM как следствие статистики предобучения и показывает, что бинарные бенчмарки поощряют угадывание; изменение схем оценивания может снизить уверенные ошибки.'

ЧИТАТЬ →

#бенчмарки06.09.2025

Alibaba представила Qwen3-Max-Preview — модель с триллионом параметров и контекстом в 262K токенов

'Qwen3-Max-Preview — первая триллионная модель Alibaba с окном контекста в 262K токенов и конкурентной производительностью; доступна только через API и по ступенчатой оплате.'

ЧИТАТЬ →

#бенчмарки04.09.2025

OLMoASR: открытая ASR-платформа AI2, которая бросает вызов Whisper

'AI2 представил OLMoASR — открытую систему распознавания речи с моделями, набором данных и рецептами обучения, сопоставимую по качеству с OpenAI Whisper.'

ЧИТАТЬ →

#бенчмарки31.08.2025

Alibaba представила GUI-Owl и Mobile-Agent-v3: умные агенты для автоматизации интерфейсов

'Команда Alibaba представила GUI-Owl и Mobile-Agent-v3 — мультимодальную модель и мультиагентный фреймворк для надежной автоматизации интерфейсов на мобильных и десктопных платформах.'

ЧИТАТЬ →

#бенчмарки09.08.2025

AI-агенты в 2025: что работает, какие риски и как запускать

'Короткое руководство по AI-агентам в 2025: что это, где они работают надёжно, основные риски и как выстраивать продакшен.'

ЧИТАТЬ →

#бенчмарки10.07.2025

Ускоряем pandas-воркфлоу с Modin на Google Colab

Узнайте, как Modin ускоряет pandas-воркфлоу с помощью параллельных вычислений в Google Colab. Сравнение производительности на сложных задачах и рекомендации по эффективному использованию.

ЧИТАТЬ →

#бенчмарки23.06.2025

VERINA: новый стандарт оценки генерации проверяемого кода с помощью LLM и формальных доказательств

VERINA представляет комплексный бенчмарк для оценки LLM в генерации проверяемого кода, объединяя код, формальные спецификации и доказательства с разным уровнем сложности.

ЧИТАТЬ →

#бенчмарки04.06.2025

LifelongAgentBench: Революция в непрерывном обучении агентов на базе LLM

LifelongAgentBench представляет новый бенчмарк для оценки непрерывного обучения агентов на базе LLM, фокусируясь на сохранении и адаптации знаний в последовательных задачах.

ЧИТАТЬ →

#бенчмарки01.05.2025

Salesforce представляет новые бенчмарки и модели для создания надежных AI-агентов

Salesforce AI Research представила новые бенчмарки, модели безопасности и архитектуры для создания более надежных и эффективных AI-агентов для корпоративных задач.

ЧИТАТЬ →