FILTER MODE ACTIVE

#бенчмарк

Найдено записей: 9

#бенчмарк19.11.2025

Бенчмарк рассуждающих агентов: практический фреймворк для Direct, CoT, ReAct и Reflexion

'Фреймворк и код для системного сравнения стратегий Direct, CoT, ReAct и Reflexion по задачам и ключевым метрикам.'

#бенчмарк05.11.2025

IndQA: новый культурно ориентированный бенчмарк OpenAI для индийских языков

OpenAI запустила IndQA — набор из 2 278 экспертных вопросов на 12 индийских языках с оценкой по рубрикам, ориентированный на культурно значимые домены.

ЧИТАТЬ →

#бенчмарк14.10.2025

Напиши один раз — запускай везде: Ivy для фреймворк-агностичного ML, транспиляции и бенчмарков

'Практический туториал по Ivy: как писать модели один раз и запускать их на NumPy, PyTorch, TensorFlow и JAX, включая примеры транспиляции, контейнеров и замеров производительности.'

ЧИТАТЬ →

#бенчмарк14.10.2025

Meta ARE и Gaia2: новая планка оценки агентов в асинхронных, событийных условиях

'ARE и Gaia2 переводят оценку агентов в асинхронные, событийные условия, проверяя проактивность, выдержку таймингов и межагентную координацию в верифицируемых сценариях.'

ЧИТАТЬ →

#бенчмарк06.09.2025

Обучение больших трансформеров в Colab с DeepSpeed: ZeRO, FP16 и градиентный чекпойнтинг

'Пошаговый гайд по DeepSpeed с примерами кода: как масштабировать обучение трансформеров в Colab с помощью ZeRO, смешанной точности и оптимизаций памяти.'

ЧИТАТЬ →

#бенчмарк22.08.2025

AmbiGraph-Eval: бенчмарк для разрешения неоднозначности в генерации графовых запросов

'AmbiGraph-Eval представляет бенчмарк из 560 неоднозначных запросов для проверки LLM при генерации Cypher. Тестирование девяти моделей показало ключевые проблемы в разрешении неоднозначности и формировании корректного синтаксиса.'

ЧИТАТЬ →

#бенчмарк19.06.2025

HtFLlib: Первый Универсальный Бенчмарк для Оценки Гетерогенного Федеративного Обучения в Разных Модальностях

HtFLlib представляет первую универсальную библиотеку для оценки методов гетерогенного федеративного обучения в разных данных и модальностях, решая ограничения традиционного FL и расширяя возможности совместного обучения моделей.

ЧИТАТЬ →

#бенчмарк23.05.2025

MMLONGBENCH: Новый стандарт оценки долгоконтекстных моделей с визуально-языковым пониманием

Исследователи представили MMLONGBENCH — первый комплексный бенчмарк для оценки долгоконтекстных визуально-языковых моделей, выявляющий ключевые особенности и проблемы в их работе.

ЧИТАТЬ →

#бенчмарк20.05.2025

Salesforce представляет UAEval4RAG: новый бенчмарк для оценки способности RAG-систем отвергать неотвечаемые запросы

Исследователи Salesforce представили UAEval4RAG — новый бенчмарк для оценки способности RAG-систем отвергать неотвечаемые запросы разных типов, что повышает надежность ответов ИИ.

ЧИТАТЬ →