FILTER MODE ACTIVE

#бенчмарк

Найдено записей: 9

#бенчмарк14.10.2025

Напиши один раз — запускай везде: Ivy для фреймворк-агностичного ML, транспиляции и бенчмарков

'Практический туториал по Ivy: как писать модели один раз и запускать их на NumPy, PyTorch, TensorFlow и JAX, включая примеры транспиляции, контейнеров и замеров производительности.'

#бенчмарк22.08.2025

AmbiGraph-Eval: бенчмарк для разрешения неоднозначности в генерации графовых запросов

'AmbiGraph-Eval представляет бенчмарк из 560 неоднозначных запросов для проверки LLM при генерации Cypher. Тестирование девяти моделей показало ключевые проблемы в разрешении неоднозначности и формировании корректного синтаксиса.'

#бенчмарк19.06.2025

HtFLlib: Первый Универсальный Бенчмарк для Оценки Гетерогенного Федеративного Обучения в Разных Модальностях

HtFLlib представляет первую универсальную библиотеку для оценки методов гетерогенного федеративного обучения в разных данных и модальностях, решая ограничения традиционного FL и расширяя возможности совместного обучения моделей.

#бенчмарк23.05.2025

MMLONGBENCH: Новый стандарт оценки долгоконтекстных моделей с визуально-языковым пониманием

Исследователи представили MMLONGBENCH — первый комплексный бенчмарк для оценки долгоконтекстных визуально-языковых моделей, выявляющий ключевые особенности и проблемы в их работе.

#бенчмарк20.05.2025

Salesforce представляет UAEval4RAG: новый бенчмарк для оценки способности RAG-систем отвергать неотвечаемые запросы

Исследователи Salesforce представили UAEval4RAG — новый бенчмарк для оценки способности RAG-систем отвергать неотвечаемые запросы разных типов, что повышает надежность ответов ИИ.