Бенчмарк рассуждающих агентов: практический фреймворк для Direct, CoT, ReAct и Reflexion
'Фреймворк и код для системного сравнения стратегий Direct, CoT, ReAct и Reflexion по задачам и ключевым метрикам.'
Найдено записей: 9
'Фреймворк и код для системного сравнения стратегий Direct, CoT, ReAct и Reflexion по задачам и ключевым метрикам.'
OpenAI запустила IndQA — набор из 2 278 экспертных вопросов на 12 индийских языках с оценкой по рубрикам, ориентированный на культурно значимые домены.
'Практический туториал по Ivy: как писать модели один раз и запускать их на NumPy, PyTorch, TensorFlow и JAX, включая примеры транспиляции, контейнеров и замеров производительности.'
'ARE и Gaia2 переводят оценку агентов в асинхронные, событийные условия, проверяя проактивность, выдержку таймингов и межагентную координацию в верифицируемых сценариях.'
'Пошаговый гайд по DeepSpeed с примерами кода: как масштабировать обучение трансформеров в Colab с помощью ZeRO, смешанной точности и оптимизаций памяти.'
'AmbiGraph-Eval представляет бенчмарк из 560 неоднозначных запросов для проверки LLM при генерации Cypher. Тестирование девяти моделей показало ключевые проблемы в разрешении неоднозначности и формировании корректного синтаксиса.'
HtFLlib представляет первую универсальную библиотеку для оценки методов гетерогенного федеративного обучения в разных данных и модальностях, решая ограничения традиционного FL и расширяя возможности совместного обучения моделей.
Исследователи представили MMLONGBENCH — первый комплексный бенчмарк для оценки долгоконтекстных визуально-языковых моделей, выявляющий ключевые особенности и проблемы в их работе.
Исследователи Salesforce представили UAEval4RAG — новый бенчмарк для оценки способности RAG-систем отвергать неотвечаемые запросы разных типов, что повышает надежность ответов ИИ.