FILTER MODE ACTIVE

#оценка

Найдено записей: 4

#оценка21.11.2025

Создание полностью трассируемого локального QA-пайплайна LLM с Opik для воспроизводимых и прозрачных оценок

'Практическое руководство по созданию, трассировке и оценке локального QA-пайплайна LLM с Opik и лёгкой моделью Hugging Face для измеримых и воспроизводимых результатов.'

#оценка20.05.2025

Salesforce представляет UAEval4RAG: новый бенчмарк для оценки способности RAG-систем отвергать неотвечаемые запросы

Исследователи Salesforce представили UAEval4RAG — новый бенчмарк для оценки способности RAG-систем отвергать неотвечаемые запросы разных типов, что повышает надежность ответов ИИ.