FILTER MODE ACTIVE

#HumanEval

Найдено записей: 4

#HumanEval19.10.2025

Weak-for-Strong: как 7B мета-агент научился оркестровать мощные LLM

'W4S обучает 7B мета-агента писать Python workflow, которые оркестрируют более сильные LLM без их дообучения, демонстрируя улучшения в 11 бенчмарках и высокий Pass@1 на HumanEval.'

ЧИТАТЬ →

#HumanEval09.10.2025

RA3: Темпоральные абстракции действий для ускорения RL-посттренинга в кодовых LLM

'RA3 формализует mid-training как отсечение пространства действий и сокращение горизонта планирования, используя темпоральные абстракции для ускорения RL-посттренинга и улучшения генерации кода.'

ЧИТАТЬ →

#HumanEval31.07.2025

Кодинг LLM 2025: Обзор бенчмарков, метрик и ведущих моделей

Детальный обзор бенчмарков и метрик 2025 года для кодинг LLM, с анализом ведущих моделей OpenAI, Gemini и Anthropic в реальных сценариях разработки.

ЧИТАТЬ →

#HumanEval18.07.2025

EG-CFG: Революция в Генерации Кода с Обратной Связью в Реальном Времени

EG-CFG внедряет обратную связь от выполнения кода в реальном времени, значительно повышая точность генерации на ключевых бенчмарках и превосходя ведущие модели, такие как GPT-4.

ЧИТАТЬ →