OpenAI обучила LLM признаваться в ошибках
Исследование OpenAI показывает, что LLM могут признавать ошибки, повышая доверие к ИИ.
Найдено записей: 75
Исследование OpenAI показывает, что LLM могут признавать ошибки, повышая доверие к ИИ.
Matrix повышает эффективность генерации синтетических данных, используя децентрализованное управление и значительно улучшая пропускную способность токенов.
Создайте ИИ-рамку, анализирующую литературу, генерирующую гипотезы, планирующую эксперименты и создающую отчеты.
kvcached вводит виртуальный эластичный KV-кэш для LLM, что сокращает потребление памяти и ускоряет активацию моделей при колокации на общих GPU.
'WALT извлекает родную функциональность сайтов и превращает её в детерминированные вызываемые инструменты для LLM-агентов, увеличивая успешность и сокращая число действий.'
'Погрузитесь в архитектуру LangChain DeepAgents: планирование задач, субагенты и файловая система дают агентау способность решать сложные многошаговые работы.'
'AutoCode учит LLM создавать и проверять задачи соревновательного программирования через цикл Validator–Generator–Checker(+Interactor) и двойную верификацию, добиваясь согласованности с джаджем на уровне ≈99%.'
C2S-Scale 27B преобразует профили scRNA-seq в ранжированные 'предложения клеток', позволяя LLM выполнять анализ состояний клеток. Модель предсказала и валидация in vitro показала, что ингибирование CK2 вместе с низкой дозой интерферона увеличивает представление MHC-I примерно на 50%.
SwiReasoning чередует латентное мышление и явный CoT по сигналам энтропии следующего токена, улучшая точность и значительно снижая расход токенов на математика и STEM задачах.
'ACE' позволяет LLM самоулучшаться через накопительный контекстный плейбук, демонстрируя заметный рост точности и сокращение задержек в задачах агентов и финансовых тестах.
'Google выпустил экспериментальный Python MCP-сервер, который открывает только чтение Google Ads API: search (GAQL) и list_accessible_customers, чтобы LLM-агенты могли анализировать данные без кастомных SDK.'
'Как asyncio помогает параллельно выполнять запросы к LLM и сокращать время ожидания в AI-приложениях.'
'ShinkaEvolve сочетает LLM-мутации и эволюционный поиск, чтобы находить сильные программы с сотнями, а не тысячами оценок; достигает SOTA в задаче упаковки кругов и улучшает решения в нескольких доменах.'
'Alibaba открыла исходники Tongyi DeepResearch-30B-A3B — MoE-модель с 128K контекстом для длительных исследований и высокими результатами в бенчмарках.'
Стандартные методы XAI не отражают иерархическую, прецедентную структуру юридического мышления. В статье предлагается гибридная архитектура: формальная аргументация плюс LLM для человекоориентированных объяснений.
'REFRAG сжимает извлеченные фрагменты в векторы, позволяя обрабатывать в 16 раз больший контекст и сокращая время до первого токена до 30.85× без потери точности.'
'TildeOpen — 30-миллиардная открытая модель, созданная для улучшения поддержки малых европейских языков и доступная для локального развёртывания в соответствии с GDPR.'
'Qwen3-Max-Preview — первая триллионная модель Alibaba с окном контекста в 262K токенов и конкурентной производительностью; доступна только через API и по ступенчатой оплате.'
'Агентный AI и унифицированные платформы позволяют масштабировать персонализированный сервис, при этом важно сохранить доверие клиентов и роль сотрудников.'
'Ensemble переводит агентный ИИ из пилота в масштаб, сочетая LLM с символической логикой, 2 ПБ медицинских данных и тесную работу исследователей с клиническими экспертами для снижения отказов и улучшения взаимодействия с пациентами.'
'RLM от Google позволяет компактным LLM напрямую предсказывать метрики производительности промышленных систем по сериализованным логам и конфигам, значительно сокращая работу по фичам и повышая точность.'
'Практичное сравнение TPU и GPU для обучения больших трансформеров в 2025: ключевые преимущества TPU v5p и NVIDIA Blackwell B200 и советы по выбору ускорителя.'
'Руководство по использованию JSON-промптов с примерами на Python, показывающее, как структурированные запросы повышают точность и удобство интеграции результатов.'
'Узнайте, как работают голосовые агенты на базе ИИ, какие компоненты важны и какие 9 платформ лидируют в 2025 году.'
'Для банков и страховщиков в 2025 году: SLM — для быстрых, структурированных задач и строгой локализации данных; LLM — для длинных контекстов и сложного синтеза при строгом управлении рисками.'
'AmbiGraph-Eval представляет бенчмарк из 560 неоднозначных запросов для проверки LLM при генерации Cypher. Тестирование девяти моделей показало ключевые проблемы в разрешении неоднозначности и формировании корректного синтаксиса.'
'Vibe coding позволяет быстро генерировать код для пайплайнов, но без ревью может привести к ошибкам данных и проблемам с безопасностью.'
'Hugging Face выпустила AI Sheets — бесплатный открытый инструмент в виде таблицы для создания, очистки и обогащения наборов данных с помощью open-source LLM, доступный в браузере и для локального запуска.'
'ReaGAN переосмысливает узлы графа как автономных агентов, использующих замороженную LLM для планирования и глобального извлечения информации, достигая конкурентных результатов без обучения.'
'ToolTrain сочетает SFT и RL с интеграцией инструментов, чтобы научить LLM эффективно искать в коде и улучшить локализацию проблем на реальных бенчмарках.'
ProRLv2 увеличивает горизонт RL до 3000 шагов и демонстрирует значительные улучшения рассуждения в компактных языковых моделях, подтверждённые приростами по математике, кодированию и логике.
'Mixture-of-Agents объединяет специализированных агентов в многоуровневую систему, повышая точность и надёжность ответов по сравнению с одиночными моделями.'
Anthropic AI разработала метод векторных персон для выявления и контроля изменений личности в больших языковых моделях, что улучшает их надежность и безопасность.
Google AI представил LangExtract — мощную open-source Python-библиотеку для извлечения структурированных и проверяемых данных из неструктурированных текстов с использованием LLM, таких как Gemini.
ByteDance представила Seed-Prover — инновационную систему доказательства на основе лемм, которая добилась прорывных результатов, решив 5 из 6 задач IMO 2025 и превзойдя множество других бенчмарков.
Контекстный инжиниринг расширяет возможности больших языковых моделей, объединяя инновационные техники и системные архитектуры для решения актуальных исследовательских задач.
Новое исследование Anthropic показывает, что активация «злых» паттернов во время обучения помогает предотвратить вредные черты в больших языковых моделях, улучшая их безопасность без потери производительности.
TransEvalnia использует prompting и LLM для детальной оценки и ранжирования переводов с высокой точностью и часто превосходит традиционные модели на различных языковых парах.
В этом руководстве показано, как создать модульный пайплайн анализа текста с LangGraph, включая классификацию, извлечение сущностей, суммаризацию, анализ тональности и динамическое управление потоками.
Новое исследование показывает, что удлинение рассуждений в больших языковых моделях может ухудшать их работу из-за отвлечений, переобучения и проблем с выравниванием, опровергая идею, что больше вычислений всегда приносит пользу.
Узнайте, как использовать Mirascope для реализации техники Self-Refine с большими языковыми моделями, чтобы улучшать ответы ИИ через итеративную доработку.
В этом руководстве показано, как с помощью GPT-4o-mini и Python построить медицинский граф знаний из неструктурированных журналов пациентов для эффективного извлечения и визуализации медицинской информации.
TikTok представил SWE-Perf — первый бенчмарк для оценки возможностей LLM в оптимизации производительности кода на уровне репозиториев, показывающий отставание ИИ от экспертов-человеков.
Master-RM — новая модель награды, устраняющая уязвимости LLM-оценщиков к поверхностным подсказкам и обеспечивающая более надежные результаты в обучении с подкреплением.
MemAgent представляет собой RL-агента памяти, позволяющего LLM эффективно работать с очень длинными документами, сохраняя высокую точность и линейные вычислительные затраты.
FlexOlmo предлагает модульный фреймворк для обучения крупных языковых моделей на приватных данных без обмена ими, обеспечивая высокую производительность и соблюдение правил управления данными.
Модель Canary-Qwen-2.5B от NVIDIA устанавливает новый рекорд точности распознавания речи и обеспечивает высокую скорость обработки. Открытая и лицензированная для коммерческого использования, она объединяет транскрипцию и понимание языка в одном решении.
Узнайте, как с помощью Mirascope и модели GPT-4o от OpenAI выявлять и удалять семантические дубликаты в отзывах клиентов для улучшения анализа обратной связи.
Компания ByteDance представила Trae Agent — AI-ассистент для разработки ПО, который упрощает сложные задачи программирования через естественный язык и CLI-интерфейс.
SynPref-40M представляет огромный набор данных предпочтений, который позволил создать серию моделей Skywork-Reward-V2 с передовыми результатами в согласовании человека и ИИ по нескольким бенчмаркам.
AbstRaL использует обучение с подкреплением для обучения LLM абстрактному мышлению, что значительно повышает их устойчивость и точность на изменённых задачах GSM8K по сравнению с традиционными методами.
Thought Anchors — новый фреймворк, который улучшает понимание процессов рассуждений в больших языковых моделях за счет анализа вклада предложений и причинного влияния.
DeepSeek-TNG представила R1T2 Chimera — новую Assembly-of-Experts LLM модель, которая работает вдвое быстрее R1-0528 и улучшает рассуждения, доступна под лицензией MIT.
Baidu выпустила ERNIE 4.5 — серию открытых больших языковых моделей с параметрами от 0.3 до 424 миллиардов, обладающих продвинутой архитектурой и высокой производительностью в многоязычных задачах.
OMEGA — новый бенчмарк для проверки границ математического рассуждения больших языковых моделей, фокусируясь на исследовательском, композиционном и трансформационном обобщении.
Новое исследование показывает, что большие модели рассуждений раскрывают чувствительную информацию через свои следы размышлений, что представляет серьезные риски для приватности в AI-помощниках.
Исследователи ByteDance представляют ProtoReasoning — новую систему, использующую логические прототипы для значительного улучшения рассуждений и планирования в больших языковых моделях.
VERINA представляет комплексный бенчмарк для оценки LLM в генерации проверяемого кода, объединяя код, формальные спецификации и доказательства с разным уровнем сложности.
Исследователи EPFL разработали MEMOIR — инновационную систему для непрерывного, надежного и локального обновления больших языковых моделей, которая превосходит существующие методы.
Internal Coherence Maximization (ICM) представляет собой новый метод обучения больших языковых моделей без использования разметки, достигающий результатов, сопоставимых с обучением на данных с человеческой разметкой.
Новое исследование Apple показывает, почему большие языковые модели склонны переусложнять простые задачи и сдаются перед сложными, раскрывая проблемы в рассуждениях искусственного интеллекта.
Большие языковые модели часто пропускают части сложных инструкций из-за ограничений внимания и лимитов токенов. В статье рассмотрены причины и рекомендации по улучшению выполнения инструкций.
Mistral AI представила серию Magistral — новые большие языковые модели, оптимизированные для рассуждений и мультиязычности, доступные в открытом и корпоративном вариантах.
Meta представила Llama Prompt Ops — Python-пакет для автоматической адаптации и оптимизации промптов под модели Llama, упрощающий переход с проприетарных LLM и повышающий качество работы промптов.
Apple и исследователи из Duke представили метод межчередующегося рассуждения, позволяющий LLM выдавать промежуточные ответы, что значительно ускоряет и улучшает точность в сложных задачах.
Исследователи Salesforce представили UAEval4RAG — новый бенчмарк для оценки способности RAG-систем отвергать неотвечаемые запросы разных типов, что повышает надежность ответов ИИ.
DeepSeek-V3 предлагает инновационную архитектуру и аппаратно-согласованный дизайн, значительно повышающие эффективность и масштабируемость больших языковых моделей, делая передовой ИИ более доступным.
Новое исследование Microsoft и Salesforce показывает, что большие языковые модели теряют до 39% эффективности при обработке реальных многошаговых диалогов с неполными инструкциями, выявляя ключевую проблему разговорного ИИ.
RLV представляет собой объединённый подход, интегрирующий верификацию в value-free обучение с подкреплением для языковых моделей, значительно повышая точность рассуждений и эффективность вычислений на математических тестах.
JetBrains выпустила Mellum — языковую модель с 4 миллиардами параметров, специализированную для задач программирования, чтобы улучшить AI-поддержку в разработке ПО.
Исследователи представили SICA — новый агент, способный самостоятельно улучшать свой код и производительность, показывая значительный прогресс на бенчмарках по разработке ПО.
Alibaba представила Qwen3 — новое поколение больших языковых моделей с гибридным рассуждением, многоязычной поддержкой и эффективным масштабированием, задающее новые стандарты в производительности AI.
ByteDance анонсировала QuaDMix — систему, которая улучшает предобучение больших языковых моделей за счёт совместной оптимизации качества и разнообразия данных, обеспечивая значительный прирост производительности.
Узнайте, как использовать Crawl4AI для эффективного асинхронного сбора веб-данных без запуска браузера, идеально подходящего для LLM и масштабируемых решений.
Исследователи из Университета Цинхуа и Шанхайской лаборатории ИИ представили TTRL — новый метод, позволяющий большим языковым моделям улучшать свои результаты без размеченных данных, используя самооценку и обучение с подкреплением во время инференса.