FILTER MODE ACTIVE

#LLM

Найдено записей: 75

#LLM18.10.2025

AutoCode: как LLM научились придумывать и проверять соревновательные задачи уровня онлайн-джаджей

'AutoCode учит LLM создавать и проверять задачи соревновательного программирования через цикл Validator–Generator–Checker(+Interactor) и двойную верификацию, добиваясь согласованности с джаджем на уровне ≈99%.'

#LLM17.10.2025

C2S-Scale 27B от Google превращает scRNA-seq в 'предложения клеток' для анализа с помощью LLM

C2S-Scale 27B преобразует профили scRNA-seq в ранжированные 'предложения клеток', позволяя LLM выполнять анализ состояний клеток. Модель предсказала и валидация in vitro показала, что ингибирование CK2 вместе с низкой дозой интерферона увеличивает представление MHC-I примерно на 50%.

#LLM26.09.2025

ShinkaEvolve: эволюция программ с LLM добивается SOTA в упаковке кругов примерно за 150 запусков

'ShinkaEvolve сочетает LLM-мутации и эволюционный поиск, чтобы находить сильные программы с сотнями, а не тысячами оценок; достигает SOTA в задаче упаковки кругов и улучшает решения в нескольких доменах.'

#LLM15.09.2025

От черного ящика к залу суда: проектирование объяснимого ИИ для юридического мышления

Стандартные методы XAI не отражают иерархическую, прецедентную структуру юридического мышления. В статье предлагается гибридная архитектура: формальная аргументация плюс LLM для человекоориентированных объяснений.

#LLM28.08.2025

От пилота к масштабу: внедрение агентного ИИ в здравоохранении

'Ensemble переводит агентный ИИ из пилота в масштаб, сочетая LLM с символической логикой, 2 ПБ медицинских данных и тесную работу исследователей с клиническими экспертами для снижения отказов и улучшения взаимодействия с пациентами.'

#LLM27.08.2025

От логов к числам: RLM от Google предсказывает производительность систем по сырому тексту

'RLM от Google позволяет компактным LLM напрямую предсказывать метрики производительности промышленных систем по сериализованным логам и конфигам, значительно сокращая работу по фичам и повышая точность.'

#LLM22.08.2025

AmbiGraph-Eval: бенчмарк для разрешения неоднозначности в генерации графовых запросов

'AmbiGraph-Eval представляет бенчмарк из 560 неоднозначных запросов для проверки LLM при генерации Cypher. Тестирование девяти моделей показало ключевые проблемы в разрешении неоднозначности и формировании корректного синтаксиса.'

#LLM17.08.2025

AI Sheets: безкодовый табличный инструмент Hugging Face для создания наборов данных на базе LLM

'Hugging Face выпустила AI Sheets — бесплатный открытый инструмент в виде таблицы для создания, очистки и обогащения наборов данных с помощью open-source LLM, доступный в браузере и для локального запуска.'

#LLM16.08.2025

ReaGAN: превращение узлов графа в автономных агентов с глобальным семантическим поиском

'ReaGAN переосмысливает узлы графа как автономных агентов, использующих замороженную LLM для планирования и глобального извлечения информации, достигая конкурентных результатов без обучения.'

#LLM12.08.2025

ProRLv2: NVIDIA удлиняет RL до 3000 шагов и усиливает способность LLM к рассуждению

ProRLv2 увеличивает горизонт RL до 3000 шагов и демонстрирует значительные улучшения рассуждения в компактных языковых моделях, подтверждённые приростами по математике, кодированию и логике.

#LLM05.08.2025

Google AI запускает LangExtract: Python-библиотека для прозрачного извлечения данных из неструктурированного текста

Google AI представил LangExtract — мощную open-source Python-библиотеку для извлечения структурированных и проверяемых данных из неструктурированных текстов с использованием LLM, таких как Gemini.

#LLM04.08.2025

ByteDance представляет Seed-Prover: прорыв в автоматическом доказательстве математических теорем

ByteDance представила Seed-Prover — инновационную систему доказательства на основе лемм, которая добилась прорывных результатов, решив 5 из 6 задач IMO 2025 и превзойдя множество других бенчмарков.

#LLM03.08.2025

Открывая будущее ИИ: Полное руководство по контекстному инжинирингу в больших языковых моделях

Контекстный инжиниринг расширяет возможности больших языковых моделей, объединяя инновационные техники и системные архитектуры для решения актуальных исследовательских задач.

#LLM01.08.2025

Обучение LLM с «злыми» паттернами может сделать их безопаснее

Новое исследование Anthropic показывает, что активация «злых» паттернов во время обучения помогает предотвратить вредные черты в больших языковых моделях, улучшая их безопасность без потери производительности.

#LLM30.07.2025

Освойте LangGraph: создание динамичного пайплайна для анализа текста с помощью ИИ

В этом руководстве показано, как создать модульный пайплайн анализа текста с LangGraph, включая классификацию, извлечение сущностей, суммаризацию, анализ тональности и динамическое управление потоками.

#LLM30.07.2025

Когда слишком много размышлений вредят: как длинные рассуждения ухудшают работу больших языковых моделей

Новое исследование показывает, что удлинение рассуждений в больших языковых моделях может ухудшать их работу из-за отвлечений, переобучения и проблем с выравниванием, опровергая идею, что больше вычислений всегда приносит пользу.

#LLM28.07.2025

Создание медицинского графа знаний с помощью GPT-4o-mini из неструктурированных данных

В этом руководстве показано, как с помощью GPT-4o-mini и Python построить медицинский граф знаний из неструктурированных журналов пациентов для эффективного извлечения и визуализации медицинской информации.

#LLM21.07.2025

TikTok представил SWE-Perf: первый бенчмарк для оптимизации производительности кода на уровне репозитория

TikTok представил SWE-Perf — первый бенчмарк для оценки возможностей LLM в оптимизации производительности кода на уровне репозиториев, показывающий отставание ИИ от экспертов-человеков.

#LLM17.07.2025

NVIDIA представляет Canary-Qwen-2.5B: ведущая гибридная модель ASR-LLM с непревзойденной точностью и скоростью

Модель Canary-Qwen-2.5B от NVIDIA устанавливает новый рекорд точности распознавания речи и обеспечивает высокую скорость обработки. Открытая и лицензированная для коммерческого использования, она объединяет транскрипцию и понимание языка в одном решении.

#LLM07.07.2025

SynPref-40M и Skywork-Reward-V2: Революция в масштабируемом согласовании человека и ИИ для передовых моделей вознаграждения

SynPref-40M представляет огромный набор данных предпочтений, который позволил создать серию моделей Skywork-Reward-V2 с передовыми результатами в согласовании человека и ИИ по нескольким бенчмаркам.

#LLM06.07.2025

AbstRaL: Повышение устойчивости LLM через абстрактное мышление и обучение с подкреплением

AbstRaL использует обучение с подкреплением для обучения LLM абстрактному мышлению, что значительно повышает их устойчивость и точность на изменённых задачах GSM8K по сравнению с традиционными методами.

#LLM01.07.2025

OMEGA: Новый бенчмарк для оценки творческих возможностей ИИ в математических рассуждениях

OMEGA — новый бенчмарк для проверки границ математического рассуждения больших языковых моделей, фокусируясь на исследовательском, композиционном и трансформационном обобщении.

#LLM25.06.2025

Новое исследование выявляет угрозы приватности в размышлениях больших моделей рассуждений

Новое исследование показывает, что большие модели рассуждений раскрывают чувствительную информацию через свои следы размышлений, что представляет серьезные риски для приватности в AI-помощниках.

#LLM24.06.2025

ByteDance представляет ProtoReasoning: улучшение обобщения LLM с помощью логических прототипов

Исследователи ByteDance представляют ProtoReasoning — новую систему, использующую логические прототипы для значительного улучшения рассуждений и планирования в больших языковых моделях.

#LLM23.06.2025

VERINA: новый стандарт оценки генерации проверяемого кода с помощью LLM и формальных доказательств

VERINA представляет комплексный бенчмарк для оценки LLM в генерации проверяемого кода, объединяя код, формальные спецификации и доказательства с разным уровнем сложности.

#LLM17.06.2025

EPFL представляет MEMOIR: революционную систему для непрерывного редактирования моделей больших языковых моделей

Исследователи EPFL разработали MEMOIR — инновационную систему для непрерывного, надежного и локального обновления больших языковых моделей, которая превосходит существующие методы.

#LLM14.06.2025

Internal Coherence Maximization: революция в обучении больших языковых моделей без разметки

Internal Coherence Maximization (ICM) представляет собой новый метод обучения больших языковых моделей без использования разметки, достигающий результатов, сопоставимых с обучением на данных с человеческой разметкой.

#LLM12.06.2025

Почему ИИ переусложняет простые задачи и сдается перед сложными

Новое исследование Apple показывает, почему большие языковые модели склонны переусложнять простые задачи и сдаются перед сложными, раскрывая проблемы в рассуждениях искусственного интеллекта.

#LLM12.06.2025

Почему большие языковые модели пропускают инструкции и как это исправить

Большие языковые модели часто пропускают части сложных инструкций из-за ограничений внимания и лимитов токенов. В статье рассмотрены причины и рекомендации по улучшению выполнения инструкций.

#LLM11.06.2025

Mistral AI представляет серию Magistral: передовые LLM с цепочкой рассуждений для бизнеса и открытого ПО

Mistral AI представила серию Magistral — новые большие языковые модели, оптимизированные для рассуждений и мультиязычности, доступные в открытом и корпоративном вариантах.

#LLM03.06.2025

Meta Выпустила Llama Prompt Ops: Автоматическая Оптимизация Промптов для Моделей Llama на Python

Meta представила Llama Prompt Ops — Python-пакет для автоматической адаптации и оптимизации промптов под модели Llama, упрощающий переход с проприетарных LLM и повышающий качество работы промптов.

#LLM30.05.2025

Apple и исследователи из Duke представили метод обучения с подкреплением для промежуточных ответов LLM, повышая скорость и точность

Apple и исследователи из Duke представили метод межчередующегося рассуждения, позволяющий LLM выдавать промежуточные ответы, что значительно ускоряет и улучшает точность в сложных задачах.

#LLM20.05.2025

Salesforce представляет UAEval4RAG: новый бенчмарк для оценки способности RAG-систем отвергать неотвечаемые запросы

Исследователи Salesforce представили UAEval4RAG — новый бенчмарк для оценки способности RAG-систем отвергать неотвечаемые запросы разных типов, что повышает надежность ответов ИИ.

#LLM17.05.2025

DeepSeek-V3: Революция в языковых моделях через эффективность и масштабируемость

DeepSeek-V3 предлагает инновационную архитектуру и аппаратно-согласованный дизайн, значительно повышающие эффективность и масштабируемость больших языковых моделей, делая передовой ИИ более доступным.

#LLM17.05.2025

Microsoft и Salesforce выявили значительное падение эффективности LLM в реальных многошаговых диалогах

Новое исследование Microsoft и Salesforce показывает, что большие языковые модели теряют до 39% эффективности при обработке реальных многошаговых диалогов с неполными инструкциями, выявляя ключевую проблему разговорного ИИ.

#LLM13.05.2025

RLV: Улучшение рассуждений языковых моделей с помощью интегрированной проверки без использования value-функции

RLV представляет собой объединённый подход, интегрирующий верификацию в value-free обучение с подкреплением для языковых моделей, значительно повышая точность рассуждений и эффективность вычислений на математических тестах.

#LLM30.04.2025

SICA: Самоулучшающийся кодирующий агент, меняющий подход к автономной разработке ПО

Исследователи представили SICA — новый агент, способный самостоятельно улучшать свой код и производительность, показывая значительный прогресс на бенчмарках по разработке ПО.

#LLM29.04.2025

Alibaba Представляет Qwen3: Прорыв в Масштабируемых Многоязычных Моделях с Гибридным Рассуждением

Alibaba представила Qwen3 — новое поколение больших языковых моделей с гибридным рассуждением, многоязычной поддержкой и эффективным масштабированием, задающее новые стандарты в производительности AI.

#LLM27.04.2025

ByteDance представляет QuaDMix: революция в предобучении больших языковых моделей с оптимизацией качества и разнообразия данных

ByteDance анонсировала QuaDMix — систему, которая улучшает предобучение больших языковых моделей за счёт совместной оптимизации качества и разнообразия данных, обеспечивая значительный прирост производительности.

#LLM23.04.2025

Революция в LLM: Самообучающиеся языковые модели без меток с помощью Test-Time Reinforcement Learning

Исследователи из Университета Цинхуа и Шанхайской лаборатории ИИ представили TTRL — новый метод, позволяющий большим языковым моделям улучшать свои результаты без размеченных данных, используя самооценку и обучение с подкреплением во время инференса.