<НА ГЛАВНУЮ

Kosmos: автономный AI-учёный для долгих исследовательских кампаний

'Kosmos проводит до 12-часовых автономных исследовательских запусков, исполняет ~42 000 строк кода и читает ~1 500 статей, формируя отчёты с явной прослеживаемостью. Эксперты признали 79.4% отобранных утверждений корректными, при наилучшей надёжности в анализе данных.'

Что делает Kosmos

Kosmos, созданный Edison Scientific, — автономная система для проведения долгих циклов исследований по одной открытой цели. Получив набор данных и цель на естественном языке, система циклически выполняет анализ данных, поиск литературы и генерацию гипотез, а затем собирает результаты в полностью цитируемый научный отчёт. Каждый утверждение в финальном отчёте связано либо с ячейкой Jupyter, либо с конкретным фрагментом первичной литературы.

Типичный запуск длится до 12 часов, включает примерно 200 запусков агентов, исполняет около 42 000 строк кода и прочитывает примерно 1 500 статей.

Архитектура и роли агентов

Ядром системы является структурированная модель мира, которая служит долговременной памятью. В отличие от простого контекстного окна, модель мира — это запросная база данных сущностей, отношений, результатов экспериментов и открытых вопросов, обновляемая после каждой задачи. Благодаря структуре и возможности запросов информация, полученная на ранних шагах, остаётся доступной даже после десятков тысяч токенов.

Kosmos использует два основных типа агентов: агент анализа данных и агент поиска литературы. В каждом цикле система предлагает до 10 конкретных задач, исходя из исследовательской цели и текущей модели мира. Примеры задач: дифференциальный анализ метаболомных данных или поиск путей, связывающих кандидатный ген с фенотипом заболевания. Агенты пишут код, запускают его в среде ноутбука или извлекают и читают статьи, а затем записывают структурированные результаты и цитаты в модель мира.

По окончании запуска отдельный компонент синтеза обходит модель мира и формирует отчёт, где каждое утверждение снабжено явной происхождением. Такая прослеживаемость важна для научной валидации, поскольку позволяет людям аудитировать отдельные утверждения, а не рассматривать систему как "чёрный ящик".

Оценка точности и эквивалент человека-месц

Для оценки качества отчётов команда отобрала 102 утверждения из трёх типичных отчётов Kosmos и попросила экспертов классифицировать их как подтверждённые или опровергнутые. В целом 79.4% утверждений были признаны точными. В разбивке по типам: утверждения анализа данных — примерно 85.5% точности, литературные утверждения — около 82.1%, а синтезирующие утверждения — примерно 57.9%.

Авторы оценили эквивалент человеческого времени, исходя из предположения, что типичная траектория анализа данных занимает 2 часа, а чтение одной статьи — 15 минут. Подсчёт траекторий и статей на запуск даёт примерно 4.1 экспертных месяца для типичного запуска (при 40-часовой рабочей неделе). В опросе семь сотрудничающих учёных посчитали 20-цикловый запуск Kosmos эквивалентным приблизительно 6.14 месяцам их собственной работы над той же задачей; восприятие усилий масштабируется примерно линейно с числом циклов до 20.

Репрезентативные открытия

Kosmos протестировали в семи кейсах: метаболомика, материаловедение, нейронаука, статистическая генетика и нейродегенерация. В трёх случаях система независимо воспроизвела человеческие результаты без доступа к оригинальным препринтам во время запуска. В четырёх случаях она предложила механизмы, которые авторы описали как новые вклады в литературу.

Примеры:

  • Метаболомика: в эксперименте на мышах при гипотермии Kosmos выявил доминирующее изменение в нуклеотидном обмене, заключив, что пути восстановления нуклеотидов преобладают над их де-ново синтезом при защитной гипотермии.

  • Материаловедение: по логам окружающей среды при изготовлении перовскитного солнечного элемента Kosmos восстановил вывод о том, что абсолютная влажность при термическом отжиге определяет эффективность устройства, и выделил критический порог влажности, после которого устройства выходят из строя.

  • Нейронаука: при анализе реконструкций нейронов по видам система подогнала распределения для длины отростков, степени и числа синапсов, пришла к выводу, что распределения степени и синапсов лучше описываются лог-нормальными законами, и восстановила степенное масштабирование между длиной отростка и числом синапсов.

Остальные четыре открытия описаны авторами как новые и включают результаты по менделевой рандомизации, интегративный механизм ранжирования для локусов диабета 2 типа, протеомный анализ в Alzheimer и крупномасштабный транскриптомный анализ, связывающий потерю флиппазы с уязвимостью нейронов.

Преимущества и ограничения

Kosmos демонстрирует, что сочетание структурированной модели мира и автономных агентов даёт улучшения в глубине рассуждений, воспроизводимости и прослеживаемости. Система особенно сильна в анализе данных и извлечении литературных доказательств с явной почтой источников. Однако синтезирующие интерпретации остаются менее надёжными, и люди по-прежнему необходимы для выбора данных, постановки целей и валидации новых гипотез.

В целом Kosmos — это мощный инструмент для ускорения науки, дополняющий работу исследователей, а не заменяющий их.

🇬🇧

Switch Language

Read this article in English

Switch to English