OpenTSLM: языковые модели для медицинских временных рядов

Новая возможность для медицинского ИИ

Исследователи из Стэнфорда и ETH Zurich, при участии Google Research и Amazon, представили OpenTSLM — семейство Time-Series Language Models, которое добавляет нативную обработку временных рядов в существующие LLM. OpenTSLM предназначен для анализа непрерывных медицинских сигналов, таких как ЭКГ, ЭЭГ и данные носимых датчиков.

Проблема модальности в медицине

Медицина во многом опирается на временную динамику. Диагностика зависит от того, как меняются жизненные показатели и волновые биомаркеры во времени. Обычные LLM работают с дискретными текстовыми токенами и плохо улавливают плотные, высокочастотные характеристики сигналов. Преобразование сигналов в текст или статические изображения часто приводит к потере важных деталей.

Почему VLM не подходят для временных рядов

Частое решение — визуализировать временные ряды и использовать VLM. Исследование OpenTSLM показывает, что это похоже на попытку читать ЭКГ как фотографию: VLM обучены на естественных изображениях и распознают объекты, но не последовательные зависимости и тонкие временные особенности. При растеризации сигнала важные высокочастотные признаки исчезают, и модели теряют способность точно диагностировать аритмии или стадии сна.

Нативная модальность и архитектуры OpenTSLM

OpenTSLM вводит временные ряды как отдельную модальность в LLM вроде Llama и Gemma, что позволяет выполнять запросы на естественном языке и получать chain-of-thought рассуждения по сырым данным. Статья доступна по ссылке https://www.arxiv.org/abs/2510.02410.

Исследователи рассмотрели два подхода:

OpenTSLM-SoftPrompt (неявное моделирование)

Сигналы кодируются в обучаемые токены, которые смешиваются с текстовыми токенами как soft prompt. Метод эффективен для коротких отрезков, но масштабируется плохо: при увеличении длины последовательности резко растут требования к памяти.

OpenTSLM-Flamingo (явное моделирование)

Вариант, вдохновленный Flamingo, обрабатывает временные ряды как отдельную модальность с собственным энкодером и Perceiver Resampler, формирующим фиксированный по размеру вектор представления независимо от длины входа. Это представление объединяется с текстом через gated cross-attention. Такой подход стабилен по потреблению памяти: при обучении на ЭКГ Flamingo-вариант использовал около 40 ГБ видеопамяти против 110 ГБ у SoftPrompt на том же бэкбоне. Подробнее в статье https://www.arxiv.org/abs/2510.02410.

Результаты и бенчмарки

Команда подготовила три CoT датасета для медицинского рассуждения: HAR-CoT для распознавания активности, Sleep-CoT для стадий сна по ЭЭГ и ECG-QA-CoT для вопросов по ЭКГ. OpenTSLM показал существенные преимущества над базовыми моделями и над GPT-4o при подаче данных как текст или изображение.

Примеры результатов:

Стейджинг сна: 69.9% F1 у OpenTSLM против 9.05% у лучшего текстового baseline.
Распознавание активности: 65.4% F1.

Даже небольшие модели OpenTSLM (~1 млрд параметров) опередили GPT-4o, что показывает эффективность архитектурной адаптации перед чистым увеличением масштаба и открывает путь к энергоэффективным решениям для локального использования.

Клиническая проверка и объяснимость

OpenTSLM генерирует человекочитаемые обоснования в формате chain-of-thought, что повышает доверие клиницистов. Команда пригласила пять кардиологов из Стэнфордской больницы для оценки рассуждений модели OpenTSLM-Flamingo по интерпретации ЭКГ. Модель дала правильную или частично правильную интерпретацию в 92.9% случаев и получила положительные оценки за учет клинического контекста в 85.1% случаев.

Значение и открытость исследований

Подход, который делает временные ряды полноценной модальностью, расширяет применение TSLM за пределы медицины в финансы, промышленный мониторинг и другие области. Команды из Стэнфорда и ETH Zurich опубликовали код, датасеты и веса моделей в открытом доступе. Статья доступна по ссылке https://www.arxiv.org/abs/2510.02410, в репозитории проекта есть туториалы и ноутбуки.