API Tinker теперь доступен с новыми функциями

Что такое Tinker?

Tinker — это API для тренировки, который сосредоточен на тонкой настройке больших языковых моделей и скрывает все сложности распределенной тренировки. Вы пишете простой цикл на Python, который работает на машине только с CPU. Вы определяете данные или RL-среду, потерю и логику обучения. Сервис Tinker отображает этот цикл на кластер GPU и выполняет точные вычисления, которые вы указываете.

API предоставляет небольшой набор примитивов, таких как forward_backward для вычисления градиентов, optim_step для обновления весов, sample для генерации выходных данных и функции для сохранения и загрузки состояния. Это делает логику обучения четкой для разработчиков, которые хотят реализовать супервизированное обучение, обучение с подкреплением или оптимизацию предпочтений, но не хотят управлять сбоями GPU и планированием.

Tinker использует низкоранговую адаптацию (LoRA), а не полную тонкую настройку для всех поддерживаемых моделей. LoRA обучает маленькие матрицы адаптеров поверх замороженных базовых весов, что уменьшает потребление памяти и делает практичным запуск повторных экспериментов на больших моделях с множеством экспертов в одном кластере.

Общая доступность и Kimi K2 Thinking

Основное изменение в обновлении декабря 2025 года заключается в том, что Tinker больше не имеет списка ожидания. Теперь любой может зарегистрироваться, увидеть текущий список моделей и тарифов, а также запускать кулинарные примеры.

Пользователи теперь могут настраивать moonshotai/Kimi-K2-Thinking на Tinker. Kimi K2 Thinking — это модель рассуждения с примерно 1 trillion параметрами в архитектуре с множеством экспертов. Она предназначена для длинных цепочек размышлений и активного использования инструментов, и в настоящее время является крупнейшей моделью в каталоге Tinker.

В каталоге моделей Tinker Kimi K2 Thinking представлена как модель Reasoning MoE наряду с Qwen3 густыми и смешанными вариантами, Llama-3 и DeepSeek-V3.1. Модели рассуждения всегда производят внутренние цепочки размышлений перед видимым ответом, в то время как модели инструкции сосредоточены на задержках и прямых ответах.

Совместимая с OpenAI выборка при обучении

Tinker уже имел собственный интерфейс выборки через SamplingClient. Типичный шаблон вывода создаёт ModelInput из токенов, передаёт SamplingParams и вызывает sample, чтобы получить вывод.

Новое обновление добавляет второй путь, который зеркалит интерфейс завершения OpenAI. Контрольная точка модели на Tinker может быть указана через URI, например:

response = openai_client.completions.create(
    model="tinker://0034d8c9-0a88-52a9-b2b7-bce7cb1e6fef:train:0/sampler_weights/000080",
    prompt="Столица Франции",
    max_tokens=20,
    temperature=0.0,
    stop=["\n"],
)

Ввод изображений с Qwen3-VL в Tinker

Вторая важная возможность — ввод изображений. Tinker теперь предоставляет 2 модели языковых моделей Qwen3-VL, Qwen/Qwen3-VL-30B-A3B-Instruct и Qwen/Qwen3-VL-235B-A22B-Instruct. Они перечислены в каталоге моделей Tinker как Vision MoE модели и доступны для обучения и выборки через ту же поверхность API.

Чтобы отправить изображение в модель, вы создаете ModelInput, который чередует ImageChunk с текстовыми частями. Исследовательский блог использует следующий минимальный пример:

model_input = tinker.ModelInput(chunks=[
    tinker.types.ImageChunk(data=image_data, format="png"),
    tinker.types.EncodedTextChunk(tokens=tokenizer.encode("Что это?")),
])

Здесь image_data — это сырые байты, а format указывает кодировку, например, png или jpeg. Вы можете использовать то же представление для супервизированного обучения и для тонкой настройки RL, что поддерживает консистентность мультимодальных пайплайнов на уровне API. Ввод изображений полностью поддерживается в установке Tinker LoRA.

Qwen3-VL против DINOv2 по классификации изображений

Чтобы показать, что новая возможность визуализации может сделать, команда Tinker повысила производительность Qwen3-VL-235B-A22B-Instruct в качестве классификатора изображений. Они использовали 4 стандартных набора данных:

Caltech 101
Stanford Cars
Oxford Flowers
Oxford Pets

Поскольку Qwen3-VL является языковой моделью с визуальным вводом, классификация формулируется как генерация текста. Модель получает изображение и генерирует имя класса в виде текстовой последовательности.

В качестве базовой модели они дообучили базовую модель DINOv2. DINOv2 — это самонастраиваемый трансформер визуальных данных, который кодирует изображения в эмбеддинги и часто используется в качестве основы для задач компьютерного зрения. Для этого эксперимента на верхнюю часть DINOv2 прикрепляется заголовок классификации для прогнозирования распределения по N меткам в каждом наборе данных.

Обе модели Qwen3-VL-235B-A22B-Instruct и базовая DINOv2 обучаются с использованием LoRA адаптеров внутри Tinker. Основное внимание уделяется эффективности данных. Эксперимент охватывает количество размеченных примеров на класс, начиная с 1 образца на класс и увеличивая. Для каждой настройки команда измеряет точность классификации.

Основные выводы

Tinker теперь доступен для всех желающих, так что любой может зарегистрироваться и тонко настраивать открытые LLM через цикл обучения на Python, в то время как Tinker управляет распределенной тренировочной задней частью.
Платформа поддерживает Kimi K2 Thinking, модель рассуждения с 1 trillion параметрами от Moonshot AI, и предоставляет её в качестве настраиваемой модели рассуждений в каталоге Tinker.
Tinker добавляет совместимый с OpenAI интерфейс вывода, который позволяет вам выбирать из контрольных точек в процессе обучения, используя URI модели tinker://… через стандартные клиенты и инструменты в стиле OpenAI.
Ввод изображений доступен через модели Qwen3-VL, Qwen3-VL 30B и Qwen3-VL 235B, позволяя разработчикам создавать мультимодальные тренировочные пайплайны, сочетая ввод ImageChunk с текстом с помощью одного API на базе LoRA.
Thinking Machines демонстрирует, что Qwen3-VL 235B, тонко настроенный на Tinker, достигает лучших результатов классификации изображений с малым количеством примеров по сравнению с базовой моделью DINOv2 на наборах данных, таких как Caltech 101, Stanford Cars, Oxford Flowers и Oxford Pets, подчеркивая эффективность больших языковых моделей в области визуализации.