API Tinker теперь доступен с новыми функциями
API Tinker стал доступен, добавляя Kimi K2 и возможности Qwen3-VL.
Что такое Tinker?
Tinker — это API для тренировки, который сосредоточен на тонкой настройке больших языковых моделей и скрывает все сложности распределенной тренировки. Вы пишете простой цикл на Python, который работает на машине только с CPU. Вы определяете данные или RL-среду, потерю и логику обучения. Сервис Tinker отображает этот цикл на кластер GPU и выполняет точные вычисления, которые вы указываете.
API предоставляет небольшой набор примитивов, таких как forward_backward для вычисления градиентов, optim_step для обновления весов, sample для генерации выходных данных и функции для сохранения и загрузки состояния. Это делает логику обучения четкой для разработчиков, которые хотят реализовать супервизированное обучение, обучение с подкреплением или оптимизацию предпочтений, но не хотят управлять сбоями GPU и планированием.
Tinker использует низкоранговую адаптацию (LoRA), а не полную тонкую настройку для всех поддерживаемых моделей. LoRA обучает маленькие матрицы адаптеров поверх замороженных базовых весов, что уменьшает потребление памяти и делает практичным запуск повторных экспериментов на больших моделях с множеством экспертов в одном кластере.
Общая доступность и Kimi K2 Thinking
Основное изменение в обновлении декабря 2025 года заключается в том, что Tinker больше не имеет списка ожидания. Теперь любой может зарегистрироваться, увидеть текущий список моделей и тарифов, а также запускать кулинарные примеры.
Пользователи теперь могут настраивать moonshotai/Kimi-K2-Thinking на Tinker. Kimi K2 Thinking — это модель рассуждения с примерно 1 trillion параметрами в архитектуре с множеством экспертов. Она предназначена для длинных цепочек размышлений и активного использования инструментов, и в настоящее время является крупнейшей моделью в каталоге Tinker.
В каталоге моделей Tinker Kimi K2 Thinking представлена как модель Reasoning MoE наряду с Qwen3 густыми и смешанными вариантами, Llama-3 и DeepSeek-V3.1. Модели рассуждения всегда производят внутренние цепочки размышлений перед видимым ответом, в то время как модели инструкции сосредоточены на задержках и прямых ответах.
Совместимая с OpenAI выборка при обучении
Tinker уже имел собственный интерфейс выборки через SamplingClient. Типичный шаблон вывода создаёт ModelInput из токенов, передаёт SamplingParams и вызывает sample, чтобы получить вывод.
Новое обновление добавляет второй путь, который зеркалит интерфейс завершения OpenAI. Контрольная точка модели на Tinker может быть указана через URI, например:
response = openai_client.completions.create(
model="tinker://0034d8c9-0a88-52a9-b2b7-bce7cb1e6fef:train:0/sampler_weights/000080",
prompt="Столица Франции",
max_tokens=20,
temperature=0.0,
stop=["\n"],
)Ввод изображений с Qwen3-VL в Tinker
Вторая важная возможность — ввод изображений. Tinker теперь предоставляет 2 модели языковых моделей Qwen3-VL, Qwen/Qwen3-VL-30B-A3B-Instruct и Qwen/Qwen3-VL-235B-A22B-Instruct. Они перечислены в каталоге моделей Tinker как Vision MoE модели и доступны для обучения и выборки через ту же поверхность API.
Чтобы отправить изображение в модель, вы создаете ModelInput, который чередует ImageChunk с текстовыми частями. Исследовательский блог использует следующий минимальный пример:
model_input = tinker.ModelInput(chunks=[
tinker.types.ImageChunk(data=image_data, format="png"),
tinker.types.EncodedTextChunk(tokens=tokenizer.encode("Что это?")),
])Здесь image_data — это сырые байты, а format указывает кодировку, например, png или jpeg. Вы можете использовать то же представление для супервизированного обучения и для тонкой настройки RL, что поддерживает консистентность мультимодальных пайплайнов на уровне API. Ввод изображений полностью поддерживается в установке Tinker LoRA.
Qwen3-VL против DINOv2 по классификации изображений
Чтобы показать, что новая возможность визуализации может сделать, команда Tinker повысила производительность Qwen3-VL-235B-A22B-Instruct в качестве классификатора изображений. Они использовали 4 стандартных набора данных:
- Caltech 101
- Stanford Cars
- Oxford Flowers
- Oxford Pets
Поскольку Qwen3-VL является языковой моделью с визуальным вводом, классификация формулируется как генерация текста. Модель получает изображение и генерирует имя класса в виде текстовой последовательности.
В качестве базовой модели они дообучили базовую модель DINOv2. DINOv2 — это самонастраиваемый трансформер визуальных данных, который кодирует изображения в эмбеддинги и часто используется в качестве основы для задач компьютерного зрения. Для этого эксперимента на верхнюю часть DINOv2 прикрепляется заголовок классификации для прогнозирования распределения по N меткам в каждом наборе данных.
Обе модели Qwen3-VL-235B-A22B-Instruct и базовая DINOv2 обучаются с использованием LoRA адаптеров внутри Tinker. Основное внимание уделяется эффективности данных. Эксперимент охватывает количество размеченных примеров на класс, начиная с 1 образца на класс и увеличивая. Для каждой настройки команда измеряет точность классификации.
Основные выводы
- Tinker теперь доступен для всех желающих, так что любой может зарегистрироваться и тонко настраивать открытые LLM через цикл обучения на Python, в то время как Tinker управляет распределенной тренировочной задней частью.
- Платформа поддерживает Kimi K2 Thinking, модель рассуждения с 1 trillion параметрами от Moonshot AI, и предоставляет её в качестве настраиваемой модели рассуждений в каталоге Tinker.
- Tinker добавляет совместимый с OpenAI интерфейс вывода, который позволяет вам выбирать из контрольных точек в процессе обучения, используя URI модели
tinker://…через стандартные клиенты и инструменты в стиле OpenAI. - Ввод изображений доступен через модели Qwen3-VL, Qwen3-VL 30B и Qwen3-VL 235B, позволяя разработчикам создавать мультимодальные тренировочные пайплайны, сочетая ввод
ImageChunkс текстом с помощью одного API на базе LoRA. - Thinking Machines демонстрирует, что Qwen3-VL 235B, тонко настроенный на Tinker, достигает лучших результатов классификации изображений с малым количеством примеров по сравнению с базовой моделью DINOv2 на наборах данных, таких как Caltech 101, Stanford Cars, Oxford Flowers и Oxford Pets, подчеркивая эффективность больших языковых моделей в области визуализации.
Switch Language
Read this article in English