TildeOpen: 30-миллиардная открытая LLM, ориентированная на малые языки Европы
Выпуск и доступность
Латвийская компания Tilde выпустила TildeOpen LLM 3 сентября 2025 года. Модель доступна бесплатно через Hugging Face и распространяется по лицензии CC-BY-4.0. Tilde позиционирует релиз как шаг к языковому равенству и цифровому суверенитету в ЕС, с фокусом на национальные и региональные языки с меньшим объёмом данных.
Архитектура и обучение
TildeOpen — плотный decoder-only трансформер с примерно 30 миллиардами параметров. Гиперпараметры включают 60 слоёв, размер эмбеддингов 6144, 48 голов внимания, окно контекста 8192 токена, активации SwiGLU, позиционное кодирование RoPE и нормализацию RMSNorm.
Обучение проводилось на европейских суперкомпьютерах LUMI (Финляндия) и JUPITER, с использованием около 2 миллионов GPU-часов, выделенных в рамках Large AI Grand Challenge Европейской комиссии. Тренировка потребила порядка 2 триллионов токенов и длилась примерно 450 тысяч обновлений с использованием скриптов по мотивам EleutherAI GPT-NeoX.
Учебный режим предусматривал трехступенчатую выборку: равномерный проход по языкам, фаза с естественным распределением для усиления языков с большим объёмом данных и финальный равномерный проход для балансировки представления малоресурсных языков.
Токенизатор и языковое равенство
Ключевая техническая особенность — “equitable tokenizer”, токенизатор, спроектированный так, чтобы представлять текст схожим образом независимо от языка. Это снижает количество токенов и повышает эффективность вывода для мелких или морфологически богатых европейских языков.
Модель направлена на уменьшение грамматических ошибок, неуклюжих формулировок и галлюцинаций, которые часто возникают при применении крупных моделей к балтийским, славянским и другим малоресурсным языкам.
Развертывание, конфиденциальность и суверенитет
TildeOpen открыта и может быть развёрнута локально в дата-центрах или на облачных платформах, соответствующих требованиям ЕС. Это помогает организациям соблюдать GDPR и снижает зависимость от моделей, размещённых в США или Азии. Возможность self-hosting и прозрачная лицензия — важные элементы для обеспечения цифрового суверенитета стран и организаций.
Сценарии применения и дорожная карта
Выпущенная модель рассматривается как базовый «foundation» для дальнейших специализированных решений. В будущем ожидаются инструкциино-настроенные варианты и модели для перевода, созданные поверх этого ядра.
Основные области применения: перевод, государственные сервисы, образовательные инструменты, мультиязычная поддержка клиентов, речевые технологии и ассистенты, которым нужна точная работа с региональными языками.
Исследования и оценка
Релиз отражает более широкий исследовательский интерес к поведению мультиязычных моделей. Публичные оценки показывают, что даже продвинутые открытые модели иногда галлюцинируют или допускают лексические ошибки для балтийских языков; поэтому локальная разработка и тестирование остаются критически важными. Сбалансированная тренировка и усовершенствованный токенизатор TildeOpen нацелены на сокращение этих разрывов, но требуется дальнейшее бенчмаркинг-тестирование.
Краткие факты и часто задаваемые вопросы
Q1: Что такое TildeOpen LLM? TildeOpen — это 30-миллиардная мультиязычная LLM, обученная на суперкомпьютерах ЕС и оптимизированная для европейских языков, особенно для малообеспеченных языков.
Q2: Чем она отличается от массовых моделей? TildeOpen использует сбалансированную стратегию обучения и equitable tokenizer, чтобы обеспечить более справедливое представление и точность для малых языков, а не отдавать приоритет только английскому.
Q3: Можно ли разместить модель локально? Да. Модель открыта по лицензии CC-BY-4.0 и может быть развёрнута в локальных инфраструктурах или облаках, соответствующих требованиям ЕС, чтобы удовлетворить потребности в защите данных и суверенитете.
Q4: Каковы основные сценарии использования? Государственные сервисы, перевод, образование, ассистенты, речевые технологии и мультиязычная поддержка клиентов — везде, где требуется точная обработка европейских языков.
Tilde размещает дополнительные ресурсы на Hugging Face и GitHub, включая технические детали, туториалы и ноутбуки для разработчиков и исследователей.