Почему Австралия ещё не создала собственный GPT: проект Kangaroo LLM и разрыв в локальном ИИ
Текущая ситуация: отсутствует флагманская локальная модель
На сегодняшний день в Австралии не появилось флагманской, глобально конкурентоспособной большой языковой модели (LLM) уровня GPT-4, Claude 3.5 или LLaMA 3.1. Исследования, коммерческие компании и государственные структуры в основном используют международные модели, которые хорошо работают, но демонстрируют заметные пробелы при работе с австралийским английским, местным сленгом, культурными ссылками и правовым контекстом.
Kangaroo LLM: цели, партнёры и текущее состояние
Kangaroo LLM — наиболее заметная отечественная инициатива по созданию открытой модели, адаптированной к австралийскому английскому и культурным особенностям. Проект реализуется некоммерческим консорциумом с участием Katonic AI, RackCorp, NEXTDC, Hitachi Vantara и Hewlett Packard Enterprise. Основные моменты статуса проекта на август 2025 года:
- Сбор данных: выявлено 4.2 миллиона австралийских сайтов как потенциальные источники, с первоначальным фокусом на 754 000 сайтах. Массовый краул был отложен в конце 2024 года из-за юридических и вопросов приватности.
- Техническая цепочка: краулер «Kangaroo Bot» учитывает robots.txt и даёт сайтам возможность отказаться от участия. Данные обрабатываются в «VegeMighty Dataset» и проходят через «Great Barrier Reef Pipeline» для подготовки к обучению. Архитектура модели, веса, методика обучения и бенчмарки не опубликованы.
- Управление и ресурсы: проект работает как некоммерческая инициатива с примерно 100 волонтёрами и приблизительно 10 штатными эквивалентами. Идёт поиск финансирования от корпоративных клиентов и возможных государственных грантов, но крупных объявленных инвестиций нет.
В сумме Kangaroo LLM является важным шагом к ИИ-суверенитету Австралии, но пока не представляет технической альтернативы мировым моделям. Успех зависит от финансирования, юридической ясности, технической реализации и принятия сообществом.
Международные модели в австралийских приложениях
Claude 3.5 Sonnet (Anthropic), GPT-4 (OpenAI) и LLaMA 2 (Meta) доступны и активно используются в австралийских исследованиях, государственных и коммерческих проектах. Их распространению способствует доступность в облаках (AWS, Azure, Google Cloud) и простота интеграции в рабочие процессы.
В феврале 2025 года Claude 3.5 Sonnet стал доступен в регионе AWS Sydney, что обеспечило опции локального размещения данных. Российские (sic) австралийские команды применяют эти модели в задачах от автоматизации клиентской поддержки до научных исследований, чаще с дообучением на локальных данных.
Пример: команда Университета Сиднея использовала Claude для анализа акустики китов и достигла 89.4% точности в обнаружении финвалов (minke whales) по сравнению с 76.5% для традиционных методов. Этот кейс показывает, что глобальные модели можно успешно адаптировать для местных задач, но он также подчёркивает зависимость Австралии от внешних провайдеров.
Академические сильные стороны: оценка, справедливость и адаптация
Австралийские университеты и исследовательские центры активно работают над оценкой LLM, вопросами предвзятости, адаптацией к доменам и прикладными задачами, но не над созданием новых базовых архитектур.
- BESSTIE (UNSW): бенчмарк для оценки сентимента и сарказма в австралийском, британском и индийском вариантах английского. Он показывает, что глобальные LLM хуже справляются с австралийским английским, особенно с распознаванием сарказма (F-score 0.59 на Reddit против 0.81 для сентимента).
- Macquarie University: дообучение вариантов BERT (BioBERT, ALBERT) для биомедицинских вопросов позволило достигать высоких результатов в международных соревнованиях, что демонстрирует силу адаптации существующих моделей к узким доменам.
- CSIRO Data61: публикует практические исследования по агентным системам с LLM, приватности и управлению рисками моделей, делая упор на политику и прикладные результаты.
- Университет Аделаиды и CommBank: центр CommBank Centre for Foundational AI нацелен на машинное обучение для финансовых сервисов, но фокусируется на прикладных задачах и дообучении, а не на создании новых больших LLM.
Политика, инвестиции и инфраструктура
В Австралии развиваются политика и инвестиции в AI, но отсутствуют критические элементы для полной ИИ-суверенности:
- Политика: разработана риск-ориентированная рамка для AI с обязательной прозрачностью, тестированием и ответсвенностью для приложений высокого риска. Реформы законов о приватности 2024 года ввели новые требования к прозрачности AI.
- Инвестиции: венчурный капитал в австралийские AI-стартапы достиг AUD 1.3 миллиарда в 2024 году, при этом большая часть инвестиций направлена на прикладные компании, а не на базовые модели.
- Инфраструктура: в стране отсутствует масштабная вычислительная инфраструктура для обучения общих больших LLM. Обучение и вывод в основном опираются на международные облачные провайдеры, хотя региональные облачные услуги (например, AWS Sydney) начали предоставлять некоторые возможности.
Последствия для ИИ-суверенитета
Экосистема Австралии сильна в адаптации и оценке LLM, а также в создании прикладных решений. Но чтобы создать суверенную, масштабную фундаментальную модель, потребуется скоординированная инвестиция в вычисления, кадры и управление данными. Kangaroo LLM — значимая попытка суверенного подхода, однако к августу 2025 года проект остаётся на ранних этапах и сталкивается с юридическими, техническими и ресурсными вызовами.
До появления обученной, бенчмаркированной и публичной локальной модели австралийские организации будут продолжать опираться на международные LLM, одновременно пытаясь сгладить локальные недостатки через дообучение, бенчмарки и правовые механизмы.