<НА ГЛАВНУЮ

Как Южная Корея создала собственную экосистему LLM: HyperClova, AX, Solar Pro и другие

'Южная Корея ускоренно развивает собственную экосистему LLM: государственные программы, корпоративные модели и open-source проекты делают акцент на корейском языке, приватности и отраслевых применениях.'

Южная Корея быстро формирует локальную экосистему больших языковых моделей, ориентированную на понимание корейского языка, защиту данных и национальную инфраструктуру. Государственные инвестиции, корпоративные исследования и инициативы открытого исходного кода объединяются, чтобы создавать модели для здравоохранения, образования, телекоммуникаций и корпоративных сервисов.

Государственная поддержка суверенного ИИ

В 2025 году Министерство науки и информационно-коммуникационных технологий запустило программу на 240 миллиардов вон и выбрало пять консорциумов для разработки суверенных LLM, работающих на местной инфраструктуре. Лидерами консорциумов стали Naver Cloud, SK Telecom, Upstage, LG AI Research и NC AI. Параллельно регуляторы разработали рамки одобрения текстогенерирующих систем: в начале 2025 года Министерство по продовольствию и лекарствам опубликовало руководства для одобрения медицинского ИИ, генерирующего тексты, одно из первых национальных подобных регулирований.

Корпоративные и академические разработки

Ключевые компании и научные команды представили или объявили модели, оптимизированные для корейских задач:

  • SK Telecom: AX 3.1 Lite — модель на 7 миллиардов параметров, обученная с нуля на 1,65 триллиона токенов с мультилингвальной базой и сильным акцентом на корейский. Модель показывает около 96% по KMMLU2 для корейского рассуждения и 102% по CLIcK3 для культурного понимания по сравнению с более крупными моделями, доступна на Hugging Face для мобильных и on-device приложений.
  • Naver: серия HyperClova развивается дальше, HyperClova X Think (июнь 2025) улучшает поиск и диалоговые возможности для корейского языка.
  • Upstage: Solar Pro 2 — единственная корейская модель в списке Frontier LM Intelligence, демонстрирует эффективность, сопоставимую с гораздо более крупными международными системами.
  • LG AI Research: Exaone 4.0 (июль 2025) — дизайн на 30 миллиардов параметров, конкурентоспособный по глобальным бенчмаркам, с мультимодальными возможностями.
  • Больница при Сеульском национальном университете: медицинская LLM, обученная на 38 миллионах обезличенных клинических записей, набрала 86.2% на корейском медицинском лицензионном экзамене против среднего человеческого результата 79.7%.
  • Mathpresso + Upstage: MATH GPT — модель на 13 миллиардах параметров, которая превосходит GPT-4 в математических бенчмарках при значительно меньших вычислительных ресурсах.

Открытый код и сообщество

Модели сообщества и проекты с открытым исходным кодом заполняют пробелы в лингвистических особенностях:

  • Polyglot-Ko: семейство моделей (1.3–12.8 млрд параметров), непрерывно дообучаемых на корейских данных для обработки код-свитчинга и местных нюансов.
  • Gecko-7B: модель сообщества на 7 млрд параметров с непрерывным предобучением на корейском тексте.

Технические тренды и архитектурные решения

Разработчики в Корее делают ставку на эффективность и доменную адаптацию. Команды применяют масштабирование по токенам и параметрам, вдохновлённое Chinchilla, чтобы 7–30 миллиардных моделей могли конкурировать с гораздо большими западными аналогами при меньших вычислительных затратах. Специализация на доменных данных даёт ощутимые преимущества: медицинская LLM и MATH GPT показывают, что узконаправленные датасеты и цели обучения превосходят универсальные модели в целевых задачах.

Прогресс измеряется бенчмарками, такими как KMMLU2 (корейское рассуждение), CLIcK3 (культурное понимание) и Frontier LM leaderboard, что подтверждает сопоставимость с ведущими глобальными системами.

Рыночные перспективы и внедрение

Ожидается, что рынок LLM в Южной Корее вырастет с примерно 182.4 млн долларов в 2024 году до 1,278.3 млн долларов к 2030 году при среднем годовом темпе роста 39.4%. Основными драйверами станут чат-боты, виртуальные ассистенты, анализ сентимента и отраслевые решения. Операторы связи интегрируют edge-вычисления для LLM, чтобы снизить задержки и усилить защиту данных в рамках национальных инициатив, таких как AI Infrastructure Superhighway.

Значение разработок

Подход Южной Кореи снижает зависимость от иностранных поставщиков ИИ, улучшает конфиденциальность за счёт локального хранения данных и моделей, а также создаёт культурно адаптированные модели, лучше работающие с корейскими задачами. Сочетание государственной стратегии, корпоративных инвестиций и открытого сообщества делает страну заметным игроком в области эффективных и доменно-специализированных LLM.

🇬🇧

Switch Language

Read this article in English

Switch to English