Устойчивость гиперсвязей с помощью алгоритма 1967 года
Исследователи DeepSeek решают проблему нестабильности в обучении LLM с помощью алгоритма матричной нормализации 1967 года.
Проблема больших языковых моделей
Исследователи DeepSeek пытаются решить специфическую проблему в обучении больших языковых моделей. Остаточные связи сделали очень глубокие сети обучаемыми; гиперсвязи расширили этот остаточный поток, что привело к нестабильности при масштабировании. Новый метод mHC (Manifold Constrained Hyper Connections) сохраняет более богатую топологию гиперсвязей, но ограничивает смешение на четко определенном многообразии, чтобы обеспечить численную стабильность в глубоких структурах.
Переход от остаточных связей к гиперсвязям
Стандартные остаточные связи, как в ResNets и Transformers, пропагируют активации по формуле:
x_{l+1} = x_l + F(x_l, W_l)
Идентичный путь сохраняет величину и гарантирует, что градиенты остаются usable даже при многослойных конструкциях.
Гиперсвязи обобщают эту структуру, используя n-строчный буфер x_l ∈ R^{n×C}, а три изучаемых отображения контролируют операции чтения и записи:
H_l^{pre}выбирает смесь потоков в качестве входа слояFсоответствует обычным слоям внимания или прямой передачиH_l^{post}записывает результаты обратно в n-строчный буферH_l^{res} ∈ R^{n×n}перемешивает потоки между слоями
Обновление происходит как:
x_{l+1} = H_l^{res} x_l + H_l^{post}^T F(H_l^{pre} x_l, W_l)
Установка n равного 4 увеличивает выраженность без значительного роста плавающей запятой, что объясняет улучшение производительности гиперсвязей в языковых моделях.
Почему гиперсвязи становятся нестабильными
Нестабильность возникает из-за произведения остаточных смесителей через несколько слоев. В модели с 27B экспертов DeepSeek изучает составное отображение, определяя Amax Gain Magnitude на основе максимальных сумм по строкам и колонкам, что позволяет оценить worst-case усиление на сигнальных путях. Здесь пик усиления может достигать 3000, что далеко от идеального значения 1, ожидаемого для стабильных остаточных путей.
Это означает, что небольшие отклонения на уровне каждого слоя складываются в значительные факторы усиления, вызывая всплески потерь и нестабильные нормы градиентов. Увеличение трафика памяти на токен из-за многопоточного буфера также делает наивное масштабирование гиперсвязей непривлекательным для производства моделей.
Гиперсвязи с ограничением многообразия
mHC сохраняет идею многопоточного остатка, но ограничивает рискованные элементы. Матрица смешивания остатков H_l^{res} проецируется на многообразие двойных стохастических матриц (Birkhoff polytope), где все элементы неотрицательные, а каждое направление и столбец суммируются до 1.
DeepSeek реализует это ограничение, используя классический алгоритм Синкгорна-Кноппа 1967 года, который чередует нормализации строк и колонок для приближения к двойной стохастической матрице. Команда применяет 20 итераций на слой во время обучения, чтобы сохранить отображение близким к целевому многообразию, сохраняя при этом управляемые затраты.
С учетом этих ограничений, H_l^{res} x_l ведет себя как выпуклая комбинация остатков. Общая масса признаков сохраняется, и норма строго регуляризована, что устраняет взрывной рост, наблюдаемый в типичных гиперсвязях.
С помощью mHC пиковая Amax Gain Magnitude остается ограниченной, достигая около 1.6 в модели 27B, в то время как для неконтролируемой версии пики достигают 3000. Это означает сокращение в три порядка величины в худшем случае усиления.
Работа систем и накладные расходы на обучение
Интеграция итераций типа Синкгорн добавляет накладные расходы на бумаге. Однако команда DeepSeek использует несколько оптимизаций систем:
- Сливные ядра объединяют RMSNorm, проекции и управление для mHC, чтобы обеспечить низкий трафик памяти.
- Пунктуация активации на основе пересчета меняет вычисления на память, повторно рассчитывая активации mHC во время обратной передачи.
- Интеграция с планом пайплайна в стиле DualPipe максимизирует перекрытие коммуникации и пересчета.
На больших масштабах, mHC с коэффициентом расширения n равным 4 добавляет около 6.7% нагрузки на время обучения по сравнению с базовыми архитектурами, уже учитывая дополнительные вычисления от Синкгорна и оптимизации.
Эмпирические результаты
Команда исследователей обучила модели 3B, 9B и 27B экспертов и оценила их по стандартным языковым тестам, включая BBH, DROP, GSM8K, HellaSwag, MMLU, PIQA и TriviaQA.
Для модели 27B результаты показывают заметные улучшения:
- Базовая линия: BBH 43.8, DROP F1 47.0
- С гиперсвязями: BBH 48.9, DROP 51.6
- С mHC: BBH 51.0, DROP 53.9
Это доказывает, что гиперсвязи дают улучшения в производительности по сравнению с базовыми остаточными конструкциями, тогда как гиперсвязи с ограничением многообразия стабилизируют и дополнительно улучшают производительность. Похожие тенденции наблюдаются на других тестах и размерах моделей, что указывает на долговременные преимущества при различных вычислительных бюджетах.
Основные выводы
- mHC стабилизирует расширенные остаточные потоки: Сохраняя расширение остаточного пути в 4 потока, ограничивая матрицы смешивания остатков, предотвращаются взрывные явления.
- Снижение усиления: Значение усиления уменьшается с ≈3000 до ≈1.6 для модели с 27B MoE, что предотвращает проблемы во время обучения.
- Поддержка двойной случайности: Итерации Синкгорна обеспечивают суммирование строк и колонок до 1, что поддерживает стабильность остаточной производительности.
- Небольшие накладные расходы, измеримые выгоды: На разных размерах моделей mHC повышает точность тестов, при этом вводя всего около 6.7% времени обучения.
- Новая ось масштабирования для проектирования LLM: mHC показывает потенциал для проектирования топологии и ограничений многообразия, чтобы разблокировать дальнейшие улучшения в производительности и стабильности будущих больших языковых моделей.
Switch Language
Read this article in English