Google DeepMind представляет Aeneas: ИИ для восстановления и контекстуализации древних латинских надписей
Google DeepMind представила Aeneas — ИИ-инструмент для восстановления, датировки и контекстуализации древних латинских надписей, значительно облегчающий работу историков.
Проблемы в изучении древних латинских надписей
Эпиграфика — это изучение текстов, выгравированных на прочных материалах, таких как камень и металл, и она играет важную роль в понимании римского мира. Латинские надписи охватывают более двух тысячелетий (с 7 века до н.э. по 8 век н.э.) и распространены более чем в шестидесяти провинциях Римской империи. Это могут быть имперские указы, юридические документы, надгробия и жертвенные алтари. Однако исследователи сталкиваются с множеством трудностей: тексты часто повреждены или фрагментарны, даты и происхождение не всегда ясны, широко используются сокращения. Корпус латинских надписей (LED) насчитывает более 176 тысяч записей, с ежегодным приростом около 1500 новых надписей, что делает ручной анализ очень трудоемким.
Представляем Aeneas: нейросеть для латинской эпиграфики
Google DeepMind разработала Aeneas — трансформерную генеративную нейронную сеть, которая помогает восстанавливать тексты, определять даты, географическое происхождение и контекст древних надписей. Aeneas обучена на корпусе LED, объединяющем 176 861 надпись с около 16 миллионами символов, охватывающих период с VII века до н.э. по VIII век н.э. В датасете используются специальные токены для обозначения пропущенных участков текста и метаданные о провинциях и датировке по декадам.
Архитектура модели и возможности
Основой Aeneas является глубокий, узкий трансформер-декодер на базе архитектуры T5 с ротационными позиционными эмбеддингами для эффективной обработки символов. Текстовый ввод дополняется изображениями надписей (если они доступны), которые обрабатываются через неглубокую сверточную сеть (ResNet-8) для географической атрибуции.
Модель выполняет несколько специализированных задач:
- Восстановление: предсказывает пропущенные символы, включая фрагменты неизвестной длины, с помощью дополнительного нейронного классификатора.
- Географическая атрибуция: классифицирует надписи по 62 римским провинциям, используя текстовые и визуальные эмбеддинги.
- Хронологическая атрибуция: оценивает дату надписи по декадам с вероятностным распределением, учитывающим исторические рамки.
- Контекстуальный поиск аналогий: создает объединенные эмбеддинги для поиска релевантных эпиграфических параллелей с помощью косинусного сходства, учитывая лингвистические и культурные связи.
Обучение и аугментация данных
Обучение проводится на TPU v5e с большими батчами, комбинируя потери всех задач с оптимизированными весами. Для улучшения обобщения данных используется аугментация: случайное маскирование текста (до 75%), обрезка, удаление слов, пропуск знаков препинания, изменения изображений (масштаб, поворот, яркость/контраст), dropout и сглаживание меток. Предсказания выполняются с помощью beam search с нестандартной логикой для восстановления текста неизвестной длины, формируя несколько ранжированных вариантов.
Результаты и оценка
Оценка на тестовом наборе LED и совместное исследование с 23 эпиграфами показали значительные улучшения:
- Восстановление: уровень ошибок символов (CER) снижается до ~21% с помощью Aeneas, против 39% у экспертов без поддержки; сама модель достигает ~23% CER.
- Географическая атрибуция: точность ~72% в классификации провинций; историки с Aeneas повышают точность до 68%, превосходя работу каждого по отдельности.
- Хронологическая атрибуция: средняя ошибка оценки даты около 13 лет; с помощью Aeneas историки сокращают ошибку с 31 до 14 лет.
- Контекстуальные параллели: релевантные параллели полезны в ~90% случаев, повышая уверенность историков на 44% в среднем.
Примеры использования
- Res Gestae Divi Augusti: Aeneas выявил два пика датировки, отражающих научные дискуссии о слоях текста. Карты значимости выделили лингвистические и институциональные особенности, а также подобранные параллели с имперскими указами и сенаторскими текстами.
- Жертвенный алтарь из Майнца (CIL XIII, 6665): точная датировка 211 года и атрибуция к Германской Верхней провинции. Карты значимости отметили консульские формулы и культовые ссылки, а также найдены близкие по тексту алтари с редкими формулами и иконографией.
Использование в исследованиях и образовании
Aeneas выступает как вспомогательный инструмент, ускоряя поиск параллелей, восстановление и атрибуцию, позволяя историкам сосредоточиться на более глубоком анализе. Модель и датасеты доступны на платформе Predicting the Past с открытыми лицензиями. Разработана образовательная программа для школьников и преподавателей, способствующая цифровой грамотности и объединяющая ИИ с классической наукой.
Часто задаваемые вопросы
Что такое Aeneas? Мультимодальная генеративная нейросеть, помогающая восстанавливать, датировать, географически атрибутировать и контекстуализировать древние латинские надписи.
Как она работает с неполными надписями? Предсказывает пропущенные сегменты текста, включая неизвестной длины, формируя несколько гипотез с ранжированием.
Как интегрируется в работу историков? Предоставляет ранжированные параллели и прогнозы, повышая точность и сокращая время исследований. Модель и данные доступны публично.
Для подробностей ознакомьтесь с публикацией, проектом и блогом Google DeepMind.
Switch Language
Read this article in English