ИИ расшифровал первый текст из «нечитабельного» Геркуланумского свитка, который обгорел после извержения Везувия
Свитки долгое время оставались погребенными под вулканическим пеплом, пока в 1700-х годах их не откопали археологи.
Помпеи — не единственный город, разрушенный извержением Везувия в 79 году нашей эры. Древнеримский Геркуланум «обожгло» облаками горячего газа, и некоторые его богатства (включая сотни бесценных письменных свитков) долгое время были похоронены под 20-метровым слоем вулканического пепла.
В 1700-х годах археологи откопали обгоревшие свитки, больше напоминавшие кусочки угля, и, как считается, когда-то принадлежавшие человеку, по имени Пизон. Открытые фрагменты помогли ученым определить несколько греческих философских текстов, в том числе «О природе» Эпикура и произведения малоизвестного философа Филодема, а также несколько латинских произведений. Однако более 600 свитков были настолько хрупкими, что долгое время считались совершенно нечитабельными.
Для расшифровки поврежденных древних свитков ученые используют разные, но очень осторожные способы. Например, в 2019-м ученые из Германии опробовали комбинацию физических методов (синхротронное излучение, инфракрасная спектроскопия и рентгеновская флуоресценция), чтобы «развернуть» древнеегипетский папирус. Анализ показал, что, казалось бы, пустой участок действительно содержал символы, написанные тем, что стало «невидимыми чернилами» после столетий воздействия света.
Лаборатория Брента Силза в Университете Кентукки много лет испытывает метод «виртуального развертывания» для расшифровки древних текстов. Команда сочетает цифровое сканирование с микрокомпьютерной томографией — неинвазивным методом, часто используемым для визуализации рака — с сегментацией для создания цифровых страниц, дополненных методами текстурирования и сведения. Силз для этого разработал собственное программное обеспечение Volume Cartography, которое в 2016-м уже помогло команде просмотреть свиток Эн-Геди, найденный на западном берегу Мертвого моря, с несколькими первыми стихами из книги Левит.
Впрочем, работа над свитками из Геркуланума осложнялась тем, что они изготовлены на основе угля и воды (чернило на свитке Эн-Геди содержит металл, поэтому ярко светится на компьютерной томографии), хотя в конце концов Силз понял, что КТ все-таки может найти крошечные различия в текстуре, которые укажут на участки папируса с текстом, и научил искусственную нейронную сеть делать то же самое. В 2019 году он перевез два неповрежденных свитка в синхротронную рентгеновскую установку вблизи Оксфорда и сделал сканы с высоким разрешением.
Чтобы прочесть свитки, необходимо было провести огромную работу, которую поручили в конце концов общественности в рамках проекта Vesuvius Challenge — команда обнародовала все свои сканы и код, и анонсировала денежный приз за расшифровку текстов Геркуланума.
«Мы согласились, что лучше как можно скорее это прочесть, чем накапливать данные», — говорит Силз.
В рамках проекта работали около 1500 команд, а среди них и 21-летний Люк Фарритор из Университета Небраски–Линкольна, который стажируется в Space X. Именно парень в конце концов разработал алгоритм машинного обучения, обнаруживший греческие буквы в нескольких строчках свернутого папируса, включая слово «πορϕυρας», что означает «пурпурный».
«Когда я увидела первое изображение, я была шокирована», — говорит Федерика Николарди, папиролог из Неаполитанского университета в Италии и член научного комитета, который рассматривал выводы Фарритора.
Фарритор получил приз в размере $40 000. Главное вознаграждение в размере $700 000 поступит тому, кто первым расшифрует четыре или более отрывка из свитков до 31 декабря.
Прогресс, как отмечают ученые, «дает возможность восстановить текст целого свитка», включая название и автора, чтобы работы можно было идентифицировать и датировать.
Открытие Фарритора уже вдохновило другого студента, египтянина Надера. Он использовал модифицированную версию модели машинного обучения для изучения отдельных фрагментов, сосредотачиваясь на той же области свитка, что и Фарритор. Ученые уже выдвинули предположения о возможных словах, расположенных выше (ανυοντα, «достижения») и ниже (ομοιων, «подобный»). С тех пор модель Надера расшифровала дополнительные четыре с половиной колонки текста, разделенных полями, хотя не все видимые буквы разборчивы.
Источник: Nature, Ars Technica