Искусственный интеллект впервые прочитал текст с древнего свитка из библиотеки Геркуланума

Исследователи использовали искусственный интеллект для расшифровки текста на обугленном древнем папирусе 2000-летней давности. Статья об этом опубликована в научном журнале nature.

d41586 024 00346 8 26700906
Текст из свитка из Геркуланума, который не видели 2000 лет. Фото: Vesuvius Challenge

700 тысяч для победителей

Команда студентов-исследователей внесла огромный вклад в разгадку одной из самых больших загадок археологии, раскрыв содержание греческих записей внутри обугленного свитка, погребенного 2000 лет назад в результате извержения вулкана Везувий. Победители конкурса под названием Vesuvius Challenge были объявлены 5 февраля. Трое студентов из Египта, Швейцарии и Соединенных Штатов, которые раскрыли текст, получили главный приз в размере 700 000 долларов США. Они обучили свои алгоритмы машинного обучения сканированию свернутого папируса, представив ранее неизвестную философскую работу, в которой обсуждаются чувства и удовольствие. Это открывает путь для методов искусственного интеллекта (ИИ) для полной расшифровки остальных свитков, что, по словам исследователей, может иметь революционные последствия для нашего понимания древнего мира. В опубликованном тексте обсуждаются источники удовольствия, включая музыку, вкус каперсов и фиолетовый цвет.

Достижение взбудоражило обычно медлительный мир изучения древности.

«То, что я всегда считал несбыточной мечтой, становится явью», — сказал Кеннет Лапатин, куратор отдела древностей Музея Дж. Пола Гетти в Лос-Анджелесе, Калифорния.

«Это исторический момент», — говорит специалист по классике Боб Фаулер из Бристольского университета, Великобритания, один из членов жюри премии.

Это сработало

Свиток является одним из сотен неповрежденных папирусов, раскопанных в восемнадцатом веке на роскошной римской вилле в Геркулануме, Италия. Эти комки обуглившегося пепла, известные как свитки Геркуланума, — единственная библиотека, сохранившаяся со времен древнего мира. Но свитки были в слишком хрупком состоянии, чтобы их можно было открыть.

Победившая работа студентов содержит сотни слов в более чем 15 столбцах текста, что соответствует примерно 5% всего свитка. «Конкурс прояснил ситуацию для всех, кто спрашивал, сработает ли это вообще», — говорит Брент Силз, специалист по информатике из Университета Кентукки в Лексингтоне и соучредитель премии. «В этом больше никто не сомневается».

Двадцатилетняя миссия

В течение столетий после того, как свитки были обнаружены, многие люди пытались открыть их, уничтожая одни и оставляя другие по частям. Папирологи все еще работают над расшифровкой и соединением воедино полученных в результате попыток расшифровки ужасно фрагментированных текстов. Самые безнадежные случаи, в сумме -около 280 целых свитков — были оставлены нетронутыми, их даже не попытались раскрыть из=за плохого состояния. В основном они хранятся в Национальной библиотеке Неаполя, Италия, несколько — в Париже, Лондоне и Оксфорде, Великобритания.

Силс пытался прочитать эти скрытые тексты почти 20 лет. Его команда разработала программное обеспечение для «виртуального разворачивания» поверхностей свернутых папирусов с использованием изображений трехмерной компьютерной томографии (КТ). В 2019 году он перевез два свитка из Института Франции в Париже в ускоритель частиц Diamond Light Source недалеко от Оксфорда, чтобы сделать сканирование с высоким разрешением.

Разворачивание слоев при компьютерной томографии свитка

Однако нанесение на карту поверхностей занимало много времени, а чернила на основе углерода, используемые для написания свитков, имеют ту же плотность, что и папирус при компьютерной томографии, поэтому различить их на изображении было невозможно. Силс и его коллеги задавались вопросом, можно ли обучить модели машинного обучения «разворачивать» свитки и различать чернила. Но осмысление всех данных было гигантской задачей для его небольшой команды.

Конкурс на раскрытие тайны

К Силсу обратился предприниматель из Силиконовой долины Нат Фридман, который был заинтригован свитками Геркуланума после просмотра онлайн-выступления Силса. Фридман предложил открыть конкурс для участников. Он пожертвовал 125 000 долларов на запуск проекта и собрал еще сотни тысяч в Twitter, а Силс выпустил свое программное обеспечение вместе со сканированиями в высоком разрешении. Команда запустила Vesuvius Challenge в марте 2023 года, установив главный приз за прочтение 4 отрывков не менее чем по 140 символов каждый до конца года.

Ключом к успеху конкурса было «сочетание конкуренции и сотрудничества», говорит Фридман. По ходу конкурса были вручены небольшие призы для стимулирования прогресса, а победивший код машинного обучения публиковался на каждом этапе, чтобы «повысить уровень» сообщества, чтобы участники могли использовать достижения друг друга.

Волшебный фиолетовый цвет

Ключевое новшество появилось в середине прошлого года, когда американский предприниматель и бывший физик Кейси Хэндмер заметил на снимках слабую текстуру, похожую на растрескавшуюся грязь — он назвал ее «crackle», — которая, казалось, имела форму греческих букв. Люк Фарритор, студент, изучающий компьютерные науки в Университете Небраски-Линкольн, использовал crackle для обучения алгоритма машинного обучения, выявив слово porphyras, ‘фиолетовый', которое принесло ему приз за раскрытие первых букв в конце октября. Египетский аспирант из Берлина Юсеф Надер, представивший еще более четкие изображения текста, занял второе место.

Их код был опубликован менее чем за три месяца до того, как конкурсанты увеличили количество просмотров до крайнего срока получения финального приза — 31 декабря. «Мы грызли ногти», — говорит Фридман. Но на последней неделе на конкурс поступило 18 заявок. Техническое жюри проверило коды участников, затем передало 12 заявок комитету папирологов, который расшифровал текст и оценил разборчивость каждой заявки. Только один полностью соответствовал критериям премии: команда, сформированная Фарритором и Надером вместе с Джулианом Шиллигером, швейцарским студентом-робототехником из Швейцарского федерального технологического института Цюриха.

Результаты «невероятны», говорит судья Федерика Николарди, папиролог из Неаполитанского университета Федерико II. «Мы все были совершенно поражены изображениями, которые они показывали». Сейчас она и ее коллеги спешат проанализировать обнаруженный текст.

Музыка, удовольствие и каперсы

Содержание большинства ранее открытых геркуланумских свитков относится к эпикурейской философской школе и, по-видимому, составляло рабочую библиотеку последователя афинского философа Эпикура, жившего с 341 по 270 год до н.э., по имени Филодем. В новом тексте не назван автор, но, судя по приблизительному первому прочтению, скажем, Фаулера и Николарди, это, вероятно, также авторство Филодема. Помимо приятных вкусов и зрелищ, он включает в себя фигуру по имени Ксенофант, возможно, флейтиста с таким именем, упоминаемого древними авторами Сенекой и Плутархом, чья вызывающая воспоминания игра, по-видимому, заставила Александра Македонского потянуться за своим оружием.

Лапатин говорит, что темы, обсуждавшиеся Филодемом и Эпикуром, по-прежнему актуальны. «Основные вопросы, которые задавал Эпикур, — это те, которые стоят перед всеми нами как людьми. Как нам прожить хорошую жизнь? Как нам избежать боли?» Но «реальные достижения все еще впереди», — говорит он. «Что меня так волнует, так это не столько то, что написано в этом свитке, сколько то, что расшифровка этого свитка служит хорошим предзнаменованием для расшифровки сотен свитков, от которых мы ранее отказались».

Ключ к древней скрытой библиотеке

Вероятно, в свитках будет больше греческой философии: «Я был бы рад, если бы у него были какие-нибудь труды Аристотеля», — говорит папиролог и член жюри Ричард Янко из Мичиганского университета в Энн-Арборе. Между тем, некоторые из открытых свитков, написанные на латыни, охватывают более широкую тематическую область, повышая вероятность утраты поэзии и литературы писателей от Гомера до Сафо. Свитки «откроют, кто знает, какие новые секреты», — говорит Фаулер. «Мы все очень взволнованы».

Это достижение также, вероятно, вызовет споры о том, следует ли проводить дальнейшие исследования на вилле в Геркулануме, целые уровни которой никогда не были раскопаны. Янко и Фаулер убеждены, что главная библиотека виллы так и не была найдена, и тысячи других свитков все еще могут находиться под землей. В более широком смысле, методы машинного обучения, впервые разработанные Силзом и участниками конкурса Vesuvius Challenge, теперь могут быть использованы для изучения других типов скрытого текста, таких как картонная упаковка, переработанные папирусы, часто используемые для упаковки египетских мумий.

Следующий шаг — расшифровать одно произведение целиком. Фридман объявил о новом наборе призов Vesuvius Challenge на 2024 год с целью прочитать 85% свитка к концу года. Но в то же время, просто зайти так далеко «кажется чудом», говорит он. «Я не могу поверить, что это сработало».