Разработка Анны Мурашкиной, студентки направления «Фундаментальная и прикладная лингвистика» гуманитарного института НГУ, позволила создать уникальную программную платформу для автоматизированной обработки, оцифровки и анализа классических тибетских текстов, передает РИА «Новости».
Приложение предназначено для распознавания документов на тибетском языке, преимущественно рукописей и ксилографов XVIII-XX веков, и, по мнению университета, будет востребовано исследователями, архивными работниками и библиотекарями.
Мурашкина вручную выполняла лингвистическую разметку строк, создав систему оценки качества оптического распознавания символов с учетом особенностей тибетского письма. Она выбрала и дообучила нейросетевую модель, обеспечив модульный алгоритм с этапами предобработки, сегментации, распознавания и постобработки.
Система ориентирована на тексты, основанные на тибетском слоговом письме, происходящем от письма брахми. Использовались изображения страниц из архивов, включая материалы Тибетского фонда Института монголоведения, буддологии и тибетологии СО РАН, где хранится до 70 тысяч хроник. Оцифровка этих документов названа одним из главных способов их сохранения.
Мурашкина заявила: «Старопечатные документы, рукописи и ксилографы содержат уникальные сведения о философии, религии, медицине, истории и искусстве, играя ключевую роль в изучении культурных традиций региона». По ее словам, новая разработка демонстрирует более высокую точность по сравнению с существующими открытыми решениями и расширяет возможности оцифровки и систематизации исторических материалов.
Как писала газета ВЗГЛЯД, ранее новосибирские ученые вывели моль, которая способна утилизировать пластик, а также обнаружили способ замораживать органы без повреждений.