ГЛАВНАЯ
> Вернуться к содержанию
Статьи автора Ринчинов Олег Сергеевич
Историческая информатика, 2020-2
|
Ринчинов О.С. - Диахронический корпус бурятского языка как цифровой инструмент исторических исследований: подходы, решения, экспериментальные исследования |
|
c. 26-34
|
DOI: 10.7256/2585-7797.2020.2.33446
Аннотация: В статье рассмотрены вопросы использования диахронического корпуса бурятского языка, составленного на основе написанных на старомонгольской письменности летописей, для реконструкции истории и исторической географии бурятского народа. В этой связи обсуждены основные проблемы семантической разметки корпусных данных, размер которого в настоящее время достигает 82 тыс. словоупотреблений. Новизна исследования заключается в том, что впервые объектом применения методов компьютерной лингвистики являются тексты на классическом монгольском языке, представленные в латинизированной транслитерации. Описаны подходы к разработке онтологической схемы историко-культурной предметной области, выявлению элементов родо-племенного и географического контекстов. На основе вычислительного эксперимента, проведенного с использованием СУБД MS Access и языка SQL, показаны преимущества использования методологии авторитетного контроля, в частности, объектов категорий «род/семья» и «место», для первичного анализа корпусных данных и формирования основных семантических кластеров. Применение авторитетных записей позволило в существенной степени ускорить накопление эмпирических данных для автоматизации содержательного анализа текстов, включенных в корпус. Проведенные эксперименты позволили определить направления дальнейшей работы по созданию и совершенствованию инструментов семантической разметки диахронического корпуса бурятского языка и превращению его в удобный инструмент исторических исследований.
|