Баранов В.А. Корпусные исследования средневековых славянских рукописей: статистически значимые n-граммы (коллокации) древнерусских летописей. Электронный научно-образовательный журнал «История». 2020 Выпуск 3 (89).
Баранов Виктор Аркадьевич заведующий кафедрой «Лингвистика», Ижевский государственный технический университет (ИжГТУ)
Рассматривается современное состояние подготовки славянских исторических текстовых корпусов, требования к ним с точки зрения обработки, поиска и демонстрации лингвистических данных. Указывается, что основными причинами медленного развития направления являются высокая трудоемкость ручного создания машиночитаемых транскрипций и их разметки и необходимость подготовки специализированных корпусных менеджеров, обеспечивающих доступ к данным и их визуализацию. Подчеркивается, что одним из актуальных направлений использования корпусных данных является их анализ с помощью количественных и статистических методов. Описываются функциональные возможности исторического корпуса «Манускрипт», содержащего средневековые славянские рукописи X—XV вв. (manuscripts.ru). На примере подкорпуса трех древнерусских летописей (Лаврентьевской, Ипатьевской, Радзивилловской) демонстрируются возможности модуля n-грамм для выявления грамматически и семантически устойчивых словосочетаний, характеризующих тематику текстов. С помощью статистических мер Mutual Information и T-score выявляются перечни относительно редких и наиболее частотных устойчивых сочетаний. MI-перечни включают имена собственные, парные именования, устойчивые библейские и славяно-книжные подчинительные конструкции. T-score-перечни дают информацию о событиях, целях, лицах, результатах и о их характеристиках. Делается вывод об эффективности использования статистических методов для автоматического нахождения семантически и тематически значимых сочетаний в исторических источниках.