Please use this identifier to cite or link to this item:
http://e-lib.mslu.by/handle/edoc/15654
Title: | Лингвистические проблемы создания корпуса документов Войска Донского (XVIII–XIX вв.) |
Other Titles: | Linguistic issues of creating a corpus of the Don Cossack army documents (18th–19th centuries) |
Authors: | Горбань, О. А. Косова, М. В. Шептухина, Е. М. |
Keywords: | Языкознание (лингвистика) Прикладное языкознание Вычислительная лингвистика |
Issue Date: | 2024 |
Publisher: | Минский государственный лингвистический университет |
Citation: | Горбань, О. А. Лингвистические проблемы создания корпуса документов Войска Донского (XVIII–XIX вв.) / О. А. Горбань, М. В. Косова, Е. М. Шептухина // Язык в эпоху цифровых трансформаций и развития искусственного интеллекта : сб. науч. ст. по итогам междунар. науч. конф., Минск, 23-24 окт. 2024 г. / редкол.: Н. Е. Лаптева (отв. ред.) [и др.]. – Минск : МГЛУ, 2024. – С. 18–26. |
Abstract: | В статье рассматриваются подходы к решению таких лингвистических проблем создания диахронического корпуса документов канцелярий Войска Донского из Государственного архива Волгоградской области, как отбор источников, принципы передачи текстов с устаревшей графикой, параметры аннотирования и структурной разметки. Обоснована релевантность включения в корпус всех видов документов разного объема и структуры текста, необходимость частичной адаптации графики с сохранением вышедших из употребления букв, орфографии и пунктуации оригиналов как значимых для исторического языкознания, исторической диалектологии русского языка. На основе систематизации стандартизированных речевых оборотов, эксплицирующих элементы аннотирования, показаны возможности автоматизации процесса метаразметки. При отсутствии в текстах последовательной постановки знаков препинания, а также с учетом особенностей синтаксиса и композиции документов предложено при структурной разметке деление текстов на структурно-смысловые блоки, которые могут быть расчленены на менее объемные синтаксические единицы. К л ю ч е в ы е с л о в а: русский язык, лингвистический корпус, диахронический корпус, архивные документы, адаптация текстов, метаразметка, структурная разметка. |
Description: | Gorban О., Kosova М., Sheptukhina Е. The article discusses approaches to solving such linguistic problems of creating a diachronic corpus of documents of the Don Cossack Army offices from the State Archive of the Volgograd region, as the selection of sources, principles of transmission of texts with outdated graphics, annotation parameters and structural markup. The relevance of including all types of documents of different text volumes and structures in the corpus, the need for partial adaptation of graphics while preserving obsolete letters, spelling and punctuation of the originals as significant for historical linguistics, historical dialectology of the Russian language is substantiated. Based on the systematization of standardized speech phrases that explicate annotation elements, the possibilities of automating the meta-tagging process are shown. In the absence of consistent punctuation marks in the texts, as well as taking into account the peculiarities of syntax, the composition of documents is proposed to divide texts into structural and semantic blocks, which can be divided into less voluminous syntactic units. K e y w o r d s: Russian language; linguistic corpus; diachronic corpus; archival documents; text adaptation; meta-markup; structural markup. |
URI: | http://e-lib.mslu.by/handle/edoc/15654 |
ISBN: | 978-985-28-0275-8 |
Appears in Collections: | Язык в эпоху цифровых трансформаций и развития искусственного интеллекта (статьи) |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.