Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://e-lib.mslu.by/handle/edoc/15654
Название: Лингвистические проблемы создания корпуса документов Войска Донского (XVIII–XIX вв.)
Другие названия: Linguistic issues of creating a corpus of the Don Cossack army documents (18th–19th centuries)
Авторы: Горбань, О. А.
Косова, М. В.
Шептухина, Е. М.
Ключевые слова: Языкознание (лингвистика)
Прикладное языкознание
Вычислительная лингвистика
Дата публикации: 2024
Издатель: Минский государственный лингвистический университет
Библиографическое описание: Горбань, О. А. Лингвистические проблемы создания корпуса документов Войска Донского (XVIII–XIX вв.) / О. А. Горбань, М. В. Косова, Е. М. Шептухина // Язык в эпоху цифровых трансформаций и развития искусственного интеллекта : сб. науч. ст. по итогам междунар. науч. конф., Минск, 23-24 окт. 2024 г. / редкол.: Н. Е. Лаптева (отв. ред.) [и др.]. – Минск : МГЛУ, 2024. – С. 18–26.
Аннотация: В статье рассматриваются подходы к решению таких лингвистических проблем создания диахронического корпуса документов канцелярий Войска Донского из Государственного архива Волгоградской области, как отбор источников, принципы передачи текстов с устаревшей графикой, параметры аннотирования и структурной разметки. Обоснована релевантность включения в корпус всех видов документов разного объема и структуры текста, необходимость частичной адаптации графики с сохранением вышедших из употребления букв, орфографии и пунктуации оригиналов как значимых для исторического языкознания, исторической диалектологии русского языка. На основе систематизации стандартизированных речевых оборотов, эксплицирующих элементы аннотирования, показаны возможности автоматизации процесса метаразметки. При отсутствии в текстах последовательной постановки знаков препинания, а также с учетом особенностей синтаксиса и композиции документов предложено при структурной разметке деление текстов на структурно-смысловые блоки, которые могут быть расчленены на менее объемные синтаксические единицы. К л ю ч е в ы е с л о в а: русский язык, лингвистический корпус, диахронический корпус, архивные документы, адаптация текстов, метаразметка, структурная разметка.
Описание: Gorban О., Kosova М., Sheptukhina Е. The article discusses approaches to solving such linguistic problems of creating a diachronic corpus of documents of the Don Cossack Army offices from the State Archive of the Volgograd region, as the selection of sources, principles of transmission of texts with outdated graphics, annotation parameters and structural markup. The relevance of including all types of documents of different text volumes and structures in the corpus, the need for partial adaptation of graphics while preserving obsolete letters, spelling and punctuation of the originals as significant for historical linguistics, historical dialectology of the Russian language is substantiated. Based on the systematization of standardized speech phrases that explicate annotation elements, the possibilities of automating the meta-tagging process are shown. In the absence of consistent punctuation marks in the texts, as well as taking into account the peculiarities of syntax, the composition of documents is proposed to divide texts into structural and semantic blocks, which can be divided into less voluminous syntactic units. K e y w o r d s: Russian language; linguistic corpus; diachronic corpus; archival documents; text adaptation; meta-markup; structural markup.
URI: http://e-lib.mslu.by/handle/edoc/15654
ISBN: 978-985-28-0275-8
Располагается в коллекциях:Язык в эпоху цифровых трансформаций и развития искусственного интеллекта (статьи)

Файлы этого ресурса:
Файл Описание РазмерФормат 
18-26.pdf769,45 kBAdobe PDFПросмотреть/Открыть


Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.