Please use this identifier to cite or link to this item: http://e-lib.mslu.by/handle/edoc/15733
Title: Потенциал корпусного менеджера для обработки лингвистических данных (на примере корпуса китайских электронных СМИ)
Other Titles: The potential of the corpus manager in processing linguistic data (using the example of the corpus of chinese electronic media)
Authors: Красикова, Е. А.
Keywords: Языкознание (лингвистика)
Прикладное языкознание
Китайский язык
Issue Date: 2024
Publisher: Минский государственный лингвистический университет
Citation: Красикова, Е. А. Потенциал корпусного менеджера для обработки лингвистических данных (на примере корпуса китайских электронных СМИ) / Е. А. Красикова // Язык в эпоху цифровых трансформаций и развития искусственного интеллекта : сб. науч. ст. по итогам междунар. науч. конф., Минск, 23-24 окт. 2024 г. / редкол.: Н. Е. Лаптева (отв. ред.) [и др.]. – Минск : МГЛУ, 2024. – С. 549–554.
Abstract: В исследовании тестируются возможности программного комплекса «Генератор сбалансированного лингвистического корпуса и корпусный менеджер». В несколько этапов решаются такие задачи, как отбор лингвистического материала, формирование тестового корпуса актуальных текстов электронных СМИ на китайском языке, апробация частеречной разметки на материале языка изолирующего типа, установление уровня точности работы модуля «китайский язык». В ходе анализа было установлено, что в отличие от индоевропейских языков, которые ранее служили апробационным материалом для тестирования программного комплекса, китайский язык вносит особенности в алгоритм функционирования системы в силу типологических особенностей. Полученные в ходе запросов лингвистические и статистические данные были подвергнуты анализу, в результате которого было установлено, что погрешность определения заявленных частей речи составляет 7–8 %. В качестве перспективы исследования рассматривается оптимизация поиска данных в рамках модуля «китайский язык» и формирование ряда алгоритмов поиска частей речи в заданном лингвистическом корпусе. К л ю ч е в ы е с л о в а: цифровая экономика; прикладная лингвистика; корпусный менеджер; искусственный интеллект; лингвистический корпус; китайский язык; электронные СМИ.
Description: Krasikova Е. The article describes the capabilities of the software package “Balanced linguistic corpus generator and corpus manager”. Tasks such as the selection of linguistic material, the formation of a test corpus of relevant electronic media texts in Chinese, the testing of partial markup on the material of an isolating language, and the establishment of the accuracy level of the Chinese language module are solved in several stages. During the analysis, it was found that, unlike IndoEuropean languages, which previously served as an approbation material for testing the software package, the Chinese language introduces features into the algorithm of the system's functioning due to its typological features. The linguistic and statistical data obtained during the queries were analyzed, as a result of which it was found that the error in determining the declared parts of speech is 7–8 %. The optimization of data search within the framework of the “Chinese language” module and the formation of a number of algorithms for searching parts of speech in a given linguistic corpus are considered as research prospects. K e y w o r d s: digital economy; applied linguistics; corpus manager; artificial intelligence; linguistic corpus; Chinese language; electronic media.
URI: http://e-lib.mslu.by/handle/edoc/15733
ISBN: 978-985-28-0275-8
Appears in Collections:Язык в эпоху цифровых трансформаций и развития искусственного интеллекта (статьи)

Files in This Item:
File Description SizeFormat 
549-554.pdf539,47 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.