Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс:
http://e-lib.mslu.by/handle/edoc/15733
Название: | Потенциал корпусного менеджера для обработки лингвистических данных (на примере корпуса китайских электронных СМИ) |
Другие названия: | The potential of the corpus manager in processing linguistic data (using the example of the corpus of chinese electronic media) |
Авторы: | Красикова, Е. А. |
Ключевые слова: | Языкознание (лингвистика) Прикладное языкознание Китайский язык |
Дата публикации: | 2024 |
Издатель: | Минский государственный лингвистический университет |
Библиографическое описание: | Красикова, Е. А. Потенциал корпусного менеджера для обработки лингвистических данных (на примере корпуса китайских электронных СМИ) / Е. А. Красикова // Язык в эпоху цифровых трансформаций и развития искусственного интеллекта : сб. науч. ст. по итогам междунар. науч. конф., Минск, 23-24 окт. 2024 г. / редкол.: Н. Е. Лаптева (отв. ред.) [и др.]. – Минск : МГЛУ, 2024. – С. 549–554. |
Аннотация: | В исследовании тестируются возможности программного комплекса «Генератор сбалансированного лингвистического корпуса и корпусный менеджер». В несколько этапов решаются такие задачи, как отбор лингвистического материала, формирование тестового корпуса актуальных текстов электронных СМИ на китайском языке, апробация частеречной разметки на материале языка изолирующего типа, установление уровня точности работы модуля «китайский язык». В ходе анализа было установлено, что в отличие от индоевропейских языков, которые ранее служили апробационным материалом для тестирования программного комплекса, китайский язык вносит особенности в алгоритм функционирования системы в силу типологических особенностей. Полученные в ходе запросов лингвистические и статистические данные были подвергнуты анализу, в результате которого было установлено, что погрешность определения заявленных частей речи составляет 7–8 %. В качестве перспективы исследования рассматривается оптимизация поиска данных в рамках модуля «китайский язык» и формирование ряда алгоритмов поиска частей речи в заданном лингвистическом корпусе. К л ю ч е в ы е с л о в а: цифровая экономика; прикладная лингвистика; корпусный менеджер; искусственный интеллект; лингвистический корпус; китайский язык; электронные СМИ. |
Описание: | Krasikova Е. The article describes the capabilities of the software package “Balanced linguistic corpus generator and corpus manager”. Tasks such as the selection of linguistic material, the formation of a test corpus of relevant electronic media texts in Chinese, the testing of partial markup on the material of an isolating language, and the establishment of the accuracy level of the Chinese language module are solved in several stages. During the analysis, it was found that, unlike IndoEuropean languages, which previously served as an approbation material for testing the software package, the Chinese language introduces features into the algorithm of the system's functioning due to its typological features. The linguistic and statistical data obtained during the queries were analyzed, as a result of which it was found that the error in determining the declared parts of speech is 7–8 %. The optimization of data search within the framework of the “Chinese language” module and the formation of a number of algorithms for searching parts of speech in a given linguistic corpus are considered as research prospects. K e y w o r d s: digital economy; applied linguistics; corpus manager; artificial intelligence; linguistic corpus; Chinese language; electronic media. |
URI: | http://e-lib.mslu.by/handle/edoc/15733 |
ISBN: | 978-985-28-0275-8 |
Располагается в коллекциях: | Язык в эпоху цифровых трансформаций и развития искусственного интеллекта (статьи) |
Файлы этого ресурса:
Файл | Описание | Размер | Формат | |
---|---|---|---|---|
549-554.pdf | 539,47 kB | Adobe PDF | Просмотреть/Открыть |
Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.