Корпус текстів публічних каналів месенджера Telegram: створення та практичне застосування

Вантажиться...
Ескіз
Дата
2024
Науковий керівник
Укладач
Редактор
Назва журналу
ISSN
2307-8332
E-ISSN
Назва тому
Видавець
Одеський національний університет імені І. І. Мечникова
Анотація
У статті представлено процес створення та конкретні приклади практичного застосування корпусу текстів публічних каналів месенджера Telegram. Метою розвідки обрано розроблення корпусу текстів публічних українськомовних каналів месенджера Telegram, що передбачало розв’язання таких завдань: розробити методику формування корпусу текстів із публічних Telegram-каналів, створити та апробувати скрипти для автоматизованого збирання, очищення і аналізу текстових даних, завантажити опрацьовані тексти в корпусний менеджер, визначити перспективи подальшого використання корпусу та його удосконалення. Розроблення корпусу текстів публічних українськомовних каналів месенджера Telegram виконано в три етапи: на першому етапі обрано в месенджері Telegram публічний канал, який став джерелом текстових даних, і завантажено історію публікацій; на другому етапі переведено отримані дані у формат, який можна використовувати в спеціалізованому програмному забезпеченні для створення корпусів текстів та керування ними; на третьому етапі завантажено попередньо-опрацьовані тексти в обраний корпус-менеджер. Для підготовки файлу написано два скрипти на мові програмування Python із використанням бібліотек SpaCy, pandas тощо (один скрипт для вилучення текстів дописів та збереження їх в окремий файл, і другий скрипт для очищення текстів та статистичного аналізу). Для ілюстрації можливостей корпусу в контексті дослідження мережевого дискурсу зроблено запити: пошук дієслів довжиною понад 15 літер, пошук хештегів, пошук власних назв, пошук атрибутивних словосполучень. Запити сформульовано за допомогою мови корпусних запитів CQL та регулярних виразів. Перспективи дослідження передбачають розширення корпусу текстами з Telegram каналів інших блогерів, вдосконалення етапу підготовки та фільтрування текстів, залучення іншого програмного забезпечення для створення та керування корпусами текстів.
The article presents the process of creating and practical applications of a text corpus based on public channels of the Telegram messenger. The aim of this study is to develop a corpus of texts from public Ukrainian-language Telegram channels. The research objectives are as follows: to develop a methodology for building a text corpus from public Telegram channels, to create and test scripts for the automated collection, cleaning, and analysis of textual data, to upload the processed texts into a corpus manager, and to explore the potential for further applications and improvements of the corpus. To achieve these objectives, automated methods for text collection and cleaning were employed using Python scripts and text processing libraries (e.g., json, pandas, SpaCy). The Sketch Engine platform was utilized for the creation and management of the corpus. Data analysis involved the use of CQL (Corpus Query Language) search queries, regular expressions, and basic statistical analysis. The source data consisted of texts from a selected public Ukrainian-language Telegram channel (Serhiy Sternenko’s channel). The corpus development process was conducted in three stages: (1) selecting a public Telegram channel as the source of textual data and downloading its publication history; (2) converting the downloaded data into a format compatible with specialized corpus creation and management software; and (3) uploading the pre-processed texts into the chosen corpus manager. Two Python scripts were developed to prepare the data. The first script extracted the text of posts and saved them to a separate file, while the second script performed text cleaning and statistical analysis. The cleaning process involved the removal of unnecessary symbols, emojis, and links. To illustrate the potential applications of the corpus in online discourse research, several queries were performed: searching for verbs exceeding 15 characters in length, identifying hashtags, extracting proper names, and analyzing attributive phrases. The queries for attributive phrases focused on two patterns: adjective-noun combinations denoting proper names or entities, and phrases matching the structure ‘so-called + noun’ or ‘so-called + adjective + noun.’ These queries were formulated using CQL and regular expressions. The findings indicate that the created corpus is a valuable resource for studying online discourse. Future research directions include expanding the corpus by incorporating texts from additional Telegram channels, refining the text preparation and filtering processes, and evaluating the applicability of alternative software solutions for corpus creation and management. This research contributes to the field of computational linguistics and offers a novel resource for the analysis of Ukrainian-language online discourse.
Опис
Ключові слова
корпусна лінгвістика, корпус текстів, Telegram, українська мова, мережевий дискурc, Sketch Engine, corpus linguistics, text corpus, Ukrainian language, network discourse
Бібліографічний опис
Малишева М. Корпус текстів публічних каналів месенджера Telegram: створення та практичне застосування / М. Малишева // Вісник Одеського національного університету. Філологія. – 2024. – Т. 29, вип. 2(30). – С. 47–56.
УДК
004.912:811.161.2