Корпус текстів публічних каналів месенджера Telegram: створення та практичне застосування

dc.contributor.authorМалишева, Марія Геннадіївнаuk
dc.contributor.authorMalysheva, Mariia G.en
dc.date.accessioned2025-02-04T07:45:39Z
dc.date.available2025-02-04T07:45:39Z
dc.date.issued2024
dc.description.abstractУ статті представлено процес створення та конкретні приклади практичного застосування корпусу текстів публічних каналів месенджера Telegram. Метою розвідки обрано розроблення корпусу текстів публічних українськомовних каналів месенджера Telegram, що передбачало розв’язання таких завдань: розробити методику формування корпусу текстів із публічних Telegram-каналів, створити та апробувати скрипти для автоматизованого збирання, очищення і аналізу текстових даних, завантажити опрацьовані тексти в корпусний менеджер, визначити перспективи подальшого використання корпусу та його удосконалення. Розроблення корпусу текстів публічних українськомовних каналів месенджера Telegram виконано в три етапи: на першому етапі обрано в месенджері Telegram публічний канал, який став джерелом текстових даних, і завантажено історію публікацій; на другому етапі переведено отримані дані у формат, який можна використовувати в спеціалізованому програмному забезпеченні для створення корпусів текстів та керування ними; на третьому етапі завантажено попередньо-опрацьовані тексти в обраний корпус-менеджер. Для підготовки файлу написано два скрипти на мові програмування Python із використанням бібліотек SpaCy, pandas тощо (один скрипт для вилучення текстів дописів та збереження їх в окремий файл, і другий скрипт для очищення текстів та статистичного аналізу). Для ілюстрації можливостей корпусу в контексті дослідження мережевого дискурсу зроблено запити: пошук дієслів довжиною понад 15 літер, пошук хештегів, пошук власних назв, пошук атрибутивних словосполучень. Запити сформульовано за допомогою мови корпусних запитів CQL та регулярних виразів. Перспективи дослідження передбачають розширення корпусу текстами з Telegram каналів інших блогерів, вдосконалення етапу підготовки та фільтрування текстів, залучення іншого програмного забезпечення для створення та керування корпусами текстів. uk
dc.description.abstractThe article presents the process of creating and practical applications of a text corpus based on public channels of the Telegram messenger. The aim of this study is to develop a corpus of texts from public Ukrainian-language Telegram channels. The research objectives are as follows: to develop a methodology for building a text corpus from public Telegram channels, to create and test scripts for the automated collection, cleaning, and analysis of textual data, to upload the processed texts into a corpus manager, and to explore the potential for further applications and improvements of the corpus. To achieve these objectives, automated methods for text collection and cleaning were employed using Python scripts and text processing libraries (e.g., json, pandas, SpaCy). The Sketch Engine platform was utilized for the creation and management of the corpus. Data analysis involved the use of CQL (Corpus Query Language) search queries, regular expressions, and basic statistical analysis. The source data consisted of texts from a selected public Ukrainian-language Telegram channel (Serhiy Sternenko’s channel). The corpus development process was conducted in three stages: (1) selecting a public Telegram channel as the source of textual data and downloading its publication history; (2) converting the downloaded data into a format compatible with specialized corpus creation and management software; and (3) uploading the pre-processed texts into the chosen corpus manager. Two Python scripts were developed to prepare the data. The first script extracted the text of posts and saved them to a separate file, while the second script performed text cleaning and statistical analysis. The cleaning process involved the removal of unnecessary symbols, emojis, and links. To illustrate the potential applications of the corpus in online discourse research, several queries were performed: searching for verbs exceeding 15 characters in length, identifying hashtags, extracting proper names, and analyzing attributive phrases. The queries for attributive phrases focused on two patterns: adjective-noun combinations denoting proper names or entities, and phrases matching the structure ‘so-called + noun’ or ‘so-called + adjective + noun.’ These queries were formulated using CQL and regular expressions. The findings indicate that the created corpus is a valuable resource for studying online discourse. Future research directions include expanding the corpus by incorporating texts from additional Telegram channels, refining the text preparation and filtering processes, and evaluating the applicability of alternative software solutions for corpus creation and management. This research contributes to the field of computational linguistics and offers a novel resource for the analysis of Ukrainian-language online discourse.en
dc.identifier.citationМалишева М. Корпус текстів публічних каналів месенджера Telegram: створення та практичне застосування / М. Малишева // Вісник Одеського національного університету. Філологія. – 2024. – Т. 29, вип. 2(30). – С. 47–56.uk
dc.identifier.doihttps://doi.org/10.18524/2307-8332.2024.2(30).320406
dc.identifier.issn2307-8332
dc.identifier.orcidhttps://orcid.org/0000-0002-1910-4833
dc.identifier.urihttps://dspace.onu.edu.ua/handle/123456789/40557
dc.language.isouk
dc.publisherОдеський національний університет імені І. І. Мечниковаuk
dc.subjectкорпусна лінгвістикаuk
dc.subjectкорпус текстівuk
dc.subjectTelegramen
dc.subjectукраїнська моваuk
dc.subjectмережевий дискурcuk
dc.subjectSketch Engineen
dc.subjectcorpus linguisticsen
dc.subjecttext corpusen
dc.subjectUkrainian languageen
dc.subjectnetwork discourseen
dc.subject.udc004.912:811.161.2
dc.titleКорпус текстів публічних каналів месенджера Telegram: створення та практичне застосуванняuk
dc.title.alternativeCorpus of texts from public channels of the Telegram messenger: creation and practical applicationen
dc.typeArticleen
Файли
Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
47-56.pdf
Розмір:
1.82 MB
Формат:
Adobe Portable Document Format
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
1.71 KB
Формат:
Item-specific license agreed upon to submission
Опис: