Розробка інтелектуального сервісу для генерації анотацій до аудіофайлів

Альтернативна назва
Development of an intelligent service for generating annotations for audio files
Вантажиться...
Ескіз
Дата
2025
Науковий керівник
Укладач
Редактор
Назва журналу
ISSN
E-ISSN
Назва тому
Видавець
Одеський національний університет імені І. І. Мечникова
Анотація
Мета роботи полягає у розробці системи автоматичного розпізнавання мовлення з використанням сучасних методів машинного навчання. Для створення моделі застосовано фреймворк PyTorch, бібліотеку NeMo для роботи з акустичними моделями, а також Python як основну мову програмування. Для демонстрації роботи моделі було розроблено веб-сервіс за допомогою Flask для бекенду та React для фронтенду. Додатково використано мовну модель, побудовану з використанням KenLM для покращення якості розпізнавання. У результаті виконання роботи створено ефективну систему, яка може бути використана для автоматичної транскрипції аудіо, створення голосових помічників та інших додатків. Рішення відзначається високою гнучкістю та потенціалом для подальшого розвитку на основі сучасніших архітектур.
The aim of this work is to develop a speech recognition system using modern machine learning methods. The model was created using the PyTorch framework, the NeMo library for working with acoustic models, and Python as the main programming language. A web service was developed to demonstrate the model’s capabilities, using Flask for the backend and React for the frontend. Additionally, a language model built with KenLM was implemented to improve recognition quality. As a result of this work, an efficient system was created that can be used for automatic audio transcription, development of voice assistants, and other applications. The solution is characterized by high flexibility and potential for further development based on more modern architectures.
Опис
Ключові слова
122 комп’ютерні науки, бакалавр, розпізнавання мовлення, PyTorch, NeMo, Flask, React, KenLM, автоматична транскрипція, speech recognition, automatic transcription
Бібліографічний опис
Толмачевський, О. О. Розробка інтелектуального сервісу для генерації анотацій до аудіофайлів = Development of an intelligent service for generating annotations for audio files : кваліфікаційна робота бакалавра / О. О. Толмачевський. – Одеса, 2025. – 46 с.
DOI
ORCID:
УДК