Використання методів машинного навчання в задачах прогнозування
Вантажиться...
Дата
2019
Автори
Сидоров, Богдан Дмитрович
Науковий керівник
Укладач
Редактор
Назва журналу
ISSN
E-ISSN
Назва тому
Видавець
Одеський національний університет імені І. І. Мечникова
Анотація
У наш час все більше людей читають новини з інтернету. З огляду на
різноманітність різних тем новин (політика, спорт, погода і т.д.) для
зручності швидкого пошуку і зберігання новин за категоріями
використовують системи прогнозування категорії новин. Завдяки
використанню даного продукту будь-який користувач інтернету не витрачає
багато часу на пошук потрібної його інформацією.
Метою роботи є розробка програмного додатка для прогнозування
категорії новин за допомогою машинного навчання.
Для досягнення поставленої мети в дипломній роботі розглянуті
підходи і методи для прогнозування категорії новин, запропонований метод
прогнозування на основі нейронної мережі і спроектовано додаток, що
складається з модуля попередньої обробки тексту і модуля прогнозування.
У додатку на початковому етапі виконується обробка тексту новини:
виділення унікальних слів, визначення полярності і суб'єктивності слів,
обчислення латентного розміщення Дирихле і т.д. В результаті даного
аналізу буде отримано векторне подання тексту новини (вектор містить 26
елементів). Потім за допомогою багатошарової нейронної мережі буде
виконано прогнозування категорія новини.
Для навчання нейронної мережі використовується вибірка з сайту
новин Mashable. Тестування нейронної мережі виконується на вибірці, яка
містить більше 10 тис. векторів. Ймовірність прогнозування категорії
дорівнюється 92%.
В наше время все больше людей читают новости из интернета. Учитывая разнообразие различных тем новостей (политика, спорт, погода и т.д.) для удобства быстрого поиска и хранения новостей по категориям используют системы прогнозирования категории новостей. Благодаря использованию данного продукта любой пользователь интернета не затрачивает много времени на поиск интересующей его информации. Целью работы является разработка программного приложения для прогнозирования категории новостей с помощью машинного обучения. Для достижения поставленной цели в дипломной работе рассмотрены подходы и методы для прогнозирования категории новостей, предложен метод прогнозирования на основе нейронной сети и спроектировано приложение, состоящие из модуля предварительной обработки текста и модуля прогнозирования. В приложении на начальном этапе выполняется обработка текста новости: выделение уникальных слов, определения полярности и субъективности слов, вычисление латентного размещения Дирихле и т.д. В результате данного анализа будет получено векторное представление текста новости (вектор содержит 26 элементов). Затем с помощью многослойной нейронной сети будет выполнено прогнозирование категории рассматриваемой новости. Для обучения нейронной сети используется выборка из сайта новостей Mashable. Тестирование нейронной сети выполняется на выборке, которая содержит более 10 тыс. векторов. Вероятность прогнозирования категории равняется 92%.
Nowadays, more and more people are reading news from the Internet. Given the variety of different news topics (politics, sports, weather, etc.), for the convenience of rapid retrieval and storage of news by category, they use news forecasting systems. Thanks to the use of this product, any user of the Internet does not spend much time searching for his information. The purpose of the work is to develop a software application for forecasting the category of news using machine learning. In order to achieve the goal in the dissertation, approaches and methods for prediction of the category of news are considered, the method of forecasting on the basis of the neural network is proposed and the application consisting of the preprocessor of the text and the forecasting module is designed. In the application at the initial stage, the processing of the text of news is performed: the allocation of unique words, the determination of the polarity and subjectivity of words, the calculation of the latent Dirichlet allocation, etc. As a result of this analysis, a vector representation of the news text will be obtained (the vector contains 26 elements). Then, with the help of a multilayered neural network, the forecasting category of the news is being met. To train the neural network, a sample from the Mashable news site is used. Neural network testing is performed on a sample containing more than 10,000 vectors. The probability of forecasting the category is 92%.
В наше время все больше людей читают новости из интернета. Учитывая разнообразие различных тем новостей (политика, спорт, погода и т.д.) для удобства быстрого поиска и хранения новостей по категориям используют системы прогнозирования категории новостей. Благодаря использованию данного продукта любой пользователь интернета не затрачивает много времени на поиск интересующей его информации. Целью работы является разработка программного приложения для прогнозирования категории новостей с помощью машинного обучения. Для достижения поставленной цели в дипломной работе рассмотрены подходы и методы для прогнозирования категории новостей, предложен метод прогнозирования на основе нейронной сети и спроектировано приложение, состоящие из модуля предварительной обработки текста и модуля прогнозирования. В приложении на начальном этапе выполняется обработка текста новости: выделение уникальных слов, определения полярности и субъективности слов, вычисление латентного размещения Дирихле и т.д. В результате данного анализа будет получено векторное представление текста новости (вектор содержит 26 элементов). Затем с помощью многослойной нейронной сети будет выполнено прогнозирование категории рассматриваемой новости. Для обучения нейронной сети используется выборка из сайта новостей Mashable. Тестирование нейронной сети выполняется на выборке, которая содержит более 10 тыс. векторов. Вероятность прогнозирования категории равняется 92%.
Nowadays, more and more people are reading news from the Internet. Given the variety of different news topics (politics, sports, weather, etc.), for the convenience of rapid retrieval and storage of news by category, they use news forecasting systems. Thanks to the use of this product, any user of the Internet does not spend much time searching for his information. The purpose of the work is to develop a software application for forecasting the category of news using machine learning. In order to achieve the goal in the dissertation, approaches and methods for prediction of the category of news are considered, the method of forecasting on the basis of the neural network is proposed and the application consisting of the preprocessor of the text and the forecasting module is designed. In the application at the initial stage, the processing of the text of news is performed: the allocation of unique words, the determination of the polarity and subjectivity of words, the calculation of the latent Dirichlet allocation, etc. As a result of this analysis, a vector representation of the news text will be obtained (the vector contains 26 elements). Then, with the help of a multilayered neural network, the forecasting category of the news is being met. To train the neural network, a sample from the Mashable news site is used. Neural network testing is performed on a sample containing more than 10,000 vectors. The probability of forecasting the category is 92%.
Опис
Ключові слова
6.050102 комп’ютерна інженерія, машинне навчання, задача, прогнозування
Бібліографічний опис
Сидоров, Б. Д. Використання методів машинного навчання в задачах прогнозування : дипломна робота бакалавра / Б. Д. Сидоров. – Одеса, 2019. – 43 с.