Digital technologies for grammatical error correction: deep learning methods & syntactic n-grams

dc.contributor.authorPozharytska, Olena O.
dc.contributor.authorTroitskyi, Kyrylo
dc.contributor.authorПожарицька, Олена Олександрівна
dc.contributor.authorТроїцький, Кирило Володимирович
dc.date.accessioned2021-09-28T10:51:45Z
dc.date.available2021-09-28T10:51:45Z
dc.date.issued2021
dc.description.abstractThe object of this article is automated grammatical error detection as a field of linguistics. The subject of the article is the variety of methods and techniques used in grammatical error detection along with their applications and evaluation. The article considers the most productive methods used in the field of grammatical error detection and correction in computational linguistics. The purpose of the article is to review major rule-based and deep learning methods used in the area, evaluate and compare them. The methods of research used in this article are data analysis, description of abstract computational models and observation of their performance. The article offers and defines a model based on syntactic n-grams, describes the ways of its implementation and the necessary pre-processing steps for the model to work. The particular error types that the model is capable of detecting are noun-verb agreement errors, preposition errors, noun number errors and some article error types. Also, the article analyses a recent model based on the transformer architecture — GECToR (Grammatical Error Correction: Tag, Not Rewrite). This deep learning model is aimed at detecting and correcting much more complicated errors, including those that rely on extralinguistic realia. Additionally, it is very useful because in contrast to other models that just replace incorrect tokens without explanations, GECToR assigns labels that can be further interpreted for educational purposes. Also, conclusions were made about the advantages and disadvantages of the described models that were discovered after their practical implementation.uk_UA
dc.description.abstractОб’єкт статті — автоматизоване виправлення граматичних помилок як галузь лінгвістики. Предмет статті — різноманітність методів та технологій, які використовуються у виправленні граматичних помилок, а також можливості їх використання та оцінка. У статті розглянуто найбільш продуктивні методи, що застосовуються у галузі виявлення та виправлення граматичних помилок в комп’ютерній лінгвістиці. Мета статті полягає у маніфестації ефективності застосування комп’ютерних програм задля виявлення граматичних помилок в англомовному тексті. Дослідницькі методи, використані у статті: аналіз данних, опис абстрактних комп’ютерних моделей та спостереження над їх продуктивністю. У статті розглянуто комп’ютерну модель для виявлення та визначення граматичних помилок, засновану на синтаксичних n-грамах, дано її визначення, описано шляхи її реалізації та етапи попередньої обробки даних, необхідні для роботи моделі. Встановлено, що конкретними типами помилок, які залучена комп’ютерна модель може виявити, є помилки підмето-присудкового узгодження, помилки у виборі прийменника, числа іменників, а також деякі типи помилок, пов’язані з використанням артиклю. Також у статті проаналізовано іншу модель, засновану на архітектурі трансформера — GECToR (Grammatical Error Correction: Tag, Not Rewrite). Ця модель глибинного навчання спрямована на виявлення та виправлення набагато складніших помилок, у тому числі тих, що пов’язані з екстралінгвістичними реаліями. Крім того, вона є доволі корисною, оскільки, на відміну від інших моделей, які просто коригують неправильні слова без пояснень, GECToR призначає теги, які можна додатково інтерпретувати для навчальних цілей. У процесі аналізу зроблено висновок про переваги та недоліки розглянутих моделей та методів, що були виявлені після їх практичної реалізації. Під час оцінки продуктивності вищезазначених моделей на основі спільного завдання BEA 2019 були отримані наступні результати: модель, заснована на синтаксичних n-грамах, отримала показник F0,5 7,6 %, а оцінка F0,5 моделі GECToR визначила її ефективність як 66,7 %. Отримані дані свідчать про майже дев’ятикратну перевагу ефективності методів глибинного навчання (типу GECToR) порівняно з методами, заснованими на правилах (типу методу синтаксичних n-грамів).
dc.identifierUDC 81’322.2/.3’271.14/.16’367
dc.identifier.citationМова : науково-теоретичний часопис з мовознавстваuk_UA
dc.identifier.doiDOI: 10.18524/2307–4558.2021.35.237789
dc.identifier.urihttps://dspace.onu.edu.ua/handle/123456789/31686
dc.language.isoenuk_UA
dc.publisherОдеський національний університет імені І. І. Мечниковаuk_UA
dc.relation.ispartofseries;Вип. 35.
dc.subjectsyntactic n-gramsuk_UA
dc.subjectcomputational linguisticsuk_UA
dc.subjectgrammatical error correctionuk_UA
dc.subjecttransformeruk_UA
dc.subjectrule-based methodsuk_UA
dc.subjectdeep learning methodsuk_UA
dc.subjectсинтаксичні n-грамиuk_UA
dc.subjectкомп’ютерна лінгвістикаuk_UA
dc.subjectвиправлення граматичних помилокuk_UA
dc.subjectтрансформерuk_UA
dc.subjectсистеми, засновані на правилахuk_UA
dc.subjectметоди глибинного навчанняuk_UA
dc.titleDigital technologies for grammatical error correction: deep learning methods & syntactic n-gramsuk_UA
dc.title.alternativeВикористання цифрових технологій для виправлення граматичних помилок: синтаксичні n-грами та методи глибинного навчанняuk_UA
dc.typeArticleuk_UA
Файли
Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
237-241.pdf
Розмір:
163.91 KB
Формат:
Adobe Portable Document Format
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
1.71 KB
Формат:
Item-specific license agreed upon to submission
Опис:
Зібрання