Digital technologies for grammatical error correction: deep learning methods & syntactic n-grams

Pozharytska, Olena O.; Troitskyi, Kyrylo; Пожарицька, Олена Олександрівна; Троїцький, Кирило Володимирович

Digital technologies for grammatical error correction: deep learning methods & syntactic n-grams

dc.contributor.author	Pozharytska, Olena O.
dc.contributor.author	Troitskyi, Kyrylo
dc.contributor.author	Пожарицька, Олена Олександрівна
dc.contributor.author	Троїцький, Кирило Володимирович
dc.date.accessioned	2021-09-28T10:51:45Z
dc.date.available	2021-09-28T10:51:45Z
dc.date.issued	2021
dc.description.abstract	The object of this article is automated grammatical error detection as a field of linguistics. The subject of the article is the variety of methods and techniques used in grammatical error detection along with their applications and evaluation. The article considers the most productive methods used in the field of grammatical error detection and correction in computational linguistics. The purpose of the article is to review major rule-based and deep learning methods used in the area, evaluate and compare them. The methods of research used in this article are data analysis, description of abstract computational models and observation of their performance. The article offers and defines a model based on syntactic n-grams, describes the ways of its implementation and the necessary pre-processing steps for the model to work. The particular error types that the model is capable of detecting are noun-verb agreement errors, preposition errors, noun number errors and some article error types. Also, the article analyses a recent model based on the transformer architecture — GECToR (Grammatical Error Correction: Tag, Not Rewrite). This deep learning model is aimed at detecting and correcting much more complicated errors, including those that rely on extralinguistic realia. Additionally, it is very useful because in contrast to other models that just replace incorrect tokens without explanations, GECToR assigns labels that can be further interpreted for educational purposes. Also, conclusions were made about the advantages and disadvantages of the described models that were discovered after their practical implementation.	uk_UA
dc.description.abstract	Об’єкт статті — автоматизоване виправлення граматичних помилок як галузь лінгвістики. Предмет статті — різноманітність методів та технологій, які використовуються у виправленні граматичних помилок, а також можливості їх використання та оцінка. У статті розглянуто найбільш продуктивні методи, що застосовуються у галузі виявлення та виправлення граматичних помилок в комп’ютерній лінгвістиці. Мета статті полягає у маніфестації ефективності застосування комп’ютерних програм задля виявлення граматичних помилок в англомовному тексті. Дослідницькі методи, використані у статті: аналіз данних, опис абстрактних комп’ютерних моделей та спостереження над їх продуктивністю. У статті розглянуто комп’ютерну модель для виявлення та визначення граматичних помилок, засновану на синтаксичних n-грамах, дано її визначення, описано шляхи її реалізації та етапи попередньої обробки даних, необхідні для роботи моделі. Встановлено, що конкретними типами помилок, які залучена комп’ютерна модель може виявити, є помилки підмето-присудкового узгодження, помилки у виборі прийменника, числа іменників, а також деякі типи помилок, пов’язані з використанням артиклю. Також у статті проаналізовано іншу модель, засновану на архітектурі трансформера — GECToR (Grammatical Error Correction: Tag, Not Rewrite). Ця модель глибинного навчання спрямована на виявлення та виправлення набагато складніших помилок, у тому числі тих, що пов’язані з екстралінгвістичними реаліями. Крім того, вона є доволі корисною, оскільки, на відміну від інших моделей, які просто коригують неправильні слова без пояснень, GECToR призначає теги, які можна додатково інтерпретувати для навчальних цілей. У процесі аналізу зроблено висновок про переваги та недоліки розглянутих моделей та методів, що були виявлені після їх практичної реалізації. Під час оцінки продуктивності вищезазначених моделей на основі спільного завдання BEA 2019 були отримані наступні результати: модель, заснована на синтаксичних n-грамах, отримала показник F0,5 7,6 %, а оцінка F0,5 моделі GECToR визначила її ефективність як 66,7 %. Отримані дані свідчать про майже дев’ятикратну перевагу ефективності методів глибинного навчання (типу GECToR) порівняно з методами, заснованими на правилах (типу методу синтаксичних n-грамів).
dc.identifier	UDC 81’322.2/.3’271.14/.16’367
dc.identifier.citation	Мова : науково-теоретичний часопис з мовознавства	uk_UA
dc.identifier.doi	DOI: 10.18524/2307–4558.2021.35.237789
dc.identifier.uri	https://dspace.onu.edu.ua/handle/123456789/31686
dc.language.iso	en	uk_UA
dc.publisher	Одеський національний університет імені І. І. Мечникова	uk_UA
dc.relation.ispartofseries	;Вип. 35.
dc.subject	syntactic n-grams	uk_UA
dc.subject	computational linguistics	uk_UA
dc.subject	grammatical error correction	uk_UA
dc.subject	transformer	uk_UA
dc.subject	rule-based methods	uk_UA
dc.subject	deep learning methods	uk_UA
dc.subject	синтаксичні n-грами	uk_UA
dc.subject	комп’ютерна лінгвістика	uk_UA
dc.subject	виправлення граматичних помилок	uk_UA
dc.subject	трансформер	uk_UA
dc.subject	системи, засновані на правилах	uk_UA
dc.subject	методи глибинного навчання	uk_UA
dc.title	Digital technologies for grammatical error correction: deep learning methods & syntactic n-grams	uk_UA
dc.title.alternative	Використання цифрових технологій для виправлення граматичних помилок: синтаксичні n-грами та методи глибинного навчання	uk_UA
dc.type	Article	uk_UA

Файли

Контейнер файлів

Зараз показуємо 1 - 1 з 1

Назва:: 237-241.pdf
Розмір:: 163.91 KB
Формат:: Adobe Portable Document Format
Опис:

Завантажити

Ліцензійна угода

Зараз показуємо 1 - 1 з 1

Назва:: license.txt
Розмір:: 1.71 KB
Формат:: Item-specific license agreed upon to submission
Опис:

Завантажити

Зібрання

Мова