Digital technologies for grammatical error correction: deep learning methods & syntactic n-grams
Вантажиться...
Дата
2021
Науковий керівник
Укладач
Редактор
Назва журналу
ISSN
E-ISSN
Назва тому
Видавець
Одеський національний університет імені І. І. Мечникова
Анотація
The object of this article is automated grammatical error detection as a field of linguistics. The subject of
the article is the variety of methods and techniques used in grammatical error detection along with their applications and
evaluation. The article considers the most productive methods used in the field of grammatical error detection and correction
in computational linguistics. The purpose of the article is to review major rule-based and deep learning methods
used in the area, evaluate and compare them. The methods of research used in this article are data analysis, description
of abstract computational models and observation of their performance. The article offers and defines a model based on
syntactic n-grams, describes the ways of its implementation and the necessary pre-processing steps for the model to work.
The particular error types that the model is capable of detecting are noun-verb agreement errors, preposition errors, noun
number errors and some article error types. Also, the article analyses a recent model based on the transformer architecture
— GECToR (Grammatical Error Correction: Tag, Not Rewrite). This deep learning model is aimed at detecting and
correcting much more complicated errors, including those that rely on extralinguistic realia. Additionally, it is very useful
because in contrast to other models that just replace incorrect tokens without explanations, GECToR assigns labels that
can be further interpreted for educational purposes. Also, conclusions were made about the advantages and disadvantages
of the described models that were discovered after their practical implementation.
Об’єкт статті — автоматизоване виправлення граматичних помилок як галузь лінгвістики. Предмет статті — різноманітність методів та технологій, які використовуються у виправленні граматичних помилок, а також можливості їх використання та оцінка. У статті розглянуто найбільш продуктивні методи, що застосовуються у галузі виявлення та виправлення граматичних помилок в комп’ютерній лінгвістиці. Мета статті полягає у маніфестації ефективності застосування комп’ютерних програм задля виявлення граматичних помилок в англомовному тексті. Дослідницькі методи, використані у статті: аналіз данних, опис абстрактних комп’ютерних моделей та спостереження над їх продуктивністю. У статті розглянуто комп’ютерну модель для виявлення та визначення граматичних помилок, засновану на синтаксичних n-грамах, дано її визначення, описано шляхи її реалізації та етапи попередньої обробки даних, необхідні для роботи моделі. Встановлено, що конкретними типами помилок, які залучена комп’ютерна модель може виявити, є помилки підмето-присудкового узгодження, помилки у виборі прийменника, числа іменників, а також деякі типи помилок, пов’язані з використанням артиклю. Також у статті проаналізовано іншу модель, засновану на архітектурі трансформера — GECToR (Grammatical Error Correction: Tag, Not Rewrite). Ця модель глибинного навчання спрямована на виявлення та виправлення набагато складніших помилок, у тому числі тих, що пов’язані з екстралінгвістичними реаліями. Крім того, вона є доволі корисною, оскільки, на відміну від інших моделей, які просто коригують неправильні слова без пояснень, GECToR призначає теги, які можна додатково інтерпретувати для навчальних цілей. У процесі аналізу зроблено висновок про переваги та недоліки розглянутих моделей та методів, що були виявлені після їх практичної реалізації. Під час оцінки продуктивності вищезазначених моделей на основі спільного завдання BEA 2019 були отримані наступні результати: модель, заснована на синтаксичних n-грамах, отримала показник F0,5 7,6 %, а оцінка F0,5 моделі GECToR визначила її ефективність як 66,7 %. Отримані дані свідчать про майже дев’ятикратну перевагу ефективності методів глибинного навчання (типу GECToR) порівняно з методами, заснованими на правилах (типу методу синтаксичних n-грамів).
Об’єкт статті — автоматизоване виправлення граматичних помилок як галузь лінгвістики. Предмет статті — різноманітність методів та технологій, які використовуються у виправленні граматичних помилок, а також можливості їх використання та оцінка. У статті розглянуто найбільш продуктивні методи, що застосовуються у галузі виявлення та виправлення граматичних помилок в комп’ютерній лінгвістиці. Мета статті полягає у маніфестації ефективності застосування комп’ютерних програм задля виявлення граматичних помилок в англомовному тексті. Дослідницькі методи, використані у статті: аналіз данних, опис абстрактних комп’ютерних моделей та спостереження над їх продуктивністю. У статті розглянуто комп’ютерну модель для виявлення та визначення граматичних помилок, засновану на синтаксичних n-грамах, дано її визначення, описано шляхи її реалізації та етапи попередньої обробки даних, необхідні для роботи моделі. Встановлено, що конкретними типами помилок, які залучена комп’ютерна модель може виявити, є помилки підмето-присудкового узгодження, помилки у виборі прийменника, числа іменників, а також деякі типи помилок, пов’язані з використанням артиклю. Також у статті проаналізовано іншу модель, засновану на архітектурі трансформера — GECToR (Grammatical Error Correction: Tag, Not Rewrite). Ця модель глибинного навчання спрямована на виявлення та виправлення набагато складніших помилок, у тому числі тих, що пов’язані з екстралінгвістичними реаліями. Крім того, вона є доволі корисною, оскільки, на відміну від інших моделей, які просто коригують неправильні слова без пояснень, GECToR призначає теги, які можна додатково інтерпретувати для навчальних цілей. У процесі аналізу зроблено висновок про переваги та недоліки розглянутих моделей та методів, що були виявлені після їх практичної реалізації. Під час оцінки продуктивності вищезазначених моделей на основі спільного завдання BEA 2019 були отримані наступні результати: модель, заснована на синтаксичних n-грамах, отримала показник F0,5 7,6 %, а оцінка F0,5 моделі GECToR визначила її ефективність як 66,7 %. Отримані дані свідчать про майже дев’ятикратну перевагу ефективності методів глибинного навчання (типу GECToR) порівняно з методами, заснованими на правилах (типу методу синтаксичних n-грамів).
Опис
Ключові слова
syntactic n-grams, computational linguistics, grammatical error correction, transformer, rule-based methods, deep learning methods, синтаксичні n-грами, комп’ютерна лінгвістика, виправлення граматичних помилок, трансформер, системи, засновані на правилах, методи глибинного навчання
Бібліографічний опис
Мова : науково-теоретичний часопис з мовознавства