Методи та інформаційна технологія предметно-орієнтованого аналізу природномовних текстів
Вантажиться...
Дата
2025
Науковий керівник
Укладач
Редактор
Назва журналу
ISSN
E-ISSN
Назва тому
Видавець
Анотація
Бочарова М. Ю. Методи та інформаційна технологія предметно-орієнтованого аналізу природномовних текстів. — Кваліфікаційна наукова праця на правах рукопису.
Дисертація на здобуття наукового ступеня доктор філософії (PhD) за спеціальністю 122 “Комп'ютерні науки”. — Одеський національний університет імені І. І. Мечникова, Одеса, 2025.
У дисертаційній роботі представлені результати проведених здобувачем досліджень, які виконують актуальне наукове завдання створення моделей та методів предметно-орієнтованого аналізу природномовних текстів, яке має істотне значення для розвитку інформаційних технологій.
У вступі дисертації обґрунтовано актуальність дослідження за темою предметно-орієнтованого аналізу природномовних текстів, сформульовані мета, задачі та методи дослідження, наведено наукову новизну та практичне значення отриманих результатів, зазначено особистий внесок здобувача.
У першому розділі роботи досліджено актуальний стан проблеми автоматизованого аналізу документів в сфері управління персоналом із застосуванням штучного інтелекту. Показано, що обробка резюме для витягнення ключової інформації, зіставлення вакансій та резюме є необхідним елементом підвищення ефективності рекрутингу і перспективним напрямком для подальшого удосконалення і розвитку.
Показано, що застосування моделей, які використовують компʼютерний зір, не є доцільним для обробки візуально насичених документів у сфері управління людськими ресурсами.
На основі аналізу літературних джерел обґрунтована доцільність використання контексту під час моделювання подань фраз.
Висвітлена проблема обробки документів, обсяг яких перевищує ліміт моделей, які використовуються для їх обробки.
Показано, що відсутність даних щодо впливу обсягу тренувальних зразків при автоматичній їх генерації (з використанням великих мовних моделей) на якість сумаризації документів у домені управління персоналом потребує дослідження в цьому напрямку. Потребують дослідження підходи некерованого попереднього тренування з використанням структури документів, а також функції втрат, які використовуються для попереднього тренування (зважена функція втрат).
Відзначена важливість англійської мови для поширення набутих знань щодо використання штучного інтелекту у рекрутингу.
Встановлено необхідність удосконалення крос-лінгвістичної дистиляції векторних подань для підвищення ефективності рекрутингу із застосуванням штучного інтелекту.
Встановлено доцільність дослідження впливу дистиляції на показники швидкості та якості етапів технології обробки природномовних текстів щодо аналізу резюме та зіставлення з вимогами вакансій.
У другому розділі розроблено методи та моделі для предметно-орієнтованої обробки природномовних текстів. В тому числі представлено новий метод безпосередньої інтеграції параметрів про стильові ознаки, де додаткові дискретні ознаки векторизуються і передаються в архітектуру “Трансформер” разом із позиційними і токеновими поданнями.
Запропоновано новий метод тренування подань назв посад, що базується на використання фраз навичок, які зазначені в описі роботи. Цей метод базується на введенні спеціального токена для виділення та представлення кожної навички у поєднанні з контрастним тренуванням з метою зіставлення усередненого подання навичок та назви посади з одного опису роботи.
Запропоновано новий метод некерованого навчання моделі з використанням структури документів. На відміну від традиційного методу, в якій позитивні пари для подальшого контрастного навчання вибирають з документу випадковим чином, запропонований метод базуються на використанні структури документу.
Запропоновано новий метод автоматичного створення датасету вакансія-резюме, який полягає у використанні структури документа і визначеного опису останньої ролі та перетворення цього запису на опис вакансій з використанням великої мовної моделі.
Запропоновано метод скорочення тексту з урахуванням структури документу та ключових фраз. Цей метод полягає у скороченні кожної секції пропорційно до її відсоткового внеску у загальну довжину резюме на основі виділення ключових фраз.
Розроблено метод некерованого попереднього тренування для сумаризації документів у сфері управління персоналом. Цей метод полягає у використанні секції “анотація” з резюме для некерованого тренування моделі сумаризації, а також у застосуванні зваженої функції втрат, яка підвищує вагомість для токенів, які формують ключові фрази.
У третьому розділі представлена інформаційна технологія предметно-орієнтованого аналізу природномовних текстів, яка може бути застосована за двома напрямками: вироблення рекомендацій резюме в умовах відсутності рекрутера, та інтенсифікації процесу відбору та ранжування резюме рекрутером, що дає можливість рекрутерам швидко та зручно ознайомлюватися з рекомендованими кандидатами та відфільтровувати їх.
Представлена технологія є послідовністю застосування наступних етапів: “Сегментація”, “Парсинг”, “Сумаризація”, “Векторизація”. В результаті застосування цих етапів документ перетворюється на сукупність атрибутів, анотації та векторного подання, які зберігаються у векторній базі даних.
Показано, що для оцінювання етапів технології “AI ResJobFit” необхідно обчислювати наступні показники: F1, Recall@N, , MRR, 𝑁𝐵𝑄 nDCG, RougeN.
У четвертому розділі проводиться обґрунтування ефективності та систематизація розроблених методів для обробки природномовних текстів в сфері управління людськими ресурсами.
Встановлено, що застосування безпосередньої інтеграції параметрів про стильові ознаки (без використання компʼютерного зору) дозволяє досягти покращення якості класифікації токенів в завданні сегментації резюме та вакансій, а також витягнення ключової інформації з них.
Показано, що новий метод навчання з контекстно-орієнтованим вирівнюванням подань фраз призводить до значного покращення якості подань фраз. Емпірично визначено, що підхід “всі негативні пари” при тренуванні в умовах асиметричного датасету при використанні функції множинних негативних втрат при ранжуванні застосовувати недоцільно, бо він призводить до зниження метрик.
Показано, що використання функції втрат на основі косинусної подібності призводить до значних покращень (на 14,2% за абсолютним показником NMI) у порівнянні з використанням функції втрат середньоквадратичної похибки при дистиляції векторних подань текстів з добре натренованої моделі-вчителя.
Представлено новий і перший у своєму роді еталон для тестування українських текстових подань, який охоплює 5 різних доменів.
Показана доцільність застосування процесу дистиляції задля пришвидшення моделей та встановлено обсяг даних, необхідний для дистиляції.
У п’ятому розділі проведена оцінка ефективності запропонованої технології обробки природномовних текстів у сфері управління персоналом. Зокрема, проведено оцінювання інформаційної технології інтенсифікації процесу відбору та ранжування резюме рекрутером. Проведено оцінювання технології аналізу резюме та зіставлення з вимогами вакансій в умовах відсутності рекрутера. Досліджено вплив окремих етапів на швидкість та якість інформаційної технології обробки природномовних текстів.
У висновках підсумовано виконані завдання дисертації, розкрито теоретичну та практичну цінність отриманих результатів, а також представлено інформацію щодо їх апробації та впровадження.
Наукова новизна отриманих результатів полягає у розробці та вдосконаленні методів обробки резюме та вакансій, зокрема:
– удосконалено модель подання токенів для візуального насичених документів, яка відрізняється від існуючих безпосередньою інтеграцією параметрів про стильові ознаки, що дозволяє підвищити якість подань токенів таких документів без використання методів комп’ютерного зору;
– вперше запропоновано метод подання фраз у контексті, що базується на використанні спеціальних маркерів для виділення фраз, які моделюються, що дозволяє значно пришвидшити процес подання фраз за рахунок використання лише однієї моделі та покращити якість в порівнянні з базовими методами;
– вперше запропоновано метод структурування документа для некерованого навчання подань текстів у сфері управління персоналом, що дозволяє адаптувати модель до домену та як наслідок підвищити якість сумаризації документів;
– удосконалено метод зменшення обсягу тексту, що оброблятиметься моделлю, який відрізняється від існуючих урахуванням структури документа та ключових фраз, для подальшої сумаризації, що дозволяє підвищити якість сумаризації довгих документів;
– вперше запропоновано модель векторизації документів у сфері управління людськими ресурсами на основі векторних подань секцій та механізму самоуваги разом із абсолютним позиційним кодуванням, що дозволяє покращити якість подань документів, довжина яких перевершує ліміт токенів, притаманний моделі.
Практичне значення отриманих результатів:
– адаптовано та вдосконалено технологію багатомовної дистиляції текстових подань Реймерса-Гуревич для текстів українською мовою, зокрема, запропоновано використання функції втрат на основі косинусної подібності, а також встановлена сильна негативна кореляція між “90-м перцентилем розподілу косинусних коефіцієнтів подібності” моделі-вчителя та “середнім показником NMI”, досягнутим в процесі дистиляції векторних подань моделлю-студентом, що дозволяє надати рекомендації щодо тренування моделей при крос-лінгвістичній дистиляції знань. Створений еталонний набір даних для оцінювання якості векторних подань текстів українською мовою та викладений в публічний доступ на Гітхабі.
– Розроблено технологію для рекомендацій резюме в умовах відсутності рекрутера, яка була апробована в компанії Daxtra Technologies (Додаток Б – “Акт Впровадження технології використання штучних нейронних мереж для зіставлення вакансій та резюме”). Технологія базується на архітектурах типу “Трансформер” та поєднує етапи сегментації, парсингу та векторизації документів.
– Розроблено технологію використання штучних нейронних мереж для інтенсифікації процесу відбору та ранжування резюме рекрутером, яка була апробована в компанії Daxtra Technologies (Додаток Б – “Акт Впровадження технології використання штучних нейронних мереж для зіставлення вакансій та резюме”). В технологічну схему введено етап “сумаризація” для підвищення ефективності зіставлення вакансій та резюме.
– Розроблено алгоритм обробки природної мови, заснований на глибокому навчанні, для ефективної обробки візуально насичених документів, який був впроваджений в компанії Daxtra Technologies.
– Некерований метод навчання для векторних подань назв посад був впроваджений в компанії Daxtra Technologies, створений еталонний набір даних та викладений в публічний доступ на Гітхабі.
– Контекстно-освічений метод подання важливих фраз із застосуванням нової архітектури щодо представлення навичок кандидатів в домені управління персоналом був впроваджений в компанії Daxtra Technologies, та апробований в компанії Data Science UA (Додаток В – “Акт апробації архітектури моделі векторного представлення фраз у контексті для їх групування та нормалізації”). Створений еталонний набір даних та викладений в публічний доступ на Гітхабі.
– Некерований метод навчання щодо тренування подань текстів у сфері управління персоналом був впроваджений в компанії Daxtra Technologies, створений еталонний набір даних та викладений в публічний доступ на Гітхабі.
Результати роботи впроваджені в науково-дослідній роботі “Методи, моделі, інформаційні технології розподілених систем підтримки прийняття організаційних рішень” (ДР 0121U111663). В навчальному процесі кафедри (дисципліна “Методи обробки текстів природної мови” Математичного забезпечення компʼютерних систем використовується представлена у дисертаційній роботі архітектура контекстно-залежного подання фраз та алгоритм скорочення тексту з урахуванням структури документа та ключових фраз для сумаризації.
Bocharova M. Y. Methods and information technology of subject-oriented analysis of natural language texts. Dissertation for the degree of Doctor of Philosophy (PhD) in specialty 122 “Computer Science.” – I. I. Mechnikov Odesa National University, Odesa, 2025. The dissertation presents the results of the research conducted by the applicant, which fulfills the urgent scientific task of creating models and methods for subject-oriented analysis of natural language texts, which is essential for the development of information technology. The introduction of the dissertation substantiates the relevance of the research on the subject-oriented analysis of natural language texts, formulates the purpose, objectives and methods of the study, presents the scientific novelty and practical significance of the results obtained, and indicates the personal contribution of the applicant. The first section of the paper investigates the current state of the problem of automated document analysis in the field of human resources management using artificial intelligence. It is shown that processing resumes to extract key information, matching vacancies and resumes is a necessary element in improving the efficiency of recruiting and a promising area for further improvement and development. It is shown that the use of models that use computer vision is not appropriate for processing visually rich documents in the field of human resource management. Based on the analysis of literature sources, the expediency of using context in modeling phrase representations is substantiated. The problem of processing documents whose volume exceeds the limit of the models used for their processing is highlighted. It is shown that the lack of data on the impact of the volume of training samples during their automatic generation (using large language models) on the quality of document summarization in the HR domain requires research in this direction. The approaches of unsupervised pre-training using the structure of documents, as well as the loss functions used for pre-training (weighted loss function) need to be investigated. The importance of the English language for the dissemination of the acquired knowledge on the use of artificial intelligence in recruiting is noted. The need to improve the cross-linguistic distillation of vector representations to increase the efficiency of recruiting using artificial intelligence is determined. The expediency of studying the impact of distillation on the speed and quality of the stages of natural language text processing technology for analyzing resumes and comparing them with job requirements has been established. In the second section, we develop methods and models for subject-oriented processing of natural language texts. In particular, a new method of direct integration of parameters about style features is presented, where additional discrete features are vectorized and transferred to the Transformer architecture along with positional and token representations. A new method of training job title representations based on the use of skill phrases specified in the job description is proposed. This method is based on the introduction of a special token to highlight and represent each skill, combined with contrast training to compare the average skill representation and job title from one job description. A new method of unsupervised model training using document structure is proposed. In contrast to the traditional method, in which positive pairs for further contrast training are randomly selected from the document, the proposed method is based on the use of the document structure. A new method of automatic creation of a job-resume dataset is proposed, which consists in using the document structure and a specific description of the last role and converting this record into a job description using a large language model. A method of text reduction based on the document structure and key phrases is proposed. This method consists in shortening each section in proportion to its percentage contribution to the total length of the resume based on the selection of key phrases. An unsupervised pre-training method was developed for summarizing documents in the field of human resources management. This method consists of using the “annotation” section of the resume for unsupervised training of the summarization model, as well as applying a weighted loss function that increases the weight for tokens that form key phrases. The 3rd chapter presents the information technology of subject-oriented analysis of natural language texts, which can be applied in two directions: making resume recommendations in the absence of a recruiter, and intensifying the process of selection and ranking of resumes by a recruiter, which allows recruiters to quickly and conveniently familiarize themselves with recommended candidates and filter them. The presented technology is a sequence of the following stages: “Segmentation, Parsing, Summarization, Vectorization. As a result of applying these stages, the document is transformed into a set of attributes, annotations and vector representation, which are stored in a vector database. It is shown that in order to evaluate the stages of the “AI ResJobFit” technology, it is necessary to calculate the following indicators: F1, Recall@N, MAP, MRR, nDCG, RougeN. The fourth chapter substantiates the effectiveness and systematizes the developed methods for processing natural language texts in the field of human resource management. It is established that the use of direct integration of parameters about style features (without the use of computer vision) allows to improve the quality of token classification in the task of segmenting resumes and vacancies, as well as extracting key information from them. It is shown that a new learning method with context-aware phrase representation alignment leads to a significant improvement in the quality of phrase representations. It has been empirically determined that the “all negative pairs” approach to training in an asymmetric dataset using the multiple negative loss function for ranking is inappropriate, as it leads to a decrease in metrics. It is shown that the use of a loss function based on cosine similarity leads to significant improvements (by 14.2% in terms of absolute NMI) compared to the use of the root mean square error loss function when distilling vector representations of texts from a well-trained teacher model. A new and first-of-its-kind benchmark for testing Ukrainian text representations covering 5 different domains is presented. The expediency of using the distillation process to speed up the models is shown and the amount of data required for distillation is determined. The fifth chapter evaluates the effectiveness of the proposed technology for processing natural language texts in the field of human resources management. In particular, the information technology for intensifying the process of selecting and ranking resumes by a recruiter was evaluated. The technology for analyzing resumes and comparing them with the requirements of vacancies in the absence of a recruiter was evaluated. The influence of individual stages on the speed and quality of information technology for processing natural language texts is investigated. The conclusions summarize the tasks of the dissertation, reveal the theoretical and practical value of the results obtained, and provide information on their testing and implementation. The following scientific results were obtained as a result of the study: – a model for representing tokens for visually rich documents has been improved, which differs from the existing ones by directly integrating parameters about style features, which allows improving the quality of token representations of such documents without using computer vision methods; – for the first time, a method for representing phrases in context based on the use of special markers to highlight modeled phrases, which significantly speeds up the process of representing phrases by using only one model and improves the quality compared to basic methods; – for the first time, a document structuring method for unsupervised learning of text representations in the field of human resources management is proposed, which allows adapting the model to the domain and, as a result, improving the quality of document summarization; – for the first time, a model of vectorization of documents in the field of human resources management based on vector representations of sections and a self-attention mechanism together with absolute positional coding is proposed, which allows to improve the quality of document submissions whose length exceeds the token limit inherent in the model; – an improved method of reducing the volume of text, which differs from the existing ones by taking into account the structure of the document and key phrases, for further summarization, which allows to improve the quality of summarization of long documents; Practical significance of the results. – The Reimers-Gurevich technology of multilingual distillation of textual representations was adapted and improved for texts in Ukrainian, in particular, the use of a loss function based on cosine similarity was proposed, and a strong negative correlation was found between the “90th percentile of the distribution of cosine similarity coefficients” of the teacher model and the “average NMI” achieved in the process of vector representation distillation by the student model, which allows us to provide recommendations for model training in cross-linguistic knowledge distillation. A benchmark dataset for assessing the quality of vector representations of texts in Ukrainian was created and made publicly available on Github. – A technology for recommending resumes in the absence of a recruiter was developed and tested at Daxtra Technologies (Appendix B - “Act of Implementation of the Technology of Using Artificial Neural Networks to Match Jobs and Resumes”). The technology is based on Transformer architectures and combines the stages of segmentation, parsing and vectorization of documents. – A technology for using artificial neural networks to intensify the process of selecting and ranking resumes by a recruiter has been developed and tested at Daxtra Technologies (Appendix B - “Act of Implementation of the Technology for Using Artificial Neural Networks to Match Vacancies and Resumes”). The technological scheme includes the “summarization” stage to increase the efficiency of job and resume matching. – Developed a natural language processing model based on deep learning for efficient processing of visually rich documents, which was implemented at Daxtra Technologies. – An unsupervised learning method for vector representations of job titles was implemented at Daxtra Technologies, a benchmark dataset was created and made publicly available on Github. – A context-aware method of representing important phrases using a new architecture for representing candidate skills in the HR domain was implemented at Daxtra Technologies and tested at Data Science UA (Appendix B - “Act of testing the architecture of the model for vector representation of phrases in context for their grouping and normalization”). A benchmark dataset was created and made publicly available on Github. – An unsupervised learning method for training text representations in the domain of human resources was implemented at Daxtra Technologies, a benchmark dataset was created and made publicly available on Github. The results of the work are implemented in the research work “Methods, models, information technologies of distributed organizational decision support systems” (DR 0121U111663). In the educational process of the department (the discipline “Methods of Natural Language Processing” of the Mathematical Support of Computer Systems), the architecture of context-dependent phrase representation and the algorithm for text reduction, taking into account the structure of the document and key phrases for summarization, presented in the dissertation, are used.
Bocharova M. Y. Methods and information technology of subject-oriented analysis of natural language texts. Dissertation for the degree of Doctor of Philosophy (PhD) in specialty 122 “Computer Science.” – I. I. Mechnikov Odesa National University, Odesa, 2025. The dissertation presents the results of the research conducted by the applicant, which fulfills the urgent scientific task of creating models and methods for subject-oriented analysis of natural language texts, which is essential for the development of information technology. The introduction of the dissertation substantiates the relevance of the research on the subject-oriented analysis of natural language texts, formulates the purpose, objectives and methods of the study, presents the scientific novelty and practical significance of the results obtained, and indicates the personal contribution of the applicant. The first section of the paper investigates the current state of the problem of automated document analysis in the field of human resources management using artificial intelligence. It is shown that processing resumes to extract key information, matching vacancies and resumes is a necessary element in improving the efficiency of recruiting and a promising area for further improvement and development. It is shown that the use of models that use computer vision is not appropriate for processing visually rich documents in the field of human resource management. Based on the analysis of literature sources, the expediency of using context in modeling phrase representations is substantiated. The problem of processing documents whose volume exceeds the limit of the models used for their processing is highlighted. It is shown that the lack of data on the impact of the volume of training samples during their automatic generation (using large language models) on the quality of document summarization in the HR domain requires research in this direction. The approaches of unsupervised pre-training using the structure of documents, as well as the loss functions used for pre-training (weighted loss function) need to be investigated. The importance of the English language for the dissemination of the acquired knowledge on the use of artificial intelligence in recruiting is noted. The need to improve the cross-linguistic distillation of vector representations to increase the efficiency of recruiting using artificial intelligence is determined. The expediency of studying the impact of distillation on the speed and quality of the stages of natural language text processing technology for analyzing resumes and comparing them with job requirements has been established. In the second section, we develop methods and models for subject-oriented processing of natural language texts. In particular, a new method of direct integration of parameters about style features is presented, where additional discrete features are vectorized and transferred to the Transformer architecture along with positional and token representations. A new method of training job title representations based on the use of skill phrases specified in the job description is proposed. This method is based on the introduction of a special token to highlight and represent each skill, combined with contrast training to compare the average skill representation and job title from one job description. A new method of unsupervised model training using document structure is proposed. In contrast to the traditional method, in which positive pairs for further contrast training are randomly selected from the document, the proposed method is based on the use of the document structure. A new method of automatic creation of a job-resume dataset is proposed, which consists in using the document structure and a specific description of the last role and converting this record into a job description using a large language model. A method of text reduction based on the document structure and key phrases is proposed. This method consists in shortening each section in proportion to its percentage contribution to the total length of the resume based on the selection of key phrases. An unsupervised pre-training method was developed for summarizing documents in the field of human resources management. This method consists of using the “annotation” section of the resume for unsupervised training of the summarization model, as well as applying a weighted loss function that increases the weight for tokens that form key phrases. The 3rd chapter presents the information technology of subject-oriented analysis of natural language texts, which can be applied in two directions: making resume recommendations in the absence of a recruiter, and intensifying the process of selection and ranking of resumes by a recruiter, which allows recruiters to quickly and conveniently familiarize themselves with recommended candidates and filter them. The presented technology is a sequence of the following stages: “Segmentation, Parsing, Summarization, Vectorization. As a result of applying these stages, the document is transformed into a set of attributes, annotations and vector representation, which are stored in a vector database. It is shown that in order to evaluate the stages of the “AI ResJobFit” technology, it is necessary to calculate the following indicators: F1, Recall@N, MAP, MRR, nDCG, RougeN. The fourth chapter substantiates the effectiveness and systematizes the developed methods for processing natural language texts in the field of human resource management. It is established that the use of direct integration of parameters about style features (without the use of computer vision) allows to improve the quality of token classification in the task of segmenting resumes and vacancies, as well as extracting key information from them. It is shown that a new learning method with context-aware phrase representation alignment leads to a significant improvement in the quality of phrase representations. It has been empirically determined that the “all negative pairs” approach to training in an asymmetric dataset using the multiple negative loss function for ranking is inappropriate, as it leads to a decrease in metrics. It is shown that the use of a loss function based on cosine similarity leads to significant improvements (by 14.2% in terms of absolute NMI) compared to the use of the root mean square error loss function when distilling vector representations of texts from a well-trained teacher model. A new and first-of-its-kind benchmark for testing Ukrainian text representations covering 5 different domains is presented. The expediency of using the distillation process to speed up the models is shown and the amount of data required for distillation is determined. The fifth chapter evaluates the effectiveness of the proposed technology for processing natural language texts in the field of human resources management. In particular, the information technology for intensifying the process of selecting and ranking resumes by a recruiter was evaluated. The technology for analyzing resumes and comparing them with the requirements of vacancies in the absence of a recruiter was evaluated. The influence of individual stages on the speed and quality of information technology for processing natural language texts is investigated. The conclusions summarize the tasks of the dissertation, reveal the theoretical and practical value of the results obtained, and provide information on their testing and implementation. The following scientific results were obtained as a result of the study: – a model for representing tokens for visually rich documents has been improved, which differs from the existing ones by directly integrating parameters about style features, which allows improving the quality of token representations of such documents without using computer vision methods; – for the first time, a method for representing phrases in context based on the use of special markers to highlight modeled phrases, which significantly speeds up the process of representing phrases by using only one model and improves the quality compared to basic methods; – for the first time, a document structuring method for unsupervised learning of text representations in the field of human resources management is proposed, which allows adapting the model to the domain and, as a result, improving the quality of document summarization; – for the first time, a model of vectorization of documents in the field of human resources management based on vector representations of sections and a self-attention mechanism together with absolute positional coding is proposed, which allows to improve the quality of document submissions whose length exceeds the token limit inherent in the model; – an improved method of reducing the volume of text, which differs from the existing ones by taking into account the structure of the document and key phrases, for further summarization, which allows to improve the quality of summarization of long documents; Practical significance of the results. – The Reimers-Gurevich technology of multilingual distillation of textual representations was adapted and improved for texts in Ukrainian, in particular, the use of a loss function based on cosine similarity was proposed, and a strong negative correlation was found between the “90th percentile of the distribution of cosine similarity coefficients” of the teacher model and the “average NMI” achieved in the process of vector representation distillation by the student model, which allows us to provide recommendations for model training in cross-linguistic knowledge distillation. A benchmark dataset for assessing the quality of vector representations of texts in Ukrainian was created and made publicly available on Github. – A technology for recommending resumes in the absence of a recruiter was developed and tested at Daxtra Technologies (Appendix B - “Act of Implementation of the Technology of Using Artificial Neural Networks to Match Jobs and Resumes”). The technology is based on Transformer architectures and combines the stages of segmentation, parsing and vectorization of documents. – A technology for using artificial neural networks to intensify the process of selecting and ranking resumes by a recruiter has been developed and tested at Daxtra Technologies (Appendix B - “Act of Implementation of the Technology for Using Artificial Neural Networks to Match Vacancies and Resumes”). The technological scheme includes the “summarization” stage to increase the efficiency of job and resume matching. – Developed a natural language processing model based on deep learning for efficient processing of visually rich documents, which was implemented at Daxtra Technologies. – An unsupervised learning method for vector representations of job titles was implemented at Daxtra Technologies, a benchmark dataset was created and made publicly available on Github. – A context-aware method of representing important phrases using a new architecture for representing candidate skills in the HR domain was implemented at Daxtra Technologies and tested at Data Science UA (Appendix B - “Act of testing the architecture of the model for vector representation of phrases in context for their grouping and normalization”). A benchmark dataset was created and made publicly available on Github. – An unsupervised learning method for training text representations in the domain of human resources was implemented at Daxtra Technologies, a benchmark dataset was created and made publicly available on Github. The results of the work are implemented in the research work “Methods, models, information technologies of distributed organizational decision support systems” (DR 0121U111663). In the educational process of the department (the discipline “Methods of Natural Language Processing” of the Mathematical Support of Computer Systems), the architecture of context-dependent phrase representation and the algorithm for text reduction, taking into account the structure of the document and key phrases for summarization, presented in the dissertation, are used.
Опис
Ключові слова
обробка природної мови, штучні нейронні мережі, тонке налаштування, штучний інтелект, подання тексту, машинне навчання, нейронні мережі, глибоке навчання, мережі глибокого навчання, інформаційні технології, інтелектуальна система прогнозування, аналітичні методи, ефективність, математична модель, трансферне навчання, Natural Language Processing, Artificial Neural Networks, finetuning, Artificial Intelligence, text embeddings, machine learning, neural networks, deep learning, deep neural networks, Information Technology, intelligent forecasting system, Analytical methods, efficiency, mathematical model, transfer learning, 122 Комп’ютерні науки
Бібліографічний опис
Бочарова М. Ю. Методи та інформаційна технологія предметно-орієнтованого аналізу природномовних текстів : дис. … д-ра філос. : 122 Комп’ютерні науки 12 Інформаційні технології / М. Ю. Бочарова ; наук. кер. Є. В. Малахов ; Одес. нац. ун-т імені І. І. Мечникова. – Одеса, 2025. – 188 с.
DOI
ORCID:
УДК
004.056: 004.65