Дисертації ФМФІТ (Комп'ютерні науки)

Постійне посилання зібрання

Переглянути

Нові надходження

Зараз показуємо 1 - 1 з 1
  • Документ
    Методи та інформаційна технологія предметно-орієнтованого аналізу природномовних текстів
    (2025) Бочарова, Майя Юріївна; Bocharova, Maiia Yu.
    Бочарова М. Ю. Методи та інформаційна технологія предметно-орієнтованого аналізу природномовних текстів. — Кваліфікаційна наукова праця на правах рукопису. Дисертація на здобуття наукового ступеня доктор філософії (PhD) за спеціальністю 122 “Комп'ютерні науки”. — Одеський національний університет імені І. І. Мечникова, Одеса, 2025. У дисертаційній роботі представлені результати проведених здобувачем досліджень, які виконують актуальне наукове завдання створення моделей та методів предметно-орієнтованого аналізу природномовних текстів, яке має істотне значення для розвитку інформаційних технологій. У вступі дисертації обґрунтовано актуальність дослідження за темою предметно-орієнтованого аналізу природномовних текстів, сформульовані мета, задачі та методи дослідження, наведено наукову новизну та практичне значення отриманих результатів, зазначено особистий внесок здобувача. У першому розділі роботи досліджено актуальний стан проблеми автоматизованого аналізу документів в сфері управління персоналом із застосуванням штучного інтелекту. Показано, що обробка резюме для витягнення ключової інформації, зіставлення вакансій та резюме є необхідним елементом підвищення ефективності рекрутингу і перспективним напрямком для подальшого удосконалення і розвитку. Показано, що застосування моделей, які використовують компʼютерний зір, не є доцільним для обробки візуально насичених документів у сфері управління людськими ресурсами. На основі аналізу літературних джерел обґрунтована доцільність використання контексту під час моделювання подань фраз. Висвітлена проблема обробки документів, обсяг яких перевищує ліміт моделей, які використовуються для їх обробки. Показано, що відсутність даних щодо впливу обсягу тренувальних зразків при автоматичній їх генерації (з використанням великих мовних моделей) на якість сумаризації документів у домені управління персоналом потребує дослідження в цьому напрямку. Потребують дослідження підходи некерованого попереднього тренування з використанням структури документів, а також функції втрат, які використовуються для попереднього тренування (зважена функція втрат). Відзначена важливість англійської мови для поширення набутих знань щодо використання штучного інтелекту у рекрутингу. Встановлено необхідність удосконалення крос-лінгвістичної дистиляції векторних подань для підвищення ефективності рекрутингу із застосуванням штучного інтелекту. Встановлено доцільність дослідження впливу дистиляції на показники швидкості та якості етапів технології обробки природномовних текстів щодо аналізу резюме та зіставлення з вимогами вакансій. У другому розділі розроблено методи та моделі для предметно-орієнтованої обробки природномовних текстів. В тому числі представлено новий метод безпосередньої інтеграції параметрів про стильові ознаки, де додаткові дискретні ознаки векторизуються і передаються в архітектуру “Трансформер” разом із позиційними і токеновими поданнями. Запропоновано новий метод тренування подань назв посад, що базується на використання фраз навичок, які зазначені в описі роботи. Цей метод базується на введенні спеціального токена для виділення та представлення кожної навички у поєднанні з контрастним тренуванням з метою зіставлення усередненого подання навичок та назви посади з одного опису роботи. Запропоновано новий метод некерованого навчання моделі з використанням структури документів. На відміну від традиційного методу, в якій позитивні пари для подальшого контрастного навчання вибирають з документу випадковим чином, запропонований метод базуються на використанні структури документу. Запропоновано новий метод автоматичного створення датасету вакансія-резюме, який полягає у використанні структури документа і визначеного опису останньої ролі та перетворення цього запису на опис вакансій з використанням великої мовної моделі. Запропоновано метод скорочення тексту з урахуванням структури документу та ключових фраз. Цей метод полягає у скороченні кожної секції пропорційно до її відсоткового внеску у загальну довжину резюме на основі виділення ключових фраз. Розроблено метод некерованого попереднього тренування для сумаризації документів у сфері управління персоналом. Цей метод полягає у використанні секції “анотація” з резюме для некерованого тренування моделі сумаризації, а також у застосуванні зваженої функції втрат, яка підвищує вагомість для токенів, які формують ключові фрази. У третьому розділі представлена інформаційна технологія предметно-орієнтованого аналізу природномовних текстів, яка може бути застосована за двома напрямками: вироблення рекомендацій резюме в умовах відсутності рекрутера, та інтенсифікації процесу відбору та ранжування резюме рекрутером, що дає можливість рекрутерам швидко та зручно ознайомлюватися з рекомендованими кандидатами та відфільтровувати їх. Представлена технологія є послідовністю застосування наступних етапів: “Сегментація”, “Парсинг”, “Сумаризація”, “Векторизація”. В результаті застосування цих етапів документ перетворюється на сукупність атрибутів, анотації та векторного подання, які зберігаються у векторній базі даних. Показано, що для оцінювання етапів технології “AI ResJobFit” необхідно обчислювати наступні показники: F1, Recall@N, , MRR, 𝑁𝐵𝑄 nDCG, RougeN. У четвертому розділі проводиться обґрунтування ефективності та систематизація розроблених методів для обробки природномовних текстів в сфері управління людськими ресурсами. Встановлено, що застосування безпосередньої інтеграції параметрів про стильові ознаки (без використання компʼютерного зору) дозволяє досягти покращення якості класифікації токенів в завданні сегментації резюме та вакансій, а також витягнення ключової інформації з них. Показано, що новий метод навчання з контекстно-орієнтованим вирівнюванням подань фраз призводить до значного покращення якості подань фраз. Емпірично визначено, що підхід “всі негативні пари” при тренуванні в умовах асиметричного датасету при використанні функції множинних негативних втрат при ранжуванні застосовувати недоцільно, бо він призводить до зниження метрик. Показано, що використання функції втрат на основі косинусної подібності призводить до значних покращень (на 14,2% за абсолютним показником NMI) у порівнянні з використанням функції втрат середньоквадратичної похибки при дистиляції векторних подань текстів з добре натренованої моделі-вчителя. Представлено новий і перший у своєму роді еталон для тестування українських текстових подань, який охоплює 5 різних доменів. Показана доцільність застосування процесу дистиляції задля пришвидшення моделей та встановлено обсяг даних, необхідний для дистиляції. У п’ятому розділі проведена оцінка ефективності запропонованої технології обробки природномовних текстів у сфері управління персоналом. Зокрема, проведено оцінювання інформаційної технології інтенсифікації процесу відбору та ранжування резюме рекрутером. Проведено оцінювання технології аналізу резюме та зіставлення з вимогами вакансій в умовах відсутності рекрутера. Досліджено вплив окремих етапів на швидкість та якість інформаційної технології обробки природномовних текстів. У висновках підсумовано виконані завдання дисертації, розкрито теоретичну та практичну цінність отриманих результатів, а також представлено інформацію щодо їх апробації та впровадження. Наукова новизна отриманих результатів полягає у розробці та вдосконаленні методів обробки резюме та вакансій, зокрема: – удосконалено модель подання токенів для візуального насичених документів, яка відрізняється від існуючих безпосередньою інтеграцією параметрів про стильові ознаки, що дозволяє підвищити якість подань токенів таких документів без використання методів комп’ютерного зору; – вперше запропоновано метод подання фраз у контексті, що базується на використанні спеціальних маркерів для виділення фраз, які моделюються, що дозволяє значно пришвидшити процес подання фраз за рахунок використання лише однієї моделі та покращити якість в порівнянні з базовими методами; – вперше запропоновано метод структурування документа для некерованого навчання подань текстів у сфері управління персоналом, що дозволяє адаптувати модель до домену та як наслідок підвищити якість сумаризації документів; – удосконалено метод зменшення обсягу тексту, що оброблятиметься моделлю, який відрізняється від існуючих урахуванням структури документа та ключових фраз, для подальшої сумаризації, що дозволяє підвищити якість сумаризації довгих документів; – вперше запропоновано модель векторизації документів у сфері управління людськими ресурсами на основі векторних подань секцій та механізму самоуваги разом із абсолютним позиційним кодуванням, що дозволяє покращити якість подань документів, довжина яких перевершує ліміт токенів, притаманний моделі. Практичне значення отриманих результатів: – адаптовано та вдосконалено технологію багатомовної дистиляції текстових подань Реймерса-Гуревич для текстів українською мовою, зокрема, запропоновано використання функції втрат на основі косинусної подібності, а також встановлена сильна негативна кореляція між “90-м перцентилем розподілу косинусних коефіцієнтів подібності” моделі-вчителя та “середнім показником NMI”, досягнутим в процесі дистиляції векторних подань моделлю-студентом, що дозволяє надати рекомендації щодо тренування моделей при крос-лінгвістичній дистиляції знань. Створений еталонний набір даних для оцінювання якості векторних подань текстів українською мовою та викладений в публічний доступ на Гітхабі. – Розроблено технологію для рекомендацій резюме в умовах відсутності рекрутера, яка була апробована в компанії Daxtra Technologies (Додаток Б – “Акт Впровадження технології використання штучних нейронних мереж для зіставлення вакансій та резюме”). Технологія базується на архітектурах типу “Трансформер” та поєднує етапи сегментації, парсингу та векторизації документів. – Розроблено технологію використання штучних нейронних мереж для інтенсифікації процесу відбору та ранжування резюме рекрутером, яка була апробована в компанії Daxtra Technologies (Додаток Б – “Акт Впровадження технології використання штучних нейронних мереж для зіставлення вакансій та резюме”). В технологічну схему введено етап “сумаризація” для підвищення ефективності зіставлення вакансій та резюме. – Розроблено алгоритм обробки природної мови, заснований на глибокому навчанні, для ефективної обробки візуально насичених документів, який був впроваджений в компанії Daxtra Technologies. – Некерований метод навчання для векторних подань назв посад був впроваджений в компанії Daxtra Technologies, створений еталонний набір даних та викладений в публічний доступ на Гітхабі. – Контекстно-освічений метод подання важливих фраз із застосуванням нової архітектури щодо представлення навичок кандидатів в домені управління персоналом був впроваджений в компанії Daxtra Technologies, та апробований в компанії Data Science UA (Додаток В – “Акт апробації архітектури моделі векторного представлення фраз у контексті для їх групування та нормалізації”). Створений еталонний набір даних та викладений в публічний доступ на Гітхабі. – Некерований метод навчання щодо тренування подань текстів у сфері управління персоналом був впроваджений в компанії Daxtra Technologies, створений еталонний набір даних та викладений в публічний доступ на Гітхабі. Результати роботи впроваджені в науково-дослідній роботі “Методи, моделі, інформаційні технології розподілених систем підтримки прийняття організаційних рішень” (ДР 0121U111663). В навчальному процесі кафедри (дисципліна “Методи обробки текстів природної мови” Математичного забезпечення компʼютерних систем використовується представлена у дисертаційній роботі архітектура контекстно-залежного подання фраз та алгоритм скорочення тексту з урахуванням структури документа та ключових фраз для сумаризації.