Математичні моделі для обробки інформації з метрик Web застосунків, що розробляються з використанням PHP-фреймворків
Альтернативна назва
Mathematical models for processing information from metrics of Web applications developed using PHP frameworks
Вантажиться...
Дата
2026
Науковий керівник
Укладач
Редактор
Назва журналу
ISSN
E-ISSN
Назва тому
Видавець
Анотація
Приходько А.С. Математичні моделі для обробки інформації з метрик Web застосунків, що розробляються з використанням PHP-фреймворків. – Кваліфікаційна наукова праця на правах рукопису.
Дисертація на здобуття наукового ступеня доктора філософії (PhD) за спеціальністю 122 "Комп’ютерні науки" (галузь 12 – Інформаційні технології). – Одеський національний університет імені І. І. Мечникова, Міністерство освіти і науки України, Одеса, 2026.
Дисертаційна робота присвячена вирішенню важливого науково практичного завдання підвищення достовірності результатів обробки інформації з програмних метрик Web застосунків, що розробляються з використанням PHP фреймворків, за рахунок побудови певних математичних моделей для обробки відповідної інформації та створенню на їх основі інструментарію інформаційної технології (ІТ) обробки інформації з програмних метрик Web застосунків, що розробляються з використанням PHP-фреймворків.
Актуальність цієї роботи пов'язана з наступним. Зараз вебзастосунки відіграють вирішальну роль у багатьох аспектах нашого повсякденного життя, включаючи соціальні мережі, електронну комерцію, медицину, освіту, фінанси та інші сфери. При чому багато вебзастосунків розробляється із застосуванням PHP-фреймворків.
Відомо, що створення якісного програмного забезпечення (ПЗ) залишається одним з головних завдань індустрії його розробки. Інша задача – це визначення складності об’єктно-орієнтованого проектування (ООП) ПЗ, яка також є важливою для IT-компаній, оскільки тісно пов’язана з подальшими витратами, які виникають в процесі життєвого циклу розробки ПЗ. Ще одна задача, яка пов’язана з прогнозуванням витрат, тривалості та трудомісткості розробки, – це задача раннього оцінювання кількості рядків коду ПЗ. Зазначене також стосується і вебзастосунків, розроблених із застосуванням PHP фреймворків.
Рішення зазначених задач, у тому числі, потребує обробки інформації з відповідних програмних метрик та побудови певних математичних моделей. Як показують роботи багатьох дослідників, розподіл програмних метрик відхиляється від нормального, що вимагає застосування таких методів та моделей, які би враховували зазначене відхилення. Крім того, спостерігається кореляція між певними програмними метриками, яку також треба враховувати.
На сьогодні відомі методи і моделі, які дозволяють вести обробку інформації з програмних метрик та вирішувати зазначені вище задачі для ПЗ, що створено різними мовами, у тому числі і PHP. Але, як показують дослідження, математичні моделі для обробки інформації з програмних метрик та рішення вказаних вище задач залежать не тільки від мови програмування, а і від технології та інструментів, які при цьому використовуються. Саме тому виникає потреба у створенні математичних моделей для обробки інформації з метрик Web застосунків, що розробляються з використанням PHP-фреймворків, та рішення за їх допомогою зазначених вище задач саме для вказаних Web застосунків.
Зараз побудову зазначених моделей здійснюють за наборами даних з відповідних метрик, розподіл яких, як правило, не є гаусівським. Це призводить як до проблеми попередньої обробки інформації, яка стосується перевірки даних на наявність викидів, так і до проблеми побудови самих математичних моделей. Відомі методи визначення викидів, у тому числі і багатовимірних, базуються на припущенні нормальності розподілу даних, яке як правило не підтверджується для даних з метрик ПЗ. А це впливає на достовірність обробки інформації, у тому числі з метрик Web застосунків, що розробляються з використанням PHP фреймворків. Зазначене призводить до необхідності удосконалення відповідних математичних моделей, які би дозволили врахувати відхилення від нормальності у наборах даних з метрик Web застосунків, що розробляються з використанням PHP-фреймворків, при їх обробці.
Метою дисертаційної роботи є підвищення достовірності результатів обробки інформації з програмних метрик Web застосунків, що розробляються з використанням PHP-фреймворків, шляхом створення математичних моделей, які враховують кореляцію між програмними метриками та відхилення їх багатовимірного розподілу від нормального.
Робочою науковою гіпотезою дисертаційного дослідження є твердження, що підвищення достовірності результатів обробки інформації з програмних метрик Web застосунків, що розробляються з використанням PHP фреймворків, досягається за рахунок застосування математичних моделей, які враховують кореляцію між програмними метриками та відхилення їх багатовимірного розподілу від нормального.
Для побудови вказаних математичних моделей пропонується використовувати відомі методи на основі багатовимірних нормалізуючих перетворень, які дозволяють враховувати кореляцію між програмними метриками та відхилення їх багатовимірного розподілу від нормального. Припускається, що застосування зазначених математичних моделей дозволить покращити якість результатів рішення вказаних раніше задач подібно трансферному навчанню – методу машинного навчання, в якому знання (нова інформація), отримані в результаті виконання одного завдання або набору даних, використовуються для покращення якості моделі в іншому пов'язаному завданні або іншому наборі даних.
Для досягнення поставленої мети потрібно вирішити такі завдання:
- проаналізувати існуючі математичні моделі для обробки інформації з програмних метрик та відомі за їх допомогою рішення задач з визначення складності ООП, якості розробки та кількості рядків коду ПЗ;
- зібрати набори даних з програмних метрик Web застосунків, що розробляються з використанням PHP-фреймворків;
- побудувати три математичні моделі для обробки інформації з шести програмних метрик Чидамбера і Кемерера (Chidamber and Kemerer, CK) Web застосунків, що розробляються з використанням PHP-фреймворків, та здійснити на їх основі рішення задачі з визначення складності ООП на кожному з трьох етапів за Бучем (Booch);
- удосконалити математичну модель для обробки інформації з трьох програмних метрик (RFC, CBO та WMC) Web застосунків, що розробляються з використанням PHP-фреймворків, у вигляді тривимірного еліпсоїду прогнозування для зазначених нормалізованих метрик та рівнянь для визначення границь довірчих інтервалів та інтервалів прогнозування трьох нелінійних регресій програмних метрик RFC, CBO і WMC, а також здійснити на її основі рішення задачі з визначення якості вказаних застосунків;
- удосконалити математичні моделі для обробки інформації з чотирьох програмних метрик та трьохфакторні нелінійні регресійні моделі для оцінювання кількості рядків коду Web застосунків, що розробляються з використанням різних PHP-фреймворків, за метриками діаграми класів на основі чотиривимірного нормалізуючого перетворення;
- удосконалити рівняння для визначення границь довірчого інтервалу та інтервалу прогнозування нелінійної регресії кількості рядків коду Web застосунків, що розробляються з використанням PHP-фреймворків, на основі чотиривимірного нормалізуючого перетворення за метриками діаграми класів;
- на підставі розроблених математичних моделей створити інструментарій інформаційної технології (ІТ) для рішення задач з визначення складності ООП, якості розробки та кількості рядків коду Web застосунків, що розробляються з використанням PHP-фреймворків.
Наукова новизна одержаних результатів полягає у наступному.
1) Вперше побудовано дві математичні моделі для обробки інформації з двох груп програмних метрик (відповідно WMC, DIT і NOC та WMC, RFC і LCOM) Web застосунків, що розробляються з використанням PHP-фреймворків, у вигляді тривимірних еліпсоїдів прогнозування і рівнянь регресії для зазначених нормалізованих метрик на основі тривимірного нормалізуючого перетворення Бокса – Кокса. Ці дві математичні моделі дозволяють підвищити достовірність результатів обробки інформації з двох груп метрик WMC, DIT і NOC та WMC, RFC і LCOM за рахунок врахування як кореляції між ними, так і відхилення тривимірних розподілів цих метрик від нормального, та здійснити на їх основі рішення задачі з визначення складності ООП на його першому та другому етапах (через ідентифікацію та семантику класів) за Бучем.
2) Удосконалено математичну модель для обробки інформації з програмних метрик RFC і CBO Web застосунків, що розробляються з використанням PHP-фреймворків, у вигляді еліпсу прогнозування і рівнянь регресії для зазначених нормалізованих метрик на основі двовимірного нормалізуючого перетворення Бокса – Кокса. Ця математична модель дозволяє підвищити достовірність результатів обробки інформації з метрик RFC і CBO за рахунок врахування як кореляції між ними, так і відхилення двовимірного розподілу цих метрик від нормального, та здійснити на їх основі рішення задачі з визначення складності ООП на його третьому етапі (через зв’язки між класами) за Бучем.
3) Удосконалено математичну модель для обробки інформації з трьох програмних метрик RFC, CBO і WMC Web застосунків, що розробляються з використанням PHP-фреймворків, у вигляді тривимірного еліпсоїду прогнозування для зазначених нормалізованих метрик і рівнянь для визначення границь довірчих інтервалів та інтервалів прогнозування трьох нелінійних регресій програмних метрик RFC, CBO і WMC на основі тривимірного нормалізуючого перетворення Бокса – Кокса. Ця математична модель дозволяє підвищити достовірність результатів обробки інформації з метрик RFC, CBO і WMC за рахунок врахування як кореляції між ними, так і відхилення тривимірного розподілу цих метрик від нормального, та здійснити на їх основі рішення задачі з визначення якості Web застосунків, що розробляються з використанням PHP-фреймворків.
4) Удосконалено три математичні моделі для обробки інформації з чотирьох програмних метрик (кількості рядків коду, кількості класів, середньої кількості методів на клас і метрики DIT) у вигляді чотиривимірних еліпсоїдів прогнозування для зазначених нормалізованих метрик та трифакторних нелінійних регресійних моделей для оцінювання кількості рядків коду Web застосунків, що розробляються з використанням PHP-фреймворків, на основі чотиривимірного нормалізуючого перетворення Бокса – Кокса. Ці математичні моделі дозволяють підвищити достовірність результатів обробки інформації із зазначених метрик за рахунок врахування як кореляції між ними, так і відхилення чотиривимірного розподілу цих метрик від нормального, та здійснити на їх основі рішення задачі раннього оцінювання кількості рядків коду Web застосунків, що розробляються з використанням таких відомих PHP-фреймворків як CakePHP, Codeigniter і Yii, за трьома метриками діаграми класів. Отримані трифакторні нелінійні регресійні моделі в порівнянні з іншими регресійними моделями мають більший відсоток прогнозованих значень PRED, менше значення середньої величини відносної похибки MMRE та менші ширини довірчого інтервалу та інтервалу прогнозування нелінійної регресії.
5) Удосконалено рівняння для визначення границь довірчого інтервалу та інтервалу прогнозування трифакторних нелінійних регресій кількості рядків коду Web застосунків, що розробляються з використанням різних PHP-фреймворків, в залежності від кількості класів, середньої кількості методів на клас і метрики DIT на основі чотиривимірного нормалізуючого перетворення Бокса – Кокса. Рівняння для визначення нижньої та верхньої границь довірчого інтервалу та інтервалу прогнозування дозволяють здійснювати оцінювання точності умовного вибіркового середнього та меж моделювання умовної випадкової величини кількості рядків коду Web застосунків, що розробляються з використанням таких відомих PHP-фреймворків як CakePHP, Codeigniter і Yii.
Практичне значення одержаних результатів полягає у наступному. На підставі розроблених математичних моделей створено інструментарій інформаційної технології (ІТ) для рішення задач з визначення складності ООП, якості розробки та кількості рядків коду Web застосунків, що розробляються з використанням PHP-фреймворків. Для цього використовувалася мова програмування Python. Було створено відповідне ПЗ для рішення задач з визначення складності ООП, якості розробки та кількості рядків коду Web застосунків, що розробляються з використанням PHP-фреймворків, які розраховані на використання зазначеного ПЗ.
У вступі дисертації розкрита сутність науково-практичного завдання та його значущість, обґрунтовано необхідність проведення дослідження, подана загальна характеристика дисертації в такій послідовності: актуальність теми; зв’язок роботи з науковими програмами, планами, темами; мета і завдання дослідження; наукова новизна та практичне значення одержаних результатів; особистий внесок здобувача; апробація результатів дисертації та публікації.
У першому розділі дисертації виконано аналіз задач, рішення яких, у тому числі, потребує обробки інформації з відповідних програмних метрик, і побудови певних математичних моделей; здійснено аналіз існуючих методів і моделей для обробки інформації з метрик Web застосунків, що розробляються з використанням PHP-фреймворків, обґрунтування необхідності проведення досліджень за обраною темою.
У другому розділі дисертації розглянуто існуючі взаємо-зворотні багатовимірні нормалізуючі перетворення та методи оцінювання їх параметрів, здійснено вибір багатовимірних нормалізуючих перетворень для нормалізації двовимірних, тривимірних та чотиривимірних наборів даних з метрик Web застосунків, що розробляються з використанням PHP-фреймворків.
У третьому розділі дисертації побудовано дві математичні моделі для обробки інформації з двох груп програмних метрик (відповідно WMC, DIT і NOC та WMC, RFC і LCOM) Web застосунків, що розробляються з використанням PHP-фреймворків, у вигляді тривимірних еліпсоїдів прогнозування і рівнянь регресії для зазначених нормалізованих метрик на основі тривимірного нормалізуючого перетворення Бокса – Кокса; удосконалено модель для обробки інформації з програмних метрик RFC і CBO Web застосунків, що розробляються з використанням PHP-фреймворків, у вигляді еліпсу прогнозування і рівнянь регресії для зазначених нормалізованих метрик на основі двовимірного нормалізуючого перетворення Бокса – Кокса; удосконалено математичну модель для обробки інформації з трьох програмних метрик RFC, CBO і WMC Web застосунків, що розробляються з використанням PHP-фреймворків, у вигляді тривимірного еліпсоїду прогнозування для зазначених нормалізованих метрик і рівнянь для визначення границь довірчих інтервалів та інтервалів прогнозування трьох нелінійних регресій програмних метрик RFC, CBO і WMC на основі тривимірного нормалізуючого перетворення Бокса – Кокса; удосконалено математичні моделі та рівняння для визначення границь довірчого інтервалу та інтервалу прогнозування трифакторних нелінійних регресії кількості рядків коду Web застосунків, що розробляються з використанням різних PHP-фреймворків, в залежності від кількості класів, середньої кількості методів на клас і метрики DIT на основі чотиривимірного нормалізуючого перетворення; здійснено порівняння результатів за різними моделями, у тому числі моделями машинного навчання.
У четвертому розділі дисертації на підставі розроблених математичних моделей створено інструментарій ІТ для рішення задач з визначення складності ООП, якості розробки та кількості рядків коду Web застосунків, що розробляються з використанням PHP-фреймворків. Для цього використовувалася мова програмування Python. Було розроблено відповідне ПЗ для рішення задач з визначення складності ООП, якості розробки та кількості рядків коду Web застосунків, що розробляються з використанням PHP-фреймворків.
Prykhodko A.S. Mathematical models for processing information from metrics of Web applications developed using PHP frameworks. – Manuscript of the qualification scientific work. Thesis for the degree of philosophy doctor in specialty 122 "Computer Science" (field 12 – Information technology). – Odesa I. I. Mechnikov National University, Odesa, 2026. The dissertation is devoted to solving an important scientific and practical problem of increasing the reliability of the results of processing information from software metrics of Web applications developed using PHP frameworks by building certain mathematical models for processing the relevant information and creating on their basis an information technology (IT) toolkit for processing information from software metrics of Web applications developed using PHP frameworks. The relevance of this work is due to the following. Now, Web applications play a crucial role in many aspects of our daily lives, including social networks, e-commerce, medicine, education, finance, and other areas. Moreover, many Web applications are developed using PHP frameworks. It is known that creating high-quality software remains one of the main tasks of the software development industry. Another task is to determine the complexity of the object-oriented design (OOD) of the software, which is also important for IT companies, as it is closely related to the subsequent costs that arise during the software development life cycle. Another task related to predicting the costs, duration, and complexity of development is the task of early estimation of the number of lines of software code. This also applies to Web applications developed using PHP frameworks. The solution of these tasks, among other things, requires processing information from the relevant software metrics and building certain mathematical models. As shown by the works of many researchers, the distribution of software metrics deviates from normal, which requires the use of such methods and models that would take into account the specified deviation. In addition, there is a correlation between certain software metrics, which must also be taken into account. Today, there are known methods and models that allow processing information from software metrics and solving the above-mentioned problems for software created in different languages, including PHP. However, as studies show, mathematical models for processing information from software metrics and solving the above-mentioned problems depend not only on the programming language but also on the technology and tools used in this process. That is why there is a need to create mathematical models for processing information from metrics of Web applications developed using PHP frameworks and solving the above-mentioned problems with their help, specifically for these Web applications. Currently, the construction of these models is carried out on data sets from the corresponding metrics, the distribution of which, as a rule, is not Gaussian. This leads to both the problem of pre-processing information, which concerns checking the data for the presence of outliers, and the problem of building the mathematical models themselves. Known methods for determining outliers, including multivariate ones, are based on the assumption of normality of data distribution, which is usually not confirmed for data from software metrics. And this affects the reliability of information processing, including metrics of Web applications developed using PHP frameworks. This leads to the need to improve the relevant mathematical models, which would allow taking into account deviations from normality in data sets from metrics of Web applications developed using PHP frameworks, when processing them. The goal of the dissertation is to increase the reliability of the results of processing information from software metrics of Web applications developed using PHP frameworks, by creating mathematical models that take into account the correlation between software metrics and the deviation of their multivariate distribution from normal. The working scientific hypothesis of the dissertation research is the statement that increasing the reliability of the results of processing information from software metrics of Web applications developed using PHP frameworks is achieved through the use of mathematical models that take into account the correlation between software metrics and the deviation of their multivariate distribution from normal. To build these mathematical models, it is proposed to use known methods based on multidimensional normalizing transformations, which allow taking into account the correlation between software metrics and the deviation of their multidimensional distribution from normal. It is assumed that the use of these mathematical models will improve the quality of the results of solving the previously mentioned problems, similar to transfer learning - a machine learning method in which knowledge (new information) obtained as a result of performing one task or data set is used to improve the quality of the model in another related task or data set. To achieve the goal, the following tasks need to be solved: - analyze existing mathematical models for processing information from software metrics and known solutions to problems with determining the complexity of OOP, development quality, and number of lines of software code; - collect data sets from software metrics of Web applications developed using PHP frameworks; - to build three mathematical models for processing information from six Chidamber and Kemerer (CK) software metrics of Web applications developed using PHP frameworks, and to implement on their basis the solution of the problem of determining the complexity of OOP at each of the three stages according to Booch; - to improve the mathematical model for processing information from three software metrics (RFC, CBO and WMC) of Web applications developed using PHP frameworks, in the form of a three-dimensional forecasting ellipsoid for the specified normalized metrics and equations for determining the widths of confidence intervals and forecasting intervals of three nonlinear regressions of software metrics RFC, CBO and WMC, and to implement on its basis the solution of the problem of determining the quality of the specified applications; - improve mathematical models for processing information from four program metrics and three-factor nonlinear regression models for estimating the number of lines of code of Web applications developed using various PHP frameworks, using class diagram metrics based on a four-dimensional normalizing transformation; - improve equations for determining the widths of the confidence interval and the prediction interval of nonlinear regression of the number of lines of code of Web applications developed using PHP frameworks, using a four-dimensional normalizing transformation based on class diagram metrics; - create an information technology (IT) toolkit, based on the developed mathematical models, for solving problems of determining the complexity of OOP, development quality, and the number of lines of code of Web applications developed using PHP frameworks. The scientific novelty of the obtained results is as follows. 1) For the first time, two mathematical models have been constructed for processing information from two groups of program metrics (respectively, WMC, DIT, and NOC, and WMC, RFC, and LCOM) of Web applications developed using PHP frameworks, in the form of three-dimensional forecasting ellipsoids and regression equations for the specified normalized metrics based on the three-dimensional Box Cox normalizing transformation. These two mathematical models allow to increase the reliability of the results of processing information from two groups of metrics WMC, DIT and NOC and WMC, RFC and LCOM by taking into account both the correlation between them and the deviation of the three-dimensional distributions of these metrics from normal, and to implement on their basis the solution of the problem of determining the complexity of OOP at its first and second stages (through the identification and semantics of classes) according to Booch. 2) The mathematical model for processing information from RFC and CBO program metrics of Web applications developed using PHP frameworks has been improved in the form of a forecast ellipse and regression equations for the specified normalized metrics based on the two-dimensional Box-Cox normalizing transformation. This mathematical model allows to increase the reliability of the results of processing information from RFC and CBO metrics by taking into account both the correlation between them and the deviation of the two-dimensional distribution of these metrics from normal, and to implement on their basis the solution of the problem of determining the complexity of OOP at its third stage (through the connections between classes) according to Booch. 3) The mathematical model for processing information from three software metrics RFC, CBO and WMC of Web applications developed using PHP frameworks has been improved in the form of a three-dimensional forecasting ellipsoid for the specified normalized metrics and equations for determining the widths of confidence intervals and forecasting intervals of three nonlinear regressions of software metrics RFC, CBO and WMC based on the three-dimensional normalizing Box-Cox transformation. This mathematical model allows us to increase the reliability of the results of processing information from metrics RFC, CBO, and WMC by taking into account both the correlation between them and the deviation of the three-dimensional distribution of these metrics from normal, and to implement on this basis the solution of the problem of determining the quality of Web applications developed using PHP frameworks. 4) Three mathematical models for processing information from four program metrics (number of lines of code, number of classes, average number of methods per class and DIT metric) have been improved in the form of four-dimensional prediction ellipsoids for the specified normalized metrics and three-factor nonlinear regression models for estimating the number of lines of code of Web applications developed using PHP frameworks, based on the four-dimensional normalizing Box-Cox transformation. These mathematical models allow to increase the reliability of the results of processing information from the specified metrics by taking into account both the correlation between them and the deviation of the four-dimensional distribution of these metrics from normal, and to implement on their basis the solution of the problem of early estimation of the number of lines of code of Web applications developed using such well-known PHP frameworks as CakePHP, Codeigniter and Yii, by three class diagram metrics. The resulting three-factor nonlinear regression models, compared to other regression models, have a higher percentage of predicted values PRED, a lower value of the average relative error MMRE, and smaller widths of the confidence interval and the nonlinear regression prediction interval. 5) The equations for determining the widths of the confidence interval and the prediction interval of three-factor nonlinear regressions of the number of lines of code of Web applications developed using different PHP frameworks have been improved, depending on the number of classes, the average number of methods per class, and the DIT metric based on a four-dimensional normalizing Box-Cox transformation. The equations for determining the lower and upper bounds of the confidence interval and the prediction interval allow for the assessment of the accuracy of the conditional sample mean and the limits of modeling the conditional random variable of the number of lines of code of Web applications developed using such well-known PHP frameworks as CakePHP, Codeigniter, and Yii. The practical significance of the results obtained is as follows. Based on the developed mathematical models, an information technology (IT) toolkit was created to solve problems of determining the complexity of OOP, development quality, and the number of lines of code of Web applications developed using PHP frameworks. The Python programming language was used for this purpose. Appropriate software was developed to solve problems of determining the complexity of OOP, development quality, and the number of lines of code of Web applications developed using PHP frameworks designed to use the specified software. The Introduction of the dissertation reveals the essence of the scientific and practical task and its significance, justifies the need for conducting research, presents a general characteristic of the dissertation in the following sequence: relevance of the topic; connection of the work with scientific programs, plans, topics; goal and objectives of the research; scientific novelty and practical significance of the results obtained; personal contribution of the applicant; approbation of the results of the dissertation and publication. In Section 1 of the dissertation analyzes the problems, the solution of which, among other things, requires processing information from relevant software metrics and building certain mathematical models; analyzes existing methods and models for processing information from metrics of Web applications developed using PHP frameworks, and justifies the need for research on the selected topic. In Section 2 of the dissertation, existing multivariate inverse normalizing transformations and methods of estimating their parameters are considered, and multivariate normalizing transformations are selected for normalizing two dimensional, three-dimensional, and four-dimensional datasets from metrics of Web applications developed using PHP frameworks. In Section 3 of the dissertation, two mathematical models are constructed for processing information from two groups of program metrics (respectively WMC, DIT and NOC and WMC, RFC and LCOM) of Web applications developed using PHP frameworks, in the form of three-dimensional forecasting ellipsoids and regression equations for the specified normalized metrics based on the three-dimensional Box Cox normalizing transformation; The model for processing information from the software metrics RFC and CBO of Web applications developed using PHP frameworks has been improved in the form of a forecasting ellipse and regression equations for the specified normalized metrics based on the two-dimensional Box-Cox normalizing transformation; the mathematical model for processing information from the three software metrics RFC, CBO and WMC of Web applications developed using PHP frameworks has been improved in the form of a three-dimensional forecasting ellipsoid for the specified normalized metrics and equations for determining the widths of the confidence intervals and forecasting intervals of three nonlinear regressions of the software metrics RFC, CBO and WMC based on the three-dimensional Box-Cox normalizing transformation; mathematical models and equations for determining the widths of the confidence interval and the prediction interval of three-factor nonlinear regressions of the number of lines of code of Web applications developed using different PHP frameworks, depending on the number of classes, the average number of methods per class, and the DIT metric based on a four-dimensional normalizing transformation, were improved; results were compared using different models, including machine learning models. In Section 4 of the dissertation, based on the developed mathematical models, an IT toolkit was created to solve problems of determining the complexity of OOP, the quality of development, and the number of lines of code of Web applications developed using PHP frameworks. The Python programming language was used for this purpose. Appropriate software was developed to solve problems of determining the complexity of OOP, the quality of development, and the number of lines of code of Web applications developed using PHP frameworks.
Prykhodko A.S. Mathematical models for processing information from metrics of Web applications developed using PHP frameworks. – Manuscript of the qualification scientific work. Thesis for the degree of philosophy doctor in specialty 122 "Computer Science" (field 12 – Information technology). – Odesa I. I. Mechnikov National University, Odesa, 2026. The dissertation is devoted to solving an important scientific and practical problem of increasing the reliability of the results of processing information from software metrics of Web applications developed using PHP frameworks by building certain mathematical models for processing the relevant information and creating on their basis an information technology (IT) toolkit for processing information from software metrics of Web applications developed using PHP frameworks. The relevance of this work is due to the following. Now, Web applications play a crucial role in many aspects of our daily lives, including social networks, e-commerce, medicine, education, finance, and other areas. Moreover, many Web applications are developed using PHP frameworks. It is known that creating high-quality software remains one of the main tasks of the software development industry. Another task is to determine the complexity of the object-oriented design (OOD) of the software, which is also important for IT companies, as it is closely related to the subsequent costs that arise during the software development life cycle. Another task related to predicting the costs, duration, and complexity of development is the task of early estimation of the number of lines of software code. This also applies to Web applications developed using PHP frameworks. The solution of these tasks, among other things, requires processing information from the relevant software metrics and building certain mathematical models. As shown by the works of many researchers, the distribution of software metrics deviates from normal, which requires the use of such methods and models that would take into account the specified deviation. In addition, there is a correlation between certain software metrics, which must also be taken into account. Today, there are known methods and models that allow processing information from software metrics and solving the above-mentioned problems for software created in different languages, including PHP. However, as studies show, mathematical models for processing information from software metrics and solving the above-mentioned problems depend not only on the programming language but also on the technology and tools used in this process. That is why there is a need to create mathematical models for processing information from metrics of Web applications developed using PHP frameworks and solving the above-mentioned problems with their help, specifically for these Web applications. Currently, the construction of these models is carried out on data sets from the corresponding metrics, the distribution of which, as a rule, is not Gaussian. This leads to both the problem of pre-processing information, which concerns checking the data for the presence of outliers, and the problem of building the mathematical models themselves. Known methods for determining outliers, including multivariate ones, are based on the assumption of normality of data distribution, which is usually not confirmed for data from software metrics. And this affects the reliability of information processing, including metrics of Web applications developed using PHP frameworks. This leads to the need to improve the relevant mathematical models, which would allow taking into account deviations from normality in data sets from metrics of Web applications developed using PHP frameworks, when processing them. The goal of the dissertation is to increase the reliability of the results of processing information from software metrics of Web applications developed using PHP frameworks, by creating mathematical models that take into account the correlation between software metrics and the deviation of their multivariate distribution from normal. The working scientific hypothesis of the dissertation research is the statement that increasing the reliability of the results of processing information from software metrics of Web applications developed using PHP frameworks is achieved through the use of mathematical models that take into account the correlation between software metrics and the deviation of their multivariate distribution from normal. To build these mathematical models, it is proposed to use known methods based on multidimensional normalizing transformations, which allow taking into account the correlation between software metrics and the deviation of their multidimensional distribution from normal. It is assumed that the use of these mathematical models will improve the quality of the results of solving the previously mentioned problems, similar to transfer learning - a machine learning method in which knowledge (new information) obtained as a result of performing one task or data set is used to improve the quality of the model in another related task or data set. To achieve the goal, the following tasks need to be solved: - analyze existing mathematical models for processing information from software metrics and known solutions to problems with determining the complexity of OOP, development quality, and number of lines of software code; - collect data sets from software metrics of Web applications developed using PHP frameworks; - to build three mathematical models for processing information from six Chidamber and Kemerer (CK) software metrics of Web applications developed using PHP frameworks, and to implement on their basis the solution of the problem of determining the complexity of OOP at each of the three stages according to Booch; - to improve the mathematical model for processing information from three software metrics (RFC, CBO and WMC) of Web applications developed using PHP frameworks, in the form of a three-dimensional forecasting ellipsoid for the specified normalized metrics and equations for determining the widths of confidence intervals and forecasting intervals of three nonlinear regressions of software metrics RFC, CBO and WMC, and to implement on its basis the solution of the problem of determining the quality of the specified applications; - improve mathematical models for processing information from four program metrics and three-factor nonlinear regression models for estimating the number of lines of code of Web applications developed using various PHP frameworks, using class diagram metrics based on a four-dimensional normalizing transformation; - improve equations for determining the widths of the confidence interval and the prediction interval of nonlinear regression of the number of lines of code of Web applications developed using PHP frameworks, using a four-dimensional normalizing transformation based on class diagram metrics; - create an information technology (IT) toolkit, based on the developed mathematical models, for solving problems of determining the complexity of OOP, development quality, and the number of lines of code of Web applications developed using PHP frameworks. The scientific novelty of the obtained results is as follows. 1) For the first time, two mathematical models have been constructed for processing information from two groups of program metrics (respectively, WMC, DIT, and NOC, and WMC, RFC, and LCOM) of Web applications developed using PHP frameworks, in the form of three-dimensional forecasting ellipsoids and regression equations for the specified normalized metrics based on the three-dimensional Box Cox normalizing transformation. These two mathematical models allow to increase the reliability of the results of processing information from two groups of metrics WMC, DIT and NOC and WMC, RFC and LCOM by taking into account both the correlation between them and the deviation of the three-dimensional distributions of these metrics from normal, and to implement on their basis the solution of the problem of determining the complexity of OOP at its first and second stages (through the identification and semantics of classes) according to Booch. 2) The mathematical model for processing information from RFC and CBO program metrics of Web applications developed using PHP frameworks has been improved in the form of a forecast ellipse and regression equations for the specified normalized metrics based on the two-dimensional Box-Cox normalizing transformation. This mathematical model allows to increase the reliability of the results of processing information from RFC and CBO metrics by taking into account both the correlation between them and the deviation of the two-dimensional distribution of these metrics from normal, and to implement on their basis the solution of the problem of determining the complexity of OOP at its third stage (through the connections between classes) according to Booch. 3) The mathematical model for processing information from three software metrics RFC, CBO and WMC of Web applications developed using PHP frameworks has been improved in the form of a three-dimensional forecasting ellipsoid for the specified normalized metrics and equations for determining the widths of confidence intervals and forecasting intervals of three nonlinear regressions of software metrics RFC, CBO and WMC based on the three-dimensional normalizing Box-Cox transformation. This mathematical model allows us to increase the reliability of the results of processing information from metrics RFC, CBO, and WMC by taking into account both the correlation between them and the deviation of the three-dimensional distribution of these metrics from normal, and to implement on this basis the solution of the problem of determining the quality of Web applications developed using PHP frameworks. 4) Three mathematical models for processing information from four program metrics (number of lines of code, number of classes, average number of methods per class and DIT metric) have been improved in the form of four-dimensional prediction ellipsoids for the specified normalized metrics and three-factor nonlinear regression models for estimating the number of lines of code of Web applications developed using PHP frameworks, based on the four-dimensional normalizing Box-Cox transformation. These mathematical models allow to increase the reliability of the results of processing information from the specified metrics by taking into account both the correlation between them and the deviation of the four-dimensional distribution of these metrics from normal, and to implement on their basis the solution of the problem of early estimation of the number of lines of code of Web applications developed using such well-known PHP frameworks as CakePHP, Codeigniter and Yii, by three class diagram metrics. The resulting three-factor nonlinear regression models, compared to other regression models, have a higher percentage of predicted values PRED, a lower value of the average relative error MMRE, and smaller widths of the confidence interval and the nonlinear regression prediction interval. 5) The equations for determining the widths of the confidence interval and the prediction interval of three-factor nonlinear regressions of the number of lines of code of Web applications developed using different PHP frameworks have been improved, depending on the number of classes, the average number of methods per class, and the DIT metric based on a four-dimensional normalizing Box-Cox transformation. The equations for determining the lower and upper bounds of the confidence interval and the prediction interval allow for the assessment of the accuracy of the conditional sample mean and the limits of modeling the conditional random variable of the number of lines of code of Web applications developed using such well-known PHP frameworks as CakePHP, Codeigniter, and Yii. The practical significance of the results obtained is as follows. Based on the developed mathematical models, an information technology (IT) toolkit was created to solve problems of determining the complexity of OOP, development quality, and the number of lines of code of Web applications developed using PHP frameworks. The Python programming language was used for this purpose. Appropriate software was developed to solve problems of determining the complexity of OOP, development quality, and the number of lines of code of Web applications developed using PHP frameworks designed to use the specified software. The Introduction of the dissertation reveals the essence of the scientific and practical task and its significance, justifies the need for conducting research, presents a general characteristic of the dissertation in the following sequence: relevance of the topic; connection of the work with scientific programs, plans, topics; goal and objectives of the research; scientific novelty and practical significance of the results obtained; personal contribution of the applicant; approbation of the results of the dissertation and publication. In Section 1 of the dissertation analyzes the problems, the solution of which, among other things, requires processing information from relevant software metrics and building certain mathematical models; analyzes existing methods and models for processing information from metrics of Web applications developed using PHP frameworks, and justifies the need for research on the selected topic. In Section 2 of the dissertation, existing multivariate inverse normalizing transformations and methods of estimating their parameters are considered, and multivariate normalizing transformations are selected for normalizing two dimensional, three-dimensional, and four-dimensional datasets from metrics of Web applications developed using PHP frameworks. In Section 3 of the dissertation, two mathematical models are constructed for processing information from two groups of program metrics (respectively WMC, DIT and NOC and WMC, RFC and LCOM) of Web applications developed using PHP frameworks, in the form of three-dimensional forecasting ellipsoids and regression equations for the specified normalized metrics based on the three-dimensional Box Cox normalizing transformation; The model for processing information from the software metrics RFC and CBO of Web applications developed using PHP frameworks has been improved in the form of a forecasting ellipse and regression equations for the specified normalized metrics based on the two-dimensional Box-Cox normalizing transformation; the mathematical model for processing information from the three software metrics RFC, CBO and WMC of Web applications developed using PHP frameworks has been improved in the form of a three-dimensional forecasting ellipsoid for the specified normalized metrics and equations for determining the widths of the confidence intervals and forecasting intervals of three nonlinear regressions of the software metrics RFC, CBO and WMC based on the three-dimensional Box-Cox normalizing transformation; mathematical models and equations for determining the widths of the confidence interval and the prediction interval of three-factor nonlinear regressions of the number of lines of code of Web applications developed using different PHP frameworks, depending on the number of classes, the average number of methods per class, and the DIT metric based on a four-dimensional normalizing transformation, were improved; results were compared using different models, including machine learning models. In Section 4 of the dissertation, based on the developed mathematical models, an IT toolkit was created to solve problems of determining the complexity of OOP, the quality of development, and the number of lines of code of Web applications developed using PHP frameworks. The Python programming language was used for this purpose. Appropriate software was developed to solve problems of determining the complexity of OOP, the quality of development, and the number of lines of code of Web applications developed using PHP frameworks.
Опис
Ключові слова
математична модель, обробка інформації, аналіз даних, програмна метрика, Web застосунок, PHP фреймворк, регресійна модель, нелінійна регресійна модель, нормалізуюче перетворення, відстань Махаланобіса, регресія, нелінійна регресія, машинне навчання, трансферне навчання, інформаційна технологія, mathematical model, information processing, data analysis, software metrics, Web application, PHP framework, regression model, nonlinear regression model, normalizing transformation, Mahalanobis distance, regression, nonlinear regression, machine learning, transfer learning, information technology, 122 Комп’ютерні науки
Бібліографічний опис
Приходько А. С. Математичні моделі для обробки інформації з метрик Web застосунків, що розробляються з використанням PHP-фреймворків : дис. … д-ра філос. у галузі 12 Інформаційні технології : 122 / А. С. Приходько ; наук. керівник Є. В. Малахов ; Одес. нац. ун-т імені І. І. Мечникова. Одеса, 2026. 207 с.
DOI
ORCID:
УДК
004.412:519.237.5