М. Сидоров - ВСТУП ДО ІНЖЕНЕРІЇ ПРОГРАМНОГО ЗАБЕЗПЕЧЕННЯ
Очевидно, що велику цінність являють собою кількісні (адитивні) величини, оскільки вони не тільки відображають властивість програмного забезпечення, які можна використовувати для обробки і аналізу, а й мають більш повиний набір операцій над значеннями. Однак для використання величини з більш високою інкалою вимірювань слід мати достатні знання про характер відношень між цими значеннями.
Як правило, значущу шкалу вдається досить просто задати для величин, маючи вузький, добре інтерпретований зміст. Очевидно, що перехід від номінальної шкали до порядкової і від порядкової до кількісної потребує підвищення знань про характер відношень між значеннями величин. Ці знання мають імперичну природу і з'являються шляхом досвідченого виявлення залежно від значення.
Отримане значення величини, виявлене стосовно еквівалентності, зводиться до завдання класифікації стану об'єкта вимірювання, що визначається сукупністю ознак, значення яких дають змогу ідентифікувати кожен стан. Наприклад, під час визначення мови програмування, яку використано для написання програмного модуля («с», «cpp», «h», «pas», «ada», «htm»). Як датчик ознаки має виступати прилад, що виділяє розширення з імені файла. Вирішальний пристрій має реалізувати виявлення значень на основі правил виду: «іf», «розширення» = «.pas» or «.dpr», zen значення = «Pascal». Для тримання значення номінальної величини достатньо, щоб вибрані ознаки також мали властивості еквівалентності.
Для величин, які виявили себе стосовно адитивності, значення дорівнює числовій оцінці сумарної виміряної величини Nxe, що виникла в результаті складання порівнюваних однорідних величин, і має дорівнювати сумі числових оцінок цих порівнюваних, а сума іменованих чисел xNj відображає порівняння, що повинне дорівнювати іменному числу xNe відображаючи сумарну величину:
; ,
тоді
і qx =qxі при будь-якому i,
де qx- значення величини, що має числове значення 1.
Наявність властивості адитивності у величині дає змогу використовувати для визначення значення міру, яка забезпечує відновлюваність величини заданого розміру.
Оскільки тексти програм мають дискретну природу, то для визначення значень адитивності величини необхідно мати одиничну міру, що дорівнює кванту величини і пристрій для додавання міри та рахунку квантів. Наприклад, під час вимірювання довжини програми, як кількісна міра може вважатися рядок, а як вимірювальний пристрій - сканер тексту, підраховуючи кількість рядків,
У випадку номінальних і порядкових величин значення виявляється певною функцією від показників, які також є величинами:
,
де V- номінальна чи порядкова величина; v1 ....vn - величини показників.
Оскільки властивості номінальних і порядкових величин не задовольняють вимоги вимірювань, то для реалізації процесу вимірювання як показники, можна вважати лише адитивні величини.
Основними частинами статистичного аналізу стосовно програмного забезпечення можна вважати первинний статистичний аналіз, кореляційний аналіз та регресійний аналіз (рис. 5.8).
Первинний статистичний аналіз - не визначення закону розподілу випадкової величини. На етапі первинного статистичного аналізу досліджуються вхідні статистичні дані. У ході дослідження спочатку виявляється графічний вигляд (гістограма) закону розподілу. Для уточнення законів розподілу визначаються статистичні характеристики, такі як: математичне сподівання, середнє квадратичне відхилення, коефіцієнти асиметрії та ексцесу. На основі значень математичного сподівання проводиться вилучення аномальних явищ (відхилень), при якому за допомогою квантилів розподілу Стьюдента визначаються «грубі» значення, тобто такі, що не потрапляють під заданий закон розподілу і значно віддалені від математичного сподівання. Після видалення аномальних явищ обчислюються коефіцієнти асиметрії та ексцесу.
Рис. 5.8. Схема використання статистичного аналізу
Далі всі статистичні характеристики обчислюються у зсуненому та в незсуненому виглядах. Зсунені дані являють собою обчислені результати вимірів, незсунені - теоретичні значення, що повинні приймати характеристики за «нормальності» розподілу. Потім проводиться інтервальне оцінювання параметрів. Для всіх отриманих значень, що пройшли попередній етап, проводиться порівняння коефіцієнтів асиметрії та ексцесу із заданим теоретично. Після цього на основі гістограм та висновків аналізу числових характеристик робиться висновок про закон розподілу величини.
На цьому етапі дослідник програмного забезпечення може отримати декілька результатів для подальшого використання.
Кореляційний аналіз пар метрик проводиться таким чином. Спочатку, за визначеними раніше законами розподілу, всі досліджувані значення класифікуються на ті, що мають нормальний розподіл і ті, що його не мають. Для пар метрик, що мають нормальний закон розподілу, проводиться просте визначення коефіцієнта кореляції та його оцінювання. Якщо коефіцієнт кореляції дорівнює нулю, ніякого зв'язку в парі немає. У разі знаходження коефіцієнта кореляції між мінус 1 і плюс 1, наявний лінійний регресійний зв'язок. Якщо ж коефіцієнт кореляції дорівнює 1, то має місце функціональний зв'язок. Далі проводиться визначення значущості коефіцієнта кореляції (висувається гіпотеза, що коефіцієнт кореляції дорівнює 0), при якому використовується t - тест на основі статистичної характеристики, яка має t розподіл Стьюдента. Якщо це значення значущості менше, ніж задане табличне, ця пара відсіюється з подальших досліджень. У разі значущості проводиться дослідження на довірчі інтервали. Під час потрапляння коефіцієнта в довірчі інтервали можна зробити висновок про те, що досліджувані величини мають між собою лінійну регресійну залежність. В іншому випадку вони відсіюються.
Для пар досліджуваних величин, які не мають нормального закону розподілу, проводиться парна рангова кореляція. Суть парної рангової кореляції полягає в порівнянні не самих значень величин чи їх статистичних характеристик, а рангів, тобто номерів досліджуваних величин у відповідних матрицях (наборах статистичних даних). Визначається парна рангова кореляція методом обчислення коефіцієнта Спірмена чи Кендала. Якщо значення коефіцієнта виявилось рівним 0. то робиться висновок про відсутність кореляції і пара досліджуваних величин «відкидається». Якщо коефіцієнт кореляції набуває значення 1, чому відповідає повний збіг коефіцієнтів, то робиться висновок про прямо пропорційну залежність (тобто лінійну), якщо мінус 1, то робиться висновок про обернено пропорційну залежність (тобто також лінійну). Якщо ж коефіцієнт кореляції набуває іншого значення, то далі його перевіряють на значущість, перевіряючи гіпотезу, що коефіцієнт дорівнює 0.
Отже, результатом цього етапу с відсіювання незалежних між собою пар досліджуваних величин та визначення за можливістю виду залежності для інших пар.
Регрессійний аналіз залежних величин - останній етап у дослідженні залежностей. Спочатку проводиться ідентифікація регресії. Вона передбачає як графічну побудову, так і аналітичні дослідження. Рис. 5.9. Кореляційні поля: а - вписується в коло; б- вписується в еліпс (спадного вигляду); в - вписується в еліпс (вихідного вигляду); г- складної конфігурації
Графічна побудова розпочинається з визначення кореляційного поля. Приклади кореляційних полів показано на рис. 5.9.
Рис. 5.9. Кореляційні поля: а - вписується в коло; б- вписується в еліпс (спадного вигляду); в - вписується в еліпс (вихідного вигляду); г- складної конфігурації
Якщо кореляційне поле мас форму еліпса, робиться висновок про лінійний регресійний зв'язок. Далі проводиться побудова лінійної peгрeciї і її оцінювання. Якщо побудовані точки кореляційного поля потрапляють у коло, то робиться висновок про відсутність залежності. Якщо ж кореляційне поле не вписується в коло чи еліпс, а має інший вигляд, то робиться висновок про нелінійну залежність у лінії регресії. Потім будуються і аналізуються найімовірніші наближені лінії регресії. Серед них вибирається найточніша шляхом обчислення відхилення значень залежної Змінної Висновок про найточніше припущення робиться для функції, у якої відхилення найменше. Для нелінійної залежності проводиться лінеаризація коефіцієнтів, тобто зведення функції до лінійного вигляду.