Раніше розглядалися гіпотези, у яких закон розподілу генеральної сукупності передбачався відомим. Тепер займемося перевіркою гіпотез про передбачуваний закон невідомого розподілу, тобто перевірятимемо нульову гіпотезу про те, що генеральна сукупність розподілена за деяким відомим законом. Зазвичай статистичні критерії для перевірки таких гіпотез називаються критеріями згоди.
Критерієм згодиназивається критерій перевірки гіпотези про передбачуваний закон невідомого розподілу. Це чисельна міра розбіжності між емпіричним та теоретичним розподілом.
Основна задача.Дано емпіричний розподіл (вибірка). Зробити припущення (висунути гіпотезу) про вид теоретичного розподілу та перевірити висунуту гіпотезу на заданому рівні значущості α.
Вирішення основного завдання складається з двох частин:
1. Висунення гіпотези.
2. Перевірка гіпотези на заданому рівні значимості.
Розглянемо докладно ці частини.
1. Вибір гіпотезипро вид теоретичного розподілу зручно робити з допомогою полігонів чи гістограм частот. Порівнюють емпіричний полігон (або гістограму) з відомими законами розподілу та вибирають найбільш підходящий.
Наведемо графіки найважливіших законів розподілу:
Приклади емпіричних законів розподілу наведено на рисунках:
У разі (а) висувається гіпотеза про нормальний розподіл, у разі (б) – гіпотеза про рівномірний розподіл, у разі (в) – гіпотеза про розподіл Пуассона.
Підставою висування гіпотези про теоретичному розподілі може бути теоретичні передумови характер зміни ознаки. Наприклад, виконання умов теореми Ляпунова дозволяє зробити гіпотезу про нормальний розподіл. Рівність середньої та дисперсії наводить на гіпотезу про розподіл Пуассона.
Насправді найчастіше доводиться зустрічатися з нормальним розподілом, у наших завданнях потрібно перевірити лише гіпотезу про розподіл.
Перевірка гіпотезипро теоретичний розподіл відповідає на запитання: чи можна вважати розбіжність між передбачуваними теоретичним та емпіричним розподілами випадковим, несуттєвим, що пояснюється випадковістю попадання у вибірку тих чи інших об'єктів, або ж це розбіжність говорить про суттєву розбіжність між розподілами. Для перевірки існують різні методи (критерії згоди) - c 2 (хі-квадрат), Колмогорова, Романовського та ін.
Критерій Пірсона.
Перевагою критерію Пірсона є його універсальність: з його допомогою можна перевіряти гіпотези про різні закони розподілу.
1. Перевірка гіпотези про розподіл.Нехай отримано вибірку досить великого обсягу пз великою кількістю різних значень варіант. Для зручності її обробки розділимо інтервал від найменшого до найбільшого значень варіант на sрівних частин і вважатимемо, що значення варіант, що потрапили в кожен інтервал, приблизно рівні числу, що задає середину інтервалу. Підрахувавши число варіантів, що потрапили в кожен інтервал, складемо так звану згруповану вибірку:
варіанти……….. х 1 х 2 … х s
частоти…………. п 1 п 2 … п s ,
де х i– значення середин інтервалів, а п i- Число варіант, що потрапили в i-і інтервал (емпіричні частоти). За отриманими даними можна обчислити вибіркове середнє та вибіркове середнє квадратичне відхилення σ В. Перевіримо припущення, що генеральна сукупність розподілена за нормальним законом із параметрами M(X) = , D(X) = . Тоді можна знайти кількість чисел із вибірки обсягу п, що має опинитися у кожному інтервалі при цьому припущенні (тобто теоретичні частоти). Для цього за таблицею значень функції Лапласа знайдемо ймовірність влучення в i-і інтервал:
,
де а iі b i- Межі i-го інтервалу. Помноживши отримані ймовірності обсяг вибірки п, знайдемо теоретичні частоти: п i = n · p iНаша мета – порівняти емпіричні та теоретичні частоти, які, звичайно, відрізняються один від одного, і з'ясувати, чи є ці відмінності несуттєвими, що не спростовують гіпотезу про нормальний розподіл досліджуваної випадкової величини, або вони настільки великі, що суперечать цій гіпотезі. Для цього використовується критерій у вигляді випадкової величини
. (7)
Сенс її очевидний: додаються частини, які квадрати відхилень емпіричних частот від теоретичних складають від відповідних теоретичних частот. Можна довести, що незалежно від реального закону розподілу генеральної сукупності закон розподілу випадкової величини (7) при прагненні до закону розподілу з числом ступенів свободи k = s - 1 – r, де r- Число параметрів передбачуваного розподілу, оцінених за даними вибірки. Нормальний розподіл характеризується двома параметрами, тому k = s - 3. Для обраного критерію будується правостороння критична область, яка визначається умовою
(8)
де α - Рівень значимості. Отже, критична область задається нерівністю а сфера прийняття гіпотези - .
Отже, для перевірки нульової гіпотези Н 0: генеральна сукупність розподілена нормально - потрібно обчислити за вибіркою значення критерію:
, (7`)
а по таблиці критичних точок розподілу 2 знайти критичну точку , використовуючи відомі значення α і k = s - 3. Якщо - нульову гіпотезу приймають, за її відкидають.
приклад.Результати дослідження попиту товар представлені у таблиці:
Висунути гіпотезу про вид розподілу і перевірити її лише на рівні значимості a=0,01.
I. Висунення гіпотези.
Для вказівки виду емпіричного розподілу побудуємо гістограму
120 160 180 200 220 280
По виду гістограми можна зробити припущення про нормальний закон розподілу ознаки, що вивчається, в генеральній сукупності.
ІІ. Перевіримо висунуту гіпотезу про нормальний розподіл, використовуючи критерій згоди Пірсона.
1. Обчислюємо , s В. Як варіант візьмемо середнє арифметичне кінці інтервалів:
2. Знайдемо інтервали (Z i ; Z i+1): ; .
За лівий кінець першого інтервалу приймемо (-¥), а за правий кінець останнього інтервалу – (+¥). Результати представлені у табл. 4.
3. Знайдемо теоретичні ймовірності Р i та теоретичні частоти (див. табл. 4).
Таблиця 4
i | Кордон інтервалів | Ф(Z i) | Ф(Z i+1) | P i = Ф(Z i+1)-Ф(Z i) | ||||
x i | x i+1 | Z i | Z i+1 | |||||
-¥ | -1,14 | -0,5 | -0,3729 | 0,1271 | 6,36 | |||
-1,14 | -0,52 | -0,3729 | -0,1985 | 0,1744 | 8,72 | |||
-0,52 | 0,11 | -0,1985 | 0,0438 | 0,2423 | 12,12 | |||
0,11 | 0,73 | 0,0438 | 0,2673 | 0,2235 | 11,18 | |||
0,73 | +¥ | 0,2673 | 0,5 | 0,2327 | 11,64 |
4. Порівняємо емпіричні та теоретичні частоти. Для цього:
а) обчислимо значення критерію Пірсона, що спостерігається.
Обчислення представлені у табл.5.
Таблиця 5
i | |||||
6,36 | -1,36 | 1,8496 | 0,291 | ||
8,72 | 1,28 | 1,6384 | 0,188 | ||
12,12 | 1,88 | 3,5344 | 0,292 | ||
11,18 | 0,82 | 0,6724 | 0,060 | ||
11,64 | -2,64 | 6,9696 | 0,599 | ||
S |
б) по таблиці критичних точок розподілу c 2 при заданому рівні значущості a = 0,01 та числі ступенів свободи k = m-3 = 5-3 = 2 знаходимо критичну точку; маємо .
Порівнюємо c. . Отже, немає підстав відкидати гіпотезу про нормальний закон розподілу ознаки генеральної сукупності, що вивчається. Тобто. розбіжність між емпіричними та теоретичними частотами незначна (випадково). ◄
Зауваження.Інтервали, що містять нечисленні емпіричні частоти (n i<5), следует объединить, а частоты этих интервалов сложить. Если производилось объединение интервалов, то при определении числа степеней свободы по формуле K=m-3 следует в качестве m принять число оставшихся после объединения интервалов.
2. Перевірка гіпотези про рівномірний розподіл. При використанні критерію Пірсона для перевірки гіпотези про рівномірний розподіл генеральної сукупності з ймовірністю ймовірності
необхідно, обчисливши за наявною вибіркою значення, оцінити параметри аі bза формулами:
де а*і b*- оцінки аі b. Дійсно, для рівномірного розподілу М(Х) = , звідки можна отримати систему для визначення а*і b*: , Рішенням якої є вирази (9).
Потім, припускаючи, що , можна знайти теоретичні частоти за формулами
Тут s- Число інтервалів, на які розбита вибірка.
Значення критерію Пірсона, що спостерігається, обчислюється за формулою (7`), а критичне – за таблицею з урахуванням того, що число ступенів свободи k = s - 3. Після цього межі критичної галузі визначаються так само, як і для перевірки гіпотези про нормальний розподіл.
3. Перевірка гіпотези про показовий розподіл.У цьому випадку, розбивши наявну вибірку на рівні по довжині інтервали, розглянемо послідовність варіантів, рівновіддалених один від одного (вважаємо, що всі варіанти, що потрапили в i- й інтервал, що приймають значення, що збігається з його серединою), і відповідних їм частот n i(число варіант вибірки, що потрапили в i- й інтервал). Обчислимо за цими даними та приймемо як оцінку параметра λ величину. Тоді теоретичні частоти обчислюються за формулою
Потім порівнюються спостерігане та критичне значення критерію Пірсона з урахуванням того, що число ступенів свободи k = s - 2.
приклад. Для вибірки, інтервальний статистичний ряд якої має вигляд
перевірити за рівня значимості α = 0,05 гіпотезу о.
Призначення критерію. Критерій призначений для зіставлення двох розподілів: а). емпіричного з теоретичним, наприклад, рівномірним чи нормальним; б). одного емпіричного розподілу з іншим емпіричним розподілом.
Обмеження критерію.Критерій вимагає, щоб вибірка була достатньо великою, ≥50.
Гіпотези:
: різницю між двома розподілами незначні.
: різницю між двома розподілами значущі.
Алгоритм підрахунку - критерію.
Складаємо таблицю для зручності розрахунків:
1. У першому стовпці мають емпіричні значення ознаки, упорядковані за зростанням.
2. У другому стовпці мають емпіричні частоти для кожного значення, а в третьому стовпці відносні емпіричні частоти для кожного значення, розраховані за формулою: f* емп j = f емп j / n, де f емп j - емпірична частота з другого стовпця, n - Обсяг вибірки.
3. Підраховуємо «накопичені» емпіричні частоти за такою формулою:
∑ f * емп j = ∑ f * емп j -1 + f * емп j ,
де ∑ f* емп j -1 – частота, накопичена на попередніх значеннях ознаки;
j – порядковий номер значення ознаки; f * емп j - емпірична частота даного j розряду. Результати поміщають у 4 стовпець.
4. У 5 стовпці мають накопичені теоретичні частоти, якщо порівнюють з відомим теоретичним розподілом; якщо порівнюють 2 емпіричних розподілу, то 5 стовпчику розташовують накопичені емпіричні частоти для вибірки 2.
5. Підраховують різниці між накопиченими частотами та їх абсолютні значення поміщають у 6 стовпець. Позначимо їх dj.
6. Визначають по 6 стовпцю максимальне значення dj → dmax.
7. Підраховують λ емп за формулою:
,
де n 1 – обсяг вибірки 1, n 2 – обсяг вибірки 2, якщо = = n, то .
8. За заданим рівнем значимості таблиці VII додатка знаходять граничну точку λ кр.
9. Якщо λ емп< λ кр, то различия между распределениями признака незначимы; если λ эмп >λ кр, то різницю між розподілами ознаки значущі.
приклад. У продовольчому магазині проведено контрольні зважування проданої ковбаси. Обсяг вибірки n = 100. Отримані дані вказані у таблиці.
недовага, г | |||||||||
частота |
Визначити з допомогою λ – критерію Колмогорова-Смирнова лише на рівні значимості α=0,05, чи узгоджуються дані вибірки з рівномірним розподілом на відрізку .
Рішення.: різницю між емпіричним і передбачуваним теоретичним розподілом незначні.
: різницю між емпіричним і передбачуваним теоретичним розподілом значущі.
Функція розподілу випадкової величини, рівномірно розподіленої на відрізку має такий вигляд:
Заповнимо таблицю:
x j | f емп j | f емп j /n | ∑ f* емп j | ∑ f* теор j | d j |
0,10 | 0,10 | 0,1 | |||
0,11 | 0,21 | 0,2 | 0,01 | ||
0,08 | 0,29 | 0,3 | 0,01 | ||
0,09 | 0,38 | 0,4 | 0,02 | ||
0,12 | 0,50 | 0,5 | |||
0,10 | 0,60 | 0,6 | |||
0,13 | 0,73 | 0,7 | 0,03 | ||
0,15 | 0,88 | 0,8 | 0,08 | ||
0,12 | 1,00 | 0,9 | 0,1 |
Пояснимо, як заповнюється таблиця. Значення перших двох стовпців взято з умови. Кожне число другого шпальти ділимо на n = 100 і результат записуємо в 3 стовпець. Кожне число 4 стовпця дорівнює сумі числа з цього рядка 3 стовпця і попереднього числа 4 стовпця. Кожне число 1 стовпця підставляємо у формулу f*теор = xj/10 і результат записуємо в 5 стовпець. 6 стовпець – модуль різниці 4 та 5 стовпців. Найбільше в 6 стовпці d max =0,1; λ емп =0,1 = 1.
За рівнем значущості α = 0,05 з таблиці VI додатку знаходимо граничну точку λ кр = 1,358. Оскільки λ емп< λ кр (1 < 1,358), то принимаем гипотезу на уровне значимости α = 0,05. Данные выборки согласуются с равномерным распределением на отрезке .
Призначення критерію
Критерій призначений для порівняння двох розподілів:
а) емпіричного з теоретичним, наприклад, рівномірним чи нормальним;
б) одного емпіричного розподілу з іншим емпіричним розподілом.
Критерій дозволяє знайти точку, в якій сума накопичених розбіжностей між двома розподілами є найбільшою, та оцінити достовірність цієї розбіжності.
Опис критерію
Якщо методі ми зіставляли частоти двох розподілів окремо за першим розрядом, потім у сумі першого і другого розрядів, потім у сумі першого, другого і третього розрядів тощо. Таким чином, ми зіставляємо щоразу накопичені до цього розряду частоти.
Якщо відмінності між двома розподілами істотні, то в якийсь момент різниця накопичених частот досягне критичного значення, і ми зможемо визнати відмінності статистично достовірними. До формули критерію включається ця різниця. Чим більше емпіричне значення, тим істотніші відмінності.
Гіпотези
Відмінності між розподілами недостовірні (судячи з точки максимального накопиченого розбіжності з-поміж них).
: Відмінності між розподілами достовірні (судячи з точки максимальної накопиченої розбіжності між ними).
Для застосування критерію Колмогорова-Смирнова необхідно дотримуватися таких умов:
1. Вимір може бути проведений шкалою інтервалів та відносин.
2. Вибірки мають бути випадковими та незалежними.
3. Бажано, щоб сумарний обсяг двох вибірок ≥ 50. Зі збільшенням обсягу вибірки точність критерію підвищується.
4. Емпіричні дані повинні допускати можливість упорядкування за зростанням або зменшенням будь-якої ознаки і обов'язково відображати якусь його односпрямовану зміну. У тому випадку, якщо важко дотриматися принципу впорядкованості ознаки, краще використовувати критерій хі-квадрат.
Цей критерій використовується для вирішення тих самих завдань, що й критерій хі-квадрат. Інакше кажучи, з його допомогою можна поранювати емпіричний розподіл з теоретичним або два емпіричні розподіли один з одним. Однак якщо при застосуванні хі-Квадрат ми зіставляємо частоти двох розподілів, то в даному критерії порівнюються накопичені (кумулятивні) частоти по кожному розряду (альтернативі). При цьому якщо різниця накопичених частот у двох розподілах виявляється великою, то різницю між двома розподілами є суттєвими.
Завдання 8.12.Припустимо, що у експерименті психологу необхідно використовувати шестигранний гральний кубик з цифрами на гранях від 1 до 6. Для чистоти експерименту необхідно отримати «ідеальний» кубик, тобто. такий, щоб при досить великій кількості підкидань, кожна його грань випадала приблизно приблизно однакове число разів. Завдання полягає у з'ясуванні того, чи буде цей кубик близький до ідеального?
Рішення.Підкинемо кубик 120 разів і порівняємо отриманий емпіричний розподіл з теоретичним. Оскільки теоретичний розподіл є рівноймовірним, то відповідні теоретичні частоти дорівнюють 20. Розподіл емпіричних та теоретичних частот представимо спільно у таблиці 8.15:
Для підрахунку за критерієм Колмогорова-Смирнова необхідно провести низку перетворень із даними таблиці 8.15. Подаємо ці перетворення в таблиці 8.16 і пояснимо їх отримання:
Символом FEу таблиці 8.16 будемо позначати накопичені теоретичні частоти. У таблиці вони виходять наступним чином: до першої теоретичної частоти 20, додається друга частота, також дорівнює 20, виходить число 20 + 20 = 40. Число 40 ставиться на місце другої частоти. Потім до 40 додається наступна теоретична частота, отримана величина 60 - ставиться на місце третьої теоретичної частоти і так далі.
Символом FBу таблиці 8.16 позначаються накопичені емпіричні частоти. Для їхнього підрахунку необхідно розташувати емпіричні частоти за зростанням: 15, 18, 18, 21, 23, 25 і потім по порядку скласти. Так, спочатку стоїть перша частота рівна 15, до неї додається друга за величиною частота і отримана сума 15 + 18 = 33 ставиться на місце другої частоти, потім до 33 додається 18 (33 + 18 = 51), отримане число 51 ставиться на місце третьої частоти і т.д.
Символом |FE- FB |у таблиці 8.16 позначаються абсолютні величини різниці між теоретичною та емпіричною частотою по кожному стовпцю окремо.
Емпіричну величину цього критерію, що позначається як Dемп отримують, використовуючи формулу (8.13):
Для її отримання серед чисел | FE - FB |знаходять максимальне число (у нашому випадку воно дорівнює 9) і поділяють його на обсяг вибірки п.У нашому випадку п= 120, тому
Для цього критерію таблиця з критичними значеннями дана в Додатку 1 за № 13. З таблиці 13 Додатка 1 випливає, однак, що в тому випадку, якщо число елементів вибірки більше 100, то величини критичних значень обчислюються за формулою (8.14).
Опис критерію
Класичний критерій Колмогорова (іноді кажуть Колмогорова-Смирнова) призначений для перевірки простих гіпотез про належність аналізованої вибірки деякому повністю відомому закону розподілу.
Нехай - вибірка незалежних однаково розподілених випадкових величин - емпірична функція розподілу - деяка "справжня" функція розподілу з відомими параметрами. Статистика критерію визначається виразом:
Позначимо через гіпотезу у тому, що вибірка підпорядковується розподілу . Тоді за теоремою Колмогорова при справедливості гіпотези, що перевіряється:
0:%20%5Cquad%20%5Clim_%7Bn%20%5Cto%20%5Cinfty%7DP(%5Csqrt%7Bn%7D%20D_n%20%5Cleq%20t)=K(t)=%5Csum_%7Bj=- %5Cinfty%7D%5E%7B+%5Cinfty%7D(-1)%5Ej%20%5Cmathrm%7Be%7D%5E%7B-2j%5E2t%5E2%7D." alt="\forall t >0: \quad \lim_(n \to \infty)P(\sqrt(n) D_n \leq t)=K(t)=\sum_(j=-\infty)^(+\infty)(-1 )^j \mathrm(e)^(-2j^2t^2).">!}Гіпотеза відкидається, якщо статистика перевищує квантиль розподілу заданого рівня значимості і приймається в іншому випадку.
Примітка:У критерії Колмогорова доцільно використати статистику з поправкою Більшова: . Розподіл цієї статистики при справедливості гіпотези, що перевіряється, швидко сходить до розподілу Колмогорова і при 25%20" alt=" n>25"> зависимостью от объема выборки можно пренебречь.!}
Використання критерію перевірки нормальності
В даному випадку критерій Колмогорова використовується для перевірки гіпотези про належність вибірки, що спостерігається, нормальному закону, параметри якого оцінюються за цією самою вибіркою методом максимальної правдоподібності. Тобто перевіряється складна гіпотезаі як оцінки параметрів нормального закону використовуються вибіркові оцінки середнього та дисперсії.
У цьому випадку (Lilliefors) використовувалися модифіковані статистики:
.Критичні значення для статистики наведені в таблиці (Lilliefors):
0,15 | 0,10 | 0,05 | 0,03 | 0,01 | |
0,775 | 0,819 | 0,895 | 0,955 | 1,035 |
Перевірка складних гіпотез
При перевірці складних гіпотез, коли за вибіркою оцінюються параметри закону, з яким перевіряється згода, непараметричні критерії злагоди втрачають властивість свободи від розподілу (Kac, Kiefer, Wolfowitz). При перевірці складних гіпотез умовні розподіли статистик непараметричних критеріїв згоди (і критерію Колмогорова) залежать від ряду факторів: від виду закону, що спостерігається, що відповідає справедливій гіпотезі, що перевіряється; від типу оцінюваного параметра та числа параметрів, що оцінюються; у деяких випадках від конкретного значення параметра (наприклад, у разі сімейств гама- та бета-розподілів); методу оцінювання параметрів.
Відмінності в граничних розподілах тієї ж статистики при перевірці простих і складних гіпотез настільки суттєві, що нехтувати цим у жодному разі не можна.
Про застосування критерію Колмогорова для перевірки різних складних гіпотез див. на сайті Новосибірського державного технічного університету:
- Статистичний аналіз даних, моделювання та дослідження ймовірнісних закономірностей. Комп'ютерний підхід: монографія. - Новосибірськ: Вид-во НДТУ, 2011. - 888 с. (глави 3 та 4)
- Моделі розподілів статистик непараметричних критеріїв згоди під час перевірки складних гіпотез із використанням оцінок максимальної правдоподібності. Ч.I // Вимірювальна техніка. 2009. № 6. - С.3-11.
- Моделі розподілів статистик непараметричних критеріїв згоди під час перевірки складних гіпотез із використанням оцінок максимальної правдоподібності. Ч.II // Вимірювальна техніка. 2009. № 8. - С.17-26.
Література
- Kolmogoroff A.N. Sulla determinazione empirica di una legge di distribuzione // Giornale dell Istituto Italiano degly Attuari. 1933. - Vol. 4. - № 1. - P. 83-91.
- Більшов Л.М., Смирнов Н.В.Таблиці математичної статитики. М: Наука, 1983.
- Lilliefors H.W.На Kolmogorov-Smirnov test для normality з mean and variance unknown // J. Am. Statist. Assoc., 1967. V.62. - P.399-402.
- Kac M., Kiefer J., Wolfowitz J.На Tests of Normality and Other Tests of Goodness of Fit Based on Distance Methods // Ann. Math. Stat., 1955. V.26. - P.189-211.
- Рекомендації щодо стандартизації. Прикладна статистика Правила перевірки згоди дослідного розподілу із теоретичним. Частина ІІ. Непараметричні критерії. - М.: Вид-во стандартів. 2002. - 64 с.
Критерій Колмогорова-Смирнова - непараметричний критерій згоди, в класичному розумінні призначений для перевірки простих гіпотез про належність аналізованої вибірки деякому відомому закону розподілу. Найбільш відомо застосування даного критерію для перевірки досліджуваних сукупностей нормальність розподілу.
1. Історія розробки критерію Колмогорова-Смирнова
Критерій Колмогорова-Смирнова був розроблений радянськими математиками Андрієм Миколайовичем Колмогоровимі Миколою Васильовичем Смирновим.
Колмогоров А.М. (1903-1987) – Герой Соціалістичної Праці, професор Московського державного університету, академік АН СРСР – найбільший математик XX століття, є одним із основоположників сучасної теорії ймовірності.
Смирнов Н.В. (1900-1966) - член-кореспондент АН СРСР, один із творців непараметричних методів математичної статистики та теорії граничних розподілів порядкових статистик.
Згодом критерій згоди Колмогорова-Смирнова був доопрацьований з метою застосування для перевірки сукупностей на нормальність розподілу американським статистиком, професором Університету Джорджа Вашингтона Х'юбертом Ліллієфорсом(Hubert Whitman Lilliefors, 1928-2008). Професор Ліллієфорс був одним із піонерів застосування комп'ютерної техніки у статистичних розрахунках.
Х'юберт Ліллієфорс2. Навіщо використовується критерій Колмогорова-Смирнова?
Цей критерій дозволяє оцінити суттєвість відмінностей між розподілами двох вибірок, у тому числі можливе його застосування для оцінки відповідності розподілу досліджуваної вибірки закону нормального розподілу.
3. У яких випадках можна використати критерій Колмогорова-Смирнова?
Критерій Колмогорова-Смирнова призначений для перевірки сукупностей даних, виміряних у кількісній шкалі.
Для більшої достовірності отриманих даних обсяги аналізованих вибірок має бути досить великими: n ≥ 50. При розмірах оцінюваної сукупності від 25 до 50 елементів доцільно застосування поправки Більшова.
4. Як розрахувати критерій Колмогорова-Смирнова?
Критерій Колмогорова-Смирнова розраховується з допомогою спеціальних статистичних програм. В основі лежить статистика виду:
де sup S - точна верхня грань множини S, F n - функція розподілу досліджуваної сукупності, F(x) - функція нормального розподілу
Значення ймовірності, що виводяться, засновані на припущенні, що середнє і стандартне відхилення нормального розподілу відомі апріорі і не оцінюються з даних.
Однак на практиці зазвичай параметри обчислюються безпосередньо з даних. У цьому випадку критерій нормальності включає складну гіпотезу("наскільки ймовірно отримати D статистику даної або більшої значущості, яка залежить від середнього та стандартного відхилення, обчислених з даних"), і наводяться ймовірності Ліллієфорса (Lilliefors, 1967).
5. Як інтерпретувати значення критерію Колмогорова-Смирнова?
Якщо D статистика Колмогорова-Смирнова значуща, то гіпотеза у тому, що відповідний розподіл нормально, має бути відкинуто.