Ббк 22. 172я73 Рецензент д-р фіз мат наук, проф. Козаченко Ю. В



Сторінка3/3
Дата конвертації22.02.2017
Розмір0.49 Mb.
1   2   3

6. Критерій χ2 (Пірсона)
а) Критерій згоди χ2
Критерій χ2 дозволяє перевірити узгодженість результатів вимірювань з тим чи іншим статистичним розподілом.

Приклад 6.1. Наводимо величини е, знайдені Р. Міллікеном при визначенні заряду електрона, який дорівнює од. СГСЕ.

4,7 4,74 4,747 4,749 4,758 4,761 4,764 4,764 4,764 4,765 4,767 4,768 4,769 4,769 4,771 4,771 4,772 4,772 4,772 4,774 4,775 4,775 4,776 4,777 4,777 4,778 4,779 4,779 4,779 4,781 4,781 4,782 4,783 4,783 4,785 4,785 4,785 4,788 4,788 4,789 4,789 4,79 4,79 4,791 4,791 4,791 4,792 4,792 4,795 4,797 4,799 4,799 4,801 4,805 4,806 4,808 4,809 4,81


Перевірити гіпотезу про нормальний розподіл результатів вимірювань величини е при визначенні заряду електрона.
Висуваємо гіпотезу

Н0: генеральна сукупність розподілена нормально.

Створюємо файл з даними, задаючи тільки одну змінну (Можна скористатись файлом xikvadr(zaryad).sta). Натискаємо Statistics->Distribution Fitting.



Відмічаємо розподіл Normal. Відмічаємо нашу змінну. Потім натискаємо на Summary: Observed and expected distribution





Бачимо, що досягнутий рівень значущості дорівнює . Гіпотезу про нормальність приймаємо.

Тепер аналогічним чином перевіряємо гіпотезу про рівномірний розподіл вибірки (Rectangular). Досягнутий рівень значущості дорівнює . Гіпотезу про рівномірну розподіленість відхиляємо.
б) Критерій χ2 для гіпотези незалежності випадкових величин
Приклад 6.2. У таблиці наведені дані про 1426 ув’язнених, яких було класифіковано щодо алкогольної залежності (алкоголік, неалкоголік) і характеру злочинів, за які їх засудили. Чи можна на підставі цих даних дійти висновку про наявність зв’язку між алкоголізмом і характером злочину?

Вид злочину

Алкоголіки

Неалкоголіки

1.Підпал

50

43

2.Згвалтування

88

62

3.Насильницькі дії

155

110

4.Крадіжка

379

300

5.Виготовлення фальшивих грошей

18

14

6.Шахрайство

63

144

Висуваємо гіпотезу

Н0: вид злочину і алкогольна залежність не пов’язані між собою.

Створюємо файл з даними, задаючи три змінні : Vid, Alcohol і n. (Можна скористатись файлом Hikvadr_nezal.sta). Перша змінна може приймати значення від 1 до 6 – задає вид злочину, друга від 1 до 2 – несе інформацію про алкогольну залежність, а третя n задає відповідні частоти.



Для того, щоб перевірити гіпотезу за критерієм χ2, здійснюємо наступні дії. Натискаємо Statistics->Basic Statistics/Tables->Tables and Banners->OK->Specify tables



Відмічаємо змінні Vid у першому i Alcohol у другому вікнах. ОК.

Потім натискаємо на гирю, яка знаходиться у правому нижньому куточку з написом W. Виставляємо Status в «on», Weight variable задаємо як n, потім натискаємо ОК, знов ОК.



На закладці Options відмічаємо Pearson & M-L Chi-square. Переходимо на закладку Advanced і натискаємо Detailed two-way tables.






В першому рядочку бачимо, що значення статистики χ2=49,73061, число ступенів свободи=5, досягнутий рівень значущості 0. Отже, гіпотезу про відсутність зв’язку відхиляємо, зв’язок є.
7. Критерій Колмогорова
Критерій Колмогорова, як і критерій χ2, дозволяє перевірити узгодженість результатів вимірювань з тим чи іншим статистичним розподілом, але цей розподіл обов’язково повинний бути неперервним.

Для застосування цього критерію треба перейти Statistics-> Distribution Fitting. Потім відмітити розподіл, на узгодженість з яким ви перевіряєте ваші дані. ОК. Відмітити змінну. На закладці Options відмітити: Kolmogorov-Smirnov test – Yes(continuous), Plot distribution – Cumulative distribution, Chi-Square test – зняти галочку. Ще треба вказати кількість інтервалів групування на закладці Parameters – Number of categories (напр., 15 штук).





Оскільки в другому рядочку написано про рівень значущості - несуттєвий, то гіпотезу про узгодженість розподілів приймаємо.


8. Дисперсійний аналіз
Дисперсійний аналіз – це сукупність методів, які дозволяють перевіряти: чи змінюється середнє значення характеристик деяких об’єктів в залежності від дії деякого фактора або кількох факторів.
а) Однофакторний дисперсійний аналіз
Нехай ми маємо k рівнів фактора. Специфікація моделі має вигляд

,

де - середнє значення, обчислене при му рівні фактора; - випадкова величина, результат впливу неврахованих факторів, розподілена .



Приклад 8.1. Куріння вважається головним фактором, що сприяє хронічним захворюванням легенів. А пасивне куріння таким фактором зазвичай не вважається. Для характеристики стану дихальних шляхів взяли один з показників функції дихання – максимальну об’ємну швидкість середини видиху, яку вимірювали під час профілактичного огляду співробітників підприємства. Зменшення цього показника – ознака порушення прохідності дихальних шляхів. Дані обстеження наведені в таблиці.

Група (фактор)

Максимальна об’ємна швидкість середини видиху (л/с) (Vidih)

1. Некурящі, працюють в помешканні, де не палять (n=10)

3,548; 2,1874; 3,1646; 3,4153; 3,5168; 2,6718; 3,4502; 2,5873; 3,4662; 3,3884

2. Некурящі, працюють в накуреному помешканні (n=10)

2,7941; 2,5126; 2,3435; 3,1944; 2,5801; 3,5152; 3,1748; 3,1443; 2,8229; 2,9739

3. Курці, що викурюють невелику кількість цигарок (n=10)

1,8486; 3,1194; 2,961; 1,4257; 2,747; 2,0553; 1,6891; 1,6228; 1,933; 2,8235

4. Курці, що викурюють середню кількість цигарок (n=10)

2,5115; 2,285; 1,3353; 2,9383; 2,3571; 1,3424; 2,0629; 2,7382; 2,3747; 2,1532

5. Курці, що викурюють велику кількість цигарок (n=10)

1,7544; 2,4652; 1,6647; 1,8542; 2,9761; 2,5873; 2,8684; 3,5921; 0,9386; 2,2418

Перевіряємо гіпотезу про рівність середніх в кожній з 5-ти груп, що відповідають п’яти рівням фактора. Тобто, якщо приймаємо гіпотезу H0– впливу фактора немає.



.
Створюємо файл з даними, змінна Vidih відповідає максимальній об’ємній швидкості середини видиху; змінна Kurinnya відповідає рівню фактора і приймає значення 1-5. Заходимо в модуль ANOVA, обираємо тип аналізу One-way ANOVA


Відмічаємо відповідні змінні – залежну (Vidih) і ту, що відповідає за фактор (Kurinnya).


Натискаємо ОК, і знов ОК. Далі натискаємо All effects. Отримуємо:


Оскільки досягнутий рівень значущості - гіпотезу Н0 відхиляємо, приймаємо альтернативну гіпотезу про нерівність середніх при різних рівнях фактора. Фактор впливає на досліджувану змінну.
б) Двофакторний дисперсійний аналіз
Нехай на досліджувану ознаку впливають одразу 2 фактори A і B. Ми маємо p рівнів фактора A і q рівнів фактора B. Таким чином, кожне спостереження залежить від трьох індексів – рівня фактору А, рівня фактору В і номера спостереження. Специфікація моделі має вигляд

,

де - загальне середнє, - ефекти впливу факторів А і В відповідно; - ефект взаємодії;- випадкова величина, результат впливу неврахованих факторів (неспецифічна компонента), розподілена .



Приклад8.2. Досліджувався вплив факторів на рейтинг правих політичних партій (у %). Фактор A відповідає віку респондентів (A1-в діапазоні 20-35 років; A2 - 36-50 років; A3 – 51-70 років). Фактор B відповідає регіону, де проводилося опитування ( B1-західний регіон; B2-центральний; B3-східний).

В\А

А1

А2


А3



В1


25,2 10,2 5,4 13,2 18,2 5,2 13,4 15,2 4,5 19,2


4,3 10,5 20,3 32,4 5,6 12,4 6,2 9,8 16,8 18,4


14,3 10,6 28,4 10,8 7,4 6,5 4,5 26,3 30,2 11,8



В2


10,6 8,4 11,2 4,6 5,8 18,2 16,4 13,2 4,8 8,9


12,4 4,3 13,2 5,6 8,9 14,8 22,3 6,8 7,2 11,4


6,2 7,5 3,5 12,4 13,5 16,4 7,9 8,9 15,4 10,8



В3



2,5 6,4 12,5 14,8 12,3 8,5 5,9 8,9 15,4 12,8


4,5 4,9 12,3 15,6 7,9 8,9 9,8 13,9 4,2 6,9


14,8 2,9 5,9 10,6 8,5 13,4 2,2 19,5 7,9 9,9


Створюємо файл з даними, змінна Reyting відповідає відносній кількості мешканців, які на наступних виборах збираються голосувати за праву політичну партію; також задаємо змінні Factor A і Factor B.


Заходимо в модуль ANOVA, обираємо тип аналізу Factorial ANOVA:

Відмічаємо відповідні змінні – залежну (Reyting) і обидві, що відповідають за фактори (Factor A, Factor B).

Потім натискаємо ОК, знову ОК і All effects. Отримуємо





Бачимо, що досягнутий рівень значущості - отже, гіпотезу про відсутність впливу фактора А на рейтинг приймаємо, рейтинг правих політичних сил не залежить від віку опитаних. Для фактору В досягнутий рівень значущості . Отже, якщо ми приймемо рівень значущості 0,01, то вважаємо, що впливу фактора В немає, якщо приймемо - вважаємо, що вплив фактора В на Reyting присутній.
9. Факторний аналіз
Факторний аналіз – метод багатовимірного аналізу, який дозволяє дослідити структуру зв’язку між змінними. В деяких задачах він дозволяє суттєво зменшити число регресорів в моделі і вилучити з моделі мультиколінеарність.

Нехай в нашій вибірці присутні n об’єктів, кожний має d змінних-характеристик . Розглядаємо модель з такою специфікацією



.

Тут - середнє по j-тій змінній, називається навантаженням на j-ту змінну, - фактором, - стохастична компонента - називається специфічністю.


Приклад 9.1. Розкриємо файл testscores.sta. Маємо дані про оцінки 25 студентів з дисциплін «Диференціальна геометрія» (difgeom), «Комплексний аналіз» (complex), «Алгебра» (algebra), «Математичний аналіз» (reals), «Статистика» (statistics). Ми хочемо побудувати лінійну модель залежності оцінки зі статистики від інших оцінок. Статистика вивчається на 5 курсі, в магістратурі. А всі інші предмети здаються раніше, в бакалавраті. Нам треба по оцінках студента-бакалавра спрогнозувати – чи буде він мати достатньо високі оцінки зі статистики в магістратурі, чи доцільно його туди приймати?

Спершу побудуємо модель множинної регресії






Парадокс: коефіцієнт детермінації досить великий , а при цьому жодна змінна не є значущою. Це свідчить про високий рівень мультиколінеарності в моделі. Наявна сильна попарна кореляція. Подивимося на кореляційну матрицю змінних. Перейдемо Statistics->Basic Statistics/Tables->Correlation matrices



Відмічаємо One variable list, відмічаємо список з чотирьох змінних, натискаємо ОК, потім Summary, маємо:

Спробуємо розв’язати задачу по-іншому, спираючись на модель з факторного аналізу. Ми припускаємо, що наші 4 змінні залежать від факторів, яких ми не можемо спостерігати.


Переходимо Statistics-> Multivariate Exploratory Techniques->Factor Analysis. Відмічаємо наші 4 пояснюючі змінні.

На закладці Advanced відмічаємо метод Principal components (метод головних компонент) , Максимальна кількість факторів Max. no of factors: 4; мінімальне власне значення матриці навантажень Mini. eigenvalue: 0. Натискаємо ОК.


На закладці Quick натискаємо Eigenvalues.


Бачимо, що 4 фактори пояснюють всю дисперсію, але вже перший фактор пояснює 82,56% дисперсії. Спробуємо задати 2 фактори.

2 фактори пояснюють 91% дисперсії. Мабуть, на такій кількості факторів треба зупинитись. На закладці Loadings натискаємо на Summary: Factor loadings





Бачимо, що основне навантаження сконцентроване на факторі 1.

Тепер застосовуємо обертання. Задаємо Factor rotation як Varimax normalized на закладці Quick і натискаємо на Summary.


Як бачимо, difgeom, complex тісно пов’язані з першим фактором, algebra, reals – з другим. Подивимось на відповідний графік. На закладці Loadings натиснемо на Plot of load 2D. Отримуємо




Для отримання значень факторів на закладці Scores переходимо до Factor Scores.


Наша мета – знайти формулу для прогнозування оцінки зі статистики. Копіюємо значення факторів у дві нові змінні – Factor1 та Factor2 і будуємо модель з двома регресорами. Як ми бачимо, модель вдала – всі змінні є значущими, коефіцієнт детермінації майже не змінився, .


Прогноз можна здійснювати за формулою
.
Проблема виникає тільки в тому, що ми не знаємо значень та для нових об’єктів. Їх треба виразити через оцінки difgeom, complex, algebra, reals. Для цього на закладці Scores треба клацнути на кнопку Factor score coefficients.



Значення факторів обчислюємо за формулами

Тут - відповідні вибіркові середньоквадратичні відхилення.

Зміст



Вступ ………………………………………………………………..

3

1.Робота з даними ………………………………………………….

3

2.Описова статистика ……………………………………………...

10

3.Проста лінійна регресія ………………………………………….

16

4.Множинна регресія …………………………………………........

19

5.Нелінійна регресія ……………………………………………….

28

6.Критерій χ2 (Пірсона) ……………………………………….........

а)Критерій згоди χ2…………………………………………

б)Критерій χ2 для гіпотези незалежності випадкових величин …………………………………………………….


44

44
45



7.Критерій Колмогорова…………………………………………...

48

8.Дисперсійний аналіз…………………………………………....... а)Однофакторний дисперсійний аналіз…………………..

б) Двофакторний дисперсійний аналіз ………………........



49

49

51



9.Факторний аналіз ………………………………………………...

53

Література …………………………………………………………..

60



Література


  1. Кокс Д., Снелл Э. Прикладная статистика. Принципы и примеры. - М.: "Мир", 1984.

  2. Турчин В.М. Теорія ймовірностей і математична статистика. Основні поняття, приклади, задачі: Підручник. – Д.: Вид-во Дніпропетр. нац. ун-ту, 2006. – 476 с.

  3. Гланц С. Медико-биологическая статистика. – М.:Практика, 1998. – 459 с.

  4. Майборода Р.Є. Регресія: Лінійні моделі: Навчальний посібник. – К.:ВПЦ «Київський університет», 2007. – 296 с.

  5. Оленко А.Я. Комп’ютерна статистика: Навчальний посібник. – К.:ВПЦ «Київський університет», 2007. – 174 с.

  6. Мамчич Т., Оленко А., Осипчук М., Шпортюк В. Статистичний аналіз даних з пакетом STATISTICA. – Дрогобич: Відродження, 2006.

  7. StatSoft’s Electronic Statistics Textbook (http://www.statsoft.com/textbook/stathome.html)


Навчальне видання

МАЙБОРОДА Ростислав Євгенович

СУГАКОВА Олена Володимирівна

СТАТИСТИЧНИЙ АНАЛІЗ ДАНИХ

ЗА ДОПОМОГОЮ ПАКЕТУ

STATISTICA

Підписано до друку 12.10.2012. Формат 60х8016.

Гарнітура Times. Папір офсетний. Друк офсетний.

Наклад 30 примірників. Ум. друк. арк. 4.
Видавнича лабораторія радіофізичного факультету

Київського національного університету імені Тараса Шевченка



1   2   3


База даних захищена авторським правом ©lecture.in.ua 2016
звернутися до адміністрації

    Головна сторінка