Ббк 22. 172я73 Рецензент д-р фіз мат наук, проф. Козаченко Ю. В



Сторінка1/3
Дата конвертації22.02.2017
Розмір0.49 Mb.
  1   2   3


УДК 519.22.35(075.8)

ББК 22.172я73

Рецензент

д-р фіз.-мат. наук, проф. Козаченко Ю.В.



Майборода Р.Є., Сугакова О.В.
Статистичний аналіз даних за допомогою пакета STATISTICA : Навчальний посібник

Описано статистичний аналіз даних за допомогою пакета STATISTICA. Містить розбір численних прикладів.

Для студентів кваліфікаційного рівня «бакалавр» та «магістр» всіх спеціальностей, які прослухали курс математичної статистики і спрямовані на оволодіння прикладними (комп’ютерними) аспектами статистичного аналізу даних.

Затверджено вченою радою радіофізичного факультету

(протокол №8 від 13 лютого 2012 року)
УДК 519.22.35(075.8)

ББК 22.172я73


© Майборода Р.Є., Сугакова О.В., 2012

© Видавнича лабораторія радіофізичного факультету



Київського університету імені Тараса Шевченка

Вступ
Сучасну статистику неможливо уявити без комп’ютерної обробки великих масивів даних із застосуванням спеціального програмного забезпечення. Даний посібник являє собою рекомендації до вивчення пакету «STATISTICA6». Головну увагу приділено висвітленню практичного аспекту застосування пакету, містить розбір численних прикладів. Файли з даними, які використовуються в прикладах, або є стандартними і знаходяться в папці STATISTICA6\Examples\Datasets, або пропонуються авторами у вигляді додаткових матеріалів до розробки і знаходяться на сайті http://matphys.rpd.univ.kiev.ua/ukr/courses/mmatstat.html. Відмітимо, що на даний час існують більш нові версії пакету STATISTICA, однак статистичний аналіз даних у розглядуваних нами областях за допомогою цих версій практично не відрізняється від роботи у шостій версії.

Посібник написаний на основі курсів лекцій і лабораторних занять, які автори впродовж багатьох років вели на радіофізичному і механіко-математичному факультетах Київського національного університету імені Тараса Шевченка. Призначений для магістрів першого року навчання всіх спеціальностей або бакалаврів, які прослухали курс математичної статистики, тому не містить розширеного викладення теоретичних засад статистичних методів.



1. Робота з даними
Для того, щоб мати змогу проводити статистичний аналіз даних у пакеті STATISTICA, потрібно або завантажити у пакет який-небудь вже існуючий файл з даними, або створити новий.

Для того, щоб відкрити вже існуючий файл, можна вибрати у головному меню: File->Open. Учбові дані пакету STATISTICA 6 знаходяться у папці STATISTICA6\Examples\Datasets, яка зазвичай буває розміщена у папці Program Files на жорсткому диску комп’ютера.

Для створення нового файлу можна вибрати File->New.

Після того, як файл завантажений або створений, можна почати статистичний аналіз. Для цього виберемо на верхній панелі меню Statistics. Нам пропонують обрати один з модулів для подальшої роботи.




Опис модулів

Basic Statistics/Tables

Описова статистика

Multiply Regression

Множинна регресія

ANOVA

Дисперсійний аналіз

Nonparametrics

Непараметричні тести

Distribution Fitting

Підгонка експериментальних кривих

Advanced Linear/Nonlinear Models

Аналіз часових рядів, нестан-дартні типи регресій і т.д.

Multivariate Exploratory Techniques

Дискримінантний аналіз. Кластерний аналіз. Факторний аналіз.

Робота зі змінними. Стандартна таблиця даних, що створюється за умовчанням, має розмір 10х10, де стовпчики відповідають різним змінним (Var1,…,Var10), рядки – різним спостережуваним об’єктам або випадкам (Cases).

Додавання нової змінної: Vars->Add (або Data->Vars->Add). У вікні, що з’явилося, вказуємо: скільки змінних хочемо додати, після якої змінної, її ім’я і тип даних.

Переміщення змінної: Vars->Move (або Data->Vars->Move).

Вказуємо, з якої по яку змінну хочемо перемістити і після якої змінної їх вставити.



Аналогічно виконуються операції копіювання і знищення змінної. (Data->Vars->Copy, Data->Vars->Delete).



Робота з рядками таблиці (Сases)

Над рядками таблиці можна виконувати аналогічні дії за допомогою Сases або Data->Cases->…



Специфікація змінної

Якщо ми хочемо довідатися все про певну наявну змінну, то підводимо курсор до її імені, натискаємо па праву кнопку та обираємо в меню Variable Spec. На екрані з’являється вікно опису змінної




Отже, змінна має такі характеристики:

A

Тип шрифта

Name

Ім’я

Type

Тип даних – число подвійної точності, байт, ціле число, текст

MD сode

(missing data code) – значення, яке за умовчанням присвоюється змінній, якщо її справжнє значення відсутнє з якихось причин.

Length

Ширина колонки даної змінної.

Display format

Формат відображення числа.

Long name

Поле, в якому можна задавати формулу для обчислення значення даної змінної.

Кнопки <<,>> здійснюють перехід до специфікацій сусідніх змінних.

All specs відкриває таблицю з усіма специфікаціями змінних.
Values/Stats відображає «швидку статистику» - середнє, стандартне відхилення та ін.

Якщо ви змінили дані і треба перерахувати якусь змінну, треба натиснути Vars->Recalculate.


Ранжування змінної: (Це впорядкування за зростанням чи спаданням. Воно виражається в присвоєнні кожному значенню певного рангу – порядкового номера в списку впорядкованих значень.) Натискаємо Var->Rank.

Обираємо: ранжування за зростанням чи спаданням за допомогою Assign rank 1 to, Rank for ties: sequantial – якщо ми хочемо, щоб однакові значення мали послідовні значення рангу; mean – якщо ми хочемо, щоб однакові значення мали однаковий усереднений ранг (тобто середнє арифметичне від того, що отримано у випадку sequantial).
Інколи потрібно значення змінної розбити на групи (наприклад, в залежності від температури віднести людину до групи здорових, хворих чи тяжкохворих). Значення температури знаходиться в Var1. Копіюємо в Var2, натискаємо Vars->Recode. Заповнюємо поля наступним чином


Бачимо, що всі значення, які були не більші за 37,5, замінилися на 1 (здорові), ті, що були в межах від 37,5 до 38,5, замінилися на 2(хворі), ті, що були більші за 38,5 – стали 3 (тяжкохворі). А тепер ми хочемо перейменувати групи, щоб було зручніше з ними працювати. Переходимо Data->Text Labels Editor і вводимо назви груп для відповідних номерів. Замість 1,2,3 з’являться назви груп.

Заповнення випадковими числами: якщо виділити стовпчик зі змінною, натиснути на праву кнопку миші, перейти Fill/Standartize Block->Fill Random Values, то змінна заповниться значеннями випадкової величини, рівномірно розподіленої на [0,1].

Заповнення однаковим значенням: набираємо значення, яким ми хочемо заповнити змінну, в першій клітинці. Виділяємо стовпчик, клацаємо на праву кнопку миші, Fill/Standartize Block->Fill/Copy Down. З рядками можна оперувати аналогічно, тільки виділити рядок, далі Fill/Standartize Block->Fill/Copy Right.

Заповнення арифметичною прогресією: в перших двох клітинках вводимо два перших члени арифметичної прогресії, виділяємо ці клітинки, переміщуємо курсор у правий нижній кут нижньої клітинки – він перетворюється на хрестик, і тягнемо вниз з натиснутою лівою кнопкою миші до кінця стовпчика.

Зсув всіх даних вниз на кілька позицій: виділити стовпчик, Vars->Shift(Lag).

Стандартизація змінної (перетворення , де - середнє, - середньоквадра-тичне відхилення): Vars->Standartize.

Генерація даних, розподілених за певним законом. Якщо ми хочемо якусь змінну заповнити, наприклад, вибіркою, нормально розподіленою з параметрами , то ми повинні в специфікації змінної в полі Long Name написати =VNormal(rnd(1);0;1). Якщо заповнення не відбудеться відразу, то треба перерахувати змінну за допомогою Recalculate.

Інші закони розподілу задаються аналогічно, наприклад:



=rnd(5)

Рівномірний розподіл на

=VNormal(rnd(1);2;3)

Нормальний з параметрами

=VExpon(rnd(1);1/2)

Експоненціальний розподіл з

=VLognormal(rnd(1);0,5;0,5)

Логнормальний з параметрами 0,5;0,5

=VCauchy(rnd(1);0;1)

Розподіл Коші з параметрами 0;1.

=VChi2(rnd(1);8)

Розподіл χ2 з 8 степенями свободи

Для створення звіту - файлу, в якому будуть записані всі результати, натискаємо File-> Output Manager, відмічаємо Also send to Report Window, Single Report. Файли з даними у вигляді таблиць мають розширення .sta, а файли робочих книг та звітів .stw.

Вилучення викидів
Викиди можна побачити на P-P та Q-Q діаграмах, вусатих коробочках. Якщо ми хочемо вилучити з розгляду викид, наприклад, дуже велике значення, не прибираючи його з даних, то можна перейти Statistics->Basic Statistics/Tables->Descriptive statistics. Відмічаємо змінну.

На закладці Quick натиснути на кнопку Summary:Descriptive statistics.



Одразу бачимо величину викиду – 800 – як максимальне значення з елементів вибірки. Вилучимо з нашого подальшого розгляду всі значення, які більше за 1. Для цього натиснемо на кнопку CASES поряд з гирею.


Відмітимо галочкою Enable Selection Conditions. У віконці Exclude cases By expression поставимо умову Var1>1. Натискаємо ОК. Тепер елементи вибірки, >1, з розгляду вилучаються. Тепер значення максимуму, як ми бачимо, =0,800001.


2. Описова статистика
Робота з калькулятором : якщо треба знайти квантиль певного розподілу, подивитись на графік теоретичної функції розподілу або обчислити її значення в певній точці, використовують ймовірнісний калькулятор Statistics->Probability Calculator->Distribution

Панель Distribution дозволяє подивитись на графік щільності та функції розподілу, параметри розподілу задаємо в останньому стовпчику справа. Для обчислення значення функції розподілу задаємо значення, натискаємо Compute, отримуємо p. Для квантилю рівня р аналогічно: набираємо р, натискаємо Compute. Також можна отримати двосторонню квантиль (two-tailed). Якщо відмітити Create Graph і натиснути Compute, отримаємо графік.




Приклад 2.1 Відкриємо файл Adstudy.sta, в якому зібрані дані про оцінки чоловіками і жінками реклами напоїв Pepsi та Coke. Кожний опитуваний оцінював рекламу по різних показниках, виставляючи оцінку від 1 до 9. Натиснемо Statistics-> Basic Statistics/Tables->Descriptive Statistics. В полі Variables вказуємо 3-Measure01.


Найбільш вживані описові статистики знаходяться на вкладці Quick. Натиснувши кнопку Frequency Tables, отримаємо таблицю частот для нашої вибірки.



Натиснувши кнопку Histograms, отримаємо гістограму, на якій знаходиться підігнана крива нормального розподілу.



Натиснемо Box&whisker plot for all variables – з’явиться вікно з рисунком коробки з вусами, в якій маленький прямокутник відповідає значенню медіани, великий прямокутник – верхній та нижній квартилі, а вуса – найменшому та найбільшому значенню вибірки.



Зазначимо, що вусаті коробочки можна будувати в інший спосіб. Для цього перейдемо Graphs->2DGraphs->Box Plots.


Як ми бачимо, нам пропонують «вусату коробочку» такого самого вигляду, як ми будували. А ми, наприклад, хочемо, щоб центральна точка показувала не медіану, а середнє, мат. сподівання, прямокутник відповідав би – Mean-SE та Mean+SE, а вуса відповідали б Mean-SD та Mean+SD, де SE-standard error (дорівнює , n – об’єм вибірки, - вибіркова дисперсія); SD-standard deviation (дорівнює ). Для цього обираємо Middle point Value: Mean. Потім ОК. Вусата коробочка набуде вигляду, як на малюнку.



Вусаті коробочки можна будувати на одному графіку за допомогою закладки Categorized .Для побудови P-P діаграми у вікні Descriptive Statistics Prob.& Scatterplots натиснемо Normal Probability Plots.



Точки на діаграмі лежать поблизу червоної лінії, отже, бачимо, що розподіл більш-менш близький до нормального.


Для побудови Q-Q діаграми переходимо Graphs->2D Graphs->Quantile-Quantile Plots. Перейдемо на закладку Advanced, за допомогою Variables задаємо змінну MEASURE01. В полі Distribution вибираємо розподіл, на відповідність якому ми хочемо перевірити змінну. ОК.

На діаграмі видно, що експоненційний розподіл погано відповідає нашим даним.




3. Проста лінійна регресія

Приклад 3.1 Створимо новий файл, в якому змінну Var1 заповнимо послідовно значеннями від 0 до 10, змінну Var2 – випадковими значеннями від 0 до 1, а Var3 задамо як Var1+Var2.

Передусім ми хочемо побудувати діаграму розсіювання даних, а також графік регресійної прямої Var3 на Var1. Перейдемо Statistics->Basic statistics/Tables-> Descriptive statistics->Prob.&Scatterplots.



Як Variables вибираємо Var1-Var3, натискаємо 2D scatterplot.




В першому списку змінних вказуємо Var1, в другому – Var3, потім ОК. З’являється графік діаграми розсіювання і регресійної прямої, а також рівняння відповідної регресії.

Якщо у змінній Var3 замінити одне зі значень, наприклад, на 70 і побудувати графік знову, то він буде геть іншим.


Очевидно, що 70 є викидом. Спробуємо вилучити викид з даних: побудуємо регресійну пряму без врахування 5-го спостереження, яке відповідає значенню 70. Для цього натиснемо кнопку SELECT CASES, яка знаходиться поряд з гирею у вікні Descriptive statistics. Поставимо галочку навпроти Enable Selection Conditions, а в рядку or case number поставимо 5.




Натискаємо ОК, а потім знов будуємо діаграму розсіювання – 2D scatterplot. Діаграма знов буде схожа на ту, яка була перед введенням викиду.
4. Множинна регресія
Приклад 4.1 Нижче наведені дані про капітальні витрати на будівництво атомних електростанцій з реактором водяного охолодження. Дані зібрані для 32 станцій США.



Price

D

T1

T2

S

PR

NE

CT

BW

N

PT

1

460.05

68.58

14

46

687

0

1

0

0

14

0

2

452.99

67.33

10

73

1065

0

0

1

0

1

0

3

443.22

67.33

10

85

1065

1

0

1

0

1

0

4

652.32

68.00

11

67

1065

0

1

1

0

12

0

5

642.23

68.00

11

78

1065

1

1

1

0

12

0

6

345.39

67.92

13

51

514

0

1

1

0

3

0

7

272.37

68.17

12

50

822

0

0

0

0

5

0

8

317.21

68.42

14

59

457

0

0

0

0

1

0

9

457.12

68.42

15

55

822

1

0

0

0

5

0

10

690.19

68.33

12

71

792

0

1

1

1

2

0

11

350.63

68.58

12

64

560

0

0

0

0

3

0

12

402.59

68.75

13

47

790

0

1

0

0

6

0

13

412.18

68.42

15

62

530

0

0

1

0

2

0

14

495.58

68.92

17

52

1050

0

0

0

0

7

0

15

394.36

68.92

13

65

850

0

0

0

1

16

0

16

423.32

68.42

11

67

778

0

0

0

0

3

0

17

712.27

69.50

18

60

845

0

1

0

0

17

0

18

289.66

68.42

15

76

530

1

0

1

0

2

0

19

881.24

69.17

15

67

1090

0

0

0

0

1

0

20

490.88

68.92

16

59

1050

1

0

0

0

8

0

21

567.79

68.75

11

70

913

0

0

1

1

15

0

22

665.99

70.92

22

57

828

1

1

0

0

20

0

23

621.45

69.67

16

59

786

0

0

1

0

18

0

24

608.80

70.08

19

58

821

1

0

0

0

3

0

25

473.64

70.42

19

44

538

0

0

1

0

19

0

26

697.14

71.08

20

57

1130

0

0

1

0

21

0

27

207.51

67.25

13

63

745

0

0

0

0

8

1

28

288.48

67.17

9

48

821

0

0

1

0

7

1

29

284.88

67.83

12

63

886

0

0

0

1

11

1

30

280.36

67.83

12

71

886

1

0

0

1

11

1

31

217.38

67.25

13

72

745

1

0

0

0

8

1

32

270.71

67.83

7

80

886

1

0

0

1

11

1
  1   2   3


База даних захищена авторським правом ©lecture.in.ua 2016
звернутися до адміністрації

    Головна сторінка