-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathbook_1_3.html
812 lines (613 loc) · 90.3 KB
/
book_1_3.html
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>Исследовательский анализ данных</title>
<meta name="description" content="Базовые статистики одномерного исследовательского анализа, Двумерный исследовательский анализ" />
<link rel="canonical"
href="https://www.example.com/keywords.html" >
<link rel="stylesheet" type="text/css" href="style.css">
<link rel="preload" href="c:/fonts/montserrat/montserrat.woff2" as="font">
<link href= "https://fonts.fontstorage.com/import/montserrat.css">
<style>
* {
box-sizing: border-box;
}
figure {
width: 47%; /* Ширина если надо расположить 2 картинки в ряд*/
float: left; /* Выстраиваем элементы по горизонтали */
margin: 0 0 0 0%; /* Отступ слева */
text-indent: 0px; /* убираем отступ для картинки как ни странно */
/* background: #f0f0f0; /* Цвет фона */
border-radius: 1px; /* Радиус скругления */
padding: 1%; /* Поля */
}
figure:first-child {
margin-left: 0; /* Убираем отступ для первого элемента */
}
picture {
width: 30%; /* Ширина если надо расположить 3 картинки в ряд*/
float: left; /* Выстраиваем элементы по горизонтали */
margin: 0 0 0 0%; /* Отступ слева */
text-indent: 0px; /* убираем отступ для картинки как ни странно */
/* background: #f0f0f0; /* Цвет фона */
border-radius: 1px; /* Радиус скругления */
padding: 1%; /* Поля */
}
picture:first-child {
margin-left: 0; /* Убираем отступ для первого элемента */
}
image {
width: 100%; /* Ширина если надо расположить 1 картинки в ряд*/
float: left; /* Выстраиваем элементы по горизонтали */
margin: 0 0 0 0%; /* Отступ слева */
text-indent: 0px; /* убираем отступ для картинки как ни странно */
/* background: #f0f0f0; /* Цвет фона */
border-radius: 1px; /* Радиус скругления */
padding: 1%; /* Поля */
}
</style>
</head>
<div class="sidenav">
<a href="#h1">I. ОСНОВЫ ПРОСТРАНСТВЕННОГО АНАЛИЗА</a>
<a href="#h2">3. ИССЛЕДОВАТЕЛЬСКИЙ АНАЛИЗ ДАННЫХ</a>
<a href="#h3_1">3.1. Набор переменных для изучения феномена преступности в Нью-Йорке</a>
<a href="#h3_2">3.2. Базовые статистики одномерного исследовательского анализа</a>
<a href="#h3_3">3.3. Характеристики переменных</a>
<a href="#h3_4">3.4. Двумерный исследовательский анализ</a>
</div class="sidenav">
<div class="content">
<h1 id="h1">I. ОСНОВЫ ПРОСТРАНСТВЕННОГО АНАЛИЗА</h1>
<h2 id="h2"> 3. ИССЛЕДОВАТЕЛЬСКИЙ АНАЛИЗ ДАННЫХ</h2>
<h3 id="h3_1">3.1. Набор переменных для изучения феномена преступности в Нью-Йорке</h3>
<p>Исследовательский анализ данных рассматривается в данном разделе на примере двух феноменов (или явлений) - преступности и заболеваемости в Нью-Йорке.
Показатели, отражающие эти феномены выступают в выстраиваемой здесь модели как <strong>зависимые переменные</strong>; их называют также <strong>переменная-отклик</strong>, <strong>объясненная переменная</strong> и обычно обозначают как <strong>Y-переменные</strong>. Остальные переменные будут привлекаться как <strong>независимые переменные</strong> (<strong>факторы</strong>, или <strong>предикторы</strong> или <strong>объясняющие</strong> <strong>X-переменные</strong>). Понятно, что зависимые переменные в одном исследовании могут выступать как независимые (объясняющие) в другом <a href="BIBLIO.html#Бослаф_2015">[Бослаф, 2015]</a>.</p>
<p>Для демонстрации возможностей исследовательского анализа (<span class="blackbold">ESDA</span>) мы будем использовать файл кварталов <span class="monospace">tracts</span> Нью-Йорка, полученный из стандартного файла <span class="backgreen">NYCTRACTs.shp </span><a href="BIBLIO.html#NYCCT">[New York City Census Tracts (2020 US Census)]</a>, а также файла <a href="https://geodacenter.github.io/data-and-lab//NYC_Tract_ACS2008_12/">NYC_Tract_ACS2008_12</a> с добавленными из различных источников и специально рассчитанными переменными <a href="#Таблица 3.1">(Таблица 3.1)</a>.</p>
<a id="Таблица 3.1"><span class="imgtitle">Таблица 3.1 Переменные, используемые для геопространственного анализа в модели Нью-Йорка</span>
<div class="table">
<table id="customers">
<table border="1">
<tr>
<th>№</th>
<th>Поле</th>
<td>Description</td>
<th>Описание</th>
</tr>
<tr>
<th colspan="4"style="text-align:center">Этно-демографические факторы</th>
</tr>
<tr>
<td>1</td>
<td>poptot</td>
<td>Total Population</td>
<td>Общая численность населения</td>
</tr>
<tr> <td>2</td>
<td>popdty</td>
<td>Population Density (per sq. km</td>
<td>Плотность населения (чел. на км<sub>2</sub>)</td>
</tr>
<tr> <td>3</td>
<td>medianage</td>
<td>Total Population Median Age</td>
<td>Средний возраст жителей</td>
</tr>
<tr> <td>4</td>
<td>european</td>
<td>Total Population White</td>
<td>Общая численность белого населения</td>
</tr>
<tr> <td>6</td>
<td>african</td>
<td>Total Population African American</td>
<td>Общая численность афроамериканского населения</td>
</tr>
<tr> <td>7</td>
<td>otherethni</td>
<td>TTotal Population Other Race</td>
<td>Общая численность этнического населения (не белых американцев)</td>
</tr>
<tr>
<th colspan="4"style="text-align:center">Образовательный ценз</th>
</tr>
<tr> <td>8</td>
<td>onlyhighsc</td>
<td>Population 25 Years and over with educational attainment of only high school level</td>
<td>Население в возрасте 25 лет и старше с образованием на уровне средней школы</td>
</tr>
<tr> <td>9</td>
<td>onlybachel</td>
<td>Population 25 Years and over with educational attainment of a bachelor’s level degree</td>
<td>Население в возрасте 25 лет и старше с образованием на уровне бакалавра и ниже</td>
</tr>
<tr> <td>10</td>
<td>onlydoctor</td>
<td>Population 25 Years and over with educational attainment of doctorate level degree</td>
<td>Население в возрасте 25 лет и старше с образованием на уровне докторской степени</td>
</tr>
<tr>
<th colspan="4"style="text-align:center">Характеристика домохозяйств</th>
</tr>
<tr>
<td>11</td>
<td>households</td>
<td>Total Households</td>
<td>Общее число домохозяйств</td>
</tr>
<tr>
<td>12</td>
<td>okay</td>
<td>Doing okay as regards Ratio Of Income In 2012 To Poverty Level (2.00 and over)</td>
<td>Домохозяйства с уровнем доходов выше Уровня Бедности (2,0 $ в день и выше)</td>
</tr>
<tr> <td>13</td>
<td>poororstru</td>
<td>Poor or struggling as regards Ratio Of Income In 2012 To Poverty Level (Under 2.00)</td>
<td>Бедные или испытывающие трудности домохозяйства на Уровне Бедности (Менее 2,0 $ в день)</td>
</tr>
<tr>
<td>14</td>
<td>poor</td>
<td>Doing poorly as regard Ratio Of Income In 2012 To Poverty Level (Under 1.00)</td>
<td>Домохозяйства ниже уровня бедности (менее 1,0 $ в день)</td>
</tr>
<tr> <td>15</td>
<td>Income</td>
<td>Median household income (In 2012 Inflation Adjusted Dollars)</td>
<td>Средний доход домохозяйства (Приведенный к уровню инфляции доллара)</td>
</tr>
<tr>
<td>16</td>
<td>Gini_Ind</td>
<td>MGini Index Of Income Inequality</td>
<td>Индекс неравенства доходов Джини </td>
</tr>
<tr>
<th colspan="4"style="text-align:center">Уровень безработицы</th>
</tr>
<tr>
<td>17</td>
<td>UEMPRATE</td>
<td>Unemployment rate</td>
<td>Доля безработных лиц трудоспособного возраста к общей численности трудоспособного населения </td>
</tr>
<tr> <td>18</td>
<td>europeanun</td>
<td>European American unemployed population</td>
<td>Евро-американское безработное население</td>
</tr>
<tr> <td>19</td>
<td>africanune</td>
<td>African American unemployed population</td>
<td>Безработное население афроамериканцев</td>
</tr>
<tr>
<th colspan="4"style="text-align:center">Плотность и высотность застройки</th>
</tr>
<tr> <td>20</td>
<td>SUM_shape*</td>
<td>Plan footprint</td>
<td>Суммарная площадь оснований зданий и строений</td>
</tr>
<tr> <td>21</td>
<td>SUM_height*</td>
<td>Accumulated height of all buildings in the tract</td>
<td>Накопленная высота всех зданий квартала</td>
</tr>
<tr> <td>22</td>
<td>SUM_height*square</td>
<td>Plan footprint</td>
<td>Накопленный объем всех зданий квартала</td>
</tr>
<tr>
<th colspan="4"style="text-align:center">Некоторые параметры комфортности среды</th>
</tr>
<tr> <td>23</td>
<td>BicyclL*</td>
<td>Total length of bike lanes</td>
<td>Суммарная длина велосипедных дорожек</td>
</tr>
<tr> <td>24</td>
<td>WaterS*</td>
<td>Total area of water areas</td>
<td>Общая площадь акваторий</td>
</tr>
<tr> <td>25</td>
<td>Park*</td>
<td>Total area of parks</td>
<td>Общая площадь парков</td>
</tr>
<tr>
<th colspan="4"style="text-align:center">Уровень преступности</th>
</tr>
<tr>
<td>26</td>
<td>Mudr_15y*</td>
<td>The number of murders in 15 years (2015-2020)</td>
<td>Число убийств за 15 лет (2015-2020)</td>
</tr>
<tr> <td>27</td>
<td>Crime_15y*</td>
<td>Total number of crimes in 15 years (2015-2020)</td>
<td>Общее число преступлений за 15 лет (2015-2020)</td>
</tr>
<tr>
<th colspan="4"style="text-align:center">Уровень онкологической заболеваемости</th>
</tr>
<tr>
<td>28</td>
<td>CancTot*</td>
<td>Total number of observed cancer cases</td>
<td>Общее число зарегистрированных онкологических заболеваний</td>
</tr>
<tr>
<td>29</td>
<td>CancLung*</td>
<td>Total number of observed lung cancer cases</td>
<td>Общее число зарегистрированных заболеваний рака легких и бронхов</td>
</tr>
</table>
<p>* "звездочкой" помечены дополнительно рассчитанные параметры</p>
<br>
<h3 id="h3_2">3.2. Базовые статистики одномерного исследовательского анализа</h3>
<p>Чтобы получить представление о переменных необходимо прежде всего выявить характер их распределения в пространстве города с помощью <span class="blackbold">Картограммы хороплет</span> и <span class="blackbold">Гистограммы частот</span>.</p>
<p>Число самых тяжких преступлений против личности - убийств - для Нью-Йорка обнаруживает неравномерное распределение, поскольку мы можем наблюдать некое подобие кластеров "криминальных" кварталов <a href="#03_Mudr_15ye_M">(Рис. 3.1)</a> на территории Бронкса и Бруклина.</p>
<a id="03_Mudr_15ye_M"><img src="Pict_1_3/03_Mudr_15ye_M.png" width="60%" height="relative"></a><br>
<span class="imgtitle">Рис. 3.1 Общее число убийств за 15 (2005-2020) лет по кварталам Нью-Йорка <br>
<p><strong>Гистограмма</strong> - <snap class="boldcursiv">графическое представление распределения частот для количественного признака, образуемое соприкасающимися прямоугольниками, основаниями которых служат интервалы классов, а площади пропорциональны частотам этих классов </snap> <a href="BIBLIO.html#ГОСТ_Стат">(ГОСТ Р 50779.10-2000)</a> позволяет верифицировать это предположение.</p>
<a id="03_Mudr_15ye_H"><img src="Pict_1_3/03_Mudr_15ye_H.png" width="60%" height="relative"></a><br>
<span class="imgtitle">Рис. 3.2 Гистограмма распределения убийств по кварталам Нью-Йорка <br>
<p>Известно, что для <strong>нормальных распределений</strong>, вне зависимости от их <strong>среднего значения</strong> и <strong>стандартного отклонения</strong> характерны такие свойства как симметричность, непрерывность значений, равенство или близкие значения среднего медианы и моды, а также <span class="bolditalic">присутствие единственного наиболее частого общего значения</span> - <strong>унимодальность</strong> <a href="BIBLIO.html#Бослаф_2015">[Бослаф, 2015]</a>. Таким образом, анализируя вычисленные в <span class="red">ArcMAP10.x</span> вместе с построением гистограммы значения основных статистик можно сделать важные выводы о характере распределения переменной.</p>
<div class="script">
Min|Минимальное значение: 0 <br>
Max|Максимальное значение: 24<br>
Mean|Стандартное отклонение: 3,5<br>
Skewness|Асимметрия: 2,0<br>
Kurtosis|Эксцесс: 7,8<br>
1-st Quartile|Первый квартиль: 0<br>
Median|медиана: 1<br>
3-st Quartile|Третий квартиль: 4
</div>
<p><strong>Skewness|Скошенность (асимметрия)</strong> <span class="bolditalic">определяет симметричность распределения, а ее показатель определяет где лежит большинство конкретных значений переменной относительно среднего арифметического - слева (т.е., в области меньших значений), или справа (в области больших значений); при этом асимметрия нормального распределения близка к нулю</span>. Отрицательные значения асимметрии сопровождаются <strong>Kurtosis|Эксцессом</strong> вправо, соответственно самая высокая повторяемость значений ("бин" или столбик гистограммы) находится справа от среднего, а медиана больше, чем среднее. Наоборот, положительные значение асимметрии означают эксцесс влево (в сторону меньших значений), где находится самая высокая повторяемость значений, при этом правый хвост длиннее левого и медиана меньше, чем среднее арифметическое.</p>
<p>Кроме того, <strong>Kurtosis|Эксцесс</strong> характеризует плотность распределения и вероятность выбросов. Распределения с положительными значениями эксцесса имеют "тяжелые хвосты" и называются "островершинными". Отрицательные значения эксцесса соответствуют плосковершинным распределениям и имеют "тонкие хвосты". Эксцесс нормального распределения равен трём <a href="https://doc.arcgis.com/ru/insights/latest/create/histogram.htm">[Создание и использование гистограмм]</a>.</p>
<p>Очевидно, что распределение убийств в Нью-Йорке далеко от нормального: бины-столбики максимальных частот прижаты к началу гистограммы (т.е., к низким значениям переменной), поэтому асимметрия положительна. Медиана почти втрое меньше среднего значения, также расположенного в левой части, стандартное отклонение более чем в три раза превосходит среднее, бины-столбики с максимальными значениями резко сдвинуты вправо - в область больших значений.</p>
<p>Поскольку в данной модели нас интересуют два явления - преступность и заболеваемость - имеет смысл выявить насколько конкретные проявления этих феноменов отличаются от общих, иными словами, отличается ли пространственное распределение убийств от преступности в целом, и есть ли какая-то специфика рака легких, которая отличала бы распространение этого диагноза от онкологических заболеваний в целом. Простой способ выявления отличий - сравнение гистограмм для "общего" и "частного"" признака.</p>
<a id="03_Crime_15ye_H"><img src="Pict_1_3/03_Crime_15ye_H.png" width="60%" height="relative"></a><br>
<span class="imgtitle">Рис. 3.3 Гистограмма распределения всех видов преступлений по кварталам Нью-Йорка </span><br>
<div class="script">
Min|Минимальное значение: 0 <br>
Max|Максимальное значение: 37643<br>
Mean|Среднее значение: 3381<br>
Std.dev|Стандартное отклонение: 3025<br>
Skewness|Асимметрия: 2,6<br>
Kurtosis|Эксцесс: 16,62<br>
1-st Quartile|Первый квартиль: 1390<br>
Median|Медиана: 2361<br>
3-st Quartile|Третий квартиль: 4492
</div>
<p>Несмотря на различия в абсолютных значениях между <strong>Общей преступностью</strong> и <strong>Числом убийств</strong> характер распределения обеих переменных аналогичен: перед нами логнормальный график с максимальным значением частот, прижатым к левой стороне гистограммы, средним значением значительно большим медианы, близкими показателями асимметрии распределения (<span class="greencursiv">2,0</span> - убийства, <span class="greencursiv">2,6</span> - Общая преступность) и высокими значениями выбросов. Следовательно <span class="bolditalic">самые тяжкие преступления против личности вполне отображают общую картину преступности</span>.</p>
<p>Альтернативный способ проверить наличие выбросов переменной, а также определить, соответствует ли переменная нормальному распределению - построение специального графика <span class="blackbold">QQplot|КК-График</span>(Квантиль Квантиль график): <span class="monospace"> Explore Data >> Normal QQPlot >> Attribute = Mudr_15</span>. <span class="monospace">КК-График</span> для данной переменной показывает, что значения переменной <strong>Число убийств по кварталам</strong> отклоняются от прямой линии нормального распределения.</p>
<a id="03_Mudr_15ye_QQPlot_выбросы"><img src="Pict_1_3/03_Mudr_15ye_QQPlot_выбросы.png" width="60%" height="80%"></a><br>
<span class="imgtitle">Рис. 3.4 Выделение крайних точек на QQ-графике с отображением на картограмме (хороплете)
<p>Все графики и диаграммы <span class="blackbold">Исследовательского Анализа</span> связаны с объектами (полигонами - как в данном случае) шейп-файла и таблицей атрибутов слоя, что является одним из преимуществ использования инструментов <span class="blackbold">ESDA</span> в пространственном анализе. При выделении столбца на гистограмме, либо точек на <span class="blackbold">QQ-графике</span> и/или <span class="blackbold">Диаграмме Размаха</span> становятся выбранными соответствующие полигоны на карте и строки таблицы атрибутов. Поэтому, проведя стрелкой <span class="monospace">Select Features</span> по точкам в крайнем правом углу графика, мы определяем кварталы, которые значительно отклоняются от линии ожидаемых (при нормальном распределении) значений <a href="#03_Mudr_15ye_QQPlot_выбросы">(Рис. 3.4)</a>. Эти кварталы находится в центре ареалов концентрированного проживания афроамериканского населения, обстоятельство, которое может служить одним из предположений для выстраивания <strong>гипотезы пространственного анализа</strong>.</p>
<p>Следующий способ проверки распределения переменной - построение <span class="blackbold">Box Plot|Ящичковой Диаграммы</span> или как ее еще называют <strong>Диаграммы Размаха</strong>, еще одно наименование - <strong>"Ящик с Усами"</strong>, происходящее от прямого перевода английского "box-and-whiskers diagram". Ящичковая диаграмма позволяет компактно отобразить одномерное распределение вероятностей.</p>
<p>Для построения Диаграммы Размаха выберем в главном меню:
<div class="script">
Main Menu >> View > Graphs >> Create Graph<br>
Graph type = Box Plot <br>
Layer/Table = NYCTRACTs <br>
Value field = Murd_15 <br>
>> Next >> <br>
Title = Murders</p>
</div>
<a id="03_Mudr_15ye_BoxPlott"><img src="Pict_1_3/03_Mudr_15ye_BoxPlott.png" width="60%" height="80%"></a><br>
<span class="imgtitle">Рис. 3.5 Выделение выбросов значений числа убийств на Ящичковой Диаграмме (Box-Plot) с отображением на картограмме (хороплете)
<p>На <strong>Диаграмме Размаха</strong> показаны шесть незначительных выбросов (одиннадцать и более убийств обозначены точкой) и семь экстремальных выбросов (более 16 убийств - обозначены звездочкой), относящихся к кварталам с высоким числом убийств (<a href="#03_Mudr_15ye_BoxPlott">Рис. 3.5</a>). Выбросы значений с низким уровнем убийств не отслеживаются, поскольку для многих кварталов это значение равно нулю. Ящичковые диаграммы на стадии <strong>Исследовательского Анализа</strong> служат прежде всего для проверки данных, т.е., для ответа на вопрос не являются ли выбросы просто ошибками соответствующего учета. Далее (в случае корректности данных) мы получаем возможность выстраивания предположений относительно: а) выявленной неравномерности распределения, и b) их возможной обусловленности теми или иными факторами. Отметим, что любые предположения на данном этапе могут оказаться спекулятивными - высокие значения фактора, например, могут оказаться связанными с высокой плотностью населения.</p>
<p>Наконец, еще один способ анализа распределения переменной - расчет так называемого <strong>Z-Score|Z-Значения (Z-Балла)</strong>. Поскольку существует множество нормальных распределений, характеризующихся исходными данными различной размерности (и физической сущности), их характеризуют в терминах стандартного отклонения, избавляющих нас от перечисленной конкретики. Напомним, что <strong>Стандартное Отклонение</strong> - это квадратный корень из дисперсии или квадратный корень из среднего для квадратных отклонений от среднего арифметического. Для расчета <span class="monospace">Z-Значения</span> необходимо предварительно добавить новое поле в таблицу щейп-файла (в нашем случае - файла <span class="backgreen">NYCTRACTs</span>):</p>
<div class="script">
Table of Content >> RC City >> Open Attribute Table Click at Table Options button >> Add Field <br>Name = MurdZScore<br>
Type = Float Precision|Плавающая запятая = 5 (общее число цифр)<br>
Scale = 3 (число цифр после запятой)<br>
Z-Оценка рассчитывается с помощью Калькулятора Поля как разница между значением переменной минус частное от деления Среднего Арифметического на Стандартное Отклонение:</
Z-Score = X - Mean / St.Dev <br>
относительно выбранной переменной <br>
Z-Score = Murd_15 - 2,7 / 3,5 <br>
</div>
<p>Полученные значения нового поля <span class="backgreencursiv">Z_Murd</span> могут быть отображены на карте хороплета. Чем выше или ниже <span class="monospace">Z-оценка</span>, тем больше разница между значением переменной (в данном случае - числом убийств) по кварталам и средним значением для всего исследуемого ареала. Значения выше <span class="greencursiv">15</span> могут претендовать на выбросы (<span class="monospace">outliers</span>). Очевидно, что различные определения выбросов приводят к несколько иным результатам. Сколько и какие выбросы в конечном итоге будут сохранены, зависит от задач анализа.</p>
<a id="03_Mudr_15ye_Z_Score."><img src="Pict_1_3/03_Mudr_15ye_Z_Score.png" width="60%" height="relative"></a><br>
<span class="imgtitle">Рис. 3.6 Хороплет Z-Score отражает экстремально высокие значения переменной более наглядно, чем исходные данные <br>
<br>
<h3 id="h3_3">3.3. Характеристики переменных</h3>
<p>Различные бытующие в общественном сознании концепции связывают уровень преступности с самыми разными факторами, среди которых - расово-этнические (компактное проживание представителей той или иной расы или этнического большинства), экономические (уровень благосостояния), личностные (например, уровня образования населения) и факторы комфортности городской среды (плотность и морфотипы застройки, присутствие зеленых насаждений и т.д.). Построим хороплеты и графики для имеющихся в нашем распоряжении факторов разных групп. Для начала оценим долю афроамериканского населения в общей численности населения по кварталам Нью-Йорка.</p>
<a id="17_Percnt_AfroAm_M"><img src="Pict_1_3/17_Percnt_AfroAm_M.png" width="60%" height="relative"></a><br>
<span class="imgtitle">Рис. 3.7 Доля афроамериканского населения (%) по кварталам Нью-Йорка<br>
<p>Очевидно, что афроамериканцы живут в четырех отчетливо выделившихся ареалах: в центре Бруклина, на востоке Куинса, на северо-востоке и юго-западе Бронкса и узкой полосой на севере Статен-Айленда. Для построения гистограммы вызовем панель Geostatistical Analyst <span class="red">ArcMAP10.x</span>. На появившейся панели выбираем <span class="monospace"> Explore Data >> Histogram Select Layer = NYCTRACTs; Attribute = african.</span></p>
<a id="17_Percnt_AfroAm_H"><img src="Pict_1_3/17_Percnt_AfroAm_H.png" width="60%" height="relative"></a><br>
<span class="imgtitle">Рис. 3.8 Гистограмма доли афроамериканского населения в общей численности населения по кварталам Нью-Йорка</p>
<p>Гистограмма отображает базовую описательную статистику:<br>
<div class="script">
Min|Минимальное значение: 0 <br>
Max|Максимальное значение: 99,6<br>
Mean|Среднее значение: 26,4<br>
Std.dev|Стандартное отклонение: 31,1<br>
Skewness|Асимметрия: 1,0<br>
Kurtosis|Эксцесс: 2,5<br>
1-st Quartile|Первый квартиль: 1,8<br>
Median|Медиана: 9,6<br>
3-st Quartile| Третий квартиль: 46,1<br>
</div>
<p>Результаты показывают, что распределение численности афроамериканцев по кварталам Нью-Йорка сильно искажено и значительно отклоняется от нормального. Гистограмма скошена влево, медианное значение значительно меньше среднего, частоты резко снижаются к противоположному от пика концу, значения первого и третьего квартилей сильно разнесены, эксцесс хорошо выражен. Осложняют общую картину и признаки "плато" между столбиками частот средних и максимальных значений.</p>
<p>Есть ли в представленном наборе переменных, характеризующих население и условия жизни в кварталах Нью-Йорка, нормально распределенные? Обратимся к такому показателю как <strong>Плотность застройки</strong>, (доля суммы оснований всех зданий и сооружений к площади всего квартала в процентах) в практике градостроительного планирования этот признак часто называют <strong>Запечатанностью</strong>.</p>
<a id="13_Percnt_Build_M"><img src="Pict_1_3/13_Percnt_Build_M.png" width="60%" height="relative"></a><br>
<span class="imgtitle">Рис. 3.9 Хороплет плотности застройки кварталов Нью-Йорка
<p>Карта отображает высокую пространственную неоднородность и изменчивость признака: участки высокой плотности застройки приурочены, в основном, к острову Манхеттен, а также к отдельным ареалам Бронкса, в тоже время хорошо видны соседства с рыхлой или практически отсутствующей застройкой, прежде всего в пределах боро Статен-Айленд, богатом на парки и элементы зеленой инфраструктуры. Для выявления основных статистик построим <span class="monospace">гистограмму</span> в <snap class="red">ArcMAP 10.x</snap>.</p>
<a id="13_Percnt_Build_H"><img src="Pict_1_3/13_Percnt_Build_H.png" width="60%" height="relative"></a>
<br>
<span class="imgtitle">Рис. 3.10 Гистограмма распределения плотности застройки кварталов Нью-Йорка</p>
<div class="script">
Min|Минимальное значение: 0<br>
Max|Максимальное значение: 60,0<br>
Mean|Среднее значение: 29,4<br>
Std.dev|Стандартное отклонение: 10,5<br>
Skewness|Асимметрия : -0,25<br>
Kurtosis|Эксцесс: 3,3<br>
1-st Quartile|Первый квартиль: 22,6<br>
Median|Медиана: 30,0<br>
3-st Quartile| Третий квартиль: 36,4
</div>
<p>Базовые статистики демонстрируют почти идеальное" нормальное распределение переменной: медианное значений практически совпадает со средним арифметическим, и совместно они образую вершину купола ("колокола") кривой распределения, обе стороны которой симметрично снижаются в сторону более высоких и более низких значений, поэтому и асимметрия крайне мала <span class="greencursiv">-0,25</span> (знак минус означает незначительный перекос в сторону больших значений).</p>
<p>Рассчитаем значения выбросов:</p>
a) в большую сторону:<br>
<span class="monospace">
Mean + 2.5 * Standard Deviation<br>
т.е., в данном случае<br>
29,4 + 2.5 * 10,5 = 55,9<br></span>
b) в меньшую сторону<br>
<span class="monospace">
Mean - 2.5 * Standard Deviation<br>
29,4 - 2.5 * 10,5 = 3,15<br>
</span>
<p>Таким образом, в данных по параметру запечатанности кварталов Нью-Йорка выбросами могут считаться кварталы с плотностью застройки более <span class="greencursiv">55,9%</span> и менее <span class="greencursiv">3,15%.</span> Проверим эти выкладки на <span class="monospace">КК-Графике</span>.</p>
<a id="13_Percnt_Build_QQPlot"><img src="Pict_1_3/13_Percnt_Build_QQPlot.png" width="60%" height="relative"></a><br>
<span class="imgtitle">Рис. 3.11 КК-График для параметра плотности застройки кварталов
<p> Кривая, образованная точками кварталов на КК-Графике переменной плотности застройки, почти идеально совпадает с тонкой линией нормального распределения. "Выбивающиеся" точки в верхней и нижней части кривой маркируют потенциальные выбросы, и мы можем выделить их вручную обведя соответствующие точки, либо использовать выбор по атрибуту с условием:<br>
<span class="monospace">%Build > 55,9 or %Build < 3,15</span>. <br>
Выбранные таким образом полигоны хороплета совпадают с островными и парковыми кварталами Нью-Йорка, что объясняет причину их низкой застроенности.</p>
<a id="13_Percnt_Build_BoxPlot"><img src="Pict_1_3/13_Percnt_Build_BoxPlot.png" width="75%" height="relative"></a><br>
<span class="imgtitle">Рис. 3.12 Картограмма и Ящичковая Диаграмма для параметра плотности застройки с выбранными кварталами-"выбросами"
<p>Последняя проверка - построение <span class="monospace">Ящичковой Диаграммы</span>, которая демонстрирует почти точное попадание среднего значения на центр "ящика" и два выброса: верхние значения более <span class="greencursiv">55,9</span> и нижние - менее <span class="greencursiv">3,15</span>, что совпадает с нашими расчетами. Таким образом, констатируем еще раз: переменная <strong>Запечатанность кварталов</strong> демонстрирует почти классическое нормальное распределение.</p>
<p>Среди прочих переменных, привлеченных для моделирования преступности и заболеваемости в Нью-Йорке, мы обнаружим различные типы распределений, часть из которых близка к <b>логнормальному распределению</b>, <b>распределению Пуассона</b> или <b>биномиальному распределению</b>.</p>
<p>Казалось бы, если дома — это прежде всего жилища для людей, то и переменная <b>Плотность населения</b> тоже должна быть распределена нормально. Для проверки построим <span class="monospace">гистограмму</span> распределения для параметра <b>Плотность населения по кварталам</b> Нью-Йорка <a href="#ict12/07_PopDens_Natur_Br5.png">(Рис. 3.13)</a>.</p>
<a id="09_Popdens_H"><img src="Pict_1_3/09_Popdens_H.png" width="60%" height="relative"></a><br>
<span class="imgtitle">Рис. 3.13 Гистограмма плотности населения по кварталам Нью-Йорка
<p>По характеру гистограммы плотности и основным статистикам (медиана - <span class="greencursiv">41527</span> расположилась недалеко от среднего - <span class="greencursiv">49124</span>) мы можем видеть ассиметричное распределение, сдвинутое в сторону меньших значений (положительная "скошенность").</p>
<a id="09_Popdens_QQPlot"><img src="Pict_1_3/09_Popdens_QQPlot.png" width="60%" height="relative"></a><br>
<span class="imgtitle">Рис. 3.14 КК-график для Плотности Населения по кварталам Нью-Йорка
<p>Возможно, этот эффект объясняется весьма сильно различающейся этажностью морфотипов застройки: кварталы повышенной этажности аккумулируют заметно большее население. Для проверки данного предположения рассчитаем в новом поле <strong>Объемную Нагрузку|FootPrint</strong> как произведение площади застройки квартала на суммарную высоту всех зданий и сооружений.</p>
<a id="18_Foot_Prnt_H"><img src="Pict_1_3/18_Foot_Prnt_H.png" width="60%" height="relative"></a><br>
<span class="imgtitle">Рис. 3.15 Гистограмма Объемной Нагрузки FootPrint застройки по кварталам Нью-Йорка
<p>Гистограмма демонстрирует все признаки ненормального <strong>"Head and Tail"</strong> (паретианского) распределения: значительно превышение среднего над медианой, высокая "перекошенность" графика в сторону меньших значений и далеко разнесенные значения первого и третьего квартилей. Таким образом, мы не можем ожидать "нормальности" и от переменной <strong>Плотность населения</strong> даже если предположить, что абсолютное большинство "скайскрепперов" — это офисные здания.</p>
<p>Сложное распределение демонстрируют и многие другие переменные нашей модели. Это касается как пространственного рисунка (паттернов случайности и неоднородности), так и частотного распределения.</p>
<p>Для сравнения посмотрим на распределение экономических переменных - например, <strong>Число домохозяйств ниже уровня бедности</strong>.</p>
<a id="06_Poor_M"><img src="Pict_1_3/06_Poor_M.png" width="60%" height="relative"></a><br>
<span class="imgtitle">Рис. 3.16 Картограмма числа домохозяйств с доходами ниже уровня бедности (менее 1$ в день)<br>
<br>
<a id="06_Poor_H.png"><img src="Pict_1_3/06_Poor_H.png" width="60%" height="relative"></a><br>
<span class="imgtitle">Рис. 3.17 Гистограмма распределения и домохозяйств с доходами ниже уровня бедности (менее 1$ в день)<br>
<p>Данный параметр демонстрирует почти классическое <strong>Head and Tail</strong> распределение со средним значением заметно большим медианы, "задранным" максимумом и длинным "сползанием" к "тяжелому хвосту" низких значений. Интересен и пространственный рисунок - несмотря на множество ареалов концентрации высоких значений, в общей мозаике можно уловить "кластерность".</p>
<p>Переменная <strong>Годового дохода домохозяйств</strong> выглядит совершенно иначе: распределение искажено небольшим перекосом в сторону низких значений, но при этом медиана <span class="greencursiv">52118 $</span> близка к среднему <span class="greencursiv">55654 $</span>; вылеты, вероятно, определяются супервысокими максимальными значениями. На <span class="monospace">КК-Графике</span> хорошо заметно, что отрыв от линейной функции в верхнем диапазоне начинается со значений <span class="greencursiv">150 000 $</span>, значения выше <span class="greencursiv">170 000 $</span> - явные выбросы, в нижнем диапазоне отрыв от линейной функции около <span class="greencursiv">30 000 $</span>, выбросы - около <span class="greencursiv">18 000 $</span>.</p>
<a id="04_INCOME"><img src="Pict_1_3/04_INCOME.png" width="60%" height="relative"></a><br>
<span class="imgtitle">Рис. 3.18 Хороплет Дохода Домохозяйств<br>
<br>
<a id="4_INCOME_Hist"><img src="Pict_1_3/04_INCOME_Hist.png" width="60%" height="relative"></a><br>
<span class="imgtitle">Рис. 3.19 Гистограмма распределения Дохода Домохозяйств<br>
<br>
<a id="04_INCOME_QQ"><img src="Pict_1_3/04_INCOME_QQ.png" width="60%" height="relative"></a><br>
<span class="imgtitle">Рис. 3.20 КК-График распределения Дохода Домохозяйств<br>
<p>Таким образом, <span class="bolditalic">исследовательский анализ пространственных данных и связанные с ним инструменты обеспечивают всестороннее визуальное представление статистики путем связывания хороплетов (картограмм) с графиками, точечными диаграммами и гистограммами</span>. В этой связке первый этап - составление картограммы, непростое искусство, предполагающее не просто визуализацию, но первичную классификацию данных, при этом выбор способа классификации должен быть оправдан свойствами и характером анализируемых данных. Вычисление базовых элементарных статистик - среднего значения, максимального и минимального значений, стандартного отклонения - обеспечивает начальное описание и презентацию распределения переменной.</p>
<p><span class="blackbold">Гистограмма распределения частот</span>, а также <span class="blackbold">Диаграмма размаха (Ящичковая диаграмма)</span> и <span class="blackbold">Kвантиль-Квантиль График</span> в совокупности являются полезными инструментами визуализации типа распределения, а также обнаружения "вылетающих" значений переменной. В свою очередь обнаружение выбросов необходимо, поскольку дальнейший анализ может быть искажен, если выбросы не будут удалены или обработаны соответствующим образом.</p>
<p>Отдельный и непростой вопрос, возникающий в контексте анализа распределения - что делать если распределение не является нормальным? Здесь есть три решения:<br>
<ol>
<li>Использовать непараметрическую статистику</li>
<li>Преобразовать ненормальное распределение в нормальное - выбор метода будет зависеть от знака и величины значения асимметрии (skewness);</li>
<li>Проверить размер выборки. Согласно центральной предельной теореме, которая гласит, что при определенных условиях по мере увеличения размера случайной выборки ее распределение приближается к нормальному распределению, мы можем использовать параметрическую статистику если выборка больше <span class="greencursiv">30-40</span> объектов. Такое нарушение предположения о нормальности не вызывает серьезных проблем <a href="BIBLIO.html#Pallant_2016">[Pallant, 2016]</a></li>
</ol>
</p>
<br>
<a id="Таблица 3.2"><span class="imgtitle">Таблица 3.2 Трансформация данных, используемая для уменьшения асимметрии и нормализации данных</p>
<div class="table">
<table id="customers">
<table border="1">
<tr>
<th>Характер асимметрии (Skewness)</th>
<th>Способ трансформации данных </th>
<th>Формула</th>
<th>Сюжеты применения</th>
</tr>
<tr>
<td>Высокая положительная</td>
<td>Обращение</td>
<td>Y<sub>n</sub> = 1/Y</td>
<td>Обращение применяется, когда все значения положительны</td>
</tr>
<tr>
<td>Высокая положительная</td>
<td>Негативное Обращение</td>
<td>Y<sub>n</sub> = - 1/Y</td>
<td>Обращение применяется, когда все значения положительны</td>
</tr>
<tr>
<td>Высокая положительная</td>
<td>Негативное Обращение</td>
<td>Y<sub>n</sub> = - 1/Y, добавление 1 к отрицательным значениям в диапазоне от 0 до -1</td>
<td>Обращение используется для трансформации отрицательных значений</td>
</tr>
<tr>
<td>Высокая положительная</td>
<td>Взаимное Обращение</td>
<td>Для удельных показателей перестановка числителя и знаменателя, например, использование вместо параметра плотности (чел/га) обратного отношения (га/чел)</td>
<td>Взаимное обращение меняет порядок положительных значений: наибольшее становится наименьшим</td>
</tr>
<tr>
<td>Средняя или низкая положительная асимметрия</td>
<td>Извлечение квадратного корня из значений, либо логарифмическая трансформация</td>
<td>Y<sub>n</sub> = Y<sup>0,5</sup><br>
Y<sub>n</sub> = LogY</td>
<td>Для данных с большим числом нулевых или ничтожных значений</td>
</tr>
<tr>
<td>Средняя или низкая отрицательная асимметрия</td>
<td>Возведение в квадрат</td>
<td>Y<sub>n</sub> = Y<sup>2</sup><br>
Y<sub>n</sub> = LogY</td>
<td>Для данных с выраженным логарифмическим трендом</td>
</tr>
<tr>
<td>Высокая отрицательная асимметрия</td>
<td>Возведение в куб</td>
<td>Y<sub>n</sub> = Y<sup>3</sup><br>
Y<sub>n</sub> = LogY</td>
<td>Для данных с выраженным логарифмическим трендом</td>
</tr>
</table>
<br>
<p>Нормализуем зависимые переменные - <strong>Общую преступность</strong> и <strong>Число онкологических заболеваний</strong></p><br>
<a id="03_Crime_15ye_H_norm_lg"><img src="Pict_1_3/03_Crime_15ye_H_norm_lg.png" width="60%" height="relative"></a><br>
<span class="imgtitle">Рис. 3.21 Гистограмма распределения нормализованной переменной Общая преступность<br>
<br>
<a id="16_Canc_Tot_H_norm1y"><img src="Pict_1_3/16_Canc_Tot_H_norm1y.png" width="60%" height="relative"></a><br>
<span class="imgtitle">Рис. 3.22 Гистограмма распределения нормализованной переменной Число онкологических заболеваний<br>
<p>Сравним распределение с исходными переменными <a href="#103_Mudr_15ye_H">(Рис. 3.2)</a> и <a href="#103_Mudr_15ye_H">(Рис. 3.3)</a>. Как можно видеть распределение значительно приблизилось к нормальному: при сохранившейся положительной (в сторону меньших значений) перекошенности медиана оказывается немногим меньшей среднего (<span class="greencursiv">5,2</span> против <span class="greencursiv">5,3</span>), очень заметно уменьшилось стандартное отклонение, сближены значения 1-го и 3-го квартилей.</p>
<h3 id="h3_4">3.4. Двумерный исследовательский анализ</h3>
<p><strong>Двумерный|Bivariate исследовательский анализ</strong> предоставляет нам начальную информацию об относительных взаимосвязях между любыми двумя переменными. Важно понимать, что на этом этапе моделирования мы не получаем доказанных причинно-следственных связей, а можем лишь делать предположения об их наличии или отсутствии. Остроумным предостережением в этом смысле является распространенный в зарубежной литературе статистический анекдот о связи между увеличением объема продаж мороженого и ростом числа жертв нападений акул на Атлантическом побережье США: как легко догадаться и то, и другое явление подчиняются началу и пику пляжного сезона, но при этом, разумеется, между поведением акул и успешностью реализации мороженого не существует никакой связи.</p>
<p>Тем не менее двумерный анализ позволяет сравнивать между собой распределение и пространственную неоднородность любой пары переменных. В нашем случае мы можем сравнивать две зависимые переменные (преступность и заболеваемость) с любыми из переменных привлеченных для моделирования. Один из способов такого сравнения - построение <span class="blackbold">Диаграмма рассеяния|Scatter Plot</span>.</p>
<p>В <span class="red">ArcMAP10.x</span> выход на инструмент через Главное Меню: <span class="monospace">Main Menu >> View >> Graphs >> Create Graph >> Graph type = Scatter plot</span>. На входе - "подопытный файл" кварталов Нью-Йорка <span class="backgreen">NYCTRACTs</span>. В <span class="monospace">Диаграмме рассеяния</span> две оси для предположительной <strong>зависимой переменной Y</strong>з и <strong>независимой переменной (фактором) X</strong>, это обстоятельство позволяет сравнивать интересующие нас феномены (преступность и заболеваемость) с любыми факторами, которые, предположительно, могут оказывать на них влияние. Сравнение помогает отбирать факторы в качестве "кандидатов" на более серьезное моделирование и постепенно выстраивать гипотезу (или гипотезы) модели. Также, как и на любом другом графике, в <span class="red">ArcMAP10.x</span> мы можем выделить необходимые кварталы просто обведя экстремально высокие точки на <span class="monospace">Диаграмме рассеяния</span>. Это позволяет увидеть географическую локализацию объектов, и понять насколько высокие (или наоборот - низкие) значения по оси зависимой переменной <span class="greencursiv">Y</span> соответствуют значениям независимой переменной <span class="greencursiv">X</span>.</p>
<p>Построим <span class="monospace">Диаграмма рассеяния</span> для <strong>Общей преступности</strong> (за 15 лет) и некоторых факторов, которые, как нам представляются, могут влиять на этот показатель. Для начала возьмем <strong>Индекс неравенства доходов Джини</strong> (значения которого находятся в диапазоне от 0 до 1: если доходы распределены равномерно, то показатель будет равен <span class="greencursiv">0</span>, если всё принадлежит одному человеку, то — <span class="greencursiv">1</span>). Выполним "двумерный" анализ сначала для сырых данных, затем для нормализованных.</p>
<div class="script_01">
<figure>
<a id="SP_Crime-Gini"><img src="Pict_1_3/SP_Crime-Gini.PNG" width="90%" height="300px"></a>
</figure>
<figure>
<a id="SPnorm_Crime-Gini"><img src="Pict_1_3/SPnorm_Crime-Gini.PNG" width="90%" height="300px"></a>
</figure>
</div>
<br><span class="imgtitle">Рис. 3.23 Диаграмма рассеяния для пары переменных Общая преступность - Индекс Джини: а) сырые данные, b) нормализованные<br>
<p>Как можно видеть статистика подтверждает хорошо известную истину: реальность всегда несколько сложнее нашего представления о ней. Так, на графике <strong>Общая преступность|Индекс Джини</strong> <a href="#SP_Crime-Gini">(Рис. 3.23 a)</a> высокие значения преступности (выше <span class="greencursiv">10 тысяч</span> на квартал за период в 15 лет) соответствуют умеренно высокие (<span class="greencursiv">0,4 - 0,6</span>) значения <strong>Неравенства доходов</strong>, однако общая тенденцию уловить весьма затруднительно. На <span class="monospace">Диаграмме рассеяния</span> нормализованных значений плотное "облако" значений вытянуто вдоль оси зависимой переменной <span class="greencursiv">Y</span> и имеет заметный наклон, <span class="bolditalic">подтверждающий увеличение Общей преступности при росте Индекса Джини (т.е., фактически - при росте неравенства доходов</span>).</p>
<p>Проверим, подтверждают ли излюбленную социальными психологами и бихевиористами теорию о социально обусловленности преступности другие не менее важные экономические показатели, например - <strong>Годовой доход домохозяйств</strong> и <strong>Уровень безработицы</strong>.</p>
<div class="script_01">
<figure>
<a id="SPnorm_CrimeLg-Income"><img src="Pict_1_3/SPnorm_CrimeLg-Income.PNG" width="90%" height="300px"></a>
</figure>
<figure>
<a id="SPnorm_Crimelg-Unemol"><img src="Pict_1_3/SPnorm_Crimelg-Unemol.PNG" width="90%" height="300px"></a><br>
</figure>
</div>
<span class="imgtitle">Рис. 3.24 Диаграмма рассеяния для переменных: а) Общая преступность - Годовой доход домохозяйств (сырые данные), b) Общая преступность - Уровень безработицы (нормализованное значение)
<p>Огромный объем значений (т.е., зафиксированных за 15 лет преступлений), дает "пухлое" облако с ореолом выбросов, но если провести кривую через центр плотности облака она покажет резкое падение числа преступлений за пределами объема годового дохода в <span class="greencursiv">100 000 $</span> <a href="#SPnorm_CrimeLg-Income">(Рис. 3.24 a)</a>. Уровень безработицы образует более сложное и расширенное кверху скопление значений <a href="#SPnorm_CrimeLg-Income">(Рис. 3.24 b)</a>, но и здесь можно отметить заметный наклон вправо - в сторону возрастания числа безработных.</p>
<p>Отличная возможность получения Диаграмм рассеяния с построением кривой тренда предоставляется в <span class="blue">SAGA GIS</span>. По клику правой кнопкой мыши на слое во вкладке <span class="monospace">Data</span> переходим в <span class="monospace">Attributes</span> и далее имеем выбор: построение Диаграммы для одной переменной или Диаграмма рассеяния для двумерного анализа. Соответственно <span class="monospace">Data = NYCTRACTs >> RC >> Attribute >> Diagram</span> - в открывающемся диалоговом окне <span class="monospace">Properties</span> выбираются переменная, тип диаграммы (точечная, столбчатая, линейная). Результирующую диаграмму можно настраивать повторно через вкладку <span class="monospace">Properties</span>.</p>
<br>
<a id="SAGA_.1_feast_diagr_crime_15y"><img src="Pict_1_3/SAGA_.1_feast_diagr_crime_15y.PNG" width="70%" height="relative"></a>
<br>
<span class="imgtitle">Рис. 3.25 Диаграмма рассеяния для единственной переменной (Общее Число Преступлений) в SAGA GIS </span><br>
<p>Аналогично строится Диаграмма рассеяния для двух переменных: <span class="monospace">Data = NYCTRACTs >> RC >> Attribute >> Scatterplot</span>. В открывающемся окне кроме выбора двух переменных (<span class="greencursiv">X, Y</span>) предоставляется возможность выбора формулы предполагаемой регрессии; по умолчанию: <br>
<span class="monospace">Regression Formula Y = a + b * x</span>.</p>
<p>На листе Диаграмма рассеяния мы видим не просто линию, отражающую линейную регрессию (как вариант линейной зависимости), но и соответствующие коэффициенты, которые могут быть скопированы в настройках <span class="monospace">Options >> Regression Details</span>.</p><br>
<a id="SAGA_.crime_15y-Income"><img src="Pict_1_3/SAGA_.crime_15y-Income.png" width="70%" height="relative"></a><br>
<span class="imgtitle">Рис. 3.26 Диаграмма рассеяния для двух переменных (Общее Число Преступлений и Годовой доход домохозяйств) в SAGA GIS, Regression Details a + b * x; a = 4657.35; b = -0.02183; N = 2108; R2 = 4.11778 </span><br>
<p>Следует иметь ввиду, что в записи формулы линейной регрессии, используемой в <span class="blue">SAGA GIS</span> <span class="monospace">Regression Formula Y = a + b * x</span>, <span class="monospace">b</span> - это множитель независимой (факторной) переменной <span class="monospace">x</span>, который определяет наклон линии <span class="monospace">slope</span>, а <span class="monospace">b</span> - константа <span class="monospace">intercept</span>, определяющая место пересечения прямой с осью координат. <span class="monospace">N </span>- число наблюдений (в данном случае число кварталов Нью-Йорка. Положительный наклон линии тренда означает положительную связь (рост предиктора <span class="monospace">X </span>влечет за собой рост зависимой переменной <span class="monospace">Y</span>, отрицательный наклон отражает отрицательную связь (рост предиктора <span class="monospace">X</span> сопровождается уменьшением зависимой переменной <span class="monospace">Y</span>.</p>
<p>Проверим два других с помощью <span class="blue">SAGA GIS</span> два других достаточно распространенных "бытовых" предположения: первое связывает преступность с уровнем образования, второе - с долей афроамериканского населения. Регрессионная кривая на Диаграмме рассеяния позволят эксперту оценить (в первом приближении) насколько модель линейной регрессии вообще пригодна для описания взаимосвязи между двумя переменными; не менее полезен в этом смысле и коэффициент детерминации R<sup>2</sup>, показывающий нам сколько процентов дисперсии зависимой переменной (в данном случае - числа преступлений) может быть объяснено предиктором <span class="monospace">X</span>.</p><br>
<a id="SAGA_.crimelg-bachsqrt"><img src="Pict_1_3/SAGA_.crimelg-bachsqrt.png" width="70%" height="relative"></a><br>
<span class="imgtitle">Рис. 3.27 Диаграмма рассеяния для переменных Общая преступность - Число бакалавров; Regression Details: a + b * x; a = 7.55913; b = 0.0100278; N = 2108; R2 = 2.83129 </span><br>
<br>
<a id="SPnorm_CrimeLg-AfrSqrt_01"><img src="Pict_1_3/SPnorm_CrimeLg-AfrSqrt_01.png" width="70%" height="relative"></a><br>
<span class="imgtitle">Рис. 3.28 Диаграмма рассеяния для переменных Общая преступность - Доля афроамериканцев в общей численности населения квартала; Regression Details a + b * x; a = 7.35403; b = 0.0189532; N = 2108; R2 = 19.43 </span><br>
<p>Очевидно, что несмотря на внешне похожие <span class="monospace">Диаграмма рассеяния</span> "облако точек" для пары <strong>Преступность-Бакалавры</strong> имеет более "рыхлую" структуру - разброс значений здесь больше и очень невелик процент "объясненной" зависимости (<span class="greencursiv">2,8%</span>), в то время как для пары <strong>Преступность - Афро-американцы</strong> мы имеем статистически значимую величину <span class="greencursiv">19,4%</span>.</p>
<p>Таким образом, уровень бедности, безработица, уровень образования и расовый состав если и связаны с преступностью, то непростыми и скорее всего - нелинейными причинно-следственными зависимостями. Сколь бы не был велик соблазн "ухватиться" за объяснение, на данном этапе моделирования его следует преодолевать, ибо задача <span class="blackbold">ESDA</span> несколько иная: отобрать перспективные факторные переменные для объяснения изучаемого феномена.</p>
<p>В процессе подобного поиска мы можем "примерить" разные переменные-факторы. Посмотрим, насколько принципиально отличаются парные (двумерные) диаграммы для другой зависимой переменной - <strong>Онкологических заболеваний</strong>. Для начала построим хороплет для этой переменной</p>
<p><span class="monospace">Картограмма онкологических заболеваний</span> (2005-2009 гг.) обнаруживает все признаки пространственной неоднородности, но, по крайней мере на первый взгляд, не имеет признаков внутренней структуры (т.е., наличия кластеров или какого-либо регулярного распределения).</p>
<a id="16_Canc_Tot_M"><img src="Pict_1_3/16_Canc_Tot_M.png" width="60%" height="relative"></a><br>
<span class="imgtitle">Рис. 3.29 Хороплет подтвержденных случаев онкологических заболеваний по кварталам Нью-Йорка за 4 года<br>
<div class="script_01">
<figure>
<a id="16_Canc_Tot_H"><img src="Pict_1_3/16_Canc_Tot_H.png" width="100%" height="130"></a>
</figure>
<figure>
<a id="16_Canc_Tot_КК"><img src="Pict_1_3/16_Canc_Tot_КК.png" width="100%" height="130"></a>
</figure>
</div>
<br>
<span class="imgtitle">Рис. 3.30 a) Гистограмма распределения и b) QQ-график онкологических заболеваний<br>
<p><span class="monospace">Гистограмма </span> также близка к "паретианскому" распределению, в котором, среднее больше чем медиана, существует значительная асимметрия (<span class="greencursiv">8,8</span>) влево в область меньших значений и положительные эксцессы (<span class="greencursiv">157,7</span>) с "тяжелым" хвостом; очевидно также, что кривая на <span class="monospace">QQ-графике</span> почти не совпадает с прямой линейной функции, приближаясь к ней только в области средних значений.</p>
<p>Попытаемся "примерить" к феномену заболеваемости объясняющие социальные факторы.</p>
<div class="script_01">
<figure>
<a id="SAGA_cancerlg-income"><img src="Pict_1_3/SAGA_cancerlg-income.png" width="100%" height="relative"></a>
</figure>
<figure>
<a id="SAGA_cancerlg-ginilg"><img src="Pict_1_3/SAGA_cancerlg-ginilg.png" width="100%" height="relative"></a>
</figure>
</div><br>
<span class="imgtitle">Рис. 3.31 Диаграммы рассеяния для переменной Общее число онкозаболеваний в последовательных парах: а) Доход домохозяйств, b) Индекс неравенства доходов Джини</span><br>
<p>О чем говорят эти диаграммы? Распределение заболеваний обнаруживает довольно высокую "компактность" значений со сравнительно небольшим (относительно общего объема значений) числом выбросов. Однако объясняющая функция Дохода Домохозяйства чуть более одного процента, в то время как Индекс Джини "объясняет" <span class="greencursiv">11%</span> наблюдений. </p>
<p>У заболеваемости могут быть разные причины, в том числе - генетические, следовательно небессмысленным является вопрос о том, одинаково ли часто болеют представители белого и афроамериканского населения?</p>
<div class="script_01">
<figure>
<a id="SAGA_cancerlg-afroam"><img src="Pict_1_3/SAGA_cancerlg-afroam.png" width="100%" height="relative"></a>
</figure>
<figure>
<a id="SP_Cancer-European"><img src="Pict_1_3/SAGA_cancerlg-european.png" width="100%" height="relative"></a>
</figure>
</div>
<br>
<span class="imgtitle">Рис. 3.32 Диаграммы рассеяния для переменной Общее число онкозаболеваний в последовательных парах: а) Заболеваемость - Численность афроамериканцев, b) Заболеваемость - Численность белых американцев</span>
<p>Две построенные диаграммы на самом деле демонстрируют интересную закономерность: увеличение доли афроамериканского населения явно работает против роста переменной <strong>Число онкологических заболеваний</strong> (да и коэффициент детерминации здесь выше - <span class="greencursiv">6%</span>).</p>
<p>Велик соблазн связать заболеваемость с комфортностью среды - например, с объемной плотностью застроенности кварталов и площадью элементов зеленой инфраструктуры.</p>
<div class="script_01">
<figure>
<a id="SAGA_cancerlg-ftprnt"><img src="Pict_1_3/SAGA_cancerlg-ftprnt.png" width="100%" height="relative"></a>
</figure>
<figure>
<a id="SAGA_cancerlg-parc"><img src="Pict_1_3/SAGA_cancerlg-parc.png" width="100%" height="relative"></a>
</figure>
</div>
<br>
<span class="imgtitle">Рис. 3.33 Диаграммы рассеяния для переменной Общее число онкозаболеваний в последовательных парах: а) Заболеваемость - Плотность застройки FootPrint, b) Заболеваемость - Площадь парков</span></p>
<p>Однако, построенные диаграммы не свидетельствуют о наличии какой-либо надежной связи между заболеваемостью и факторами комфортности среды. Имеет смысл проверить на наличие корреляции и некоторые пары переменных-предикторов будущей модели. Например, зависимость обнаруживают предсказуемо связанные пары Общая площадь парков - Плотность застройки, или Доля бакалавров - Доля афроамериканцев.</p>
<div class="script_01">
<figure>
<a id="SAGA_park-densbuild"><img src="Pict_1_3/SAGA_park-densbuild.png" width="100%" height="relative"></a>
</figure>
<figure>
<a id="SAGA_Bchprcnt-AfrPrcnt"><img src="Pict_1_3/SAGA_Bchprcnt-AfrPrcnt.png" width="100%" height="relative"></a>
</figure>
</div>
<br>
<span class="imgtitle">Рис. 3.34 Диаграммы рассеяния для переменных: а) Общая площадь парков - Плотность застройки (горизонтальный FootPrint без учета высоты зданий), b) Доля бакалавров - Доля афроамериканцев в общей численности населения квартала</span><br>
<p>Тем не менее, связь в обоих случая хоть и наблюдается, но объясняет не такой уж большой процент выборки - <span class="greencursiv">10%</span> в паре Общая площадь парков - Плотность застройки" и <span class="greencursiv">12% </span>в парке Бакалавры - Афроамериканцы.</p>
<p>Таким образом, парные <span class="monospace">Диаграмма рассеяния</span> весьма ограниченно пригодны для построения серьезных гипотез и выработки заслуживающих доверия объяснений. Кроме того, если проверку на пригодность для включения в модель необходимо осуществить для большого числа переменных составление отдельных диаграмм для каждой пары может оказаться трудоемким занятием. В этом смысле "прорывным" решением является построение <span class="monospace">Матрицы точечной диаграммы</span>, которая отображает парные отношения сразу между всеми привлеченными к анализу переменными.</p>
<p> В <snap class="red">ArcMAP 10.x</snap> <span class="monospace">Main Menu >> View >> Graphs >> Create Scatter plot Matrix Graph) >> Layer = NYCTRACTs.</span> Далее указываются переменные (зависимая и предикторы).</p>
<a id="Scater_Plot_Matrix"><img src="Pict_1_3/Scater_Plot_Matrix.PNG" width="70%" height="relative"></a><br>
<span class="imgtitle">Рис. 3.35 Матрица точечной диаграммы для пяти переменных: Общая преступность (Crime), Годовой доход домохозяйства (Income), Число людей со степенью бакалавра (Bachel), Число безработных афроамериканцев (Afrounempl), Общее число онкологических заболеваний (Cancer), Градостроительная нагрузка (FootPrint)</span></p>
<p><span class="monospace">Матрица точечной диаграммы</span> позволяет оценить потенциальную (парную) взаимозависимость между любым числом переменных, при этом для каждой пары признаков выстраивается точечная диаграмма, а для каждой отдельной переменной - гистограмма. Таким образом эта утилита заменяет сразу два действия (правда, мы не увидим здесь рассчитанные базовых статистик) и хорошо подходит для "разведочных" действий по выявлению зависимостей. </p>
<p>Диаграмма для каждой пары может быть увеличена: щелчок инструментом <span class="monospace">Выбор|Select Features</span> помещает увеличенную копию в верхний правый угол листа. Матрица как и все другие построенные в этом разделе графики и диаграммы могут быть сохранены в любом графическом формате по правой кнопке мыши <span class="monospace">RC >> Save</span> в формате Графический Файл <span class="monospace">Graf File - grf</span> или экспортированы в любой предпочитаемый формат <span class="monospace"> RC >> Export </span> <a href="#Scater_Plot_Matrix">(Рис. 3.35)</a>. Таким образом, <span class="monospace">Матрица точечной диаграммы</span> - удобный инструмент <span class="blackbold">Исследовательского Анализа Данных (ESDA)</span>, позволяющий сделать первые предположения о характере возможных зависимостей и отобрать переменные-кандидаты для более глубокого изучения.</a>.</p>
<p>Изучая зависимость между переменными с помощью <span class="monospace">Диаграмм рассеяния</span> в рамках <span class="blackbold">Исследовательского Анализа</span>, мы можем получить один из нижеследующих результатов:</p>
<ol>
<li>Отсутствие корреляции (независимые переменные): распределение на диаграмме выглядит как округлое (часто - "рыхлое") облако без возможности провести хоть какую-то обобщающую ось;</li>
<li>Линейной корреляции нет, но через облако данных можно провести обобщающую кривую, в этом случае можно либо использовать нелинейную модель, либо преобразовать данные;</li>
<li>Линейной корреляции нет, но в данных наблюдается закономерность, которая (как вариант) может быть отражена параболической кривой, проходящей через точки;</li>
<li>Положительная корреляция, когда точки или их уплотнения пересекаются направленной в верхний правый угол диаграммы прямой линией;</li>
<li>Отрицательная корреляция точки или их уплотнения пересекаются направленной в нижний правый угол диаграммы прямой линией.</li>
</ol>
<p>Как показывают приведенные выше примеры, <span class="monospace">Точечные Диаграмма рассеяния</span> - это ответ на вопрос о существовании линейной корреляции между переменными. Коэффициент детерминации для линейной регрессии равен квадрату коэффициента корреляции. Следовательно, с помощью <span class="monospace">Диаграмм рассеяния</span> мы можем определить:<br>
<ul>
<li>характер связи (положительная отрицательная - определяется наклоном прямой),</li>
<li>силу связи (определяется по коэффициент корреляции - его можно получить из коэффициента детерминации),</li>
<li>объем выборки (в %) объясняемый обнаруженной корреляцией.</li>
</ul>
<br>
<br>
<footer id="main-footer">Пространственный анализ в геоэкологии © Е.Ю.Колбовский, 2022 </footer>
</div>
</body>
</html>