-
Notifications
You must be signed in to change notification settings - Fork 7
/
Copy path04-tansuo.Rmd
68 lines (53 loc) · 2.43 KB
/
04-tansuo.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
# 探索性数据分析 {#exp}
## ACES 模型
Letter | Step | Notes
------ | ---- | -----------
A | Acquire the data and Assemble the data frame | Find data and import
C | Clean the data frame | Identify and limit columns, rows, indices, dates, etc.
E | Explore global properties | Visualize! Basic plots and stats appropriate to the data set
S | Subset comparisons | Look at (visualize!) initial emergenet variable relationships and subsets
## 探索绘图原则
- 表示可比的对比
- 表示因果 解释 机制 系统结构
- 表示多元变量(超过2)
- 证据整合 目的驱动非工具驱动
- 证据描述要标注限定恰当
- 内容为王
## 探索性绘图
- 个人理解用
- 不用过分关注细节
- 基于问题或假设出发
## 分层聚类
- 找到最近的 聚到一起 找下个最近的
- 给出距离范围与距离计算方法
- 欧氏距离 多维空间点距 开平方
- manhattan距离 出租车距离 绝对值
- 给出变量间或样本间的关系
- 图形可能不稳定 多少样本多少类
- 结果是确定的
- 选定cut点并不明显
- 应该首先用来探索
## k-means聚类
- 固定聚类数 给出聚类中心 寻找最近的点 循环
- 需要聚类数与聚类距离范围
- 需要大量聚类 通过眼睛 交叉检验
- k的经验数值$\sqrt{n/2}$ 或者根据解释的变量变化多少来选取
- 结果不确定 根据聚类数与迭代次数而变化
## 维度还原
- 找到最不相关的数来解释整体方差(统计)在这些数中选取个数最少的来解释原始数据(压缩)
- 不一定是真实向量的叠加
- SVD是PCA的一种解法 UDV三个向量 其中U表示行变化模式 D表示方差 V表示列变换模式 这样有助于解释主成分变化
- 标准化与否影响结果
- 计算量大
- 类似探索分析还有因子分析 独立成分分析 潜在语义分析
- impute包可补充缺失值
- t-sne
## 可视化图形
- [动态可视化](https://github.com/thomasp85/tweenr)
- [弦图](https://github.com/jokergoo/circlize)
- [示意地图](https://github.com/hafen/geofacet)
- [变形地图绘制](https://github.com/sjewo/cartogram)
- [重复模式可视化](https://flowingdata.com/2018/07/09/how-to-visualize-recurring-patterns/)
- [不确定性可视化](https://flowingdata.com/2018/01/08/visualizing-the-uncertainty-in-data/)
- 周期性作图需要画两个周期来观察其变化 相关
- [生物数据可视化](https://www.nature.com/articles/nbt.1567)