-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy path240823통계교육
39 lines (33 loc) · 2.13 KB
/
240823통계교육
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
# 한국생명공학연구원 썸머스쿨 R을 활용한 통계분석 기초과정
## 1. 통계분석 개요
- 시스템의 복잡, 이를 이해하고 결정하기 위해 데이터를 획득하고 처리할 필요성이 증대
- '빅데이터 분석(big data analysis)’은 이러한 사회 경제적,기술적 추세를 대변
### 통계적 분석의 종류
- 1) 기술통계 분석(descriptive statistics analysis)
- 2) 추론통계 분석(inferential statistics analysis)
- 기술통계 분석
- 분석자가 한눈에 파악할 수 있도록 데이터를 정리하고 표현
- 데이터를 잘 요약-> 모집단에 대한 유용한 정보를 생산
- 데이터를 단순화하는 과정에서 정보의 손실 발생
- 추론통계 분석
- 전체집단(모집단)에 대한 조사가 불가능, 비효율 -> 일부(표본) 만을 추출하여 추측하는 분석 방법
### 통계분석의 절차
1) 문제 정의
- 분석의 목적 및 목표, 분석의 범위, 분석 결과 활용 방안, 분석 고려사항 등 해결하고자 하는 문제 정의
2) 데이터 수집
- 분석에 필요한 데이터 수집
3) 데이터 탐색 및 전처리
- 데이터를 분석에 맞도록 변환
4) 통계 모형 수립
- 분석의 목적이 되는 변수와 다른 변수들의 관계를 수학적으로 모형화
5) 결론 도출
### 통계 데이터에서 변수의 종류
- 행렬식 구성
- Observation : 가로축, 관측된 값
- attributes(variable) : 관측대상의 속성에 대한 값
- value : 특정 하나의 관측된 값
- 질적 변수(qualititive variables)와 양적 변수 (quantitative)
- 질적변수: 명목형 변수(남자,여자)와 순서형 변수(1,2...)로 나뉨, 범주형 변수(categorical variables)라고도 함.
- 양적변수: 비율형(ratio)과 구간형(interval) 변수로 구분, 분석에서는 수치들의 중심값, 퍼진 정도 등이 관심의 대상
- 비율형(ratio) : 두 수치 변수의 차이 뿐만 아니라, 두 변수의 비율에 의미를 둘 수 있음(신장,체중)
- 구간형(interval) : 수치들의 차이에만 의미를 부여 가능(온도)