[통계] 데이터 스케일링(Skewed 데이터)

Notice

Recent Posts

Tags more

Archives

관리 메뉴

Data 공부

Data 공부/통계 & ML

Junseokk 2023. 6. 14. 17:20

1. 데이터 스케일링이란?

- 데이터 분석을 하기 위해 데이터 스케일링을 하는 이유는 정규성을 높이고 분석(회귀분석 등)에서 정확한 값을 얻기 위함이다. 데이터 간 편차를 줄여 왜도(skewness)와 첨도(kurtosis)를 줄일 수 있기 때문에 정규성이 높아진다.

2-1. 로그(log) 변환 (np.log)

2-2. 루트(sqrt) 변환 (np.sqrt)

2-3. Box-cox 변환(scipy.stats.boxcox or sklearn.preprocessing.power_transform)

Box-cox 변환은 데이터 분포의 정규성을 높이기 위해 사용되는 방법 중 하나이다. 이 방법은 데이터가 양수일 때 사용되며, 데이터를 어떤 지수로 제곱하는 방법으로 변환한다. 변환된 데이터는 정규분포에 근접하게 되며, 이후에 분석에 적용할 수 있다.

2-4. Yeo-Johnson 변환(sklearn.preprocessing.power_transform)

2-5. 분위수 변환(np.percentile)

[통계] 다중가설검정 (Multiple Comparison) (0)	2023.06.20
[통계] 이상치 제거 (0)	2023.06.13
[통계] 상관관계(Correlation) (0)	2023.06.13
[통계] 정규성 검정(Normality Test) (0)	2023.06.12
[통계] 모수 / 비모수 (0)	2023.06.12

'Data 공부/통계 & ML' Related Articles

Comments