Data 공부

[통계] 정규성 검정(Normality Test) 본문

Data 공부/통계 & ML

[통계] 정규성 검정(Normality Test)

Junseokk 2023. 6. 12. 16:05

정규성 검정(Normality Test)


<정규분포>

참조: https://www.khanacademy.org/math/statistics-probability/modeling-distributions-of-data/normal-distributions-library/a/normal-distributions-review

1. 정규성 검정(Normality Test)이란?

  •  데이터 분석에서 정규성 검정을 하는 이유는 가설 검정과 회귀 분석 등의 통계적 모형에서 정규분포 가정이 필요하기 때문이다. 일반적으로, 대규모 표본의 경우 중심극한정리에 따라 정규분포를 따르기 때문에 정규성 검정을 할 필요가 없지만, 작은 표본의 경우 정규성이 중요한 역할을 한다. 정규성 검정을 통해 데이터가 정규분포를 따르는지 여부를 판단할 수 있으며, 필요한 경우 데이터를 변환하여 정규성을 높일 수 있다.

 

2. 정규성 검정 가설

  • 귀무가설(H0): 데이터셋이 정규분포를 따른다.
  • 대립가설(H1): 데이터셋이 정규분포를 따르지 않는다.
  • p_value < 0.05일 경우 해당 데이터셋은 정규분포를 따르지 않음.

 

3. 정규성 검정 방식.

  1. normal test (scipy.stats)
    • normal test는 왜도(skew)와 첨도(kurtosis)를 통해 정규성을 검정하게 된다. 검정하는 방식은 2-sided 카이제곱 검정으로 시행한다.
  2. shapiro test (scipy.stats)
    • shapiro test는 정규성 검정 방법 중 하나이다. 이 방법은 특정 변수가 정규분포를 따르는지 여부를 판단하는데 사용된다. shapiro test는 표본의 크기가 작을 때도 유용하며, 많은 통계적 분석에서 중요한 선행 조건 중 하나이다
    • 표본수가 2000 미만일 경우 주로 사용된다.
  3. KS test (scipy.stats)
    • Kolmogorov-Smirnov(KS) 검정은 두 확률 분포가 같은 분포인지를 검정하는 검정 방법 중 하나입니다. 이 검정은 두 분포간의 최대 차이 값을 이용하여 검정을 수행한다. 일반적으로, KS 검정은 대부분의 분포에서 사용할 수 있으며, 특히 큰 표본에 대해 더욱 강력한 검정 방법이다. 
    • 표본수가 2000 초과할 경우 주로 사용된다.

 

반응형
Comments