Data 공부

[통계] 상관관계(Correlation) 본문

Data 공부/통계 & ML

[통계] 상관관계(Correlation)

Junseokk 2023. 6. 13. 17:14

상관관계(Correlation)


 

1. 상관관계란?

 

- 상관관계(correlation)란 두 변수 사이에 어떠한 관계가 있는지를 나타내는 것이다. 상관계수는 -1에서 1 사이의 값을 가지며, 두 변수가 양의 상관관계를 가질수록 값이 1에 가까워지고, 음의 상관관계를 가질수록 -1에 가까워진다. 값이 0이라면 두 변수는 아무런 상관관계가 없다는 것을 의미한다.


2-1. 연속형 데이터간 상관관계

  • Pearson
    • 두 변수가 모두 연속형 자료일 경우, 두 변수간 선형적인 상관 관계의 크기를 모수적(parametric)인 방법으로 나타내는 값. 정규분포를 가정.
  • Spearman
    • 변수가 심각하게 정규분포를 벗어나거나, 두 변수가 순위 척도 (ordinal scale)자료일 경우 사용하는 값. Pearson과 달리 선형적인 상관관계를 나타내지 않고 단순히 한 변수가 증가할 때 다른 변수가 증가하는지 감소하는지에 대한 관계만을 나타내는 비모수적(non-parametric) 상관 계수.
  • Kendall
    • Spearman과 비슷하게 순위 척도 자료 또는 순위 척도로 변환한 자료를 이용해 두 변수간 상관 계수의 크기를 나타내는 값.

2-2. 범주형 데이터간 상관관계

  • Phi Correlation
    • 범주형 변수간 상관관계 파악 / 비교대상 범주 데이터가 2개
  • Cramer's V
    • 범주형 변수간 상관관계 파악 / 비교대상 범주 데이터가 3개 이상

2-3. 연속형 - 범주형 데이터간 상관관계

  • Point biserial correlation
    • 두개 변수중 하나는 범주형 변수이고, 다른 하나는 연속형 변수 일 때
  • Biserial correlation
    • 두개 변수중 하나는 명명척도, 다른 하나는 연속변수(*명명척도: 변수나 크기나 순서에 대한 의미가 없는경우)
    • 명명척도의 유목은 인위적 구분하는 이분변수

 

<상황별 상관계수 방식>

*참조 https://medium.com/@outside2SDs/an-overview-of-correlation-measures-between-categorical-and-continuous-variables-4c7f85610365

반응형
Comments