일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- FWER
- ecommerce data
- 데이터 시각화
- data analysis
- 시각화
- 다중검정
- spearman
- 통계
- ttest
- plot
- E-Commerce
- cltv
- Yeo-Johnsom 변환
- lifetimevalue
- matplotlib
- 베이지안론
- 빈도주의론
- box-cox변환
- marketing insight
- p value plot
- python significance level
- 데이터 분석
- 분위수 변환
- 백분위 변환
- python error plot
- marketing
- error bar plot
- 고객가치분석
- python
- Pearson
- Today
- Total
목록Data 공부 (11)
Data 공부

다중검정 (Multiple Comparison) 1. 다중검정이란? - 다중 검정이란 여러 개의 가설검정을 동시에 수행하는 것. 예를 들어, 정상인과 환자간의 유의한 변수들(ex. 진료 데이터)을 식별하기 위해 데이터 피쳐의 갯수만큼의 가설을 검정하는 것이다. 이전의 가설 검정 방법은 단일 가설을 검정하는 것에 관심이 있었지만, 빅데이터가 많이 생섬됨에 따라 다중검정이 더 중요한 경우도 발생한다. 각각의 가설에 대해 유의수준 α(1종오류)인 검정을 동시에 수행할 경우 전체오류율(1종오류)이 매우 커지게 된다. 이를 다중 검정의 문제라고 하며, 전체오류율을 유지하는 방법이 필요하다. 대표적으로 FWER을 통제하는 방법, FDR을 조절하는 방법이 있다. 2-1. FWER (Family-Wise Error R..

Error bar plot 그리기 (significance level추가) 예제 코드) import numpy as np import scipy.stats as st import matplotlib.pyplot as plt temp1 = np.random.normal(30,50,100) # temp data 1 temp2 = np.random.normal(70,80,100) # temp data 2 # 각 temp data의 평균 temp1_mean = temp1.mean() temp2_mean = temp2.mean() # 각 temp data의 표준오차 temp1_err = temp1.std() / np.sqrt(len(temp1)) temp2_err = temp2.std() / np.sqrt(len..

데이터 스케일링(Skewed 데이터) *참조 :https://statacumen.com/teach/S4R/PDS_book/skewed-left-distributions.html 1. 데이터 스케일링이란? - 데이터 분석을 하기 위해 데이터 스케일링을 하는 이유는 정규성을 높이고 분석(회귀분석 등)에서 정확한 값을 얻기 위함이다. 데이터 간 편차를 줄여 왜도(skewness)와 첨도(kurtosis)를 줄일 수 있기 때문에 정규성이 높아진다. 2-1. 로그(log) 변환 (np.log) 데이터의 분포를 모았을 때 밀집되어 있는 부분은 퍼지게, 퍼져있는 부분은 모아지게 만들기 위하여 실행. np.log()를 사용하기보다는 np.log1p()를 사용하여 0의값을 가질경우 -inf로 나타나는 현상을 방지하는 것..

이상치 제거 1. 이상치 제거란? - 이상치 제거는 데이터에서 극단적으로 크거나 작은 값으로 판단되는 데이터를 제거하는 과정이다. 이상치가 있는 데이터는 분석 결과에 영향을 미칠 수 있기 때문에, 이를 제거하거나 대체하는 것이 중요하다. 2-1. IQR(InterQuartile Range) - IQR이란, Interquartile range의 약자로써 Q3 - Q1를 의미한다. 그리고 Q1과 Q3양단에 길게 뻗은 수염 같은 것을 Box whisker(수염) 라고 부르며, 수염길이는 보통 IQR의 1.5배이다. 박스플롯을 보면, 수염 범위 바깥에 있는 값들을 Outlier(이상치)라고 칭한다. # outlier 처리 def remove_outliers_iqr(df, column_name, lower, up..

상관관계(Correlation) 1. 상관관계란? - 상관관계(correlation)란 두 변수 사이에 어떠한 관계가 있는지를 나타내는 것이다. 상관계수는 -1에서 1 사이의 값을 가지며, 두 변수가 양의 상관관계를 가질수록 값이 1에 가까워지고, 음의 상관관계를 가질수록 -1에 가까워진다. 값이 0이라면 두 변수는 아무런 상관관계가 없다는 것을 의미한다. 2-1. 연속형 데이터간 상관관계 Pearson 두 변수가 모두 연속형 자료일 경우, 두 변수간 선형적인 상관 관계의 크기를 모수적(parametric)인 방법으로 나타내는 값. 정규분포를 가정. Spearman 두 변수가 심각하게 정규분포를 벗어나거나, 두 변수가 순위 척도 (ordinal scale)자료일 경우 사용하는 값. Pearson과 달리 ..

정규성 검정(Normality Test) 참조: https://www.khanacademy.org/math/statistics-probability/modeling-distributions-of-data/normal-distributions-library/a/normal-distributions-review 1. 정규성 검정(Normality Test)이란? 데이터 분석에서 정규성 검정을 하는 이유는 가설 검정과 회귀 분석 등의 통계적 모형에서 정규분포 가정이 필요하기 때문이다. 일반적으로, 대규모 표본의 경우 중심극한정리에 따라 정규분포를 따르기 때문에 정규성 검정을 할 필요가 없지만, 작은 표본의 경우 정규성이 중요한 역할을 한다. 정규성 검정을 통해 데이터가 정규분포를 따르는지 여부를 판단할 수 있..

모수 / 비모수 통계 방법의 정의와 적절한 통계기법 1. 모수적 방법(parametric method)이란? - 모수 통계의 경우 모집단의 특성이 중심 극한 정리를 통해서 정규분포의 형태를 이루고 있다고 가정한 채 표본 자료로 부터 모집단 특성들을 추정해 내는 방식. 분산, 평균 등을 사용해 추측하며, 등간격성, 정규분포성, 연속성, 분산 동질성을 만족해야만 하는 통계를 모수 통계라고 일컫는다. 2. 비모수적 방법(non-parametric method)이란? - 비모수 통계의 경우 모집단 특성 자체가 어떠한 분포를 가정하지 않은 상태로 하여 모집단 특성을 추정케 되는 방식. 정규분포성, 선형성 등 조건이 따로 없어도 되기에 가설 검정력자체도 좀 더 정밀. 부호, 순위, 도수 등 통계량을 이용하여 분석을..

matplotlib을 이용하여 방사형 그래프(Radar Chart)를 그리는 코드입니다. 예제 코드는 Input data 길이가 4인 데이터 대한 예제입니다. 예제 코드) def plot_radar_chart(values:list): """ plot radar chart Args: values (list) : len(4) """ values += values[:1] # Because of the circulating Radar Chart personality. N = len(values) - 1 angles = [n / float(N) * 2 * pi for n in range(N)] angles += angles[:1] plt.figure(figsize=(7,6)) ax = plt.subplot(111..