일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- marketing insight
- 데이터 시각화
- 데이터 분석
- cltv
- E-Commerce
- python error plot
- spearman
- matplotlib
- marketing
- 백분위 변환
- 통계
- Pearson
- 시각화
- 고객가치분석
- Yeo-Johnsom 변환
- p value plot
- 베이지안론
- 빈도주의론
- plot
- data analysis
- box-cox변환
- FWER
- lifetimevalue
- 다중검정
- python
- ttest
- 분위수 변환
- error bar plot
- ecommerce data
- python significance level
- Today
- Total
목록데이터 분석 (4)
Data 공부

A/B TestA/B 테스트에 대한 정의와 관련된 Issue들을 공부하고, kaggle data를 통해 실습한다. A/B 테스트- 두 가지 또는 그 이상의 시안을 실험하여 비즈니스에 최상의 결과를 가져오는 버전을 알아내는 통계적 검증방식- 목적: 변형이 더 나은 성능을 보는지 통계적으로 검증. A/B 테스트 수행 전 중요한 issue1. KPI 지표의 잘못된 산출 - 작은 실수로 발생할 수 있는 해당 issue는 실험 data를 왜곡시킨다.2. post-click landing page - 변경하고자하는 B 안이 기존의 A 안과 동일하게 모든 기기와 브라우저에서 호환되야 한다. - 테스트 시 A 안이 순간 나타나고 B 안이 나타나는 flicker effect를 조심해야 한다.3. 너무 빠..

Simple AnalysisEDA를 통해 이해한 데이터의 특성과 산업의 특성에 따라 간단한 분석을 수행하여 현황 파악 및 취할 수 있는 사업전략을 고민해본다. Simple Analysis로서 분석의 순서에 상관없이 분석을 시행하면서 생각이 흐르는대로 분석을 시행하여 인사이트 및 추후 분석방향을 도출해본다. 0. Import Package¶ In [1]:import pandas as pdimport seaborn as snsimport numpy as npimport osimport scipy.stats as stimport matplotlib.pyplot as pltimport warningswarnings.filterwarnings('ignore')%matplotlib inline 1. Data L..

데이터 스케일링(Skewed 데이터) *참조 :https://statacumen.com/teach/S4R/PDS_book/skewed-left-distributions.html 1. 데이터 스케일링이란? - 데이터 분석을 하기 위해 데이터 스케일링을 하는 이유는 정규성을 높이고 분석(회귀분석 등)에서 정확한 값을 얻기 위함이다. 데이터 간 편차를 줄여 왜도(skewness)와 첨도(kurtosis)를 줄일 수 있기 때문에 정규성이 높아진다. 2-1. 로그(log) 변환 (np.log) 데이터의 분포를 모았을 때 밀집되어 있는 부분은 퍼지게, 퍼져있는 부분은 모아지게 만들기 위하여 실행. np.log()를 사용하기보다는 np.log1p()를 사용하여 0의값을 가질경우 -inf로 나타나는 현상을 방지하는 것..

상관관계(Correlation) 1. 상관관계란? - 상관관계(correlation)란 두 변수 사이에 어떠한 관계가 있는지를 나타내는 것이다. 상관계수는 -1에서 1 사이의 값을 가지며, 두 변수가 양의 상관관계를 가질수록 값이 1에 가까워지고, 음의 상관관계를 가질수록 -1에 가까워진다. 값이 0이라면 두 변수는 아무런 상관관계가 없다는 것을 의미한다. 2-1. 연속형 데이터간 상관관계 Pearson 두 변수가 모두 연속형 자료일 경우, 두 변수간 선형적인 상관 관계의 크기를 모수적(parametric)인 방법으로 나타내는 값. 정규분포를 가정. Spearman 두 변수가 심각하게 정규분포를 벗어나거나, 두 변수가 순위 척도 (ordinal scale)자료일 경우 사용하는 값. Pearson과 달리 ..