일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- ttest
- p value plot
- 통계
- error bar plot
- 데이터 시각화
- marketing insight
- Pearson
- E-Commerce
- spearman
- FWER
- Yeo-Johnsom 변환
- lifetimevalue
- cltv
- 고객가치분석
- 시각화
- marketing
- python significance level
- 빈도주의론
- matplotlib
- 베이지안론
- 데이터 분석
- ecommerce data
- 백분위 변환
- python error plot
- data analysis
- 다중검정
- box-cox변환
- python
- plot
- 분위수 변환
- Today
- Total
목록분류 전체보기 (21)
Data 공부

A/B TestA/B 테스트에 대한 정의와 관련된 Issue들을 공부하고, kaggle data를 통해 실습한다. A/B 테스트- 두 가지 또는 그 이상의 시안을 실험하여 비즈니스에 최상의 결과를 가져오는 버전을 알아내는 통계적 검증방식- 목적: 변형이 더 나은 성능을 보는지 통계적으로 검증. A/B 테스트 수행 전 중요한 issue1. KPI 지표의 잘못된 산출 - 작은 실수로 발생할 수 있는 해당 issue는 실험 data를 왜곡시킨다.2. post-click landing page - 변경하고자하는 B 안이 기존의 A 안과 동일하게 모든 기기와 브라우저에서 호환되야 한다. - 테스트 시 A 안이 순간 나타나고 B 안이 나타나는 flicker effect를 조심해야 한다.3. 너무 빠..

LTV이전 Cohort Analysis에서 고객이탈에 대한 주기에 대한 지표에 대한 중요성 등의 필요성을 확인했으므로 LTV 분석을 통해 고객의 예상 구매 횟수, 예상 구매 금액을 예측한다. 신규 고객 유치에 드는 비용(Acquisition Cost)가 통상적으로 기존 고객을 유지하는데 드는 비용(Retention Cost)보다 크다는 점을 이용하여 기존 고객들의 특성 파악을 통해 고객 중심의 마케팅 전략을 설정한다.*참고:https://pl ayinpap.github.io/ltv-practice/ 0. Import Package & Data Load¶ In [1]:import pandas as pdimport seaborn as snsimport numpy as npimport osimport..

Cohort Analysis이전, Customer Segment의 결과에서 이탈 우려 고객에 대한 분포가 비교적 크게 분포하였다. Cohort 분석을 통하여 고객들의 이탈을 이해하고, 고객의 재구매율을 통해 맞춤형 마케팅 전략 등을 고민해본다. 0. Import Package & Data Load¶ In [6]:import pandas as pdimport seaborn as snsimport numpy as npimport osimport scipy.stats as stimport matplotlib.pyplot as pltimport warningswarnings.filterwarnings('ignore')%matplotlib inlinedata_cus = pd.read_pickle("data_c..

Customer Segment이전 Simple Analysis에서 MAU와 (매출, 마케팅 사용금액)에는 상관관계가 없는 것을 확인했으며, 소수고객이 큰 매출 비율을 차지하는 것을 확인하였다. 이는 고객에 대한 더 깊은 분석이 필요할 것이라 판단하였다. 따라서, 고객에 대한 세분화 분석을 진행하여 고객 유지, 재구매율 향상 유도, 맞춤형 마케팅 등의 효과를 야기하기로 한다.Heuristic RFM 기법과 data-driven K means clustering 기법을 비교하여 고객 세분화 결과를 비교한다. 0. Import Package & Data Load¶ In [1]:import pandas as pdimport seaborn as snsimport numpy as npimport osimpo..

Simple AnalysisEDA를 통해 이해한 데이터의 특성과 산업의 특성에 따라 간단한 분석을 수행하여 현황 파악 및 취할 수 있는 사업전략을 고민해본다. Simple Analysis로서 분석의 순서에 상관없이 분석을 시행하면서 생각이 흐르는대로 분석을 시행하여 인사이트 및 추후 분석방향을 도출해본다. 0. Import Package¶ In [1]:import pandas as pdimport seaborn as snsimport numpy as npimport osimport scipy.stats as stimport matplotlib.pyplot as pltimport warningswarnings.filterwarnings('ignore')%matplotlib inline 1. Data L..

EDA해당 카테고리에선 Kaggle의 Marketing insights for E-commerce company dataset을 활용하여 해당 회사의 데이터 분석가로서 분석하고, E-commerce 산업에서 우위를 가지기 위하여 어떤 사업전략을 취해야 할지 고민해본다. 0. Data Introduce & Import Package¶ https://www.kaggle.com/datasets/rishikumarrajvansh/marketing-insights-for-e-commerce-company/data2019.01.01~2019.12.31 까지의 온라인 거래 내역이 포함되어 있는 E-commerce Data이다.CustomersData, Discount_Coupon, Marketing_Spend, ..

다중검정 (Multiple Comparison) 1. 다중검정이란? - 다중 검정이란 여러 개의 가설검정을 동시에 수행하는 것. 예를 들어, 정상인과 환자간의 유의한 변수들(ex. 진료 데이터)을 식별하기 위해 데이터 피쳐의 갯수만큼의 가설을 검정하는 것이다. 이전의 가설 검정 방법은 단일 가설을 검정하는 것에 관심이 있었지만, 빅데이터가 많이 생섬됨에 따라 다중검정이 더 중요한 경우도 발생한다. 각각의 가설에 대해 유의수준 α(1종오류)인 검정을 동시에 수행할 경우 전체오류율(1종오류)이 매우 커지게 된다. 이를 다중 검정의 문제라고 하며, 전체오류율을 유지하는 방법이 필요하다. 대표적으로 FWER을 통제하는 방법, FDR을 조절하는 방법이 있다. 2-1. FWER (Family-Wise Error R..

Error bar plot 그리기 (significance level추가) 예제 코드) import numpy as np import scipy.stats as st import matplotlib.pyplot as plt temp1 = np.random.normal(30,50,100) # temp data 1 temp2 = np.random.normal(70,80,100) # temp data 2 # 각 temp data의 평균 temp1_mean = temp1.mean() temp2_mean = temp2.mean() # 각 temp data의 표준오차 temp1_err = temp1.std() / np.sqrt(len(temp1)) temp2_err = temp2.std() / np.sqrt(len..