본문 바로가기
멋쟁이사자처럼 AI School 8기(fin)/TIL(Today I Learn)

[멋쟁이사자처럼 AI스쿨] TIL(23.3.6), RFM

by #FF0000 2023. 3. 6.

 

 

 

Q. 요일별 & 월별, 시간대별 구매 빈도수 지표가 중요한 이유 ?

- 중요한 segment 이기 때문

- 특정 시간대나 요일에 서버 증설 또는 알림 , 프로모션, 광고 등

- 구매율을 높이기위한 어떤 액션을 시도할 수 있기 때문.

- 조회수 증가 -> 서비스 개선에 활용

 

 

리텐션을 구할 때는 연도, 월, 일, 주별로 구하기도.

=> 어떤 관점에서 볼 것인지에 따라 주기를 정하게 됨.

 

예를 들어 게임을 오픈했는데 1~2달 정도 되었다면 연도, 월별로 구해서 보더라도 큰 의미를 찾기 어려울 것입니다. 그래서 서비스 초기에는 시간대별, 일자별로 보기도 합니다. 서비스를 어느정도 운영하다보면 연도, 월별로 궁금해 지는 시점이 옵니다. 그 때는 연도, 월별로 구해서 보게 됩니다. 위 예시처럼 투자를 위해 리텐션을 만든다면 연도별, 월별로도 만들어 볼 수 있을 것입니다.

 

코흐트 - 시간, 행동, 규모 단위로 구할 수 있으며, 여기에서는 시간 집단을 기준으로 봅니다. => 리텐션

리텐션 => 월별로 구해서 기존 구매했던 고객이 월별로 얼마나 남아있는지를 구해볼 예정입니다.

 

 

RFM 분석은 고객 분석 방법 중 하나, 고객의 거래 내역 데이터를 기반으로 고객을 분류하는 기법.

RFM은 Recency, Frequency, Monetary의 약어로 각각 최근성, 빈도, 금액을 의미.

Recency(최근성) : 고객이 얼마나 최근에 구매를 했는지를 나타내며, 최근 구매일수록 점수가 높게 부여.

Frequency(빈도) : 고객이 일정 기간 동안 구매한 빈도를 나타내며, 구매 횟수가 많을수록 점수가 높게 부여.

Monetary(금액) : 고객이 일정 기간 동안 구매한 총 금액을 나타내며, 구매 금액이 많을수록 점수가 높게 부여.

 

각각의 요소를 기반으로 점수를 부여하고, 이를 종합하여 고객을 분류.

이를 통해 고객의 구매력과 가치를 파악, 고객 그룹별로 타겟 마케팅 전략을 수립.

ex) 고객의 최근성 점수가 높으면 재구매를 유도하기 위해 할인 쿠폰을 제공하거나 새로운 상품을 추천.

 

 

이상치(outliers)와 오류 데이터(errors)는 모두 데이터셋에서 문제가 있는 데이터를 의미
 
이상치는 데이터의 분포에서 벗어난 극단적인 값을 가진 데이터.
이상치는 데이터 분석에서 실제 데이터 분포를 제대로 파악하지 못하게 하거나, 모델의 성능을 왜곡시키는 요인으로 작용> 이상치를 탐지하고 제거하는 것은 데이터 분석에서 중요한 전처리 과정.
 
오류 데이터는 입력 과정에서 발생하는 실수, 노이즈, 손상된 데이터 등으로 인해 발생하는 잘못된 데이터를 의미.
오류 데이터는 데이터의 수집 과정에서 발생할 수 있으며, 계측 장비의 오작동, 인터넷 연결의 불안정 등이 원인 가능.
> 오류 데이터를 제거하는 것도 데이터 전처리의 중요한 과정 중 하나.
 
 

이상치를 제거하는 기준

> 데이터 분석의 목적과 분석 대상의 특성, 데이터 크기 등에 따라 다르므로, 이에 맞게 적절한 기준 선정 필요.

1. 시각화를 통한 확인
> boxplot, scatter plot 등 시각화를 통해 이상치를 확인하고, 분석 대상에서 제외하는 방법.
 
2. 통계적 방법
> z-score나 IQR(Inter-Quartile Range) 등을 이용하여, 데이터 분포에서 벗어나는 값을 이상치로 판단하고 제거하는 방법
 
3. 도메인 지식 활용
> 데이터 분석 대상의 특성과 도메인 지식을 이용하여, 이상치를 판단하고 제거하는 방법
 
 
 
 
cut() : 히스토그램의 bins 와 같은 역할, 같은 길이로 구간을 나눈다.
 => 절대평가, 예) 몇 점이상이면 A학점,
 
qcut() : 같은 개수로 구간을 나눈다
=> 상대평가, 예) 상위 10명 A학점