본문 바로가기
멋쟁이사자처럼 AI School 8기(fin)

[멋쟁이사자처럼 AI스쿨] mini-project2 with EDA 회고

by #FF0000 2023. 2. 6.

 

 

미니 프로젝트1이 끝나고 바로 부여된 미니 프로젝트2 일정.

 

일요일에 프로젝트 마무리.

월요일에 발표

월요일에 새로운 프로젝트 일정 공지

수요일에 새로운 프로젝트 테마 선정.

다시 해당 주 일요일에 프로젝트 마무리.

차주, 내일 프로젝트 2 발표.

 

이번 과제에서의 어려운 점은 바로 '데이터 선정'의 어려움이었다.

 

기존의 수업에서 시계열데이터 - 주식 을 다루었기 때문에

이와 연관되면서도 최대한 곂치지 않는 데이터셋을 찾는 것이 1차 과제였다.

 

최초 선정한 데이터 셋은 구매자의 나이, 성별, 학력, 겷혼 유무, 자녀 유무 등에 따른 와인 구매와 와인 안주 구매에 대한 자료였다. 해당 자료는 분석 항목을 다채롭게 구성 가능했으나,

시계열 데이터의 부족으로 분석 항목 도출 후 실제 코드 작성시 시간에 흐름을 표현 하지 못해 폐기 처리 되었다.

 

이후 금요일 22시경, 긴급 소집 후 시간 데이터가 포함된 '월마트 매장별 판매 현황' 데이터로

과제 데이터셋을 전면 교체, 장장 새벽 2시까지 분석 항목 도출 후 과제를 시작했다.

 

분석 항목으로 정한 카테고리는 총 12개로,

 

 

1) 매출이 가장 많은 매장

2) 매출이 가장 적은 매장

3) 어떤 점포가 최대 표준편차를 가지는가,

4) 어떤 점포가 최소 표준편차를 가지는가,

5) 2012년 3분기 분기 성장률이 좋은 매장은 어디입니까?

6) 점포별 매출, 실업률

7) 날짜, 실업률

8) 주간매출, 소비자물가지수

9) 연료비, 소비자물가지수

10) 실업률, 소비자물가지수

11) 매출, 온도

12) 매장 전체의 연도별 매출액 비교, 연도별 매출액 증감률 비교

 

이 중 다양한 분석을 하기 위해 곂치지 않는 항목 배정을 하기로 하고

1~6번 을 사다리타기로 정해, +6 숫자를 추가로 배정하기로 하였다.

 

그리하여 나에게 배정된 항목은 5번과 12번.

 

 

기본 데이터셋에서 전처리를 진행,  파생변수는 공통으로 사용 가능한 date만 분리하여 추가 하였다.

(개인별 분석에 필요한 파생변수는 각자 추가)

 

전처리 후 데이터 셋

 

 

5) 2012년 3분기 분기 성장률이 좋은 매장은 어디입니까? 의 항목에서 어려웠던 부분은

바로 성장률!

이 데이터셋은 선형 희귀분석용 데이터라, 단순 EDA를 하는 우리에게는 적용 할 수 없던 항목이었으나,

성장률을 매출액 증가율로 바꾸어 해당 분석을 진행하기로 하였다,

 

 

우선 '연도'와 '월'의 조합으로 데이터를 추출하여

2012년도 3분기와 2011년도 3분기, 2012년도 2분기 데이터를 생성했으며,

여기서 주간 매출 부분만 groupby.sum()으로 

매장별 매출액을 도출 하였다.

 

 분석 결과 도출 성공적.

 

plotly를 사용해 5번 항목의 그래프를 작성하였다.

 

 

 

다음은 분석 2번쨰 항목인 12번,

 

12번 항목에서는 객체지향방식의 ax.을 이용한 그래프 작성을 시도하였으나, y축이 음수로 표현되는 것을 해결하지 못해

plt방식으로만 작성을 하였다. 이 부분은 차후 구글링을 통해 재 도전 예정이다.

 

분석 항목을 선정할때에는 적당히? 난이도 있는 항목을 구성했다고 생각했는데,

막상 코딩에 들어가니, 단순하게 추출 한 것 같아서 조금 아쉬운 부분이 있었다.

 

다음번 mid 프로젝트에는 무언가 번뜩이는 insight가 투입되고 도출되는 항목을 구성해서

유의미한 데이터 분석 작업을 하고 싶다는 마인드를 갖게 한

 

미니프로젝트2 였다.