본문 바로가기
멋쟁이사자처럼 AI School 8기(fin)

[멋쟁이사자처럼 AI스쿨] mid project #1. 회고

by #FF0000 2023. 2. 27.

 

 

미드 프로젝트 #1 회고.

23.2.20 - 23.2.26

 

짧고도 길었던 미드 프로젝트1의 테마는 EDA.

 

 

최초, 주제 선정시 아이템은 '노인'이었다.

 

고령화와 관련된 사안들을 경제, 복지, 건강의 카테고리에서 분석해 보는것이었는데,

 

자료 수집 및 1차 데이터 EDA가 들어간 시점에서

 

주제가 너무 광범위하고, 도출될 결론이 너무 당연할 수 있다는 피드백을 받아

 

결국 폐기...

 

 

하지만, 노인에서 파생된 '노인 무임승차'를 소재로

 

서울교통공사의 적자와 노인 무임승차 연령 상한을 주제로 삼아 새로운 분석을 수행하게 된다.

 

 

메인 주제 선정후, 세부 분석의 여러가지 카테고리중, 

 

재무제표를 통한 분석이 필요할 것 같다는 의견이 있었고, 이는

 

경영학과 출인인 나에게 토스되어 

 

공시된 정보를 통해 회사의 상황을 정확히 분석해 판단을 내려달라는 담당 과제가 할당 되었다.

 

 

 

1. 데이터 셋

 

메인 데이터 셋은 kosis의 서울교통공사 재무제표 데이터를 사용했다.

 

서울교통공사의 특징은

 

2017년 5월 31일기준,

(구)서울 메트로와 (구)서울 도시철도가 합병한 회사로,

2017년을 회계년도 1기으로하는

23년 2월 기준 회계년도가 5기인 회사이다.

 

=> 22년 자료는 3월이 넘어야 재무제표가 확정되므로, 23년 2월 현재에는

    서울교통공사의 재무제표 데이터는 5년치의 데이터 밖에 확보할 수 없다.

    합병 전 데이터의 경우, 정확한 계정과목 산출이 불가하여(기타 계정에 무엇을 넣었는지 확인 불가)

    사용이 어렵다.

서울교통공사 내 제공중인 공시 재무제표

 

kosis 제공 도시철도공사 별 재무제표 - 손익계산서 내역

 

서울교통공사 공시 재무제표 내역

 

 

2. 전처리 과정.

 

전처리 과정은 맨 처음, 엑셀파일의 로드를 통해 처리를 시도하였다. 

하지만 엑셀 파일 내 셀 병합의 문제와 더불어

1기와 5기의 재무제표 입력 방식이 서로 상이해

일관된 포맷으로 맞출 수 없다는 난제가 발생하였다.

 

그리하여, kosis 데이터로 방향을 전환, 

기본 데이터 셋을 kosis 제공 손익계산서 데이터로 정하였다.

(물론, 공시 재무제표와 계정과목이 맞지 않는 문제가 있었으나, 필요 계정과목의 금액은 일치하여 무사히 사용)

 

csv 파일로 로딩한 2021년 서울교통공사 손익계산서

 

손익계산서 계정과목 중 필요한 컬럼만 추출하여

전처리 작업 시작.

 

 

21년도와 20년도 이전의 kosis 내 데이터셋 계정과목명 위치가 상이하여

17~20년도의 필요 계정과목 전처리 작업은 별개로 진행, 함수처리

 

concat을 이용하여 전처리 데이터를 데이터 프레임으로 생성, 메인 데이터 셋을 구성하였다.

 

object로 설정된 각 컬럼을 numeric을 통해 숫자형으로 형 변환을 하고,

 

파생변수인 영업이익률을 만들면 1차 전처리 완료.

 

분석에 사용할 무임승차 데이터셋을 추가. 전처리 하여

 

다시 병합하면 최종 데이터 EDA 완성.

 

 

데이터 분석 시작.

 

먼저 매출액, 매출원가, 매출 총 이익을 비교하고,

다음으로는 영업이익과 당기순이익, 영업이익률을 분석한다.

 

매출액에서 운수사업수익이 차지하는 %를 분석하고

그 비중을 확인

 

비용 측면인 매출원가, 판매비와 관리비를 분석하고

 

시각화 하여 비중을 분석

 

매출액 대비 매출원가, 판매비와 관리비의 비중을 파악한다.

 

 

마지막으로 가설을 설정.

 

하지만 표본 n 값이 너무 작아 상관 분석 불가능 확인.

 

상관분석 불가의 사유와 함께 데이터 시각화 자료로 담당 파트를 마무리 한다.

 

 

분석의 결론.

 

 

여기까지가

미드 프로젝트 중 담당파트의 회고.

 

 

아쉬운점은 

서울교통공사의 합병 전 데이터가 있지만,

각 회사의 계정과목 및 기타 계정 항목 사용이 달라

정확한 금액 산출이 어려워 짧은 기간의 데이터로 분석을 시도 한 점.

(물론 07 ~ 21년 데이터를 모두 사용해도 가설의 표본이 되는 n = 15 밖에 안되므로 가설 검정은 여전히 불가함)

 

4월에 있을 미드2에서는

조금 더 발전되어 효율적으로 EDA처리를 하길 바라며.