본문 바로가기
멋쟁이사자처럼 AI School 8기(fin)/WIL(Week I Learn

[멋쟁이사자처럼 AI스쿨 8기] Day18. Week5 - WIL

by #FF0000 2023. 1. 19.

 

 

AIS8 5주차 회고

Day15 ~ Day17

 

 

ㅁ 웹 스트래핑과 웹 크롤링 그리고 API

 

 

week5의 메인 주제는 파이썬을 이용한 웹 스트래핑과 웹 크롤링 마지막으로 API를 활용이었다.

 

지난 week4에서 다루었던 requests를 이용한 사이트별 get, post를 이용한 자료 수집에서

한 걸음 나아가 사이트 내 특정 항목을 수집 후 데이터 프레임의 인덱스를 재 설정, 전치행렬을 적용한 시각화 변환,

마지막으로 반복문 대신 map을 적용하는 것 까지.

또한 기존의 html형식의 데이터 코드 수집에서 json, xml의 형식 데이터 수집으로 확장하여

효율적인 스크래핑의 방법을 학습했다.

 

https://unsplash.com/photos/XJXWbfSo2f0?utm_source=naversmarteditor&utm_medium=referral&utm_campaign=api-credit

 

 

ㅁ 웹 스트래핑(크롤링)의 insight 고민

 

금주부터 시작하는 미니 프로젝트는 웹 스트래핑과 API를 활용하여 데이터 수집이다. 

수업중에도 느꼈지만, 스크래핑 후 자료의 재 배열(재 배치)와 데이터 항목 추가를 통해 

데이터 수집의 목적과 수집된 데이터 현황을 통해 도출 가능한 insight가 무엇일지를 고민하게 되었다.

 

간단하게, 대학에서 과제 및 레포트로 했던 방식을 기억삼아(글쓴이는 경영학과 출신) 

메인 테마를 '국내외 시장 불경기 예상에 따른 국내 반도체 테마주 삼성전자, SK하이닉스의 주식을 사야할까?'로 잡는다면, 지난 3,4분기의 삼성전자, SK하이닉스의 재무재표 내역 분석 및 주가 변동을 수집하고, 시장 현황를 표현하는 지표(환율 정보 등)를 추가해서 해당 테마의 분석을 기획 가능하다.

 

하지만 다시 데이터 분석 지망생의 입장에서 이를 고민하면 

'이미 정리되어 도출된 결론인 재무재표 비교에서 얻을 수 있는 정보를, 굳이 파이썬을 통해 도출 했어야 했는가?' 에 대한 의문이 있고, 오히려 반도체 회사들의 주가 하락 방어를 위한 매출 증대 방안(할인 판매)를 예상해

메인 테마를 '향후 반도체 불경기 전망, SSD의 구입 시기는?'으로 바꾸어

삼성전자와 SK하이닉스의 재무재표에서 ROA,ROE, 매출액 등을 가져오고, 주가 변동내역을 추가한 후

각 회사의 SSD제품(삼성-980PRO / SK하이닉스 - P41) 가격 변동 추이를 더한다면, 

웹 스트래핑의 결과물이 '컴퓨터 혹은 노트북 구매자들에게 필요했한 정보 도출로 이어지지 않을까?' 하는 생각으로 이어지고 있다.

 

 

 

ㅁ 데이터 분석 ≒ 마케팅?

 

또한, 미니 프로젝트 테마 선정을 고민하면서 얻은 생각은 '데이터 분석이 경영-마케팅과 유사하다. 혹은 유사할 수 있다. 더 나아가면 마케팅 화 될 것이다.' 이다

마케팅 업무 자체가 구매자(소비자)들의 needs를 파악하고 현재의 수요 행태 등을 분석해 새로운 판매 방안을 수립하는 것이 대개의 업무인데, 

데이터 분석 역시 빅데이터의 수집을 통해 데이터를 분석 - > insight 도출 -> 새로운 기획 제안으로 이어지는 것 같은 느낌을 강하게 얻고 있다.  

 

 

 

ㅁ 그럼에도 파이썬

 

다시 현실로 돌아와서, 우선 웹 스크래핑을 활용한 과제는 '나라장터'의 입찰 내용 및 업체를 분석하는 것이다.

https://www.g2b.go.kr/pt/menu/selectSubFrame.do?framesrc=/pt/menu/frameTgong.do?url=https://www.g2b.go.kr:8101/ep/tbid/tbidList.do?taskClCds=&bidNm=&searchDtType=1&fromBidDt=2022/12/20&toBidDt=2023/01/19&fromOpenBidDt=&toOpenBidDt=&radOrgan=1&instNm=&area=&regYn=Y&bidSearchType=1&searchType=1

 

현재 나라장터에서 기본 검색시 도출되는 현황인데, 공고번호나 공고명을 선택할 시 아래의추가 정보 웹 페이지로 연결이 되는 구성을 갖고 있다. 

https://www.g2b.go.kr/pt/menu/selectSubFrame.do?framesrc=/pt/menu/frameTgong.do?url=https://www.g2b.go.kr:8101/ep/tbid/tbidList.do?taskClCds=&bidNm=&searchDtType=1&fromBidDt=2022/12/20&toBidDt=2023/01/19&fromOpenBidDt=&toOpenBidDt=&radOrgan=1&instNm=&area=&regYn=Y&bidSearchType=1&searchType=1

 

일단 나라장터 웹 스트래핑의 기본 구상은 분류 - 업무 - 공고번호 - 공고명 - 공고기관 - 수요기관 - 계약방법 - 입력일시로

컬럼 배열 수정 및 삭제와 함께 재입찰 - 추정가격 컬럼을 추가하는 방안을 고려 중이다.

 

현재 예상되는 스크래핑시 어려움은

'예정가격 결정 및 입찰금액 정보' 의 존재 유무와

포함하는 해당 내용들의 상이점이 예상된다.

일단 개략적인 구상은 완료했으니(머리속...)

 

일단 시작.

 

 

 

 

 

 

+코딩없이 머리속으로 구상한 나라장터 스크래핑 가안.