본문 바로가기

파이썬

[멋쟁이사자처럼 AI스쿨] TIL(23.3.7), 머신러닝 Scikit-learn 지도학습 vs 비지도학습 지도 학습 > 정답(Label) 있는 데이터를 학습 분류 : 범주형 데이터를 각 class별로 나누는 것 (범주형 변수) 회귀 : 하나의 가설에 미치는 다양한 수치형 변수들과의 인과성 분석 (수치형 변수) 비지도 학습 > 정답(Label) 없는 데이터를 학습 군집화 : 유사도가 높은 범주끼리 모아주는 것, 분류와는 다르게 정답이 없다. (범주형 변수) 차원축소 : 고차원 데이터를 차원을 축소해서 분석할 특성을 줄이고 한눈에 볼 수 있게 해줌 (수치형 변수) No Free Lunch Theorems for Optimization > Wolpert와 Macready가 1997년에 발표한 논문, > 어떤 최적화 알고리즘이든 모든 문제에서 효과적일 수 없음. > .. 더보기
[멋쟁이사자처럼 AI스쿨] TIL(23.3.6), RFM Q. 요일별 & 월별, 시간대별 구매 빈도수 지표가 중요한 이유 ? - 중요한 segment 이기 때문 - 특정 시간대나 요일에 서버 증설 또는 알림 , 프로모션, 광고 등 - 구매율을 높이기위한 어떤 액션을 시도할 수 있기 때문. - 조회수 증가 -> 서비스 개선에 활용 리텐션을 구할 때는 연도, 월, 일, 주별로 구하기도. => 어떤 관점에서 볼 것인지에 따라 주기를 정하게 됨. 예를 들어 게임을 오픈했는데 1~2달 정도 되었다면 연도, 월별로 구해서 보더라도 큰 의미를 찾기 어려울 것입니다. 그래서 서비스 초기에는 시간대별, 일자별로 보기도 합니다. 서비스를 어느정도 운영하다보면 연도, 월별로 궁금해 지는 시점이 옵니다. 그 때는 연도, 월별로 구해서 보게 됩니다. 위 예시처럼 투자를 위해 리텐션을.. 더보기
[멋쟁이사자처럼 AI스쿨] TIL(23.2.28) * 비즈니스 데이터 분석 Q. 왜 고객의 가치를 평가해야 할까? A. 한정된 자원 -> 효율을 극대화하기 위해 고객 가치 평가, 차별화 마케팅 전략 수립 필 * AARRR > 시장 진입 단계에 맞는 특정 지표를 기준으로 서비스의 상태를 가늠 할 수 있는 효율적인 기준. > 현 시점 가장 핵심적인 지표에 집중 Acquisition : 어떻게 우리 서비스를 접하고 있는가? Activation : 사용자가 처음 서비스를 이용할 때 긍정적인 경험을 제공하는가? Retention : 서비스 재 사용률은 어떻게 되는가? Referral : 사용자가 자발적 바이럴, 공유를 일으키는가? Revenue : 매출로 연결 되고 있는가? Q. 소매, 리테일 서비스에 머신러닝을 어떻게 활용할 수 있는가? A. 고객 분석 - 개.. 더보기
[멋쟁이사자처럼 AI스쿨] mid project #1. 회고 미드 프로젝트 #1 회고. 23.2.20 - 23.2.26 짧고도 길었던 미드 프로젝트1의 테마는 EDA. 최초, 주제 선정시 아이템은 '노인'이었다. 고령화와 관련된 사안들을 경제, 복지, 건강의 카테고리에서 분석해 보는것이었는데, 자료 수집 및 1차 데이터 EDA가 들어간 시점에서 주제가 너무 광범위하고, 도출될 결론이 너무 당연할 수 있다는 피드백을 받아 결국 폐기... 하지만, 노인에서 파생된 '노인 무임승차'를 소재로 서울교통공사의 적자와 노인 무임승차 연령 상한을 주제로 삼아 새로운 분석을 수행하게 된다. 메인 주제 선정후, 세부 분석의 여러가지 카테고리중, 재무제표를 통한 분석이 필요할 것 같다는 의견이 있었고, 이는 경영학과 출인인 나에게 토스되어 공시된 정보를 통해 회사의 상황을 정확히 .. 더보기
[멋쟁이사자처럼 AI스쿨] TIL(23.2.27) 스토리지 사이즈를 줄이는 방법, 파일 사이즈를 효율적으로 관리하는 방법 : paquet. 파일 포맷을 통해 파일 용량을 줄이는 방법, 메모리 사이즈를 줄이는 방법, 메모리를 효율적으로 관리하는 방법 : downcast ㅁ 기존 ETL(data warehouse 구축) 방식에서 ELT (data lake)방식으로 저장 ETL(Extract, Transform, Load)과 ELT(Extract, Load, Transform)는 데이터 웨어하우스에 데이터를 수집, 가공, 저장하는 방법론 중 하나. ETL은 데이터를 추출하여(Extract) 전처리 및 가공(Transform)한 후, 데이터 웨어하우스에 적재(Load). ㅁ 바이너리 프리픽스(binary prefix) ▶ 1024로 나누어서 파일 단위를 표기하.. 더보기
[서평] 나도코딩의 파이썬 입문(길벗) 이번에 서평할 책은 나도코딩의 파이썬입문 입니다. 1. 책 정보 책 제목 : 코딩 자율학습 - 나도코딩의 파이썬 입문 저자 : 나도코딩 페이지수 : 436p 목차 : 하단 사진 첨부 출판사 : 길벗 2. 저자 소개 나도코딩. 누구나 쉽고 재미있게 코딩을 공부할 수 있도록 다양한 강의를 제공하는 유튜버이자 개발자. 유튜브 https://www.youtube.com/@nadocoding 블로그 https://nadocoding.tistory.com 나도코딩 코딩, 쉽고 재미있게 배우세요 nadocoding@gmail.com www.youtube.com 3.읽기 전 기대 코딩 입문 언어로 추천받는 '파이썬'을 초보자가 쉽게 따라 할 수 있으며, 파이썬 사용을 위한 필수 문법이 책에 담겨 있는가? 4. 서평 책.. 더보기
[멋쟁이사자처럼 AI스쿨] Week8 - WIL 23.02.06 - 23.02.08, AIS8 8주차 WIL mini project2를 끝낸 시점인 2월 9일 오늘. 대망의 mid project 조 구성이 발표 되었다. EDA 수업이 끝난 이번주. WIL 시작. 이번주의 학습 테마를 6가지로 정리하면 공공데이터를 활용해 전혀 다른 두 개의 데이터를 가져와서 전처리 하고 병합하기 수치형 데이터와 범주형 데이터를 바라보는 시각을 기르기 데이터의 형식에 따른 다양한 시각화 방법 이해하기 glob 를 사용해서 여러 파일을 로드해서 하나로 합치는 방법(약 700mb) 상관 계수의 종류, 시각화 하는 방법, 삼각행렬을 만들어서 마스크 처리 방법, 컬러 선택 방법 지도 시각화 방법 EDA 처리 과정 요약. ▶ 서로 다른 형태(row, columns)를 갖는 데이터.. 더보기
[멋쟁이사자처럼 AI스쿨] Day-30 TIL today topic. 버거지수 * glob 를 사용해서 여러 파일을 로드해서 하나로 합치는 방법 * 상관 계수의 종류, 시각화 하는 방법, 삼각행렬을 만들어서 마스크 처리 하는 방법, 컬러 선택 방법 * 지도 시각화 방법 summary 1. isin() & str.contains ▶ isin : 리스트 형태에서 사용 가능!! burger = ["버거킹", "맥도날드", "KFC", "롯데리아"] df[df["상호명"].isin(burger)] ▶ 그러나 isin은 일치하는 것만 찾기 때문에 사용에 적합하지 않음!! ▶ str.contains로 부분 일치 적용 df[df["상호명"].str.contains("버거킹|BKR|맥도날드|멕도날드|롯데리아|KFC|케이에프씨")] 2. heatmap() & sty.. 더보기