본문 바로가기

멋쟁이사자처럼 AI School 8기(fin)/WIL(Week I Learn

[멋쟁이사자처럼 AI스쿨] week14 - WIL AIS8 week14 23.3.20 - 3.22 머신러닝 with Gradient Boosting, 머신러닝 워크플로우 1. 문제 정의 2. 데이터 수집 및 EDA 3. 데이터 전처리 4. Feature 선택 및 추출 5. 모델 선택과 학습 6. 모델의 성능 평가 7. 모델 개선 Gradient Boosting XGBoost(Extreme Gradient Boosting) 손실함수를 토대로 매 iteration마다 하나의 leaf로부터 가지를 늘려나감 손실 함수가 최대한 감소하도록 하는 split point(분할점)를 찾는 것이 XGBoost의 목표 GBM 대비 빠른 수행시간(병렬 처리) Early Stopping(조기 종료) 기능이 있음 모델의 Overfitting 학습시간이 느림 과적합 방지를 위해 .. 더보기
[멋쟁이사자처럼 AI스쿨] week13 - WIL AIS8 week13 23.3.13 - 3.15, 머신러닝 0601 파일 회귀 모델을 사용해 보기 회귀 모델의 평가 측정 공식 R square Score, MAE, MSE, RMSE, RMSLE 알아보기 ExtraTreeRegressor 모델 사용 CrossValidation 사용 어떤 피처를 선택하는게 중요한지 => Baseline 점수 만들기 0602 파일 로그를 변환하고 다시 원래 값으로 복원하는 방법 GridSearchCV Gradient Boosting 모델 모델의 성능을 향상시키는 다양한 방법 데이터 수집: 교육 예제의 수 늘리기 특성 처리: 더 많은 변수 추가 및 특성 처리(전처리, feature engineering) 향상 모델 파라미터 튜닝: 학습 알고리즘에서 사용하는 교육 파라미터의 대.. 더보기
[멋쟁이사자처럼 AI스쿨] week12 - WIL 23.3.6 - 23.3.8 week12. RFM & 머신러닝 기초 고객가치 평가의 척도, RFM(Recency, Freq uency, Monetary) RFM 모형 - 일정기간 동안 발생된 고객의 구매 패턴을 이용, 고객을 분류, 고객의 기본적인 구매 패턴 → 고객가치 평가 ▶ 기업의 마케팅 전략에서 고객의 평가/분류방법으로 가장 많이 사용되고 있는 분석 방법 Recency - 거래의 최근성 : 고객이 얼마나 최근에 구입했는가? Frequency - 거래 빈도 : 고객이 얼마나 빈번하게 우리 상품을 구입했나? Monetary - 거래 규모 : 고객이 구입했던 총 금액은 어느 정도인가? - "고객이 어떤 행동 패턴을 가지고 있나"에 의하여 고객가치를 평가. 고객의 과거 구매행태에 근거, 미래의 구매행태를.. 더보기
[멋쟁이사자처럼 AI스쿨] 3월 1주 WIL 23.2.27 - 28 회고. 1. 능동적으로 데이터를 사용하는 방법. 스토리지 사이즈를 줄이는 방법, 파일 사이즈를 효율적으로 관리하는 방법 : parquet. 파일 포맷을 통해 파일 용량을 줄이는 방법 열 스토리지, 필요한 데이터만 읽기 효율적인 바이너리 패킹 압축 알고리즘 및 인코딩 선택 데이터를 파일로 분할하여 병렬 처리 가능 메모리 사이즈를 줄이는 방법, 메모리를 효율적으로 관리하는 방법 : downcast float, int형의 데이터 타입 변경을 통해 메모리 다운 사이즈 수행 2. 비즈니스 데이터 분석. groupby를 활용해 count, sum, mean 등을 활용. nlargest를 통해 상위 제품 추출 datetime 모듈을 통해 날짜 형식 변경 dt 접근자를 통한 파생변수 생성. 조건.. 더보기
[멋쟁이사자처럼 AI스쿨] Week8 - WIL 23.02.06 - 23.02.08, AIS8 8주차 WIL mini project2를 끝낸 시점인 2월 9일 오늘. 대망의 mid project 조 구성이 발표 되었다. EDA 수업이 끝난 이번주. WIL 시작. 이번주의 학습 테마를 6가지로 정리하면 공공데이터를 활용해 전혀 다른 두 개의 데이터를 가져와서 전처리 하고 병합하기 수치형 데이터와 범주형 데이터를 바라보는 시각을 기르기 데이터의 형식에 따른 다양한 시각화 방법 이해하기 glob 를 사용해서 여러 파일을 로드해서 하나로 합치는 방법(약 700mb) 상관 계수의 종류, 시각화 하는 방법, 삼각행렬을 만들어서 마스크 처리 방법, 컬러 선택 방법 지도 시각화 방법 EDA 처리 과정 요약. ▶ 서로 다른 형태(row, columns)를 갖는 데이터.. 더보기
[멋쟁이사자처럼 AI스쿨] Week7 - WIL Week6(1.23~1.27) WIL은 설날 + SQL Week3 대체로 이번 Week7 WIL을 작성한다. > Week7(1.30~2.1) 학습내용 Pandas를 통한 파일 저장과 불러오기 shape를 통한 행과 열의 수 보기 head, tail, sample 을 통한 일부 데이터 가져오기 DataFrame의 info(), describe() 등을 통한 요약과 기술통계 값 구하기 info() describe() nunique() index columns values Pandas의 DataFrame과 Series의 이해 Series : 1차원 벡터구조 DataFrame : 2차원 행렬구조 색인하기 [컬럼] .loc[행] .loc[행, 열] .loc[조건식, 열] DataFrame의 데이터 타입 이해하기 .. 더보기
[멋쟁이사자처럼 AI스쿨 8기] Day18. Week5 - WIL AIS8 5주차 회고 Day15 ~ Day17 ㅁ 웹 스트래핑과 웹 크롤링 그리고 API week5의 메인 주제는 파이썬을 이용한 웹 스트래핑과 웹 크롤링 마지막으로 API를 활용이었다. 지난 week4에서 다루었던 requests를 이용한 사이트별 get, post를 이용한 자료 수집에서 한 걸음 나아가 사이트 내 특정 항목을 수집 후 데이터 프레임의 인덱스를 재 설정, 전치행렬을 적용한 시각화 변환, 마지막으로 반복문 대신 map을 적용하는 것 까지. 또한 기존의 html형식의 데이터 코드 수집에서 json, xml의 형식 데이터 수집으로 확장하여 효율적인 스크래핑의 방법을 학습했다. ㅁ 웹 스트래핑(크롤링)의 insight 고민 금주부터 시작하는 미니 프로젝트는 웹 스트래핑과 API를 활용하여 데이.. 더보기
[멋쟁이사자처럼 AI스쿨 8기] Day13. week4 - WIL AI스쿨 4주차 WIL(23.1.9 ~ 1.11) 박조은 강사님(오늘코드)과 함께하는 본격적인 python 강의 시작. 학습내용 Review 데이터 수집을 위한 판다스 기초. pandas란? 데이터 조작 및 분석을 위한 소프트웨어 라이브러리 숫자 테이블과 시계열 을 조작하기 위한 데이터 구조 와 연산을 제공 추상화된 도구를 통한 데이터 수집 FinanceDataReader을 통한 KRX 상장 종목 정보 수집 Web Scraping하기 전에 꼭 알아둘것 웹 스크래핑은 브라우저 상에 표기되어야 하는 모든 내용을 빠르게 요청하기 때문에 서버에 부담이 생길 수 있습니다. 서비스 제공자가 요청하는 방식인 API를 통하지 않은 데이터 수집은 데이터베이스권에 대한 침해행위일 수 있습니다. 웹 스크래핑을 할 때 한번에.. 더보기