본문 바로가기

멋쟁이사자처럼 AI School 8기(fin)/WIL(Week I Learn10

[멋쟁이사자처럼 AI스쿨] week14 - WIL AIS8 week14 23.3.20 - 3.22 머신러닝 with Gradient Boosting, 머신러닝 워크플로우 1. 문제 정의 2. 데이터 수집 및 EDA 3. 데이터 전처리 4. Feature 선택 및 추출 5. 모델 선택과 학습 6. 모델의 성능 평가 7. 모델 개선 Gradient Boosting XGBoost(Extreme Gradient Boosting) 손실함수를 토대로 매 iteration마다 하나의 leaf로부터 가지를 늘려나감 손실 함수가 최대한 감소하도록 하는 split point(분할점)를 찾는 것이 XGBoost의 목표 GBM 대비 빠른 수행시간(병렬 처리) Early Stopping(조기 종료) 기능이 있음 모델의 Overfitting 학습시간이 느림 과적합 방지를 위해 .. 2023. 3. 23.
[멋쟁이사자처럼 AI스쿨] week13 - WIL AIS8 week13 23.3.13 - 3.15, 머신러닝 0601 파일 회귀 모델을 사용해 보기 회귀 모델의 평가 측정 공식 R square Score, MAE, MSE, RMSE, RMSLE 알아보기 ExtraTreeRegressor 모델 사용 CrossValidation 사용 어떤 피처를 선택하는게 중요한지 => Baseline 점수 만들기 0602 파일 로그를 변환하고 다시 원래 값으로 복원하는 방법 GridSearchCV Gradient Boosting 모델 모델의 성능을 향상시키는 다양한 방법 데이터 수집: 교육 예제의 수 늘리기 특성 처리: 더 많은 변수 추가 및 특성 처리(전처리, feature engineering) 향상 모델 파라미터 튜닝: 학습 알고리즘에서 사용하는 교육 파라미터의 대.. 2023. 3. 16.
[멋쟁이사자처럼 AI스쿨] week12 - WIL 23.3.6 - 23.3.8 week12. RFM & 머신러닝 기초 고객가치 평가의 척도, RFM(Recency, Freq uency, Monetary) RFM 모형 - 일정기간 동안 발생된 고객의 구매 패턴을 이용, 고객을 분류, 고객의 기본적인 구매 패턴 → 고객가치 평가 ▶ 기업의 마케팅 전략에서 고객의 평가/분류방법으로 가장 많이 사용되고 있는 분석 방법 Recency - 거래의 최근성 : 고객이 얼마나 최근에 구입했는가? Frequency - 거래 빈도 : 고객이 얼마나 빈번하게 우리 상품을 구입했나? Monetary - 거래 규모 : 고객이 구입했던 총 금액은 어느 정도인가? - "고객이 어떤 행동 패턴을 가지고 있나"에 의하여 고객가치를 평가. 고객의 과거 구매행태에 근거, 미래의 구매행태를.. 2023. 3. 9.
[멋쟁이사자처럼 AI스쿨] 3월 1주 WIL 23.2.27 - 28 회고. 1. 능동적으로 데이터를 사용하는 방법. 스토리지 사이즈를 줄이는 방법, 파일 사이즈를 효율적으로 관리하는 방법 : parquet. 파일 포맷을 통해 파일 용량을 줄이는 방법 열 스토리지, 필요한 데이터만 읽기 효율적인 바이너리 패킹 압축 알고리즘 및 인코딩 선택 데이터를 파일로 분할하여 병렬 처리 가능 메모리 사이즈를 줄이는 방법, 메모리를 효율적으로 관리하는 방법 : downcast float, int형의 데이터 타입 변경을 통해 메모리 다운 사이즈 수행 2. 비즈니스 데이터 분석. groupby를 활용해 count, sum, mean 등을 활용. nlargest를 통해 상위 제품 추출 datetime 모듈을 통해 날짜 형식 변경 dt 접근자를 통한 파생변수 생성. 조건.. 2023. 3. 2.
[멋쟁이사자처럼 AI스쿨] Week8 - WIL 23.02.06 - 23.02.08, AIS8 8주차 WIL mini project2를 끝낸 시점인 2월 9일 오늘. 대망의 mid project 조 구성이 발표 되었다. EDA 수업이 끝난 이번주. WIL 시작. 이번주의 학습 테마를 6가지로 정리하면 공공데이터를 활용해 전혀 다른 두 개의 데이터를 가져와서 전처리 하고 병합하기 수치형 데이터와 범주형 데이터를 바라보는 시각을 기르기 데이터의 형식에 따른 다양한 시각화 방법 이해하기 glob 를 사용해서 여러 파일을 로드해서 하나로 합치는 방법(약 700mb) 상관 계수의 종류, 시각화 하는 방법, 삼각행렬을 만들어서 마스크 처리 방법, 컬러 선택 방법 지도 시각화 방법 EDA 처리 과정 요약. ▶ 서로 다른 형태(row, columns)를 갖는 데이터.. 2023. 2. 9.
[멋쟁이사자처럼 AI스쿨] Week7 - WIL Week6(1.23~1.27) WIL은 설날 + SQL Week3 대체로 이번 Week7 WIL을 작성한다. > Week7(1.30~2.1) 학습내용 Pandas를 통한 파일 저장과 불러오기 shape를 통한 행과 열의 수 보기 head, tail, sample 을 통한 일부 데이터 가져오기 DataFrame의 info(), describe() 등을 통한 요약과 기술통계 값 구하기 info() describe() nunique() index columns values Pandas의 DataFrame과 Series의 이해 Series : 1차원 벡터구조 DataFrame : 2차원 행렬구조 색인하기 [컬럼] .loc[행] .loc[행, 열] .loc[조건식, 열] DataFrame의 데이터 타입 이해하기 .. 2023. 2. 2.