멋쟁이사자처럼 AI스쿨 썸네일형 리스트형 [멋쟁이사자처럼 AI스쿨] TIL(23.3.17 ) - 태블로3 with 강승일 태블로 week3 대시보드 대시보드 생성 시 유의점 1. 복수 개의 시트로 구성 시트들 간의 상호 작용 존재 발견 > 탐색 > 인사이트의 과정 2. 대시보드를 보는 사람이 누구인가?. > 한 눈에 주요 지표를 알 수 있도록 구성 3. 어떤 디바이스로 대시보드를 보는가? > 디바이스에 따라 구성하는 대시보드의 형태가 다름. 4. Sweet Spot > 특정한 화면을 볼 때 시선이 가장 먼저, 가장 많이 가는 곳 5. 직접 참여 유도 > Data Literacy 관점. 매개변수, 대시보드 동작 활용 => 청중의 참여 유도 6. 빠른 시간 내 탐색 및 인사이트를 찾도록 구성 > 콘텐츠 제작자의 의도대로 활용할 수 있도록 가이드 제공 Wrap up ▶ 대시보드는 제작자의 만족을 위해서가 아니라 보는 사람 기준으.. 더보기 [멋쟁이사자처럼 AI스쿨] week13 - WIL AIS8 week13 23.3.13 - 3.15, 머신러닝 0601 파일 회귀 모델을 사용해 보기 회귀 모델의 평가 측정 공식 R square Score, MAE, MSE, RMSE, RMSLE 알아보기 ExtraTreeRegressor 모델 사용 CrossValidation 사용 어떤 피처를 선택하는게 중요한지 => Baseline 점수 만들기 0602 파일 로그를 변환하고 다시 원래 값으로 복원하는 방법 GridSearchCV Gradient Boosting 모델 모델의 성능을 향상시키는 다양한 방법 데이터 수집: 교육 예제의 수 늘리기 특성 처리: 더 많은 변수 추가 및 특성 처리(전처리, feature engineering) 향상 모델 파라미터 튜닝: 학습 알고리즘에서 사용하는 교육 파라미터의 대.. 더보기 [멋쟁이사자처럼 AI스쿨] TIL(23.3.13), RandomForest, OneHotEncoding 3.13 학습 내용 0501 => 머신러닝의 지도학습의 분류를 사용하는 Scikit-learn API 기초와 DecisionTree 를 실습, 수치데이터만 사용 0502 => 범주형 데이터를 인코딩(수치 데이터로 변환)해서 사용하는 방법, One-Hot-Encoding(pd.get_dummies), RandomForest 0503 => One-Hot-Encoding(scikit-learn), 언더피팅, 오버피팅을 평가시 train, test 데이터에 대한 점수 비교. 기존에는 test 데이터에 대해서만 평가했는데 train 데이터로 평가해볼 예정입니다. cross validation 기법을 사용해서 평가해볼 예정입니다. 요약정리 underfitting과 overfitting 언더피팅(underfittin.. 더보기 [멋쟁이사자처럼 AI스쿨] mini-project3 3번째 mini_project 비지니스 데이터 분석 23.3.8 - 3.12 1차 전처리한 데이터 event_type의 index를 columns화. 구매 내역 존재 로그만 추출 10월 apparel 판매 카테고리 확인 더보기 [멋쟁이사자처럼 AI스쿨] TIL(23.3.10 ) - 태블로2 with 강승일 더보기 [멋쟁이사자처럼 AI스쿨] week12 - WIL 23.3.6 - 23.3.8 week12. RFM & 머신러닝 기초 고객가치 평가의 척도, RFM(Recency, Freq uency, Monetary) RFM 모형 - 일정기간 동안 발생된 고객의 구매 패턴을 이용, 고객을 분류, 고객의 기본적인 구매 패턴 → 고객가치 평가 ▶ 기업의 마케팅 전략에서 고객의 평가/분류방법으로 가장 많이 사용되고 있는 분석 방법 Recency - 거래의 최근성 : 고객이 얼마나 최근에 구입했는가? Frequency - 거래 빈도 : 고객이 얼마나 빈번하게 우리 상품을 구입했나? Monetary - 거래 규모 : 고객이 구입했던 총 금액은 어느 정도인가? - "고객이 어떤 행동 패턴을 가지고 있나"에 의하여 고객가치를 평가. 고객의 과거 구매행태에 근거, 미래의 구매행태를.. 더보기 [멋쟁이사자처럼 AI스쿨] TIL(23.3.8), 머신러닝 머신러닝 - 지도학습 XGBoost, LightGBM, CatBoost, TensorFlow, Keras 에서도 사이킷런 스타일의 API 를 제공. df.value_counts(1) = df.value_counts(normalize=True) 지니 불순도는 집합에 이질적인 것이 얼마나 섞였는지를 측정하는 지표이며 CART 알고리즘에서 사용한다. 어떤 집합에서 한 항목을 뽑아 무작위로 라벨을 추정할 때 틀릴 확률을 말한다. 집합에 있는 항목이 모두 같다면 지니 불순도는 최솟값(0)을 갖게 되며 이 집합은 완전히 순수하다고 할 수 있다. Q. 결측치 채우기? A. 결측치를 채울 때 평균, 중앙값 등으로 채우기도 합니다. 결측치가 너무 많은데 해당 변수가 중요한 값일 때는 제거하는 것보다 채우는 것이 더 나을.. 더보기 [멋쟁이사자처럼 AI스쿨] TIL(23.3.7), 머신러닝 Scikit-learn 지도학습 vs 비지도학습 지도 학습 > 정답(Label) 있는 데이터를 학습 분류 : 범주형 데이터를 각 class별로 나누는 것 (범주형 변수) 회귀 : 하나의 가설에 미치는 다양한 수치형 변수들과의 인과성 분석 (수치형 변수) 비지도 학습 > 정답(Label) 없는 데이터를 학습 군집화 : 유사도가 높은 범주끼리 모아주는 것, 분류와는 다르게 정답이 없다. (범주형 변수) 차원축소 : 고차원 데이터를 차원을 축소해서 분석할 특성을 줄이고 한눈에 볼 수 있게 해줌 (수치형 변수) No Free Lunch Theorems for Optimization > Wolpert와 Macready가 1997년에 발표한 논문, > 어떤 최적화 알고리즘이든 모든 문제에서 효과적일 수 없음. > .. 더보기 이전 1 2 3 4 5 6 ··· 10 다음