본문 바로가기

멋쟁이사자처럼 AI School 8기(fin)/TIL(Today I Learn)

[멋쟁이사자처럼 AI스쿨] TIL(23.3.20), RandomSearchCV 한쪽에 치우쳐진 데이터 -> 모델이 골고루 학습하기 어려움 -> log1p로 정규분포에 가깝게 만들어줘 모델이 학습하기 쉽도록 해줌! Label Smoothing 이란? log1p - 회귀 모델에서 사용할 수 있는 레이블 스무딩(Label Smoothing) 기법 예시 ) - 데이터 정규화(regularization)에 많이 사용되는 테크닉이며 모델의 일반화 성능을 높여주기도 한다. - label을 있는 그대로 사용하는 것이 아닌, 조금 Smooth 하게 만들어 정규화 시키는 것이다 Boosting 부스팅은 약한 트리 모델을 여러개를 순차적으로 연결해서 강한 트리 모델을 만들어 내는 앙상블 방식 RandomizedSearchCV parameter 종류 - n_iter : CV 가 검증을 해볼 파라미터 조.. 더보기
[멋쟁이사자처럼 AI스쿨] TIL(23.3.17 ) - 태블로3 with 강승일 태블로 week3 대시보드 대시보드 생성 시 유의점 1. 복수 개의 시트로 구성 시트들 간의 상호 작용 존재 발견 > 탐색 > 인사이트의 과정 2. 대시보드를 보는 사람이 누구인가?. > 한 눈에 주요 지표를 알 수 있도록 구성 3. 어떤 디바이스로 대시보드를 보는가? > 디바이스에 따라 구성하는 대시보드의 형태가 다름. 4. Sweet Spot > 특정한 화면을 볼 때 시선이 가장 먼저, 가장 많이 가는 곳 5. 직접 참여 유도 > Data Literacy 관점. 매개변수, 대시보드 동작 활용 => 청중의 참여 유도 6. 빠른 시간 내 탐색 및 인사이트를 찾도록 구성 > 콘텐츠 제작자의 의도대로 활용할 수 있도록 가이드 제공 Wrap up ▶ 대시보드는 제작자의 만족을 위해서가 아니라 보는 사람 기준으.. 더보기
[멋쟁이사자처럼 AI스쿨] TIL(23.3.13), RandomForest, OneHotEncoding 3.13 학습 내용 0501 => 머신러닝의 지도학습의 분류를 사용하는 Scikit-learn API 기초와 DecisionTree 를 실습, 수치데이터만 사용 0502 => 범주형 데이터를 인코딩(수치 데이터로 변환)해서 사용하는 방법, One-Hot-Encoding(pd.get_dummies), RandomForest 0503 => One-Hot-Encoding(scikit-learn), 언더피팅, 오버피팅을 평가시 train, test 데이터에 대한 점수 비교. 기존에는 test 데이터에 대해서만 평가했는데 train 데이터로 평가해볼 예정입니다. cross validation 기법을 사용해서 평가해볼 예정입니다. 요약정리 underfitting과 overfitting 언더피팅(underfittin.. 더보기
[멋쟁이사자처럼 AI스쿨] TIL(23.3.10 ) - 태블로2 with 강승일 더보기
[멋쟁이사자처럼 AI스쿨] TIL(23.3.8), 머신러닝 머신러닝 - 지도학습 XGBoost, LightGBM, CatBoost, TensorFlow, Keras 에서도 사이킷런 스타일의 API 를 제공. df.value_counts(1) = df.value_counts(normalize=True) 지니 불순도는 집합에 이질적인 것이 얼마나 섞였는지를 측정하는 지표이며 CART 알고리즘에서 사용한다. 어떤 집합에서 한 항목을 뽑아 무작위로 라벨을 추정할 때 틀릴 확률을 말한다. 집합에 있는 항목이 모두 같다면 지니 불순도는 최솟값(0)을 갖게 되며 이 집합은 완전히 순수하다고 할 수 있다. Q. 결측치 채우기? A. 결측치를 채울 때 평균, 중앙값 등으로 채우기도 합니다. 결측치가 너무 많은데 해당 변수가 중요한 값일 때는 제거하는 것보다 채우는 것이 더 나을.. 더보기
[멋쟁이사자처럼 AI스쿨] TIL(23.3.7), 머신러닝 Scikit-learn 지도학습 vs 비지도학습 지도 학습 > 정답(Label) 있는 데이터를 학습 분류 : 범주형 데이터를 각 class별로 나누는 것 (범주형 변수) 회귀 : 하나의 가설에 미치는 다양한 수치형 변수들과의 인과성 분석 (수치형 변수) 비지도 학습 > 정답(Label) 없는 데이터를 학습 군집화 : 유사도가 높은 범주끼리 모아주는 것, 분류와는 다르게 정답이 없다. (범주형 변수) 차원축소 : 고차원 데이터를 차원을 축소해서 분석할 특성을 줄이고 한눈에 볼 수 있게 해줌 (수치형 변수) No Free Lunch Theorems for Optimization > Wolpert와 Macready가 1997년에 발표한 논문, > 어떤 최적화 알고리즘이든 모든 문제에서 효과적일 수 없음. > .. 더보기
[멋쟁이사자처럼 AI스쿨] TIL(23.3.6), RFM Q. 요일별 & 월별, 시간대별 구매 빈도수 지표가 중요한 이유 ? - 중요한 segment 이기 때문 - 특정 시간대나 요일에 서버 증설 또는 알림 , 프로모션, 광고 등 - 구매율을 높이기위한 어떤 액션을 시도할 수 있기 때문. - 조회수 증가 -> 서비스 개선에 활용 리텐션을 구할 때는 연도, 월, 일, 주별로 구하기도. => 어떤 관점에서 볼 것인지에 따라 주기를 정하게 됨. 예를 들어 게임을 오픈했는데 1~2달 정도 되었다면 연도, 월별로 구해서 보더라도 큰 의미를 찾기 어려울 것입니다. 그래서 서비스 초기에는 시간대별, 일자별로 보기도 합니다. 서비스를 어느정도 운영하다보면 연도, 월별로 궁금해 지는 시점이 옵니다. 그 때는 연도, 월별로 구해서 보게 됩니다. 위 예시처럼 투자를 위해 리텐션을.. 더보기
[멋쟁이사자처럼 AI스쿨] TIL(23.3.3 ) - 태블로1 with 강승일 ㅁ 막대 그래프를 사용하는 이유 만들기 쉬운 시각화 범주끼리 비교하기 위해 순위를 비교하기 위해 추세를 살펴보는데 유용함 더보기