본문 바로가기
멋쟁이사자처럼 AI School 8기(fin)/TIL(Today I Learn)

[멋쟁이사자처럼 AI스쿨] TIL(23.3.20), RandomSearchCV

by #FF0000 2023. 3. 20.

 

한쪽에 치우쳐진 데이터 -> 모델이 골고루 학습하기 어려움

-> log1p로 정규분포에 가깝게 만들어줘 모델이 학습하기 쉽도록 해줌!

 

 

Label Smoothing 이란?

log1p

- 회귀 모델에서 사용할 수 있는 레이블 스무딩(Label Smoothing) 기법 예시 )

- 데이터 정규화(regularization)에 많이 사용되는 테크닉이며 모델의 일반화 성능을 높여주기도 한다.

- label을 있는 그대로 사용하는 것이 아닌, 조금 Smooth 하게 만들어 정규화 시키는 것이다

 

 

Boosting

부스팅은 약한 트리 모델을 여러개를 순차적으로 연결해서 강한 트리 모델을 만들어 내는 앙상블 방식

 

 

RandomizedSearchCV parameter 종류

- n_iter : CV 가 검증을 해볼 파라미터 조합의 수

- scoring : 교차검증을 하는 방법 선택

- n_jobs : 컴퓨터에서 사용할 코어의 수, 전체 사용 -1

- cv : 교차검증 진행할 횟수

- verbose : 함수 수행시 발생하는 상세한 정보들을 표준 출력으로 자세히 내보낼 것인가를 나타냄

 

 

분류 기본 metric => Accuracy

회귀 기본 metric => R Square Score 

 

 

Q. 왜 label='casual', label='registered'을 따로 해주나요 ?

- 모델을 만들고 돌릴 때부터 각각 따로 학습을 시켜준 뒤 최적의 하이퍼파라미터를 찾습니다.

 

 

 

 

 

* 회귀의 평가방법

* 1에 가깝고 클수록 잘 예측한 지표 => R Sqaure Score(결정 계수)

* 오차를 측정하기 때문에 작을 수록 잘 예측한 지표 => MAE, MSE, RMSE, RMSLE, MAPE

* 평가하고자 하는 목적에 따라 다른 평가지표를 사용

 

* Lable Smoothing => * 로그 변환을 통해 한쪽에 치우치고 뾰족한 분포를 정규분포에 가깝게 변환하는 과정

* log를 적용하고 exp를 통해 원래 값으로 복원하는 방법

* HyperParameter Tunning => GridSearchCV, RandomSearchCV

 

* Tree 계열 모델에서는 스케일링 방법은 분할 기법을 사용하기 때문에 모델의 성능에 큰 차이가 없음.

* 하지만 Transform 은 분포를 변경해 주기 때문에 모델이 데이터를 좀 더 잘 볼 수 있게 변환해 주는 효과

 

 

 

 

데이터의 수가 매우 많을 경우

> 기술통계의 기술통계들을 구해보거나 , 왜도 첨도를 구해서 데이터의 특성을 파악