자연어 썸네일형 리스트형 [멋쟁이사자처럼 AI스쿨] TIL(23.3.27) 텍스트 분석, 자연어처리 오버샘플링은 1000 개중에 10개 등으로 데이터수가 충분하지 않을 때 사용 언더샘플링은 데이터의 수가 충분할 때 사용 Q. 왜 Accuracy 만으로는 제대로 된 분류의 평가를 하기 어려울까? 예를 들어 암 여부를 예측하는 모델이라고 할 때 현실세계에서 건강검진을 했을 때 1000명 중에 1명이 암환자라면 학습을 했을 때 암환자의 특징을 학습하기도 어려울 뿐더러, 정확도인 Accuracy로 측정하게 되면 모두 암환자가 아니라고 했을 때 99.9%가 정확도로 나오게 됩니다. 1명의 암환자를 제대로 찾지 못했기 때문에 해당 모델은 잘 만든 모델이라고 평가할 수 없습니다. Q. 코퍼스 corpus 란? - 언어 연구를 위해 텍스트를 컴퓨터가 읽을 수 있는 형태로 모아 놓은 언어 - 자료. 매체, 시간, 공간.. 더보기 이전 1 다음