본문 바로가기

텍스트분석

[멋쟁이사자처럼 AI스쿨] TIL(23.3.28) 텍스트 분석, 자연어처리2 0802 실습 단어-벡터화 결과를 모델로 예측하기 - ‘코로나’라는 단어가 들어가는 문장을 보건으로, 나머지를 교통으로 분류 - sklearn의 featureselection.text의 CountVectorizer 사용하여 df[‘문서’]를 벡터화 - CountVectorizer는 bow(bag of words)라는 벡터화 기법. 단어의 출현빈도만 고려하고 순서는 무시하여 의미를 잃을 수 있다는 단점이 있음. - DecisionTreeClassifier로 분류하고, 다양한 시각화를 진행함 0803 실습 KoNLPy 형태소 분석기를 사용해 조사, 어미, 구두점을 제거하고, 모델로 분류하기 - 정규표현식 사용해 한글, 영문, 숫자만 남기고 제거하기 - Okt 클래스를 이용해 형태소 분석하기 morphs → .. 더보기
[멋쟁이사자처럼 AI스쿨] TIL(23.3.27) 텍스트 분석, 자연어처리 오버샘플링은 1000 개중에 10개 등으로 데이터수가 충분하지 않을 때 사용 언더샘플링은 데이터의 수가 충분할 때 사용 Q. 왜 Accuracy 만으로는 제대로 된 분류의 평가를 하기 어려울까? 예를 들어 암 여부를 예측하는 모델이라고 할 때 현실세계에서 건강검진을 했을 때 1000명 중에 1명이 암환자라면 학습을 했을 때 암환자의 특징을 학습하기도 어려울 뿐더러, 정확도인 Accuracy로 측정하게 되면 모두 암환자가 아니라고 했을 때 99.9%가 정확도로 나오게 됩니다. 1명의 암환자를 제대로 찾지 못했기 때문에 해당 모델은 잘 만든 모델이라고 평가할 수 없습니다. Q. 코퍼스 corpus 란? - 언어 연구를 위해 텍스트를 컴퓨터가 읽을 수 있는 형태로 모아 놓은 언어 - 자료. 매체, 시간, 공간.. 더보기