TFIDF 썸네일형 리스트형 [멋쟁이사자처럼 AI스쿨] TIL(23.3.28) 텍스트 분석, 자연어처리2 0802 실습 단어-벡터화 결과를 모델로 예측하기 - ‘코로나’라는 단어가 들어가는 문장을 보건으로, 나머지를 교통으로 분류 - sklearn의 featureselection.text의 CountVectorizer 사용하여 df[‘문서’]를 벡터화 - CountVectorizer는 bow(bag of words)라는 벡터화 기법. 단어의 출현빈도만 고려하고 순서는 무시하여 의미를 잃을 수 있다는 단점이 있음. - DecisionTreeClassifier로 분류하고, 다양한 시각화를 진행함 0803 실습 KoNLPy 형태소 분석기를 사용해 조사, 어미, 구두점을 제거하고, 모델로 분류하기 - 정규표현식 사용해 한글, 영문, 숫자만 남기고 제거하기 - Okt 클래스를 이용해 형태소 분석하기 morphs → .. 더보기 이전 1 다음