본문 바로가기

자연어처리

[멋쟁이사자처럼 AI스쿨] TIL(23.4.24) 자연어처리, 트랜스포머 자연어처리로 할 수 있는 task 전체 문장 분류: 리뷰에 드러난 감정 파악하기, 스팸 메일 분류하기, 문장이 문법적으로 올바른지 혹은 문장 쌍이 논리적으로 관련이 있는지 없는지 결정하기 문장 내 단어 분류: 문장 구성 성분(명사, 동사, 형용사 등) 혹은 개체명(사람, 장소, 기관) 식별하기 텍스트 컨텐츠 생성: 자동 생성 텍스트로 프롬프트 작성하기, 텍스트 내 마스킹 된 단어의 빈칸 채우기 텍스트 안에서 정답 추출하기: 지문과 질의가 주어질 때 지문에 주어진 정보를 이용해 질의에 대한 정답 추출하기 입력 텍스트로부터 새로운 문장 생성하기: 입력 텍스트를 다른 언어로 번역하거나, 요약하기 트랜스포머는 쿼리, 키, 밸류를 이용해 self-attention을 수행. - self attention은 문장 내.. 더보기
[멋쟁이사자처럼 AI스쿨] TIL(23.3.28) 텍스트 분석, 자연어처리2 0802 실습 단어-벡터화 결과를 모델로 예측하기 - ‘코로나’라는 단어가 들어가는 문장을 보건으로, 나머지를 교통으로 분류 - sklearn의 featureselection.text의 CountVectorizer 사용하여 df[‘문서’]를 벡터화 - CountVectorizer는 bow(bag of words)라는 벡터화 기법. 단어의 출현빈도만 고려하고 순서는 무시하여 의미를 잃을 수 있다는 단점이 있음. - DecisionTreeClassifier로 분류하고, 다양한 시각화를 진행함 0803 실습 KoNLPy 형태소 분석기를 사용해 조사, 어미, 구두점을 제거하고, 모델로 분류하기 - 정규표현식 사용해 한글, 영문, 숫자만 남기고 제거하기 - Okt 클래스를 이용해 형태소 분석하기 morphs → .. 더보기
[멋쟁이사자처럼 AI스쿨] TIL(23.3.27) 텍스트 분석, 자연어처리 오버샘플링은 1000 개중에 10개 등으로 데이터수가 충분하지 않을 때 사용 언더샘플링은 데이터의 수가 충분할 때 사용 Q. 왜 Accuracy 만으로는 제대로 된 분류의 평가를 하기 어려울까? 예를 들어 암 여부를 예측하는 모델이라고 할 때 현실세계에서 건강검진을 했을 때 1000명 중에 1명이 암환자라면 학습을 했을 때 암환자의 특징을 학습하기도 어려울 뿐더러, 정확도인 Accuracy로 측정하게 되면 모두 암환자가 아니라고 했을 때 99.9%가 정확도로 나오게 됩니다. 1명의 암환자를 제대로 찾지 못했기 때문에 해당 모델은 잘 만든 모델이라고 평가할 수 없습니다. Q. 코퍼스 corpus 란? - 언어 연구를 위해 텍스트를 컴퓨터가 읽을 수 있는 형태로 모아 놓은 언어 - 자료. 매체, 시간, 공간.. 더보기