전체 글298 [진짜쓰는 실무엑셀] 3주 챌린지 - week3 week3. 23.3.25- 3.31 스터디 노트 1. 실무 데이터 시각화의 핵심 요소 직장인에게 데이터 시각화란, "내가 보여주고자 하는 (또는 상대방이 보고 싶어하는) 주제를 이해하기 쉽게 효과적으로 전달하는 것" A 보고서 → 직관적인 내용 파악의 어려움 '무엇을 전달하고 싶은지'에 대한 주제 불분명 제품별 판매량 분석시 '판매량' 기준 내림차순 정렬이 필요하나, 제품 이름 기준 오름차순 정렬 상태. 보고서 내용의 숫자 단위 및 천 단위 구분 기호 누락 B 보고서 → 직관적인 내용 파악의 용이함 판매량 기준 내림차순 정렬 및 스파크 라인 차트 배치 천 단위 구분 기호 추가 판매량이 급격하게 감소한 항목 강조 시각화 차트 구성시 고려할점 디자인 요소는 '색감' 무엇을 전달할지 명확하게 표현 어떻게 전.. 2023. 3. 28. [멋쟁이사자처럼 AI스쿨] TIL(23.3.28) 텍스트 분석, 자연어처리2 0802 실습 단어-벡터화 결과를 모델로 예측하기 - ‘코로나’라는 단어가 들어가는 문장을 보건으로, 나머지를 교통으로 분류 - sklearn의 featureselection.text의 CountVectorizer 사용하여 df[‘문서’]를 벡터화 - CountVectorizer는 bow(bag of words)라는 벡터화 기법. 단어의 출현빈도만 고려하고 순서는 무시하여 의미를 잃을 수 있다는 단점이 있음. - DecisionTreeClassifier로 분류하고, 다양한 시각화를 진행함 0803 실습 KoNLPy 형태소 분석기를 사용해 조사, 어미, 구두점을 제거하고, 모델로 분류하기 - 정규표현식 사용해 한글, 영문, 숫자만 남기고 제거하기 - Okt 클래스를 이용해 형태소 분석하기 morphs → .. 2023. 3. 28. [멋쟁이사자처럼 AI스쿨] TIL(23.3.27) 텍스트 분석, 자연어처리 오버샘플링은 1000 개중에 10개 등으로 데이터수가 충분하지 않을 때 사용 언더샘플링은 데이터의 수가 충분할 때 사용 Q. 왜 Accuracy 만으로는 제대로 된 분류의 평가를 하기 어려울까? 예를 들어 암 여부를 예측하는 모델이라고 할 때 현실세계에서 건강검진을 했을 때 1000명 중에 1명이 암환자라면 학습을 했을 때 암환자의 특징을 학습하기도 어려울 뿐더러, 정확도인 Accuracy로 측정하게 되면 모두 암환자가 아니라고 했을 때 99.9%가 정확도로 나오게 됩니다. 1명의 암환자를 제대로 찾지 못했기 때문에 해당 모델은 잘 만든 모델이라고 평가할 수 없습니다. Q. 코퍼스 corpus 란? - 언어 연구를 위해 텍스트를 컴퓨터가 읽을 수 있는 형태로 모아 놓은 언어 - 자료. 매체, 시간, 공간.. 2023. 3. 27. [불공단] 코딩은 처음이라 with 자바, week2 1. 도서 정보 코딩은 처음이라 with 자바저자유동환출판영진닷컴발매2022.04.25. 2. 스터디 내용 4장 함수와 string 클래스 함수 : 어떤 입력을 받아 결과를 반환하는 프로그램의 단위 입력 처리 반환 (반환 데이터가 없을 때는 void) String : 문자열 길이를 가짐 → length() 메서드 char로 구성 →charAt() 메서드 다른 String 값으로 재 할당 가능 실습 문제 : 문자열 데이터에서 0 제거 5장 : 객체지향 입문 Q. 객체 지향이란? 객체는 데이터와 코드를 포함. 객체의 데이터는 상수, 변수. 객체를 포함 객체의 코드는 객체의 데이터를 사용 좋은 객체는 적절한 데이터를 포함하며 그 데이터를 활용하는 코드도 포함 객체 생성시 class 키워드 사용 클래스의 데이터.. 2023. 3. 26. [멋쟁이사자처럼 AI스쿨] week14 - WIL AIS8 week14 23.3.20 - 3.22 머신러닝 with Gradient Boosting, 머신러닝 워크플로우 1. 문제 정의 2. 데이터 수집 및 EDA 3. 데이터 전처리 4. Feature 선택 및 추출 5. 모델 선택과 학습 6. 모델의 성능 평가 7. 모델 개선 Gradient Boosting XGBoost(Extreme Gradient Boosting) 손실함수를 토대로 매 iteration마다 하나의 leaf로부터 가지를 늘려나감 손실 함수가 최대한 감소하도록 하는 split point(분할점)를 찾는 것이 XGBoost의 목표 GBM 대비 빠른 수행시간(병렬 처리) Early Stopping(조기 종료) 기능이 있음 모델의 Overfitting 학습시간이 느림 과적합 방지를 위해 .. 2023. 3. 23. [멋쟁이사자처럼 AI스쿨] TIL(23.3.22) confusion matrix confusion matrix 모델이 맞혔을 때 → T 모델이 틀렸을 때 → F 모델의 예측값이 True -> P 모델의 예측 값이 False -> N Precision : 예측값 기준 , tp / (tp + fp) > 1종 오류, 맞지 않는 걸 보고 맞다고 하는 것 ex) 스펨메일이 아닌데 스팸메일로 잘못 예측 임신이 아닌데 임신으로 잘못 예측 - precision이 낮다 : 참이 아닌데 참이라고 한 것이 많다 - precision이 지나치게 높다 : 참으로 예측한 경우가 필요 이상으로 적다 Recall : 실제값 기준, tp / (tp + fn) > 2종 오류, 맞는 것을 맞지 않다고 하는 것 ex) 암인데 암이 아니라고 잘못 예측 임신인데 임신이 아니라고 잘못 예측 - recall이 낮다 : 참인데.. 2023. 3. 22. 이전 1 ··· 31 32 33 34 35 36 37 ··· 50 다음