본문 바로가기

전체 글

(338)
[멋쟁이사자처럼 AI스쿨] TIL(23.3.27) 텍스트 분석, 자연어처리 오버샘플링은 1000 개중에 10개 등으로 데이터수가 충분하지 않을 때 사용 언더샘플링은 데이터의 수가 충분할 때 사용 Q. 왜 Accuracy 만으로는 제대로 된 분류의 평가를 하기 어려울까? 예를 들어 암 여부를 예측하는 모델이라고 할 때 현실세계에서 건강검진을 했을 때 1000명 중에 1명이 암환자라면 학습을 했을 때 암환자의 특징을 학습하기도 어려울 뿐더러, 정확도인 Accuracy로 측정하게 되면 모두 암환자가 아니라고 했을 때 99.9%가 정확도로 나오게 됩니다. 1명의 암환자를 제대로 찾지 못했기 때문에 해당 모델은 잘 만든 모델이라고 평가할 수 없습니다. Q. 코퍼스 corpus 란? - 언어 연구를 위해 텍스트를 컴퓨터가 읽을 수 있는 형태로 모아 놓은 언어 - 자료. 매체, 시간, 공간..
[불공단] 코딩은 처음이라 with 자바, week2 1. 도서 정보 코딩은 처음이라 with 자바저자유동환출판영진닷컴발매2022.04.25. 2. 스터디 내용 4장 함수와 string 클래스 함수 : 어떤 입력을 받아 결과를 반환하는 프로그램의 단위 입력 처리 반환 (반환 데이터가 없을 때는 void) String : 문자열 길이를 가짐 → length() 메서드 char로 구성 →charAt() 메서드 다른 String 값으로 재 할당 가능 실습 문제 : 문자열 데이터에서 0 제거 5장 : 객체지향 입문 Q. 객체 지향이란? 객체는 데이터와 코드를 포함. 객체의 데이터는 상수, 변수. 객체를 포함 객체의 코드는 객체의 데이터를 사용 좋은 객체는 적절한 데이터를 포함하며 그 데이터를 활용하는 코드도 포함 객체 생성시 class 키워드 사용 클래스의 데이터..
[멋쟁이사자처럼 AI스쿨] week14 - WIL AIS8 week14 23.3.20 - 3.22 머신러닝 with Gradient Boosting, 머신러닝 워크플로우 1. 문제 정의 2. 데이터 수집 및 EDA 3. 데이터 전처리 4. Feature 선택 및 추출 5. 모델 선택과 학습 6. 모델의 성능 평가 7. 모델 개선 Gradient Boosting XGBoost(Extreme Gradient Boosting) 손실함수를 토대로 매 iteration마다 하나의 leaf로부터 가지를 늘려나감 손실 함수가 최대한 감소하도록 하는 split point(분할점)를 찾는 것이 XGBoost의 목표 GBM 대비 빠른 수행시간(병렬 처리) Early Stopping(조기 종료) 기능이 있음 모델의 Overfitting 학습시간이 느림 과적합 방지를 위해 ..
[멋쟁이사자처럼 AI스쿨] TIL(23.3.22) confusion matrix confusion matrix 모델이 맞혔을 때 → T 모델이 틀렸을 때 → F 모델의 예측값이 True -> P 모델의 예측 값이 False -> N Precision : 예측값 기준 , tp / (tp + fp) > 1종 오류, 맞지 않는 걸 보고 맞다고 하는 것 ex) 스펨메일이 아닌데 스팸메일로 잘못 예측 임신이 아닌데 임신으로 잘못 예측 - precision이 낮다 : 참이 아닌데 참이라고 한 것이 많다 - precision이 지나치게 높다 : 참으로 예측한 경우가 필요 이상으로 적다 Recall : 실제값 기준, tp / (tp + fn) > 2종 오류, 맞는 것을 맞지 않다고 하는 것 ex) 암인데 암이 아니라고 잘못 예측 임신인데 임신이 아니라고 잘못 예측 - recall이 낮다 : 참인데..
[진짜쓰는 실무엑셀] 3주 챌린지 - week2 week2. 23.3.18- 3.24 스터디 노트 1. 올바른 데이터 구조의 3가지 규칙 원본 데이터에는 셀 병합을 절대 사용하지 않습니다. 셀 병합시 첫 칸에만 값 입력, 나머지는 빈칸으로 존재 → 수식 사용시 정확한 값 산출 불가 머릿글은 반드시 한 줄로 관리합니다. 범위 선택의 문제 표, 피벗 테이블 활용의 문제 집계 데이터는 원본에서 제외합니다. 집계 데이터(보고용 데이터)와 원본 데이터(개별 데이터) 구분하기 함께 관리하면 함수 사용이 어려워진다 함께 관리하면 피벗 테이블 사용이 어려워진다. 따로 관리하면 파일 크기를 최소화 할 수 있다. 2. 데이터의 세로방향 블록쌓기 규칙 새로운 데이터는 아래 방향으로 추가, 새로운 항목은 오른쪽으로 추가 변경이 어려운 표 구조 문제 피벗 테이블을 사용할 때..
[멋쟁이사자처럼 AI스쿨] TIL(23.3.21) XGBoost, LightBGM portable 이식성이 높다 다른 프로그래밍 언어를 지원하기 적합한 구조로 설계, 여러 언어 지원. 배깅 병렬트리를 여러 개 생성, 오버피팅에 좀 더 덜 취약. 랜덤포레스트, ExtraTree 부스팅 순차적으로 트리를 생성, 오버피팅에 좀 더 취약하며, 개별 트리의 성능이 중요할 때 사용. GBM, XGBoost, LightGBM, CatBoost XGBoost xgboost는 GBT에서 병렬 학습을 지원하여 학습 속도가 빨라진 모델. 기본 GBT에 비해 더 효율적이고, 다양한 종류의 데이터에 대응할 수 있으며 이식성이 높음. 모든 가능한 트리를 나열하여 최적 트리를 찾는 것은 거의 불가능 2차 근사식을 바탕으로 한 손실함수를 토대로 매 iteration마다 하나의 leaf로부터 가지를 늘려나가는 것이..
[멋쟁이사자처럼 AI스쿨] TIL(23.3.20), RandomSearchCV 한쪽에 치우쳐진 데이터 -> 모델이 골고루 학습하기 어려움 -> log1p로 정규분포에 가깝게 만들어줘 모델이 학습하기 쉽도록 해줌! Label Smoothing 이란? log1p - 회귀 모델에서 사용할 수 있는 레이블 스무딩(Label Smoothing) 기법 예시 ) - 데이터 정규화(regularization)에 많이 사용되는 테크닉이며 모델의 일반화 성능을 높여주기도 한다. - label을 있는 그대로 사용하는 것이 아닌, 조금 Smooth 하게 만들어 정규화 시키는 것이다 Boosting 부스팅은 약한 트리 모델을 여러개를 순차적으로 연결해서 강한 트리 모델을 만들어 내는 앙상블 방식 RandomizedSearchCV parameter 종류 - n_iter : CV 가 검증을 해볼 파라미터 조..
[불공단] 코딩은 처음이라 with 자바, week1 원글 url : https://cafe.naver.com/codingbeginner/5683 코딩 언어의 3대장 자바 입문기, 코딩은 처음이라 with 자바 2. 스터디 하신 흔적을 이미지로 올려주세요! ▶ 실습중인 이미지, 도서와 모니터이미지, 스터디 기록이 담겨있는 도서 이미지 등 평소 파이썬을 활용해 데이터 분석(E... cafe.naver.com 1. 스터디 진행 중인 도서 정보가 담겨 있는 URL을 남겨주세요. ▶ 상단 글감 첨부, 온라인 서점 도서 링크 등 코딩은 처음이라 with 자바저자유동환출판영진닷컴발매2022.04.25. 2. 스터디 하신 흔적을 이미지로 올려주세요! ▶ 실습중인 이미지, 도서와 모니터이미지, 스터디 기록이 담겨있는 도서 이미지 등 ​ ​ 평소 파이썬을 활용해 데이터 분..