본문 바로가기

전체 글297

[서평] 데이터 품질의 비밀(디코딩) 데이터 품질의 비밀 데이터 품질의 비밀 데이터 EDA에 관심이 많은 요즘, 전처리 후 데이터 분석 정확도 향상을 위한 결측값과 이상치 처리 방식에 생각이 많았다. 단순한 이상치의 삭제와 최소/최대값 대체 등의 방안으로도 데이터 분석에 유의한 차이가 발생하기에, 보다 효율적인 데이터 전처리 방안을 종종 하곤 했다. 시기적절하게 이번 4월 '데이터 품질'을 주제로 한 서적이 출간되어 서평 이벤트에 지원하였다. 데이터 품질과 신뢰성에 관한 생각은 기존 데이터 분석 학습에서는 전혀 생각해보지 못했던 이야기라 재미있게 책을 읽었다. 저자 소개 바 모세스(Barr Moses): 몬테카를로(Monte Carlo) CEO 겸 공동 설립자 베인앤컴퍼니 컨설턴트(Bain&Company) 라이어 개비쉬(Lior Gavish.. 2023. 5. 15.
[서평] ADP 데이터 분석 전문가 필기(개정판) ADP 데이터 분석 전문가(필기) 데이터 분석 전문가(ADP) 수험서(필기) 이번 가을, 23년 3회차 adp를 준비하며 adp 수험서를 알아보는 도중, 데이터 에듀의 adp 필기 수험서의 개정판 출시를 알게 되었다. 빅데이터 시험의 3대장, adp, dap, sqlp의 이름에 맞게 시험 응시료 많큼이나 수험서 역시 가격대가 있는편이라 예약 구매를 고민하던 도중, 서평단 모집을 보고 지원해 책을 수령하였다. 저자 소개 윤종식: 現 ㈜데이터에듀 대표 동국대학교 응용통계 겸임교수, 동국대학교 산업공학과 박사, 외환은행, 신한은행 신용평가모형 및 모니터링 모형 개발 저서 빅데이터 분석기사(2023, 데이터에듀) adsp 필기 데이터 분석 준전문가(2023, 데이터에듀) 책의 주제 ADP 시험 수험서. 빅데이터.. 2023. 4. 29.
[멋쟁이사자처럼 AI스쿨] TIL(23.4.26) streamlit .py와 .ipynb 차이 git 분산 버전 관리 시스템, 컴퓨터 파일의 변경사항을 추적, 빠른 수행 속도에 중점을 두고 있는 것이 특징. 데이터 무결성, 분산, 비선형 워크플로를 지원 GitHub 분산 버전 관리 툴인 깃 저장소 호스팅을 지원하는 웹 서비스 저장소의 .gitignore의 역할 Project에 원하지 않는 Backup File이나 Log File , 혹은 컴파일 된 파일들을 Git에서 제외시킬수 있는 설정 File 항상 최상위 Directory에 존재 규칙을 작성하여 특정 확장자를 제외할 수 있음 가상환경 명령어 아나콘다 기본(base) 가상환경을 활성화 conda activate base 아나콘다 가상환경을 목록 conda env list 가상환경에 설치된 파이썬 패키지 목록을 텍스트 .. 2023. 4. 26.
[멋쟁이사자처럼 AI스쿨] TIL(23.4.25) 추천시스템 추천시스템 정보 필터링 (IF) 기술의 일종, 특정 사용자가 관심을 가질만한 정보를 추천하는 것 콘텐츠 기반(Content-based filtering) 방식 협업 필터링 기반(Collaborative filtering) 방식으로 추천 목록 생성 Matrix Factorization Matrix를 분해하고, 평점 패턴으로부터 추론한 요인 벡터들을 통해 사용자와 아이템의 특성을 추출 메모리 기반 방법 협업 필터링(Collaborative filtering) 기반의 추천 중 사용자가 이전에 평가한 항목의 전체 컬렉션에 따라 등급을 예측하는 방법으로, 기술을 사용하려면 모든 등급, 항목 및 사용자가 메모리에 유지되어야 하는 방법 협업 필터링(Collaborative filtering) 추천시스템 많은 고객들로.. 2023. 4. 25.
[멋쟁이사자처럼 AI스쿨] TIL(23.4.24) 자연어처리, 트랜스포머 자연어처리로 할 수 있는 task 전체 문장 분류: 리뷰에 드러난 감정 파악하기, 스팸 메일 분류하기, 문장이 문법적으로 올바른지 혹은 문장 쌍이 논리적으로 관련이 있는지 없는지 결정하기 문장 내 단어 분류: 문장 구성 성분(명사, 동사, 형용사 등) 혹은 개체명(사람, 장소, 기관) 식별하기 텍스트 컨텐츠 생성: 자동 생성 텍스트로 프롬프트 작성하기, 텍스트 내 마스킹 된 단어의 빈칸 채우기 텍스트 안에서 정답 추출하기: 지문과 질의가 주어질 때 지문에 주어진 정보를 이용해 질의에 대한 정답 추출하기 입력 텍스트로부터 새로운 문장 생성하기: 입력 텍스트를 다른 언어로 번역하거나, 요약하기 트랜스포머는 쿼리, 키, 밸류를 이용해 self-attention을 수행. - self attention은 문장 내.. 2023. 4. 24.
[멋쟁이사자처럼 AI스쿨] TIL(23.4.19) RNN RNN(순환신경망: Recurrent Neural Network) RNN이 기존 신경망과의 차이점: 결과값을 출력층 방향으로도 보내면서, 다시 은닉층 노드의 다음 계산의 입력으로 보내는 특징 다양한 길이의 입력 시퀀스를 처리할 수 있는 인공 신경망 가장 기본적인 순환 신경망은 바닐라 RNN이며, 기울기 소실의 문제점을 개선한 LSTM, GRU 모델도 존재 RNN은 텍스트 분류나 기계 번역과 같은 다양한 자연어 처리에 대표적으로 사용되는 인공 신경망 로그변환 => 어느쪽에 치우쳐져있는지 상관없이 차이가 큰 값을 작게 만들어서 정규분포에 가깝게 만들어 줍니다. 제곱변환 => 유니폼한 데이터, 특징이 잘 구분되지 않을 때 차이를 만들어서 구분해서 보고자 할 때 효과가 있습니다. Keras에는 세 개의 내장 R.. 2023. 4. 19.