데이터 품질의 비밀
데이터 품질의 비밀
데이터 EDA에 관심이 많은 요즘, 전처리 후 데이터 분석 정확도 향상을 위한 결측값과 이상치 처리 방식에 생각이 많았다. 단순한 이상치의 삭제와 최소/최대값 대체 등의 방안으로도 데이터 분석에 유의한 차이가 발생하기에, 보다 효율적인 데이터 전처리 방안을 종종 하곤 했다. 시기적절하게 이번 4월 '데이터 품질'을 주제로 한 서적이 출간되어 서평 이벤트에 지원하였다. 데이터 품질과 신뢰성에 관한 생각은 기존 데이터 분석 학습에서는 전혀 생각해보지 못했던 이야기라 재미있게 책을 읽었다.
저자 소개
바 모세스(Barr Moses): 몬테카를로(Monte Carlo) CEO 겸 공동 설립자
베인앤컴퍼니 컨설턴트(Bain&Company)
라이어 개비쉬(Lior Gavish) : 몬테카를로(Monte Carlo) CTO 겸 공동 설립자
바라쿠다(Baracuda) 엔지니어링 수석 부사장
몰리 보르웨르크(Molly Vorwerck) : 몬테카를로(Monte Carlo) 콘첸츠 책임
우버(Uber) 기술 브랜드팀 수석 프로그램 관리자
책의 주제
데이터 품질 문제는 오늘날 기업의 성장과 데이터 사용의 확산 속도를 고려할 때 불가피한 문제이다.
데이터 품질 정의 방법을 이해하여 데이터 품질을 측정하고 데이터 다운타임을 방지하자.
목차
책은 10개의 챕터로 구성되어 있다.
책 소개
'데이터 품질' 이라는 주제의 생소함을 덜기 위해 해당 챕터에서 사용하는 주요 용어에 대한 자세한 설명과 더불어,시각 이미지를 같이 제시함으로써, 독자들이 해당 내용을 보다 쉽게 이해 할 수 있도록 안내한다.
인상 깊은 부분
챕터별 예시 사례 이미지를 활용하여 개념적으로 이해 하는 것을 넘어 보다 직관적으로 독자들이 이해 할 수 있도록 도우며,
각 챕터의 프리뷰를 통해 해당 챕터에서 무엇을 설명하는지를 안내함으로써
읽는이로 하여금 책의 전반적인 흐름을 이해할 수 있도록 한다.
책의 추천 대상
▶ 데이터 엔지니어 / 분석가 / 과학자
▶ 데이터 파이프라인 관리자
▶ 데이터 프로덕트 매니저
책 추천 이유 & 논평
이번에 출간된 '데이터 품질의 비밀'은 데이터 품질의 개념 설명으로 시작하여,데이터 정제 → 파이썬&머신러닝을 활용한 이상치 탐지 방법 → 데이터 품질 신뢰성 향성을 위한 방법의 순서로데이터 품질 전략 수립의 방법을 안내한다. 또한 사례 분석을 통해 데이터 메시를 설명, 현실에서 적용중인 데이터 품질의 사례를 설명함으로써 신뢰할 수 있는 데이터 시스템의 미래를 독자들에게 제시한다. 이 책을 추천하는 이유는 '데이터 품질'에 대한, 언젠가 들어봤지만 중요성을 놓치고 있었던 부분들을 상기시켜주는 점이다. 데이터의 전처리, EDA를 통해 분석 및 활용 방안의 시선에서 벗어나 데이터 수집 과정부터 데이터의 '품질'을 확보하여 '신뢰성'있는 데이터를 생성하는 관점에서 새로운 인사이트를 많이 얻을 수 있었다. 데이터 사용에 따라 발생 가능한 많은 빅데이터 활용의 문제들 사이에서, 1차 원인이 될 수 있는 데이터 자체의 품질과 신뢰성에 대한 시각은 '빅데이터'를 사용하는 모두에게 필요한 생각이지 않을까 하며 서평을 마친다.
[디코딩에서 도서를 제공받아 작성된, 글쓴이의 주관적인 견해가 포함된 서평 입니다.]
'Books > 서평(출판사 제공)' 카테고리의 다른 글
[서평] 파이썬 라이브러리를 활용한 데이터 분석 개정3판(한빛미디어) (0) | 2023.05.24 |
---|---|
[서평] AI 이후의 세계(월북) (0) | 2023.05.23 |
[서평] ADP 데이터 분석 전문가 필기(개정판) (0) | 2023.04.29 |
[서평] Let's 태블로. 쉽게 따라하는 데이터 시각화(생능북스) (0) | 2023.04.14 |
[서평] 코딩 없이 배우는 컴퓨터 과학(성안북스) (0) | 2023.04.13 |