본문 바로가기
Books/서평(출판사 제공)

[서평] 데이터 품질의 비밀(디코딩)

by #FF0000 2023. 5. 15.

데이터 품질의 비밀

 

데이터 품질의 비밀

데이터 EDA에 관심이 많은 요즘, 전처리 후 데이터 분석 정확도 향상을 위한 결측값과 이상치 처리 방식에 생각이 많았다. 단순한 이상치의 삭제와 최소/최대값 대체 등의 방안으로도 데이터 분석에 유의한 차이가 발생하기에, 보다 효율적인 데이터 전처리 방안을 종종 하곤 했다. 시기적절하게 이번 4월 '데이터 품질'을 주제로 한 서적이 출간되어 서평 이벤트에 지원하였다. 데이터 품질과 신뢰성에 관한 생각은 기존 데이터 분석 학습에서는 전혀 생각해보지 못했던 이야기라 재미있게 책을 읽었다.     

 

 

 

저자 소개

바 모세스(Barr Moses): 몬테카를로(Monte Carlo) CEO 겸 공동 설립자

                                      베인앤컴퍼니 컨설턴트(Bain&Company)

 

라이어 개비쉬(Lior Gavish) : 몬테카를로(Monte Carlo) CTO 겸 공동 설립자

                                             바라쿠다(Baracuda) 엔지니어링 수석 부사장

 

몰리 보르웨르크(Molly Vorwerck) : 몬테카를로(Monte Carlo) 콘첸츠 책임

                                                       우버(Uber) 기술 브랜드팀 수석 프로그램 관리자

 

 

 

책의 주제

데이터 품질 문제는 오늘날 기업의 성장과 데이터 사용의 확산 속도를 고려할 때 불가피한 문제이다.

데이터 품질 정의 방법을 이해하여 데이터 품질을 측정하고 데이터 다운타임을 방지하자.

 

 

목차

책은 10개의 챕터로 구성되어 있다.

 

 

책 소개

 

'데이터 품질' 이라는 주제의 생소함을 덜기 위해 해당 챕터에서 사용하는 주요 용어에 대한 자세한 설명과 더불어,시각 이미지를 같이 제시함으로써, 독자들이 해당 내용을 보다 쉽게 이해 할 수 있도록 안내한다. 

     

 

인상 깊은 부분

챕터별 예시 사례 이미지를 활용하여 개념적으로 이해 하는 것을 넘어 보다 직관적으로 독자들이 이해 할 수 있도록 도우며, 

 

각 챕터의 프리뷰를 통해 해당 챕터에서 무엇을 설명하는지를 안내함으로써

읽는이로 하여금 책의 전반적인 흐름을 이해할 수 있도록 한다.

 

 

책의 추천 대상

▶ 데이터 엔지니어 / 분석가 / 과학자

데이터 파이프라인 관리자

 데이터 프로덕트 매니저

 

 

책 추천 이유 & 논평

 이번에 출간된 '데이터 품질의 비밀'은 데이터 품질의 개념 설명으로 시작하여,데이터 정제 → 파이썬&머신러닝을 활용한 이상치 탐지 방법 데이터 품질 신뢰성 향성을 위한 방법의 순서로데이터 품질 전략 수립의 방법을 안내한다. 또한 사례 분석을 통해 데이터 메시를 설명, 현실에서 적용중인 데이터 품질의 사례를 설명함으로써 신뢰할 수 있는 데이터 시스템의 미래를 독자들에게 제시한다. 이 책을 추천하는 이유는 '데이터 품질'에 대한, 언젠가 들어봤지만 중요성을 놓치고 있었던 부분들을 상기시켜주는 점이다. 데이터의 전처리, EDA를 통해 분석 및 활용 방안의 시선에서 벗어나 데이터 수집 과정부터 데이터의 '품질'을 확보하여 '신뢰성'있는 데이터를 생성하는 관점에서 새로운 인사이트를 많이 얻을 수 있었다. 데이터 사용에 따라 발생 가능한 많은 빅데이터 활용의 문제들 사이에서, 1차 원인이 될 수 있는 데이터 자체의 품질과 신뢰성에 대한 시각은 '빅데이터'를 사용하는 모두에게 필요한 생각이지 않을까 하며 서평을 마친다.

 

 

 

 

 

[디코딩에서 도서를 제공받아 작성된, 글쓴이의 주관적인 견해가 포함된 서평 입니다.]