본문 바로가기
시각화/Tableau

[태블로 신병훈련소] 신병훈련소 1일차 with 17th

by #FF0000 2023. 2. 6.

 

 

블로그 게시 허가를 받고 쓰는 태블로 신병훈련소 17기 Day 1 미션.

 

1일차 주제는  "스타벅스 메뉴 데이터"와 "매장 정보 데이터"를 이용해 시각적 분석 및 대시보드 생성.

 

 

1. 막대 차트를 이용해 카테고리 별 평균 칼로리와 평균 카페인을 비교하는 시각화.

> 막대 차트는 값의 크기를 비교하는데 유용

> 수치 데이터 값들 간의 작은 양적 차이를 비교하
> 특정 참조선(ex. 평균값, 중간값) 등을 표현, 해당 막대가 그 참조선 값에 도달 여부 비교.
> 비슷한 값들의 비교를 명확하게 하기 위해서 데이터 정렬 필수!

 

 

 

2. 트리맵을 사용한 메뉴명 수준까지 칼로리와 카페인을 함께 표현.
> 트리맵은 계층 구조의 데이터를 표시하는데 적합한 시각화

> 전체 대비 부분의 비율이 얼마나 되는지 비교하는데 많이 사용.
> 사각형의 크기와 색상에 따라 데이터의 패턴 확인 및 데이터를 한 번에 볼 수 있다는 장점.

 

 

 

3. 당분 함유량과 칼로리 상관관계, 스캐터 플롯(산점도) 시각화

> 스캐터 플롯은 2개의 연속형 데이터에 대한 상관관계를 분석하는데 가장 많이 사용되는 시각화.
> 두 개의 축으로 데이터가 얼마나 퍼져 있는지 분포를 살펴 볼 수 있고,

> 상수 라인 / 평균 라인 / 사분위수 및 중앙값 / 추세선 등과 같은 참조라인을 추가하여 값의 분포를 비교에도 유용.

 

 

4. 시군구 별 매장 분포 현황
> 맵을 사용.

 

 

5. 대시보드 생성

 

 

6. 메뉴별 칼로리와 카페인의 상관관계를 보여주는 차트

 

7. “스타벅스 매장 정보” 데이터에 있는 경도/위도 데이터를 이용해서 아래와 같이 서울시의 실제 매장 위치를 표현

 

 

5 + 2 의 과제로 1일치 태블로 학습이 마무리 되었다.

 

 

태블로가 동작하는 원리를 정리한다면

 

1. 필드는 정성적인 값과 정량적인 값에 따라 차원과 측정값으로 구분.
- 차원 : 정성적 데이터(제품명, 날짜, 지리명 등), 분석 기준이 되는 값, 불연속형 데이터로 측정값을 쪼개어 보는 관점
- 측정값 : 정량적 수치, 연속형 데이터로 집계가 되는 데이터

 

2. 측정값은 차원을 기준으로 집계되어 표현다.
> 집계는 합계, 평균, 중앙값, 카운트, 카운트 (고유), 최소값, 최대값, 백분위수, 표준편차, 분산 등 을 의미.
> 즉, 하나의 측정값을 무엇을 기준으로 집계해 보느냐에 따라서 다양한 분석이 가능.
> 측정값을 화면에 가져다 놓으면 기본적으로 태블로가 집계해 합계 값을 도출.
> 집계 형태를 변경시 측정값을 합계가 아닌 평균 등의 값으로 도출 가능.