본문 바로가기

전체 글

(338)
[태블로 신병훈련소] 신병훈련소 2일차 with 17th 2일차 과제는 3 + 1개로, 행과 열, 마크의 개념 이해. 계산식(함수)과 계산필드의 사용법을 학습하고 적용하는 것을 목표로 한다. 1. 워드클라우드를 이용해 가장 “칼로리”가 높은 “메뉴명”을 시각화 위드클라우드 > 많은 키워드 속에서 분석 목적에 따라 핵심 키워드를 표현하는데 유용한 시각화 2. 박스플롯을 이용한 카테고리 별 칼로리 시각화 박스플롯 > 데이터의 분포 상태와 이상치를 동시에 표현, 서로 다른 데이터 군을 쉽게 비교하는 시각화. > 여러 개의 데이터를 한 눈에 표현, 비교에 유용. 3. 계산 필드를 활용해 평균 카페인 함유량이 80mg 보다 높은 카테고리와 아닌 카테고리를 분류 계산 필드 > 분석에 필요한 필드가 데이터 원본에 미 포함시, 계산 필드를 사용. > 원본 데이터에서 새 데이..
[태블로 신병훈련소] 신병훈련소 1일차 with 17th 블로그 게시 허가를 받고 쓰는 태블로 신병훈련소 17기 Day 1 미션. 1일차 주제는 "스타벅스 메뉴 데이터"와 "매장 정보 데이터"를 이용해 시각적 분석 및 대시보드 생성. 1. 막대 차트를 이용해 카테고리 별 평균 칼로리와 평균 카페인을 비교하는 시각화. > 막대 차트는 값의 크기를 비교하는데 유용 > 수치 데이터 값들 간의 작은 양적 차이를 비교하 > 특정 참조선(ex. 평균값, 중간값) 등을 표현, 해당 막대가 그 참조선 값에 도달 여부 비교. > 비슷한 값들의 비교를 명확하게 하기 위해서 데이터 정렬 필수! 2. 트리맵을 사용한 메뉴명 수준까지 칼로리와 카페인을 함께 표현. > 트리맵은 계층 구조의 데이터를 표시하는데 적합한 시각화 > 전체 대비 부분의 비율이 얼마나 되는지 비교하는데 많이 사..
[멋쟁이사자처럼 AI스쿨] Day28 TIL ㅁ tidy-data *각 행이 개별 관측치가 아니라 집계가 되어 있는 데이터. => 일별시세데이터 각 행이 개별 관측치인 데이터. ex) 각 행이 개별 관측치, 각 확진자에 대한 정보 *Tidy-data : 깔끔한 데이터 > 각 변수가 열이고 각 관측치가 행이 되도록 배열된 데이터, 분석하기 좋은 데이터 > Pandas의 melt 사용(Tidy Data 깔끔한 데이터를 만들기위해 사용) > pd.melt(df) > 열(columns)에 있던 데이터를 행(row)으로 > 각 변수는 개별 열에, 각 관측치는 개별 행에, 관측 구성 요소 각각 값은 테이블 안에 위치 *wide-form => pandas plot()으로 막대의 색상을 다르게 지정하거나, 서브플롯을 그리거나, 시각화 하기에 좋다. long-fo..
[멋쟁이사자처럼 AI스쿨] mini-project2 with EDA 회고 미니 프로젝트1이 끝나고 바로 부여된 미니 프로젝트2 일정. 일요일에 프로젝트 마무리. 월요일에 발표 월요일에 새로운 프로젝트 일정 공지 수요일에 새로운 프로젝트 테마 선정. 다시 해당 주 일요일에 프로젝트 마무리. 차주, 내일 프로젝트 2 발표. 이번 과제에서의 어려운 점은 바로 '데이터 선정'의 어려움이었다. 기존의 수업에서 시계열데이터 - 주식 을 다루었기 때문에 이와 연관되면서도 최대한 곂치지 않는 데이터셋을 찾는 것이 1차 과제였다. 최초 선정한 데이터 셋은 구매자의 나이, 성별, 학력, 겷혼 유무, 자녀 유무 등에 따른 와인 구매와 와인 안주 구매에 대한 자료였다. 해당 자료는 분석 항목을 다채롭게 구성 가능했으나, 시계열 데이터의 부족으로 분석 항목 도출 후 실제 코드 작성시 시간에 흐름을 ..
[태블로 신병훈련소] tableau 신병훈련소 17기 start 태블로를 검색하다 알게된 태블로 초급 사용자 교육 프로그램 태블로 신병훈련소. 지난 기수가 22년 12월 진행이라, 23년 상반기 중 신규 기수 교육을 시작할 것이라 기대했는데, 아니나 다를까, 지난 1월 말 페북 알림으로 신규 기수 모집 알림을 받았다. 빠른 신청 및 슬렉 죠인. 슬렉.. 부스트코스 코칭스터디 8기를 통해 접한 이 프로그램이 벌써 코칭스터디 9기와 함꼐, 태블로 신병훈련소 채널까지 추가 되었다. ( 코칭스터디8기는 로그아웃 상태) 목표는 약 2주간의 학습을 통해 태블로 비기너를 탈출 하는 것. 3월 이후에 있을 태블로 클래스에서 더 많은 것을 배워가자! 시작일인 1월 3일 금요일엔... 멋쟁이사자처럼 AI스쿨 8기의 미니 프로젝트2 진행으로 나의 태블로 과정은 1월 4일부터 시작! 엑셀..
[멋쟁이사자처럼 AI스쿨] Day27, SQL week4 ㅁ ROLLUP > 집계된 데이터에서 그룹별 소계, 총계를 구하기 위해 사용 group by rollup(컬럼명) rollup 사용시 소계를 원하는 컬럼명을 추가 ㅁ Window 함수 분석함수. 현재 행과 관련이 있는 테이블 행들에 대해 계산을 수행 행 그룹의 값을 계산하고 각 행마다 하나의 결과를 반환 cf) 집계함수: 행 그룹에 대해 하나의 결과를 반환하는 집계 함수 WINDOW_FUNCTION (expression) OVER ( [ PARTITION BY 컬럼 ] [ ORDER BY 컬럼 ] [ WINDOWING 절 ] ) 윈도우 함수를 사용하면 이동 평균, 항목의 순위, 누적 합계를 계산, 기타 분석을 수행. 각 행마다 단일 값을 반환 탐색 함수 : LEAD, LAG, FIRST_VALUE, LA..
[멋쟁이사자처럼 AI스쿨] Week7 - WIL Week6(1.23~1.27) WIL은 설날 + SQL Week3 대체로 이번 Week7 WIL을 작성한다. > Week7(1.30~2.1) 학습내용 Pandas를 통한 파일 저장과 불러오기 shape를 통한 행과 열의 수 보기 head, tail, sample 을 통한 일부 데이터 가져오기 DataFrame의 info(), describe() 등을 통한 요약과 기술통계 값 구하기 info() describe() nunique() index columns values Pandas의 DataFrame과 Series의 이해 Series : 1차원 벡터구조 DataFrame : 2차원 행렬구조 색인하기 [컬럼] .loc[행] .loc[행, 열] .loc[조건식, 열] DataFrame의 데이터 타입 이해하기 ..
[멋쟁이사자처럼 AI스쿨] Day-25 TIL 보통은 정규분포 형태가 가장 이상적인 형태입니다. 그런데 현실세계에서는 정규분포 형태의 모양을 띄는 경우가 많지 않습니다. 머신러닝, 딥러닝 등을 할 때는 정규분포 형태로 분포의 모양을 변경해 주기도 합니다. ㅁ 왜도 비대칭도(非對稱度, skewness) 또는 왜도(歪度)는 실수 값 확률 변수의 확률 분포 비대칭성을 나타내는 지표이다. 왜도의 값은 양수나 음수가 될 수 있으며 정의되지 않을 수도 있다. 왜도가 음수일 경우에는 확률밀도함수의 왼쪽 부분에 긴 꼬리를 가지며 중앙값을 포함한 자료가 오른쪽에 더 많이 분포해 있다. 왜도가 양수일 때는 확률밀도함수의 오른쪽 부분에 긴 꼬리를 가지며 자료가 왼쪽에 더 많이 분포해 있다는 것을 나타낸다. 평균과 중앙값이 같으면 왜도는 0이 된다. ㅁ 첨도 첨도(尖度,..