본문 바로가기
멋쟁이사자처럼 AI School 8기(fin)/TIL(Today I Learn)

[멋쟁이사자처럼 AI스쿨] Day28 TIL

by #FF0000 2023. 2. 6.

 

 

ㅁ tidy-data

*각 행이 개별 관측치가 아니라 집계가 되어 있는 데이터. => 일별시세데이터

각 행이 개별 관측치인 데이터. ex) 각 행이 개별 관측치, 각 확진자에 대한 정보

 

*Tidy-data : 깔끔한 데이터

> 변수가 열이고 각 관측치가 행이 되도록 배열된 데이터, 분석하기 좋은 데이터

> Pandas의 melt 사용(Tidy Data 깔끔한 데이터를 만들기위해 사용)

> pd.melt(df)

> 열(columns)에 있던 데이터를 행(row)으로

> 각 변수는 개별 열에, 각 관측치는 개별 행에, 관측 구성 요소 각각 값은 테이블 안에 위치

 

*wide-form => pandas plot()으로 막대의 색상을 다르게 지정하거나, 서브플롯을 그리거나, 시각화 하기에 좋다.

long-form => 연도, 월별에 따라 x, y, hue(color), col 등을 지정해 사용하기 좋다. 

 

 

ㅁ 데이터 분석

> 데이터의 정보(info) 확인

> 결측치 확인(isnull().sum() , isnull().mean() )

 

*Series에 문자 데이터 포함시 전체 데이터는 object 처리됨. 

 

# replace => 데이터프레임에만 사용가능(regex=True 를 지정하지 않으면 완전히 일치하는 데이터에 대해서면 변경)
# str.replace => 시리즈에만 사용가능, 일부만 일치해도 변경.

 

메서드명이 같더라도 python string 의 메서드인지, pandas 의 데이터프레임의 메서드인지 등에 따라 다르게 동작

 

 

 

Q. 프로젝트 진행시 소요 시간?

A. 데이터의 크기, 변수의 수, 결측치, 이상치, 범주형, 수치형데이터 등 전처리 항목이 중요.

어떤 작업을 얼마나 진행할지에 대해 달라질것 같습니다.

일정이 정해져있다면 정해진 일정안에서 어떻게 시간을 나눠사용할지 계획해서 사용하는 것도 업무 능력중에 하나.

 

Q.SQL, Python, 엑셀 언제 사용하느냐?

A. 목적에 따라서 도구를 선택한다. 

DB => 실시간성 조회 데이터, 회원가입데이터, 캐릭터 정보, 인벤토리정보, 장바구니 정보, 구매내역

파일 => 사용자 행동 정보(ex) Amplitude), 기록이 필요한 로그파일

SQL => DB 추출용으로 주로 사용 => 파일로 가공해서 판다스 등으로 전처리해서 분석.

DB => 보통 분석가에게는 읽기권한만 부여. 라이브DB는 권한x. 특히 개인정보등은 아무나 조회 할 수 없음.

대시보드 => 정제한 데이터를 DB에 쌓이서 보여주기도 함. 너무 많은 레코드에 접근해서 반복된 작업 수행시 보여줄 내용만 가공해 놓고 따로 보관 관리 하기도 함.

 

 

 

 

* fmt => format을 의미

.0f => float을 소숫점 0번쨰 자리까지 표기 의미

, 는 천단위로 ,로 구분해서 표기

,.0f => 천단위로 , 표기 + 소숫점 0번째 자리까지 표기

 

boxplot, violinplot, pointplotm, barplot의 공통점?

catplot의 하위! 

 

 


*검은색 막대는 신뢰구간 표기.

errorbar=None 로 계산 처리 소요 시간 제거

 

 

 

*bar, point는 대표값(평균, 합계 등)만을 표기. 대표값만으로는 데이터를 제대로 설명하기 어려움.

bar, pointplot의 단점을 보완해서 만들어진 것이 boxplot.