보통은 정규분포 형태가 가장 이상적인 형태입니다. 그런데 현실세계에서는 정규분포 형태의 모양을 띄는 경우가 많지 않습니다. 머신러닝, 딥러닝 등을 할 때는 정규분포 형태로 분포의 모양을 변경해 주기도 합니다.
ㅁ 왜도
- 비대칭도(非對稱度, skewness) 또는 왜도(歪度)는 실수 값 확률 변수의 확률 분포 비대칭성을 나타내는 지표이다. 왜도의 값은 양수나 음수가 될 수 있으며 정의되지 않을 수도 있다.
- 왜도가 음수일 경우에는 확률밀도함수의 왼쪽 부분에 긴 꼬리를 가지며 중앙값을 포함한 자료가 오른쪽에 더 많이 분포해 있다.
- 왜도가 양수일 때는 확률밀도함수의 오른쪽 부분에 긴 꼬리를 가지며 자료가 왼쪽에 더 많이 분포해 있다는 것을 나타낸다.
- 평균과 중앙값이 같으면 왜도는 0이 된다.
ㅁ 첨도
- 첨도(尖度, 영어: kurtosis 커토시스)는 확률분포의 뾰족한 정도를 나타내는 척도이다. 관측치들이 어느 정도 집중적으로 중심에 몰려 있는가를 측정할 때 사용된다.
- 첨도값(K)이 3에 가까우면 산포도가 정규분포에 가깝다.
- 3보다 작을 경우에는(K<3) 정규분포보다 더 완만하게 납작한 분포로 판단할 수 있으며,
- 첨도값이 3보다 큰 양수이면(K>3) 산포는 정규분포보다 더 뾰족한 분포로 생각할 수 있다.
df.index 활용 => 요일변경하기, 서울120 에서 병합을 위해 인덱스값 변경하기
df.columns 활용 => 교차표구하고 교차표의 요일 번호를 요일명으로 변경하기, 여러 종목의 종가를 수집했을 때 모든 컬럼이 Close 종가로 되어있기 때문에 각 종목명으로 변경해 주는 실습
low-level interface : 기계에 가까움
high-level interface :
장점 : 사람이 이해하기 쉬운 인터페이스. 복잡한 기능을 단순화. 추상화
단점 :
작업과정을 감싸놓았기 떄문에 상대적으로 느리고, 자유도가 떨어진다.
커스텀하게 사용하려면 복잡할 수 있다.
내부가 어떻게 구현되었는지 알려면 소스코드의 확인 등의 번거로운 작업이 필요.
내부를 제대로 이해하지 못하고 사용할 수도 있다.
Q.. 그래프를 시각화하기 위해 어떤 정보를 API 입력해야 하는가?
1) 어떤 그래프로 시각화 할지를 결정. ex) 막대, 선, 산점도, 히스토그램 등
2) 어떤 데이터를 시각화 할 지 API에 설정
3) x, y축 설정
4) 제목(title), 그래프 크기(figsize), 범례, 서브플롯subplot, 스타일 설정
5) bar(data, x, y, color) 와 유사한 API를 대부분 가지고 있음
plotly 장점 => 한글 폰트를 따로 지정하지 않아도 됩니다.
hover_data={"date": "|%Y-%m-%d"} 로 시간을 표현.
Q. plotly 와 matplotlib 의 차이점?
plotly는 자바스크립트 기반이고, 동적으로 그래프 작성.
matplotlib은 python 기반으로, 정적으로 그래프 작성.
* 시각화 하고자 하는 데이터의 index, columns 값 등에 대한 이해를 하고 목적에 맞게 데이터를 지정해서 그려주세요.
1) Series
2) DataFrame
3) dataframe, x, y 등 파라미터에 지정해서 시각화 하는 방법
# px.violin
box plot의 단점 보완(분포가 변화하더라도 박스의 표현이 바뀌지 않음. 같은 기술 톡계값을 같는 다른 데이터 )
데이터 시각화.
파이썬 사용 이유(엑셀 의 단점)
엑셀로는 100만 행까지 불러 올 수 있음. 파생변수 추가 및 수식 적용 등 진행 시 현실적 작업 가능 행은 30만행
다양한 함수를 제공하지만, 파이썬 데이터 과학 도구에서 제공하는 기능이 훨씬 많음.
30만행 정도로 대시보드를 어느정도 만들었다면 처리 속도가 느려져 대안이 필요.
Q. seaborn은 왜 pie 차트를 제공하지 않는가?
가독성이 타 차트에 비해 떨어짐.
상태기반방식 : 순서대로 그리는 방식. 결과물의 일부를 수정시 해당 코드로 올라가서 수
ex) plt.
객체지향방식 : 대상을 지정해 그리는 방식. 결과물의 일부를 수정하기에 유리함.
ex) ax.
'멋쟁이사자처럼 AI School 8기(fin) > TIL(Today I Learn)' 카테고리의 다른 글
[멋쟁이사자처럼 AI스쿨] Day28 TIL (0) | 2023.02.06 |
---|---|
[멋쟁이사자처럼 AI스쿨] Day27, SQL week4 (0) | 2023.02.03 |
[멋쟁이사자처럼 AI스쿨] Day24 TIL (0) | 2023.01.31 |
[멋쟁이사자처럼 AI스쿨] Day23 TIL (1) | 2023.01.30 |
[멋쟁이사자처럼 AI스쿨] Day22 SQL week3 (0) | 2023.01.27 |