본문 바로가기

멋쟁이사자처럼 AI School 8기(fin)/TIL(Today I Learn)

[멋쟁이사자처럼 AI스쿨] Day-29 TIL 1. .copy() ▶ .copy()는 파이썬, 판다스, 넘파이에서 모두 사용. but 기능이 약간 차이를 갖음. ▶ .copy() 앞에 붙은 객체의 type을 확인 필요. 2. sns.heatmap() & df.style.background_gradient() ▶ sns.heatmap() : 전체를 기준 ▶ df.style.background_gradient() : 성질이 다른 각 변수를 각각 비교할 때 적합. ex) 변수에 체중, 키, BMI지수, 콜레스테롤수치처럼 스케일값이 다르고 성질이 다른 값의 스케일을 비교하고자 할 때 적합 3. groupby & pivot_table ▶ pivot_table이 groupby의 하이레벨 인터페이스 ▶ groupby > pivot_table > crosstab .. 더보기
[멋쟁이사자처럼 AI스쿨] Day28 TIL ㅁ tidy-data *각 행이 개별 관측치가 아니라 집계가 되어 있는 데이터. => 일별시세데이터 각 행이 개별 관측치인 데이터. ex) 각 행이 개별 관측치, 각 확진자에 대한 정보 *Tidy-data : 깔끔한 데이터 > 각 변수가 열이고 각 관측치가 행이 되도록 배열된 데이터, 분석하기 좋은 데이터 > Pandas의 melt 사용(Tidy Data 깔끔한 데이터를 만들기위해 사용) > pd.melt(df) > 열(columns)에 있던 데이터를 행(row)으로 > 각 변수는 개별 열에, 각 관측치는 개별 행에, 관측 구성 요소 각각 값은 테이블 안에 위치 *wide-form => pandas plot()으로 막대의 색상을 다르게 지정하거나, 서브플롯을 그리거나, 시각화 하기에 좋다. long-fo.. 더보기
[멋쟁이사자처럼 AI스쿨] Day27, SQL week4 ㅁ ROLLUP > 집계된 데이터에서 그룹별 소계, 총계를 구하기 위해 사용 group by rollup(컬럼명) rollup 사용시 소계를 원하는 컬럼명을 추가 ㅁ Window 함수 분석함수. 현재 행과 관련이 있는 테이블 행들에 대해 계산을 수행 행 그룹의 값을 계산하고 각 행마다 하나의 결과를 반환 cf) 집계함수: 행 그룹에 대해 하나의 결과를 반환하는 집계 함수 WINDOW_FUNCTION (expression) OVER ( [ PARTITION BY 컬럼 ] [ ORDER BY 컬럼 ] [ WINDOWING 절 ] ) 윈도우 함수를 사용하면 이동 평균, 항목의 순위, 누적 합계를 계산, 기타 분석을 수행. 각 행마다 단일 값을 반환 탐색 함수 : LEAD, LAG, FIRST_VALUE, LA.. 더보기
[멋쟁이사자처럼 AI스쿨] Day-25 TIL 보통은 정규분포 형태가 가장 이상적인 형태입니다. 그런데 현실세계에서는 정규분포 형태의 모양을 띄는 경우가 많지 않습니다. 머신러닝, 딥러닝 등을 할 때는 정규분포 형태로 분포의 모양을 변경해 주기도 합니다. ㅁ 왜도 비대칭도(非對稱度, skewness) 또는 왜도(歪度)는 실수 값 확률 변수의 확률 분포 비대칭성을 나타내는 지표이다. 왜도의 값은 양수나 음수가 될 수 있으며 정의되지 않을 수도 있다. 왜도가 음수일 경우에는 확률밀도함수의 왼쪽 부분에 긴 꼬리를 가지며 중앙값을 포함한 자료가 오른쪽에 더 많이 분포해 있다. 왜도가 양수일 때는 확률밀도함수의 오른쪽 부분에 긴 꼬리를 가지며 자료가 왼쪽에 더 많이 분포해 있다는 것을 나타낸다. 평균과 중앙값이 같으면 왜도는 0이 된다. ㅁ 첨도 첨도(尖度,.. 더보기
[멋쟁이사자처럼 AI스쿨] Day24 TIL ㅁ EDA Exploratory Data Analysis, 탐색적 데이터 분석 데이터 자체에 대한 해석이 잘못되어 있다면, 해당 데이터에 대한 분석 결과도 잘못될 확률이 매우 큽니다. 데이터에 대한 이해, 즉 데이터가 의미를 정확히 파악하고 해석하고, 그 후에 가정을 설정해야합니다. *.isin() : 조건이 정확히 일치 *.str.contains() : 조건을 포함, 시리즈에서만 사용 가능. 문자열/특정 데이터 타입에서만 사용 가능 https://pandas.pydata.org/docs/reference/series.html#string-handling ㅁ 선 그래프와 막대 그래프 선 그래프 ⇒ 연속된 수치 데이터에 주로 사용합니다. 막대 그래프 ⇒ 연속되지 않은 (주로 범주형) 데이터에 주로 사용합니.. 더보기
[멋쟁이사자처럼 AI스쿨] Day23 TIL ㅁ 데이터를 분석하는 이유? => 데이터를 어떻게 보여줄 것인가? 요약? 전체? ㅁ 파이썬 시각화 => matpoltlib, 정적 시각화 단점 : 한글 지원x 한글 폰트 설정 (!pip install koreanize-matplotlib) cf.) plotly : 동적 시각화, javascript ㅁ from glob import glob # '폴더명' 폴더의 '파일명.확장자'에 해당하는 모든 파일 보여줌 glob("폴더명"/"파일명.확장자") ㅁ jupyter notebook 내 ? 사용 ? 더보기
[멋쟁이사자처럼 AI스쿨] Day22 SQL week3 ㅁ Union : 합집합 union all : 중복 포함 결합 union distinct : 중복 제외 결합 ㅁ intersect : 교집합 INTERSECT DISTINCT ㅁ except : 차집합 except DISTINCT ㅁ Sub Query : 다른 SQL문 안에 중첩된 SELECT 문 ㅁ with(Common Table Expressions) with 절은 쿼리 내에서 임시 결과를 정의하고 사용합니다. 주요 사용 목적은 복잡한 추출 과정을 분할하여 단계적으로 처리하면서 전체 데이터 추출과정을 단순화시키는 것 cf) CTE(유사 테이블) 더보기
[멋쟁이사자처럼 AI스쿨] Day21 SQL week3 ㅁ 조건문 case if(조건 , 참, 거짓) ㅁ join 더보기