본문 바로가기

멋쟁이사자처럼

[멋쟁이사자처럼 AI스쿨] Day-30 TIL today topic. 버거지수 * glob 를 사용해서 여러 파일을 로드해서 하나로 합치는 방법 * 상관 계수의 종류, 시각화 하는 방법, 삼각행렬을 만들어서 마스크 처리 하는 방법, 컬러 선택 방법 * 지도 시각화 방법 summary 1. isin() & str.contains ▶ isin : 리스트 형태에서 사용 가능!! burger = ["버거킹", "맥도날드", "KFC", "롯데리아"] df[df["상호명"].isin(burger)] ▶ 그러나 isin은 일치하는 것만 찾기 때문에 사용에 적합하지 않음!! ▶ str.contains로 부분 일치 적용 df[df["상호명"].str.contains("버거킹|BKR|맥도날드|멕도날드|롯데리아|KFC|케이에프씨")] 2. heatmap() & sty.. 더보기
[멋쟁이사자처럼 AI스쿨] Day-29 TIL 1. .copy() ▶ .copy()는 파이썬, 판다스, 넘파이에서 모두 사용. but 기능이 약간 차이를 갖음. ▶ .copy() 앞에 붙은 객체의 type을 확인 필요. 2. sns.heatmap() & df.style.background_gradient() ▶ sns.heatmap() : 전체를 기준 ▶ df.style.background_gradient() : 성질이 다른 각 변수를 각각 비교할 때 적합. ex) 변수에 체중, 키, BMI지수, 콜레스테롤수치처럼 스케일값이 다르고 성질이 다른 값의 스케일을 비교하고자 할 때 적합 3. groupby & pivot_table ▶ pivot_table이 groupby의 하이레벨 인터페이스 ▶ groupby > pivot_table > crosstab .. 더보기
[멋쟁이사자처럼 AI스쿨] Day28 TIL ㅁ tidy-data *각 행이 개별 관측치가 아니라 집계가 되어 있는 데이터. => 일별시세데이터 각 행이 개별 관측치인 데이터. ex) 각 행이 개별 관측치, 각 확진자에 대한 정보 *Tidy-data : 깔끔한 데이터 > 각 변수가 열이고 각 관측치가 행이 되도록 배열된 데이터, 분석하기 좋은 데이터 > Pandas의 melt 사용(Tidy Data 깔끔한 데이터를 만들기위해 사용) > pd.melt(df) > 열(columns)에 있던 데이터를 행(row)으로 > 각 변수는 개별 열에, 각 관측치는 개별 행에, 관측 구성 요소 각각 값은 테이블 안에 위치 *wide-form => pandas plot()으로 막대의 색상을 다르게 지정하거나, 서브플롯을 그리거나, 시각화 하기에 좋다. long-fo.. 더보기
[멋쟁이사자처럼 AI스쿨] mini-project2 with EDA 회고 미니 프로젝트1이 끝나고 바로 부여된 미니 프로젝트2 일정. 일요일에 프로젝트 마무리. 월요일에 발표 월요일에 새로운 프로젝트 일정 공지 수요일에 새로운 프로젝트 테마 선정. 다시 해당 주 일요일에 프로젝트 마무리. 차주, 내일 프로젝트 2 발표. 이번 과제에서의 어려운 점은 바로 '데이터 선정'의 어려움이었다. 기존의 수업에서 시계열데이터 - 주식 을 다루었기 때문에 이와 연관되면서도 최대한 곂치지 않는 데이터셋을 찾는 것이 1차 과제였다. 최초 선정한 데이터 셋은 구매자의 나이, 성별, 학력, 겷혼 유무, 자녀 유무 등에 따른 와인 구매와 와인 안주 구매에 대한 자료였다. 해당 자료는 분석 항목을 다채롭게 구성 가능했으나, 시계열 데이터의 부족으로 분석 항목 도출 후 실제 코드 작성시 시간에 흐름을 .. 더보기
[멋쟁이사자처럼 AI스쿨] Day27, SQL week4 ㅁ ROLLUP > 집계된 데이터에서 그룹별 소계, 총계를 구하기 위해 사용 group by rollup(컬럼명) rollup 사용시 소계를 원하는 컬럼명을 추가 ㅁ Window 함수 분석함수. 현재 행과 관련이 있는 테이블 행들에 대해 계산을 수행 행 그룹의 값을 계산하고 각 행마다 하나의 결과를 반환 cf) 집계함수: 행 그룹에 대해 하나의 결과를 반환하는 집계 함수 WINDOW_FUNCTION (expression) OVER ( [ PARTITION BY 컬럼 ] [ ORDER BY 컬럼 ] [ WINDOWING 절 ] ) 윈도우 함수를 사용하면 이동 평균, 항목의 순위, 누적 합계를 계산, 기타 분석을 수행. 각 행마다 단일 값을 반환 탐색 함수 : LEAD, LAG, FIRST_VALUE, LA.. 더보기
[멋쟁이사자처럼 AI스쿨] Week7 - WIL Week6(1.23~1.27) WIL은 설날 + SQL Week3 대체로 이번 Week7 WIL을 작성한다. > Week7(1.30~2.1) 학습내용 Pandas를 통한 파일 저장과 불러오기 shape를 통한 행과 열의 수 보기 head, tail, sample 을 통한 일부 데이터 가져오기 DataFrame의 info(), describe() 등을 통한 요약과 기술통계 값 구하기 info() describe() nunique() index columns values Pandas의 DataFrame과 Series의 이해 Series : 1차원 벡터구조 DataFrame : 2차원 행렬구조 색인하기 [컬럼] .loc[행] .loc[행, 열] .loc[조건식, 열] DataFrame의 데이터 타입 이해하기 .. 더보기
[멋쟁이사자처럼 AI스쿨] Day-25 TIL 보통은 정규분포 형태가 가장 이상적인 형태입니다. 그런데 현실세계에서는 정규분포 형태의 모양을 띄는 경우가 많지 않습니다. 머신러닝, 딥러닝 등을 할 때는 정규분포 형태로 분포의 모양을 변경해 주기도 합니다. ㅁ 왜도 비대칭도(非對稱度, skewness) 또는 왜도(歪度)는 실수 값 확률 변수의 확률 분포 비대칭성을 나타내는 지표이다. 왜도의 값은 양수나 음수가 될 수 있으며 정의되지 않을 수도 있다. 왜도가 음수일 경우에는 확률밀도함수의 왼쪽 부분에 긴 꼬리를 가지며 중앙값을 포함한 자료가 오른쪽에 더 많이 분포해 있다. 왜도가 양수일 때는 확률밀도함수의 오른쪽 부분에 긴 꼬리를 가지며 자료가 왼쪽에 더 많이 분포해 있다는 것을 나타낸다. 평균과 중앙값이 같으면 왜도는 0이 된다. ㅁ 첨도 첨도(尖度,.. 더보기
[멋쟁이사자처럼 AI스쿨] Day24 TIL ㅁ EDA Exploratory Data Analysis, 탐색적 데이터 분석 데이터 자체에 대한 해석이 잘못되어 있다면, 해당 데이터에 대한 분석 결과도 잘못될 확률이 매우 큽니다. 데이터에 대한 이해, 즉 데이터가 의미를 정확히 파악하고 해석하고, 그 후에 가정을 설정해야합니다. *.isin() : 조건이 정확히 일치 *.str.contains() : 조건을 포함, 시리즈에서만 사용 가능. 문자열/특정 데이터 타입에서만 사용 가능 https://pandas.pydata.org/docs/reference/series.html#string-handling ㅁ 선 그래프와 막대 그래프 선 그래프 ⇒ 연속된 수치 데이터에 주로 사용합니다. 막대 그래프 ⇒ 연속되지 않은 (주로 범주형) 데이터에 주로 사용합니.. 더보기