Python45 [멋쟁이사자처럼 AI스쿨] Week8 - WIL 23.02.06 - 23.02.08, AIS8 8주차 WIL mini project2를 끝낸 시점인 2월 9일 오늘. 대망의 mid project 조 구성이 발표 되었다. EDA 수업이 끝난 이번주. WIL 시작. 이번주의 학습 테마를 6가지로 정리하면 공공데이터를 활용해 전혀 다른 두 개의 데이터를 가져와서 전처리 하고 병합하기 수치형 데이터와 범주형 데이터를 바라보는 시각을 기르기 데이터의 형식에 따른 다양한 시각화 방법 이해하기 glob 를 사용해서 여러 파일을 로드해서 하나로 합치는 방법(약 700mb) 상관 계수의 종류, 시각화 하는 방법, 삼각행렬을 만들어서 마스크 처리 방법, 컬러 선택 방법 지도 시각화 방법 EDA 처리 과정 요약. ▶ 서로 다른 형태(row, columns)를 갖는 데이터.. 2023. 2. 9. [멋쟁이사자처럼 AI스쿨] Day-30 TIL today topic. 버거지수 * glob 를 사용해서 여러 파일을 로드해서 하나로 합치는 방법 * 상관 계수의 종류, 시각화 하는 방법, 삼각행렬을 만들어서 마스크 처리 하는 방법, 컬러 선택 방법 * 지도 시각화 방법 summary 1. isin() & str.contains ▶ isin : 리스트 형태에서 사용 가능!! burger = ["버거킹", "맥도날드", "KFC", "롯데리아"] df[df["상호명"].isin(burger)] ▶ 그러나 isin은 일치하는 것만 찾기 때문에 사용에 적합하지 않음!! ▶ str.contains로 부분 일치 적용 df[df["상호명"].str.contains("버거킹|BKR|맥도날드|멕도날드|롯데리아|KFC|케이에프씨")] 2. heatmap() & sty.. 2023. 2. 8. [멋쟁이사자처럼 AI스쿨] Day-29 TIL 1. .copy() ▶ .copy()는 파이썬, 판다스, 넘파이에서 모두 사용. but 기능이 약간 차이를 갖음. ▶ .copy() 앞에 붙은 객체의 type을 확인 필요. 2. sns.heatmap() & df.style.background_gradient() ▶ sns.heatmap() : 전체를 기준 ▶ df.style.background_gradient() : 성질이 다른 각 변수를 각각 비교할 때 적합. ex) 변수에 체중, 키, BMI지수, 콜레스테롤수치처럼 스케일값이 다르고 성질이 다른 값의 스케일을 비교하고자 할 때 적합 3. groupby & pivot_table ▶ pivot_table이 groupby의 하이레벨 인터페이스 ▶ groupby > pivot_table > crosstab .. 2023. 2. 7. [멋쟁이사자처럼 AI스쿨] Day28 TIL ㅁ tidy-data *각 행이 개별 관측치가 아니라 집계가 되어 있는 데이터. => 일별시세데이터 각 행이 개별 관측치인 데이터. ex) 각 행이 개별 관측치, 각 확진자에 대한 정보 *Tidy-data : 깔끔한 데이터 > 각 변수가 열이고 각 관측치가 행이 되도록 배열된 데이터, 분석하기 좋은 데이터 > Pandas의 melt 사용(Tidy Data 깔끔한 데이터를 만들기위해 사용) > pd.melt(df) > 열(columns)에 있던 데이터를 행(row)으로 > 각 변수는 개별 열에, 각 관측치는 개별 행에, 관측 구성 요소 각각 값은 테이블 안에 위치 *wide-form => pandas plot()으로 막대의 색상을 다르게 지정하거나, 서브플롯을 그리거나, 시각화 하기에 좋다. long-fo.. 2023. 2. 6. [멋쟁이사자처럼 AI스쿨] Week7 - WIL Week6(1.23~1.27) WIL은 설날 + SQL Week3 대체로 이번 Week7 WIL을 작성한다. > Week7(1.30~2.1) 학습내용 Pandas를 통한 파일 저장과 불러오기 shape를 통한 행과 열의 수 보기 head, tail, sample 을 통한 일부 데이터 가져오기 DataFrame의 info(), describe() 등을 통한 요약과 기술통계 값 구하기 info() describe() nunique() index columns values Pandas의 DataFrame과 Series의 이해 Series : 1차원 벡터구조 DataFrame : 2차원 행렬구조 색인하기 [컬럼] .loc[행] .loc[행, 열] .loc[조건식, 열] DataFrame의 데이터 타입 이해하기 .. 2023. 2. 2. [멋쟁이사자처럼 AI스쿨] Day-25 TIL 보통은 정규분포 형태가 가장 이상적인 형태입니다. 그런데 현실세계에서는 정규분포 형태의 모양을 띄는 경우가 많지 않습니다. 머신러닝, 딥러닝 등을 할 때는 정규분포 형태로 분포의 모양을 변경해 주기도 합니다. ㅁ 왜도 비대칭도(非對稱度, skewness) 또는 왜도(歪度)는 실수 값 확률 변수의 확률 분포 비대칭성을 나타내는 지표이다. 왜도의 값은 양수나 음수가 될 수 있으며 정의되지 않을 수도 있다. 왜도가 음수일 경우에는 확률밀도함수의 왼쪽 부분에 긴 꼬리를 가지며 중앙값을 포함한 자료가 오른쪽에 더 많이 분포해 있다. 왜도가 양수일 때는 확률밀도함수의 오른쪽 부분에 긴 꼬리를 가지며 자료가 왼쪽에 더 많이 분포해 있다는 것을 나타낸다. 평균과 중앙값이 같으면 왜도는 0이 된다. ㅁ 첨도 첨도(尖度,.. 2023. 2. 1. 이전 1 2 3 4 5 6 ··· 8 다음