본문 바로가기
멋쟁이사자처럼 AI School 8기(fin)/TIL(Today I Learn)

[멋쟁이사자처럼 AI스쿨] Day24 TIL

by #FF0000 2023. 1. 31.

 

ㅁ EDA

  • Exploratory Data Analysis, 탐색적 데이터 분석
  • 데이터 자체에 대한 해석이 잘못되어 있다면, 해당 데이터에 대한 분석 결과도 잘못될 확률이 매우 큽니다.
  • 데이터에 대한 이해, 즉 데이터가 의미를 정확히 파악하고 해석하고, 그 후에 가정을 설정해야합니다.

 

*.isin() : 조건이 정확히 일치

*.str.contains() : 조건을 포함, 시리즈에서만 사용 가능. 문자열/특정 데이터 타입에서만 사용 가능

 

 

https://pandas.pydata.org/docs/reference/series.html#string-handling

https://pandas.pydata.org/docs/reference/series.html#accessors
https://pandas.pydata.org/docs/reference/series.html#string-handling

ㅁ 선 그래프와 막대 그래프

  • 선 그래프 ⇒ 연속된 수치 데이터에 주로 사용합니다.
  • 막대 그래프 ⇒ 연속되지 않은 (주로 범주형) 데이터에 주로 사용합니다.

 

ㅁ DataFrame.iloc() 

  • .iloc(행): 주어진 행들을 뽑아 올 수 있습니다.
  • .iloc(행, 열): 주어진 행과 열들을 뽑아 올 수 있습니다.
  • .iloc(조건, 열): 조건에 맞는 열들을 뽑아 올 수 있습니다.

 

* pd.crosstab()의 소스코드를 보게 되면 내부가 pd.pivot_table() 로 되어있습니다.

pd.crosstab() 은 pivot_table()을 사용하기 쉽게 한번 더 감싸(wrapping) 놓은 기능입니다.

pd.crosstab() 에 비해 pivot_table() 을 사용하면 좀 더 많은 기능을 사용할 수 있습니다.

 

pivot() : index, columns, values를 공통적으로 사용. 형태 변환만 제공

pivot_table() : index, columns, values를 공통적으로 사용. 형태변환 + 연산(aggfunc) 함께 제공.

내부가 groupby()로 rntjd. groupby() 를 사용하기 쉽게 엑셀에서 사용하는 용어로 만들어 놓은 것이 pivot_table()

 

groupby() 를 제대로 익히면 구하고자 하는 값을 대부분 구할 수 있습니다. groupby() 는 엑셀 등을 사용했던 사람들은 사용법이 직관적이지 않을 수 있기 때문에 pivot_table() 등의 기능을 제공합니다.

*unstack :  groupby를 통해 생성된 멀티인덱스의 마지막 인덱스 값을 컬럼으로 만듬