본문 바로가기
멋쟁이사자처럼 AI School 8기(fin)/TIL(Today I Learn)

[멋쟁이사자처럼 AI스쿨] Day35 - TIL with 통계

by #FF0000 2023. 2. 16.

 

 

상관계수 correlation coefficient

▶ 두 변수의 연관성을 1 ~ +1 범위의 수치로 나타낸 것

 두 변수의 연관성을 파악하기 위해 사용

  • 어휘력과독해력의 관계
  • 주가와 금 가격의 관계
  • 엔진 성능과 고객만족도의 관계

 

 

상관계수의해석

• 부호

  • + : 두 변수가 같은 방향으로 변화 하나가 증가하면 다른 하나도 증가
  • - : 두 변수가 반대 방향으로 변화 하나가 증가하면 다른 하나는 감소

• 크기

  • 0 :두 변수가 독립 , 한 변수의 변화로 다른 변수의 변화를 예측하지 못함
  • 1 :한 변수의 변화와 다른 변수의 변화가 정확히 일치

 

 

 

 

 

 

상관계수의 신뢰구간

  • + ~ + : 모집단에서 두 변수의 관계가 +
  • - ~ + : 모집단에서 두 변수의 관계는 -, 0, + 모두 가능
  • - ~ - :모집단에서 두 변수의 관계가 -

 

 

스피어만 상관계수

  • 실제 변수값 대신 그 서열을 사용하여 피어슨 상관계수를 계산
  • 한 변수의 서열이 높아지면 다른 변수의 서열도 높아지는지를 나타냄
  • 두 변수의 관계가 비선형적이나 단조적일 때 사용

 

 

 

 

심슨의 역설

  • 각 집단별 상관관계와 전체 총합의 상관관계는 다를 수 있음.
  • 상관분석 결과가 예상과 다를 경우, 이질적ㅇ니 하위 집단들이 존재하는지 살펴봐야 할 수도 있음.

 

 

 

 

지도학습 supervised learning

▶ 독립변수 x 를 이용하여 종속변수 y 를 예측하는 것

  • 독립변수 independent variable : 예측의 바탕이 되는 정보 , 인과관계에서 원인 ,입력값
  • 종속변수 dependent variable : 예측의 대상 , 인과관계에서 결과 , 출력값

 통계학에서 예측(prediction)은 어떤 값에 대한 추론을 의미

 지도학습에서 예측은 변수들 사이의 패턴을 파악하여 한 변수로 다른 변수를 추론하는 것

 

 

 

종속변수에따른 지도학습의 구분

회귀분석 regression

  • 종속변수가 연속
  • 예측값 - 실제값으로 정확성을 계산

분류분석 classification

  • 종속변수가 범주형
  • 예측의 정확성을 다른 방식으로 계산

 

 

 

 

 

잔차 residual

▶ 실제값과 예측값의 남은 차이
▶ 잔차분산 : 잔차를 제곱하여 평균낸 것
     

cf) 분산 : 편차(실제값과 평균의 차이) 제곱의 평균

  • 잔차분산이 크다 -> 예측이 잘 맞지 않음
  • 잔차분산이 작다 -> 예측이 잘 맞음

 

최소제곱법 Ordinary Least Squares

▶ 잔차분산이 최소가 되게 하는 w, b등 계수를 추정

    최소'제곱'법인 이유 : 분산의 계산에 제곱이 들어가므로.