상관계수 correlation coefficient
▶ 두 변수의 연관성을 1 ~ +1 범위의 수치로 나타낸 것
▶ 두 변수의 연관성을 파악하기 위해 사용
- 어휘력과독해력의 관계
- 주가와 금 가격의 관계
- 엔진 성능과 고객만족도의 관계
상관계수의해석
• 부호
- + : 두 변수가 같은 방향으로 변화 하나가 증가하면 다른 하나도 증가
- - : 두 변수가 반대 방향으로 변화 하나가 증가하면 다른 하나는 감소
• 크기
- 0 :두 변수가 독립 , 한 변수의 변화로 다른 변수의 변화를 예측하지 못함
- 1 :한 변수의 변화와 다른 변수의 변화가 정확히 일치
상관계수의 신뢰구간
- + ~ + : 모집단에서 두 변수의 관계가 +
- - ~ + : 모집단에서 두 변수의 관계는 -, 0, + 모두 가능
- - ~ - :모집단에서 두 변수의 관계가 -
스피어만 상관계수
- 실제 변수값 대신 그 서열을 사용하여 피어슨 상관계수를 계산
- 한 변수의 서열이 높아지면 다른 변수의 서열도 높아지는지를 나타냄
- 두 변수의 관계가 비선형적이나 단조적일 때 사용
심슨의 역설
- 각 집단별 상관관계와 전체 총합의 상관관계는 다를 수 있음.
- 상관분석 결과가 예상과 다를 경우, 이질적ㅇ니 하위 집단들이 존재하는지 살펴봐야 할 수도 있음.
지도학습 supervised learning
▶ 독립변수 x 를 이용하여 종속변수 y 를 예측하는 것
- 독립변수 independent variable : 예측의 바탕이 되는 정보 , 인과관계에서 원인 ,입력값
- 종속변수 dependent variable : 예측의 대상 , 인과관계에서 결과 , 출력값
▶ 통계학에서 예측(prediction)은 어떤 값에 대한 추론을 의미
▶ 지도학습에서 예측은 변수들 사이의 패턴을 파악하여 한 변수로 다른 변수를 추론하는 것
종속변수에따른 지도학습의 구분
회귀분석 regression
- 종속변수가 연속
- 예측값 - 실제값으로 정확성을 계산
분류분석 classification
- 종속변수가 범주형
- 예측의 정확성을 다른 방식으로 계산
잔차 residual
▶ 실제값과 예측값의 남은 차이
▶ 잔차분산 : 잔차를 제곱하여 평균낸 것
cf) 분산 : 편차(실제값과 평균의 차이) 제곱의 평균
- 잔차분산이 크다 -> 예측이 잘 맞지 않음
- 잔차분산이 작다 -> 예측이 잘 맞음
최소제곱법 Ordinary Least Squares
▶ 잔차분산이 최소가 되게 하는 w, b등 계수를 추정
최소'제곱'법인 이유 : 분산의 계산에 제곱이 들어가므로.
'멋쟁이사자처럼 AI School 8기(fin) > TIL(Today I Learn)' 카테고리의 다른 글
[멋쟁이사자처럼 AI스쿨] TIL(23.2.27) (0) | 2023.02.27 |
---|---|
[멋쟁이사자처럼 AI스쿨] Day36 - TIL with 통계 (0) | 2023.02.17 |
[멋쟁이사자처럼 AI스쿨] Day34 - TIL with 통계 (0) | 2023.02.15 |
[멋쟁이사자처럼 AI스쿨] Day33 - TIL with 통계 (0) | 2023.02.14 |
[멋쟁이사자처럼 AI스쿨] Day32 - TIL, 통계학 week with(유재명) (0) | 2023.02.13 |