본문 바로가기

통계

[멋쟁이사자처럼 AI스쿨] Day36 - TIL with 통계 독립변수가 범주형인 경우 범주형 변수는 기울기를 곱할 수 없음 연속 변수로 변환하여 모형에 투입 가장 많이 사용하는 것은 더미 코딩 dummy coding 더미 코딩 dummy coding 범주형 변수에 범주가 k 개 있을 경우 k 1 개의 더미 변수를 대신 투입 범주 중에 하나를 기준 reference 로 지정 기본적으로 ABC 순으로 먼저 나오는 것이 기준 변경할 수도 있음 기준를 제외한 범주들은 범주별로 더미 변수를 하나씩 가짐 더미변수는 해당 범주일 경우에만 고려 더미변수의 기울기는 기준과의 차이를 의미 더보기
[멋쟁이사자처럼 AI스쿨] 통계 4일차 회고 Q. 회귀분석의 종속변수는? ▶ 연속형 선형모형 : y = wx + b 종속변수 : y x가 어떻게 되느냐에 따라서 y가 정해지기 때문에 y를 '종속'변수라 부름 Q. 선형 모형의 식 y = wx + b에서 w의 의미는? ▶ x가 1 변화할때 y 변화량 y = b (x=0) y = w + b (x=1) y = 2w + b (x=2) Q. 선형 모형의 식 y = wx + b에서 b의 의미는? ▶ x가 0일 때 y의 값 Q. 독립변수 x의 기울기가 +이면, 다른 조건이 같을 때 독립변수 x가 증가할 수록 종속변수 y는 ▶ 증가한다. Q. 선형 회귀분석에서 일반적인 추정방법은 잔차분산을 어떻게 만드는 계수를 찾는가? ▶ 최소로 (작을수록 좋다) 잔차 = 실제값 - 예측값 잔차 분산 = 평균(잔차^2) 편차 =.. 더보기
[멋쟁이사자처럼 AI스쿨] Day35 - TIL with 통계 상관계수 correlation coefficient ▶ 두 변수의 연관성을 1 ~ +1 범위의 수치로 나타낸 것 ▶ 두 변수의 연관성을 파악하기 위해 사용 어휘력과독해력의 관계 주가와 금 가격의 관계 엔진 성능과 고객만족도의 관계 상관계수의해석 • 부호 + : 두 변수가 같은 방향으로 변화 하나가 증가하면 다른 하나도 증가 - : 두 변수가 반대 방향으로 변화 하나가 증가하면 다른 하나는 감소 • 크기 0 :두 변수가 독립 , 한 변수의 변화로 다른 변수의 변화를 예측하지 못함 1 :한 변수의 변화와 다른 변수의 변화가 정확히 일치 상관계수의 신뢰구간 + ~ + : 모집단에서 두 변수의 관계가 + - ~ + : 모집단에서 두 변수의 관계는 -, 0, + 모두 가능 - ~ - :모집단에서 두 변수의 관계가.. 더보기
[멋쟁이사자처럼 AI스쿨] 통계 3일차 회고 무엇을 비교? 연속형(평균) - 집단2 : t 검정- 별개의집단 : 독립표본, 짝 : 대응표본 집단3 : 분산분석 순서형- 독립표본- MWU , 대응표본 - Wilcoxon 범주형(비율) - 카이제곱 - 적합도검정(기대값 유사), 독립성(독립), 맥니마(대응) 독립표본 t 검정은 언제 사용합니까? ▶ 두 집단의 평균 비교 대응표본 t 검정은 언제 사용합니까? ▶ 두 집단의 자료를 쌍으로 묶을 수 있을 때, 차이의 평균을 비교 맨-휘트니 U 검정은 언제 사용합니까? ▶ 두 집단의 순서형 변수를 비교 분산 분석은 언제 사용합니까? ▶ 셋 이상 집단의 평균 비교 카이제곱 적합도 검정은 언제 사용합니까? ▶ 관찰된 빈도가 기대되는 빈도와 일치하는지 확인 카이제곱 독립성 검정은 언제 사용합니까? ▶ 두 범주 변수.. 더보기
[멋쟁이사자처럼 AI스쿨] Day34 - TIL with 통계 검정력 power ▶ 검정력(1−𝛽): 귀무가설이 거짓일 때 이를 올바르게 기각할 확률 유의수준 𝛼 : 귀무가설이 참일 때 기각하는 1 종 오류의 확률 𝛽: 귀무가설이 거짓일 때 기각하지 못하는 2 종 오류의 확률 보통 검정력은 0.8 이상을 요구 표본의 크기가 크면 증가 분석결과에 나오는 검정력은 모수가 통계량과 같다는 가정 아래 계산됨 참고수치. t검정은 모수검정, 모수에 대한 여러 가정들이 존재. -> 데이터가 많으면 이런 가정들을 충족, 문제 없음. 비모수 검정 방법 : 모수에 대해 특별한 가정을 안 함. 맨휘트니 U 검정 Mann Whitney U test 독립표본t 검정에 대응하는 비모수 검정 방법 귀무가설 두 집단의 모집단은 같다 U 검정을 가끔 쓸 경우 : 연속형 변수가 아닌 경우 ex) .. 더보기
[멋쟁이사자처럼] 통계학 day2 정리 신뢰 구간은 통계량 ± 오차범위 신뢰구간 = 구간 추정 방법 통계량: 표본에서 계산한 값 통계량은 모수와 차이가 있다 -> 표본 오차 오차가 어느 정도 날지를 이론적으로 예측하거나 시뮬레이션을 해서 오차범위를 구하면 통계량 ± 오차범위로 신뢰구간을 구하여 추정 신뢰 수준이 높을수록 신뢰 구간은 넓다 ▶ 신뢰수준 : 얼마나 많은 경우를 포함하는가? 95% 신뢰수준 : 95%의 경우는 포함, 5% 배제 한정적 경우만 반영 -> 오차범위도 작아지게 됨 99% 신뢰수준 : 99%의 경우는 포함, 1% 배제 더 많은 경우를 반영 -> 오차범위가 커지게 됨 표본이 클수록 신뢰 구간은 좁다 표본이 커지면 커질수록 통계량은 모수 근처에서 나오게 됨. 데이터를 많이 모으면 통계량이 정확하다. = 오차가 적다 신뢰구간 =.. 더보기
[멋쟁이사자처럼 AI스쿨] Day33 - TIL with 통계 모집단과표본 모집단 population ▶ 연구의 관심이 되는 집단 전체 표본 sample ▶ 특정 연구에서 선택된 모집단의 부분 집합 표집 sampling ▶ 모집단에서 표본을 추출하는 절차 . 표본 추출 이라고도 함 ※ 대부분의 경우 집단 전체를 전수조사하기는 어려우므로 무작위로 표본을 추출하여 모집단에 대해 추론 • 무작위표집 random sampling : 일정한 확률에 따라 표본을 선택 ▶ 무선표집 확률표집 이라고도 함 • 단순무작위 표집 simple random sampling : 모든 사례를 동일 확률로 추출 ▶ 계통표집 systematic sampling 첫번째 요소는 무작위로 선정한 후 목록의 매번 k 번째 요소를 표본으로선정 요소들의목록이 추출되기 전에 무작위로 되어 있다면 단순 무작위.. 더보기