본문 바로가기

멋쟁이사자처럼

[멋쟁이사자처럼 AI스쿨] 통계 4일차 회고 Q. 회귀분석의 종속변수는? ▶ 연속형 선형모형 : y = wx + b 종속변수 : y x가 어떻게 되느냐에 따라서 y가 정해지기 때문에 y를 '종속'변수라 부름 Q. 선형 모형의 식 y = wx + b에서 w의 의미는? ▶ x가 1 변화할때 y 변화량 y = b (x=0) y = w + b (x=1) y = 2w + b (x=2) Q. 선형 모형의 식 y = wx + b에서 b의 의미는? ▶ x가 0일 때 y의 값 Q. 독립변수 x의 기울기가 +이면, 다른 조건이 같을 때 독립변수 x가 증가할 수록 종속변수 y는 ▶ 증가한다. Q. 선형 회귀분석에서 일반적인 추정방법은 잔차분산을 어떻게 만드는 계수를 찾는가? ▶ 최소로 (작을수록 좋다) 잔차 = 실제값 - 예측값 잔차 분산 = 평균(잔차^2) 편차 =.. 더보기
[멋쟁이사자처럼 AI스쿨] Day35 - TIL with 통계 상관계수 correlation coefficient ▶ 두 변수의 연관성을 1 ~ +1 범위의 수치로 나타낸 것 ▶ 두 변수의 연관성을 파악하기 위해 사용 어휘력과독해력의 관계 주가와 금 가격의 관계 엔진 성능과 고객만족도의 관계 상관계수의해석 • 부호 + : 두 변수가 같은 방향으로 변화 하나가 증가하면 다른 하나도 증가 - : 두 변수가 반대 방향으로 변화 하나가 증가하면 다른 하나는 감소 • 크기 0 :두 변수가 독립 , 한 변수의 변화로 다른 변수의 변화를 예측하지 못함 1 :한 변수의 변화와 다른 변수의 변화가 정확히 일치 상관계수의 신뢰구간 + ~ + : 모집단에서 두 변수의 관계가 + - ~ + : 모집단에서 두 변수의 관계는 -, 0, + 모두 가능 - ~ - :모집단에서 두 변수의 관계가.. 더보기
[멋쟁이사자처럼 AI스쿨] 통계 3일차 회고 무엇을 비교? 연속형(평균) - 집단2 : t 검정- 별개의집단 : 독립표본, 짝 : 대응표본 집단3 : 분산분석 순서형- 독립표본- MWU , 대응표본 - Wilcoxon 범주형(비율) - 카이제곱 - 적합도검정(기대값 유사), 독립성(독립), 맥니마(대응) 독립표본 t 검정은 언제 사용합니까? ▶ 두 집단의 평균 비교 대응표본 t 검정은 언제 사용합니까? ▶ 두 집단의 자료를 쌍으로 묶을 수 있을 때, 차이의 평균을 비교 맨-휘트니 U 검정은 언제 사용합니까? ▶ 두 집단의 순서형 변수를 비교 분산 분석은 언제 사용합니까? ▶ 셋 이상 집단의 평균 비교 카이제곱 적합도 검정은 언제 사용합니까? ▶ 관찰된 빈도가 기대되는 빈도와 일치하는지 확인 카이제곱 독립성 검정은 언제 사용합니까? ▶ 두 범주 변수.. 더보기
[멋쟁이사자처럼 AI스쿨] Day34 - TIL with 통계 검정력 power ▶ 검정력(1−𝛽): 귀무가설이 거짓일 때 이를 올바르게 기각할 확률 유의수준 𝛼 : 귀무가설이 참일 때 기각하는 1 종 오류의 확률 𝛽: 귀무가설이 거짓일 때 기각하지 못하는 2 종 오류의 확률 보통 검정력은 0.8 이상을 요구 표본의 크기가 크면 증가 분석결과에 나오는 검정력은 모수가 통계량과 같다는 가정 아래 계산됨 참고수치. t검정은 모수검정, 모수에 대한 여러 가정들이 존재. -> 데이터가 많으면 이런 가정들을 충족, 문제 없음. 비모수 검정 방법 : 모수에 대해 특별한 가정을 안 함. 맨휘트니 U 검정 Mann Whitney U test 독립표본t 검정에 대응하는 비모수 검정 방법 귀무가설 두 집단의 모집단은 같다 U 검정을 가끔 쓸 경우 : 연속형 변수가 아닌 경우 ex) .. 더보기
[멋쟁이사자처럼] 통계학 day2 정리 신뢰 구간은 통계량 ± 오차범위 신뢰구간 = 구간 추정 방법 통계량: 표본에서 계산한 값 통계량은 모수와 차이가 있다 -> 표본 오차 오차가 어느 정도 날지를 이론적으로 예측하거나 시뮬레이션을 해서 오차범위를 구하면 통계량 ± 오차범위로 신뢰구간을 구하여 추정 신뢰 수준이 높을수록 신뢰 구간은 넓다 ▶ 신뢰수준 : 얼마나 많은 경우를 포함하는가? 95% 신뢰수준 : 95%의 경우는 포함, 5% 배제 한정적 경우만 반영 -> 오차범위도 작아지게 됨 99% 신뢰수준 : 99%의 경우는 포함, 1% 배제 더 많은 경우를 반영 -> 오차범위가 커지게 됨 표본이 클수록 신뢰 구간은 좁다 표본이 커지면 커질수록 통계량은 모수 근처에서 나오게 됨. 데이터를 많이 모으면 통계량이 정확하다. = 오차가 적다 신뢰구간 =.. 더보기
[멋쟁이사자처럼 AI스쿨] Day33 - TIL with 통계 모집단과표본 모집단 population ▶ 연구의 관심이 되는 집단 전체 표본 sample ▶ 특정 연구에서 선택된 모집단의 부분 집합 표집 sampling ▶ 모집단에서 표본을 추출하는 절차 . 표본 추출 이라고도 함 ※ 대부분의 경우 집단 전체를 전수조사하기는 어려우므로 무작위로 표본을 추출하여 모집단에 대해 추론 • 무작위표집 random sampling : 일정한 확률에 따라 표본을 선택 ▶ 무선표집 확률표집 이라고도 함 • 단순무작위 표집 simple random sampling : 모든 사례를 동일 확률로 추출 ▶ 계통표집 systematic sampling 첫번째 요소는 무작위로 선정한 후 목록의 매번 k 번째 요소를 표본으로선정 요소들의목록이 추출되기 전에 무작위로 되어 있다면 단순 무작위.. 더보기
[멋쟁이사자처럼 AI스쿨] Day32 - TIL, 통계학 week with(유재명) Q. 통계가 필요한 이유? 임상적 예측 vs 통계적 예측 : 증거의 이론적 분석과 검토. ▶ 전문가의 판단보다 통계적 예측이 더 정확 Q. 왜 통계적 예측은 충분히 사용되지 않는가? ▶ 타당성의 환상 : 스스로 생각하는 판단의 정확성과 실제 정확성의 괴리 ▶ 판단을 직접 내릴때 얻는 만족감이 보상으로 작용 ▶ 통계적 지식의 부족과 반감 ▶ 통계가 완벽하기를 기대 -> 오류에 지나치게 실망 ▶ 예측에서 단순성과 복잡성에 대한 오해 Q. 데이터 분석을 할 때 신뢰도와 타당도 중 어느 것을 더 높여야 하는지 어떻게 판단할 수 있나요? 기본적으로 타당도가 높아야. 신뢰도는 두번쨰 문제. 타당도를 정확히알기 어려운 경우가 많음 -> 신뢰도라도 높아야 한다. 타당도를 알 수는 있는데 비용이 너무 큰 경우 -> 타당.. 더보기
[멋쟁이사자처럼 AI스쿨] Week8 - WIL 23.02.06 - 23.02.08, AIS8 8주차 WIL mini project2를 끝낸 시점인 2월 9일 오늘. 대망의 mid project 조 구성이 발표 되었다. EDA 수업이 끝난 이번주. WIL 시작. 이번주의 학습 테마를 6가지로 정리하면 공공데이터를 활용해 전혀 다른 두 개의 데이터를 가져와서 전처리 하고 병합하기 수치형 데이터와 범주형 데이터를 바라보는 시각을 기르기 데이터의 형식에 따른 다양한 시각화 방법 이해하기 glob 를 사용해서 여러 파일을 로드해서 하나로 합치는 방법(약 700mb) 상관 계수의 종류, 시각화 하는 방법, 삼각행렬을 만들어서 마스크 처리 방법, 컬러 선택 방법 지도 시각화 방법 EDA 처리 과정 요약. ▶ 서로 다른 형태(row, columns)를 갖는 데이터.. 더보기