멋쟁이사자처럼 AI스쿨 8기 썸네일형 리스트형 [멋쟁이사자처럼 AI스쿨] Day35 - TIL with 통계 상관계수 correlation coefficient ▶ 두 변수의 연관성을 1 ~ +1 범위의 수치로 나타낸 것 ▶ 두 변수의 연관성을 파악하기 위해 사용 어휘력과독해력의 관계 주가와 금 가격의 관계 엔진 성능과 고객만족도의 관계 상관계수의해석 • 부호 + : 두 변수가 같은 방향으로 변화 하나가 증가하면 다른 하나도 증가 - : 두 변수가 반대 방향으로 변화 하나가 증가하면 다른 하나는 감소 • 크기 0 :두 변수가 독립 , 한 변수의 변화로 다른 변수의 변화를 예측하지 못함 1 :한 변수의 변화와 다른 변수의 변화가 정확히 일치 상관계수의 신뢰구간 + ~ + : 모집단에서 두 변수의 관계가 + - ~ + : 모집단에서 두 변수의 관계는 -, 0, + 모두 가능 - ~ - :모집단에서 두 변수의 관계가.. 더보기 [멋쟁이사자처럼 AI스쿨] 통계 3일차 회고 무엇을 비교? 연속형(평균) - 집단2 : t 검정- 별개의집단 : 독립표본, 짝 : 대응표본 집단3 : 분산분석 순서형- 독립표본- MWU , 대응표본 - Wilcoxon 범주형(비율) - 카이제곱 - 적합도검정(기대값 유사), 독립성(독립), 맥니마(대응) 독립표본 t 검정은 언제 사용합니까? ▶ 두 집단의 평균 비교 대응표본 t 검정은 언제 사용합니까? ▶ 두 집단의 자료를 쌍으로 묶을 수 있을 때, 차이의 평균을 비교 맨-휘트니 U 검정은 언제 사용합니까? ▶ 두 집단의 순서형 변수를 비교 분산 분석은 언제 사용합니까? ▶ 셋 이상 집단의 평균 비교 카이제곱 적합도 검정은 언제 사용합니까? ▶ 관찰된 빈도가 기대되는 빈도와 일치하는지 확인 카이제곱 독립성 검정은 언제 사용합니까? ▶ 두 범주 변수.. 더보기 [멋쟁이사자처럼 AI스쿨] Day34 - TIL with 통계 검정력 power ▶ 검정력(1−𝛽): 귀무가설이 거짓일 때 이를 올바르게 기각할 확률 유의수준 𝛼 : 귀무가설이 참일 때 기각하는 1 종 오류의 확률 𝛽: 귀무가설이 거짓일 때 기각하지 못하는 2 종 오류의 확률 보통 검정력은 0.8 이상을 요구 표본의 크기가 크면 증가 분석결과에 나오는 검정력은 모수가 통계량과 같다는 가정 아래 계산됨 참고수치. t검정은 모수검정, 모수에 대한 여러 가정들이 존재. -> 데이터가 많으면 이런 가정들을 충족, 문제 없음. 비모수 검정 방법 : 모수에 대해 특별한 가정을 안 함. 맨휘트니 U 검정 Mann Whitney U test 독립표본t 검정에 대응하는 비모수 검정 방법 귀무가설 두 집단의 모집단은 같다 U 검정을 가끔 쓸 경우 : 연속형 변수가 아닌 경우 ex) .. 더보기 [멋쟁이사자처럼] 통계학 day2 정리 신뢰 구간은 통계량 ± 오차범위 신뢰구간 = 구간 추정 방법 통계량: 표본에서 계산한 값 통계량은 모수와 차이가 있다 -> 표본 오차 오차가 어느 정도 날지를 이론적으로 예측하거나 시뮬레이션을 해서 오차범위를 구하면 통계량 ± 오차범위로 신뢰구간을 구하여 추정 신뢰 수준이 높을수록 신뢰 구간은 넓다 ▶ 신뢰수준 : 얼마나 많은 경우를 포함하는가? 95% 신뢰수준 : 95%의 경우는 포함, 5% 배제 한정적 경우만 반영 -> 오차범위도 작아지게 됨 99% 신뢰수준 : 99%의 경우는 포함, 1% 배제 더 많은 경우를 반영 -> 오차범위가 커지게 됨 표본이 클수록 신뢰 구간은 좁다 표본이 커지면 커질수록 통계량은 모수 근처에서 나오게 됨. 데이터를 많이 모으면 통계량이 정확하다. = 오차가 적다 신뢰구간 =.. 더보기 [멋쟁이사자처럼 AI스쿨] Day32 - TIL, 통계학 week with(유재명) Q. 통계가 필요한 이유? 임상적 예측 vs 통계적 예측 : 증거의 이론적 분석과 검토. ▶ 전문가의 판단보다 통계적 예측이 더 정확 Q. 왜 통계적 예측은 충분히 사용되지 않는가? ▶ 타당성의 환상 : 스스로 생각하는 판단의 정확성과 실제 정확성의 괴리 ▶ 판단을 직접 내릴때 얻는 만족감이 보상으로 작용 ▶ 통계적 지식의 부족과 반감 ▶ 통계가 완벽하기를 기대 -> 오류에 지나치게 실망 ▶ 예측에서 단순성과 복잡성에 대한 오해 Q. 데이터 분석을 할 때 신뢰도와 타당도 중 어느 것을 더 높여야 하는지 어떻게 판단할 수 있나요? 기본적으로 타당도가 높아야. 신뢰도는 두번쨰 문제. 타당도를 정확히알기 어려운 경우가 많음 -> 신뢰도라도 높아야 한다. 타당도를 알 수는 있는데 비용이 너무 큰 경우 -> 타당.. 더보기 [멋쟁이사자처럼 AI스쿨] Week8 - WIL 23.02.06 - 23.02.08, AIS8 8주차 WIL mini project2를 끝낸 시점인 2월 9일 오늘. 대망의 mid project 조 구성이 발표 되었다. EDA 수업이 끝난 이번주. WIL 시작. 이번주의 학습 테마를 6가지로 정리하면 공공데이터를 활용해 전혀 다른 두 개의 데이터를 가져와서 전처리 하고 병합하기 수치형 데이터와 범주형 데이터를 바라보는 시각을 기르기 데이터의 형식에 따른 다양한 시각화 방법 이해하기 glob 를 사용해서 여러 파일을 로드해서 하나로 합치는 방법(약 700mb) 상관 계수의 종류, 시각화 하는 방법, 삼각행렬을 만들어서 마스크 처리 방법, 컬러 선택 방법 지도 시각화 방법 EDA 처리 과정 요약. ▶ 서로 다른 형태(row, columns)를 갖는 데이터.. 더보기 [멋쟁이사자처럼 AI스쿨] Day-30 TIL today topic. 버거지수 * glob 를 사용해서 여러 파일을 로드해서 하나로 합치는 방법 * 상관 계수의 종류, 시각화 하는 방법, 삼각행렬을 만들어서 마스크 처리 하는 방법, 컬러 선택 방법 * 지도 시각화 방법 summary 1. isin() & str.contains ▶ isin : 리스트 형태에서 사용 가능!! burger = ["버거킹", "맥도날드", "KFC", "롯데리아"] df[df["상호명"].isin(burger)] ▶ 그러나 isin은 일치하는 것만 찾기 때문에 사용에 적합하지 않음!! ▶ str.contains로 부분 일치 적용 df[df["상호명"].str.contains("버거킹|BKR|맥도날드|멕도날드|롯데리아|KFC|케이에프씨")] 2. heatmap() & sty.. 더보기 [멋쟁이사자처럼 AI스쿨] Day-29 TIL 1. .copy() ▶ .copy()는 파이썬, 판다스, 넘파이에서 모두 사용. but 기능이 약간 차이를 갖음. ▶ .copy() 앞에 붙은 객체의 type을 확인 필요. 2. sns.heatmap() & df.style.background_gradient() ▶ sns.heatmap() : 전체를 기준 ▶ df.style.background_gradient() : 성질이 다른 각 변수를 각각 비교할 때 적합. ex) 변수에 체중, 키, BMI지수, 콜레스테롤수치처럼 스케일값이 다르고 성질이 다른 값의 스케일을 비교하고자 할 때 적합 3. groupby & pivot_table ▶ pivot_table이 groupby의 하이레벨 인터페이스 ▶ groupby > pivot_table > crosstab .. 더보기 이전 1 2 3 4 5 6 7 8 ··· 10 다음