[멋쟁이사자처럼 AI스쿨] Day33

모집단과표본

모집단 population

▶ 연구의 관심이 되는 집단 전체

표본 sample

▶ 특정 연구에서 선택된 모집단의 부분 집합

표집 sampling

▶ 모집단에서 표본을 추출하는 절차 . 표본 추출 이라고도 함

※ 대부분의 경우 집단 전체를 전수조사하기는 어려우므로 무작위로 표본을 추출하여 모집단에 대해 추론

• 무작위표집 random sampling : 일정한 확률에 따라 표본을 선택
▶ 무선표집 확률표집 이라고도 함

• 단순무작위 표집 simple random sampling : 모든 사례를 동일 확률로 추출

▶ 계통표집 systematic sampling

첫번째 요소는 무작위로 선정한 후 목록의 매번 k 번째 요소를 표본으로선정
요소들의목록이 추출되기 전에 무작위로 되어 있다면 단순 무작위 표집과 거의 동일하면서 좀 더 간단
투표출구 조사 등에 활용 (예 투표소에서 나오는 사람 7 번째마다 설문)
주기성이 있다면 왜곡 가능성

▶ 층화표집 stratified random sampling

모집단을이루는 각 계층별로 무작위 추출
모집단이서로 다른 하위 집단들로 이뤄져 있을 경우에 사용
여론조사의경우 지역별 연령별 성별로 나누어 추출

▶ 집락표집 cluster random sampling

모집단을집락으로 나눈 후 집락 중 일부를 무작위로 선택
선택된 집락에서 표본을 추출
층화추출과 달리 집락들이 서로 비슷해야 함
(예 : 같은 도시의 학교 중 일부를 무작위로 골라 그 학교의 학생들을 조사)

표집분포 sampling distribution

모집단이 같아도 통계량은 표본에 따라 달라짐
표집분포 : 통계량의 분포
표준오차(standard) : 표집분포의 표준편차

데이터를 많이 모아야 하는 이유

데이터가 많을 수록 표준 오차가 작아짐
표본의 통계량이 모수에 더 가깝게 나옴
표준오차는 표준오차는1/𝑛으로 줄어들기 때문에 데이터를 4 배 늘리면 2 배 더 정확

추정 estimation

▶ 통계량으로부터모수를 추측하는 절차

점추정 point estimate : 하나의 수치로 추정
구간추정 interval estimate : 구간으로 추정

신뢰구간 confidence interval

▶ 대표적인 구간 추정 방법
▶ 모수가 있을 법한 범위로 추정

신뢰구간 = 통계 ± 오차범위
95% 신뢰구간 = 95% 의 경우에 모수가 추정된 신뢰구간에 포함 됨

신뢰수준 confidence level

▶ 신뢰구간에 모수가 존재하는 표본의 비율

신뢰수준이높음 → 많은 표본을 포함 → 더 넓은 오차범위 → 정보가 적음
신뢰수준이낮음 → 적은 표본을 포함 → 더 좁은 오차범위 → 정보가 많음

▶ 신뢰구간이 좁으면 신뢰수준이 낮으므로 타협이 필요

교과서적으로는 95%, 99% 등을 추천하나 절대적 기준은 없음
감수할 수 있는 수준에서 결정

평균의 신뢰구간

모든통계량에는 신뢰구간이 존재
평균의경우에는 이론적으로 신뢰구간을 간단히 구할 수 있음
다른통계량은 부트스트래핑 등의 복잡한 계산이 필요

부트스트래핑 bootstrapping

평균과 달리 중간값 최빈값 등의 통계량은 표집분포의 형태를 간단히 알기 어려움
표본이 충분히 크면 부트스트래핑이라는 시뮬레이션 기법을 사용해서 신뢰구간을 추정
scipy.stats.bootstrap([df.price], np.median, confidence_level =0.99)

신뢰 구간에 영향을 주는 요소

신뢰 구간이 좁을 수록 예측된 모수의 범위가 좁으므로 유용
신뢰 수준 낮추기 큰 의미는 없음
표본의 변산성 낮추기
- 실험과 측정을 정확히 해서 변산성을 낮춤
- 데이터에 내재한 변산성은 없앨 수 없음
표본의 크기를 키우기
- 가장 쉬운 방법이나 시간과 비용이 증가

표본오차 (sampling error): 모집단과 표본의 차이

오차범위 (margin of error): 표본오차의 범위

저작자표시 (새창열림)

'멋쟁이사자처럼 AI School 8기(fin) > TIL(Today I Learn)' 카테고리의 다른 글

[멋쟁이사자처럼 AI스쿨] Day35 - TIL with 통계 (0)	2023.02.16
[멋쟁이사자처럼 AI스쿨] Day34 - TIL with 통계 (0)	2023.02.15
[멋쟁이사자처럼 AI스쿨] Day32 - TIL, 통계학 week with(유재명) (1)	2023.02.13
[멋쟁이사자처럼 AI스쿨] Day-30 TIL (0)	2023.02.08
[멋쟁이사자처럼 AI스쿨] Day-29 TIL (0)	2023.02.07

Red1 color, HEX FF0000

[멋쟁이사자처럼 AI스쿨] Day33 - TIL with 통계

모집단과표본

표집분포 sampling distribution

데이터를 많이 모아야 하는 이유

추정 estimation

신뢰구간 confidence interval

신뢰수준 confidence level

평균의 신뢰구간

부트스트래핑 bootstrapping

신뢰 구간에 영향을 주는 요소

'멋쟁이사자처럼 AI School 8기(fin) > TIL(Today I Learn)' 카테고리의 다른 글

티스토리툴바

[멋쟁이사자처럼 AI스쿨] Day33 - TIL with 통계

모집단과표본

표집분포 sampling distribution

데이터를 많이 모아야 하는 이유

추정 estimation

신뢰구간 confidence interval

신뢰수준 confidence level

평균의 신뢰구간

부트스트래핑 bootstrapping

신뢰 구간에 영향을 주는 요소

'멋쟁이사자처럼 AI School 8기(fin) > TIL(Today I Learn)' 카테고리의 다른 글

'멋쟁이사자처럼 AI School 8기(fin)/TIL(Today I Learn)' Related Articles

티스토리툴바