모집단과표본
모집단 population
▶ 연구의 관심이 되는 집단 전체
표본 sample
▶ 특정 연구에서 선택된 모집단의 부분 집합
표집 sampling
▶ 모집단에서 표본을 추출하는 절차 . 표본 추출 이라고도 함
※ 대부분의 경우 집단 전체를 전수조사하기는 어려우므로 무작위로 표본을 추출하여 모집단에 대해 추론
• 무작위표집 random sampling : 일정한 확률에 따라 표본을 선택
▶ 무선표집 확률표집 이라고도 함
• 단순무작위 표집 simple random sampling : 모든 사례를 동일 확률로 추출
▶ 계통표집 systematic sampling
- 첫번째 요소는 무작위로 선정한 후 목록의 매번 k 번째 요소를 표본으로선정
- 요소들의목록이 추출되기 전에 무작위로 되어 있다면 단순 무작위 표집과 거의 동일하면서 좀 더 간단
- 투표출구 조사 등에 활용 (예 투표소에서 나오는 사람 7 번째마다 설문)
- 주기성이 있다면 왜곡 가능성
▶ 층화표집 stratified random sampling
- 모집단을이루는 각 계층별로 무작위 추출
- 모집단이서로 다른 하위 집단들로 이뤄져 있을 경우에 사용
- 여론조사의경우 지역별 연령별 성별로 나누어 추출
▶ 집락표집 cluster random sampling
- 모집단을집락으로 나눈 후 집락 중 일부를 무작위로 선택
- 선택된 집락에서 표본을 추출
- 층화추출과 달리 집락들이 서로 비슷해야 함
(예 : 같은 도시의 학교 중 일부를 무작위로 골라 그 학교의 학생들을 조사)
표집분포 sampling distribution
- 모집단이 같아도 통계량은 표본에 따라 달라짐
- 표집분포 : 통계량의 분포
- 표준오차(standard) : 표집분포의 표준편차
데이터를 많이 모아야 하는 이유
- 데이터가 많을 수록 표준 오차가 작아짐
- 표본의 통계량이 모수에 더 가깝게 나옴
- 표준오차는 표준오차는1/𝑛으로 줄어들기 때문에 데이터를 4 배 늘리면 2 배 더 정확
추정 estimation
▶ 통계량으로부터모수를 추측하는 절차
- 점추정 point estimate : 하나의 수치로 추정
- 구간추정 interval estimate : 구간으로 추정
신뢰구간 confidence interval
▶ 대표적인 구간 추정 방법
▶ 모수가 있을 법한 범위로 추정
- 신뢰구간 = 통계 ± 오차범위
- 95% 신뢰구간 = 95% 의 경우에 모수가 추정된 신뢰구간에 포함 됨
신뢰수준 confidence level
▶ 신뢰구간에 모수가 존재하는 표본의 비율
- 신뢰수준이높음 → 많은 표본을 포함 → 더 넓은 오차범위 → 정보가 적음
- 신뢰수준이낮음 → 적은 표본을 포함 → 더 좁은 오차범위 → 정보가 많음
▶ 신뢰구간이 좁으면 신뢰수준이 낮으므로 타협이 필요
- 교과서적으로는 95%, 99% 등을 추천하나 절대적 기준은 없음
- 감수할 수 있는 수준에서 결정
평균의 신뢰구간
- 모든통계량에는 신뢰구간이 존재
- 평균의경우에는 이론적으로 신뢰구간을 간단히 구할 수 있음
- 다른통계량은 부트스트래핑 등의 복잡한 계산이 필요
부트스트래핑 bootstrapping
- 평균과 달리 중간값 최빈값 등의 통계량은 표집분포의 형태를 간단히 알기 어려움
- 표본이 충분히 크면 부트스트래핑이라는 시뮬레이션 기법을 사용해서 신뢰구간을 추정
- scipy.stats.bootstrap([df.price], np.median, confidence_level =0.99)
신뢰 구간에 영향을 주는 요소
- 신뢰 구간이 좁을 수록 예측된 모수의 범위가 좁으므로 유용
- 신뢰 수준 낮추기 큰 의미는 없음
- 표본의 변산성 낮추기
- 실험과 측정을 정확히 해서 변산성을 낮춤
- 데이터에 내재한 변산성은 없앨 수 없음
- 표본의 크기를 키우기
- 가장 쉬운 방법이나 시간과 비용이 증가
표본오차 (sampling error): 모집단과 표본의 차이
오차범위 (margin of error): 표본오차의 범위
'멋쟁이사자처럼 AI School 8기(fin) > TIL(Today I Learn)' 카테고리의 다른 글
[멋쟁이사자처럼 AI스쿨] Day35 - TIL with 통계 (0) | 2023.02.16 |
---|---|
[멋쟁이사자처럼 AI스쿨] Day34 - TIL with 통계 (0) | 2023.02.15 |
[멋쟁이사자처럼 AI스쿨] Day32 - TIL, 통계학 week with(유재명) (0) | 2023.02.13 |
[멋쟁이사자처럼 AI스쿨] Day-30 TIL (0) | 2023.02.08 |
[멋쟁이사자처럼 AI스쿨] Day-29 TIL (0) | 2023.02.07 |