본문 바로가기
멋쟁이사자처럼 AI School 8기(fin)/TIL(Today I Learn)

[멋쟁이사자처럼 AI스쿨] Day33 - TIL with 통계

by #FF0000 2023. 2. 14.

 

 

모집단과표본

모집단 population 

▶ 연구의 관심이 되는 집단 전체

표본 sample 

 특정 연구에서 선택된 모집단의 부분 집합

표집 sampling 

 모집단에서 표본을 추출하는 절차 . 표본 추출 이라고도 함

 

※ 대부분의 경우 집단 전체를 전수조사하기는 어려우므로 무작위로 표본을 추출하여 모집단에 대해 추론

 

 

 

• 무작위표집 random sampling : 일정한 확률에 따라 표본을 선택
▶ 무선표집 확률표집 이라고도 함


 단순무작위 표집 simple random sampling : 모든 사례를 동일 확률로 추출

 

▶ 계통표집 systematic sampling

  • 첫번째 요소는 무작위로 선정한 후 목록의 매번 k 번째 요소를 표본으로선정
  • 요소들의목록이 추출되기 전에 무작위로 되어 있다면 단순 무작위 표집과 거의 동일하면서 좀 더 간단
  • 투표출구 조사 등에 활용 (예 투표소에서 나오는 사람 7 번째마다 설문)
  • 주기성이 있다면 왜곡 가능성

▶ 층화표집 stratified random sampling

  • 모집단을이루는 각 계층별로 무작위 추출
  • 모집단이서로 다른 하위 집단들로 이뤄져 있을 경우에 사용
  • 여론조사의경우 지역별 연령별 성별로 나누어 추출

▶ 집락표집 cluster random sampling

  • 모집단을집락으로 나눈 후 집락 중 일부를 무작위로 선택
  • 선택된 집락에서 표본을 추출
  • 층화추출과 달리 집락들이 서로 비슷해야 함
    (예 : 같은 도시의 학교 중 일부를 무작위로 골라 그 학교의 학생들을 조사)

 

표집분포 sampling distribution

  • 모집단이 같아도 통계량은 표본에 따라 달라짐
  • 표집분포 : 통계량의 분포
  • 표준오차(standard) : 표집분포의 표준편차

 

데이터를 많이 모아야 하는 이유

  • 데이터가 많을 수록 표준 오차가 작아짐
  • 표본의 통계량이 모수에 더 가깝게 나옴
  • 표준오차는 표준오차는1/𝑛으로 줄어들기 때문에 데이터를 4 배 늘리면 2 배 더 정확

 

 

 

 

추정 estimation

▶ 통계량으로부터모수를 추측하는 절차

  • 점추정 point estimate : 하나의 수치로 추정
  • 구간추정 interval estimate : 구간으로 추정

 

 

 

신뢰구간 confidence interval

 대표적인 구간 추정 방법
 모수가 있을 법한 범위로 추정

  • 신뢰구간 = 통계 ± 오차범위
  • 95% 신뢰구간 = 95% 의 경우에 모수가 추정된 신뢰구간에 포함 됨

 

 

신뢰수준 confidence level

▶ 신뢰구간에 모수가 존재하는 표본의 비율

  • 신뢰수준이높음 →  많은 표본을 포함 →  더 넓은 오차범위 →  정보가 적음
  • 신뢰수준이낮음 →  적은 표본을 포함 →  더 좁은 오차범위 →  정보가 많음

 신뢰구간이 좁으면 신뢰수준이 낮으므로 타협이 필요

  • 교과서적으로는 95%, 99% 등을 추천하나 절대적 기준은 없음
  • 감수할 수 있는 수준에서 결정

 

 

평균의 신뢰구간

  • 모든통계량에는 신뢰구간이 존재
  • 평균의경우에는 이론적으로 신뢰구간을 간단히 구할 수 있음
  • 다른통계량은 부트스트래핑 등의 복잡한 계산이 필요

 

 

부트스트래핑 bootstrapping

  • 평균과 달리 중간값 최빈값 등의 통계량은 표집분포의 형태를 간단히 알기 어려움
  • 표본이 충분히 크면 부트스트래핑이라는 시뮬레이션 기법을 사용해서 신뢰구간을 추정
  • scipy.stats.bootstrap([df.price], np.median, confidence_level =0.99)

 

 

신뢰 구간에 영향을 주는 요소

  • 신뢰 구간이 좁을 수록 예측된 모수의 범위가 좁으므로 유용
  • 신뢰 수준 낮추기 큰 의미는 없음

  • 표본의 변산성 낮추기
    • 실험과 측정을 정확히 해서 변산성을 낮춤
    • 데이터에 내재한 변산성은 없앨 수 없음
  • 표본의 크기를 키우기
    • 가장 쉬운 방법이나 시간과 비용이 증가

 

 

 

표본오차 (sampling error): 모집단과 표본의 차이

오차범위 (margin of error): 표본오차의 범위