본문 바로가기
멋쟁이사자처럼 AI School 8기(fin)/TIL(Today I Learn)

[멋쟁이사자처럼 AI스쿨] Day32 - TIL, 통계학 week with(유재명)

by #FF0000 2023. 2. 13.

 

 

Q. 통계가 필요한 이유?

임상적 예측  vs 통계적 예측 : 증거의 이론적 분석과 검토.

▶ 전문가의 판단보다 통계적 예측이 더 정확

 

Q. 왜 통계적 예측은 충분히 사용되지 않는가?

▶ 타당성의 환상 : 스스로 생각하는 판단의 정확성과 실제 정확성의 괴리

▶ 판단을 직접 내릴때 얻는 만족감이 보상으로 작용

▶ 통계적 지식의 부족과 반감

▶ 통계가 완벽하기를 기대 -> 오류에 지나치게 실망

▶ 예측에서 단순성과 복잡성에 대한 오해

 

Q. 데이터 분석을 할 때 신뢰도와 타당도 중 어느 것을 더 높여야 하는지 어떻게 판단할 수 있나요?

기본적으로 타당도가 높아야. 신뢰도는 두번쨰 문제.

타당도를 정확히알기 어려운 경우가 많음 -> 신뢰도라도 높아야 한다.

타당도를 알 수는 있는데 비용이 너무 큰 경우 -> 타당도를 어느 정도 양보

 

통계 분석을 통해서 할 수 있는 일들

  • 대상의 특성을 수치로 표현하기
  • 부분을 통해 전체를 추측하기
  • 비교하기
  • 예측하기
  • 영향력을 미치는 변수 찾기
  • 지수(index) 만들기
  • 비슷한 것끼리 모으기

 

 

1. 대상의 특성을 수치로 표현.

  • 대상의 관찰 가능한 특성은 무엇이든 수치화 가능.
  • 양적, 질적 모두 가능. 객관적이지 않아도 가능( ex) 만족도)

 

2. 부분을 통해 전체를 추측

  • 대부분의 경우 우리는 대상의 일부만을 관찰
    • 여론조사 : 전 국민 중 소수를 대상으로 조사
    • 면접 : 한 개인의 인생에서 한 순간만을 조사
  • 현실에서는 우연과 불확실성이 존재
    • 성실한 사람도 면접에 늦을 수 있음
  • 부분을 통해 전체를 합리적으로 추측하는 것이 중요

 

 

 

 

 

 

데이터를 표로 정리

 

행(row)

  • 표에서 가로 방향 한 줄
  • 하나의 사례

 

열(column)

  • 표에서 세로 방향 한 줄
  • 하나의 변수

 

 

 

범주형 변수 categorical variable

  • 종류, 이름 등에 해당
  • 숫자로 표시하더라도 양적인 개념이 아님(서울 지역번호)
  • 덧셈 등 대부분의 연산이 의미가 없음(셀 수만 있음)
  • 순서가 있을 수도 있으나, 간격이 일정하지 않음
  • 예: 주거 형태, 고향, 학력, 출석, 국

 

연속형 변수 continuous variable

  • 연속적인 형태
  • 간격이 일정하고 덧셈, 뺄셈 등의 계산이 의미가 있음
  • 예: 무게, 나이, 시간, 거리, 자녀의 수, 시험 점수

 

 

데이터 모으기

  • 공공 데이터
  • 인터넷 스크래핑
  • 기업 등 내부 자료
  • 설문
  • 관찰
  • 실험

 

타당도와 신뢰도

  • 타당도(validity): 측정하고자 하는 것을 잘 측정함
  • 신뢰도(reliability): 측정 결과가 일정함

 

 

 

 

확률 분포 probability distribution

확률 분포: 확률 변수가 특정한 값을 가질 확률을 나타내는 함수

  • 이산(discrete)확률분포: 가질 수 있는 값이 정수
  • 연속(continuous) 확률분포: 가질 수 있는 값이 실수

 

 

베르누이 분포 Bernoulli distribution

 

• 동전 던지기와 같이 둘 중에 한 가지 결과만 나올 수 있는 경우

• 동전을 던져 나온 결과가 앞면 = 1, 뒷면 = 0이라고 할 때

  • P(X=1) = p
  • P(X=0) = q = 1 – p

둘 중에 한 가지 결과가 나오는 현상에 모두 적용 가능

  • 고객의 구매/미구매, 이탈/유지
  • 기계의 작동/고장
  • 시험의 합격/불합격

 

 

이항 분포 binomial distribution

  • 0과 1만 나오는 시행을 n번했을 때 합계의 분포
  • 고객의 구매율이 30%일 때 100명의 고객이 방문하면 그 중에 몇 명이 구매?
  • 베르누이 분포는 n = 1인 경우의 이항 분포

 

 

정규 분포 normal distribution

 

• 연속확률분포

• 𝜇(뮤)와 𝜎 2 (시그마)에 따라 모양이 달라짐

  • 𝜇의 확률이 가장 높고, 멀어질 수록 확률이 낮아짐  
  • 𝜇를 기준으로 좌우대칭
  • 𝜎 2이 클 수록 넓게 퍼짐

• 이름과 관련된 특이사항

  • 정규 분포라고 하지만 정규적이거나 정상적인 것과는 무관
  • 수학자 가우스의 이름을 따서 가우시안 분포

 

 

 

중심극한정리 Central Limit Theorem

 

어떤 확률분포에서 값을 n개 독립적으로 뽑아서 더하여 합계 s를 구할 경우

  • n이 커질 수록, s의 분포는 정규분포와 점점 비슷해짐
  • 예시: 주사위는 1~6이 고르게 나오지만, 주사위를 10번 던져서 합계를 구 하면 35 근처에서 가장 많이 나옴

• 이항분포의 경우

  • 이항분포는 베르누이 분포에서 값을 n개 뽑아 더한 것과 같음
  • 이항분포가 n이 커지면 정규분포와 비슷해짐(𝜇 = 𝑛𝑝, 𝜎 2 = 𝑛𝑝𝑞)