Q. 통계가 필요한 이유?
임상적 예측 vs 통계적 예측 : 증거의 이론적 분석과 검토.
▶ 전문가의 판단보다 통계적 예측이 더 정확
Q. 왜 통계적 예측은 충분히 사용되지 않는가?
▶ 타당성의 환상 : 스스로 생각하는 판단의 정확성과 실제 정확성의 괴리
▶ 판단을 직접 내릴때 얻는 만족감이 보상으로 작용
▶ 통계적 지식의 부족과 반감
▶ 통계가 완벽하기를 기대 -> 오류에 지나치게 실망
▶ 예측에서 단순성과 복잡성에 대한 오해
Q. 데이터 분석을 할 때 신뢰도와 타당도 중 어느 것을 더 높여야 하는지 어떻게 판단할 수 있나요?
기본적으로 타당도가 높아야. 신뢰도는 두번쨰 문제.
타당도를 정확히알기 어려운 경우가 많음 -> 신뢰도라도 높아야 한다.
타당도를 알 수는 있는데 비용이 너무 큰 경우 -> 타당도를 어느 정도 양보
통계 분석을 통해서 할 수 있는 일들
- 대상의 특성을 수치로 표현하기
- 부분을 통해 전체를 추측하기
- 비교하기
- 예측하기
- 영향력을 미치는 변수 찾기
- 지수(index) 만들기
- 비슷한 것끼리 모으기
1. 대상의 특성을 수치로 표현.
- 대상의 관찰 가능한 특성은 무엇이든 수치화 가능.
- 양적, 질적 모두 가능. 객관적이지 않아도 가능( ex) 만족도)
2. 부분을 통해 전체를 추측
- 대부분의 경우 우리는 대상의 일부만을 관찰
- 여론조사 : 전 국민 중 소수를 대상으로 조사
- 면접 : 한 개인의 인생에서 한 순간만을 조사
- 현실에서는 우연과 불확실성이 존재
- 성실한 사람도 면접에 늦을 수 있음
- 부분을 통해 전체를 합리적으로 추측하는 것이 중요
데이터를 표로 정리
행(row)
- 표에서 가로 방향 한 줄
- 하나의 사례
열(column)
- 표에서 세로 방향 한 줄
- 하나의 변수
범주형 변수 categorical variable
- 종류, 이름 등에 해당
- 숫자로 표시하더라도 양적인 개념이 아님(서울 지역번호)
- 덧셈 등 대부분의 연산이 의미가 없음(셀 수만 있음)
- 순서가 있을 수도 있으나, 간격이 일정하지 않음
- 예: 주거 형태, 고향, 학력, 출석, 국
연속형 변수 continuous variable
- 연속적인 형태
- 간격이 일정하고 덧셈, 뺄셈 등의 계산이 의미가 있음
- 예: 무게, 나이, 시간, 거리, 자녀의 수, 시험 점수
데이터 모으기
- 공공 데이터
- 인터넷 스크래핑
- 기업 등 내부 자료
- 설문
- 관찰
- 실험
타당도와 신뢰도
- 타당도(validity): 측정하고자 하는 것을 잘 측정함
- 신뢰도(reliability): 측정 결과가 일정함
확률 분포 probability distribution
확률 분포: 확률 변수가 특정한 값을 가질 확률을 나타내는 함수
- 이산(discrete)확률분포: 가질 수 있는 값이 정수
- 연속(continuous) 확률분포: 가질 수 있는 값이 실수
베르누이 분포 Bernoulli distribution
• 동전 던지기와 같이 둘 중에 한 가지 결과만 나올 수 있는 경우
• 동전을 던져 나온 결과가 앞면 = 1, 뒷면 = 0이라고 할 때
- P(X=1) = p
- P(X=0) = q = 1 – p
•둘 중에 한 가지 결과가 나오는 현상에 모두 적용 가능
- 고객의 구매/미구매, 이탈/유지
- 기계의 작동/고장
- 시험의 합격/불합격
이항 분포 binomial distribution
- 0과 1만 나오는 시행을 n번했을 때 합계의 분포
- 고객의 구매율이 30%일 때 100명의 고객이 방문하면 그 중에 몇 명이 구매?
- 베르누이 분포는 n = 1인 경우의 이항 분포
정규 분포 normal distribution
• 연속확률분포
• 𝜇(뮤)와 𝜎 2 (시그마)에 따라 모양이 달라짐
- 𝜇의 확률이 가장 높고, 멀어질 수록 확률이 낮아짐
- 𝜇를 기준으로 좌우대칭
- 𝜎 2이 클 수록 넓게 퍼짐
• 이름과 관련된 특이사항
- 정규 분포라고 하지만 정규적이거나 정상적인 것과는 무관
- 수학자 가우스의 이름을 따서 가우시안 분포
중심극한정리 Central Limit Theorem
어떤 확률분포에서 값을 n개 독립적으로 뽑아서 더하여 합계 s를 구할 경우
- n이 커질 수록, s의 분포는 정규분포와 점점 비슷해짐
- 예시: 주사위는 1~6이 고르게 나오지만, 주사위를 10번 던져서 합계를 구 하면 35 근처에서 가장 많이 나옴
• 이항분포의 경우
- 이항분포는 베르누이 분포에서 값을 n개 뽑아 더한 것과 같음
- 이항분포가 n이 커지면 정규분포와 비슷해짐(𝜇 = 𝑛𝑝, 𝜎 2 = 𝑛𝑝𝑞)
'멋쟁이사자처럼 AI School 8기(fin) > TIL(Today I Learn)' 카테고리의 다른 글
[멋쟁이사자처럼 AI스쿨] Day34 - TIL with 통계 (0) | 2023.02.15 |
---|---|
[멋쟁이사자처럼 AI스쿨] Day33 - TIL with 통계 (0) | 2023.02.14 |
[멋쟁이사자처럼 AI스쿨] Day-30 TIL (0) | 2023.02.08 |
[멋쟁이사자처럼 AI스쿨] Day-29 TIL (0) | 2023.02.07 |
[멋쟁이사자처럼 AI스쿨] Day28 TIL (0) | 2023.02.06 |