혼공단10기 - 혼자 공부하는 머신러닝 + 딥러닝(혼공머신)
6장. 비지도 학습
기본 미션: K-평균 알고리즘 작동 방식 설명
06-2 K-means
K-평균 알고리즘(K-means clustering algorithm)
- 주어진 데이터를 k개의 클러스터로 묶는 알고리즘
- 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작
- 레이블이 달려 있지 않은 입력 데이터에 레이블을 달아주는 역할을 수행
입력값
- k: 클러스터 수
- D: n 개의 데이터 오브젝트를 포함하는 집합
출력값
- k 개의 클러스터
- 데이터 오브젝트 집합 D에서 k 개의 데이터 오브젝트를 임의로 추출하고, 이 데이터 오브젝트들을 각 클러스터의 중심 (centroid)으로 설정한다. (초기값 설정)
- 집합 D의 각 데이터 오브젝트들에 대해 k 개의 클러스터 중심 오브젝트와의 거리를 각각 구하고, 각 데이터 오브젝트가 어느 중심점 (centroid) 와 가장 유사도가 높은지 알아낸다. 그리고 그렇게 찾아낸 중심점으로 각 데이터 오브젝트들을 할당한다.
- 클러스터의 중심점을 다시 계산한다. 즉, 2에서 재할당된 클러스터들을 기준으로 중심점을 다시 계산한다.
- 각 데이터 오브젝트의 소속 클러스터가 바뀌지 않을 때까지 2, 3 과정을 반복한다.
선택 미션: 6-3 확인 문제 풀이
06-3 주성분 분석
차원 축소(dimensionality reduction)
- -원 데이터의 분포를 가능한 유지하면서 데이터의 차원을 줄이는 방법
주성분 분석(PCA, Principal Component Analysis)
- 차원 축소 기법
- 원 데이터의 분포를 최대한 보존하면서 고차원 공간의 데이터들을 저차원 공간으로 변환
확인문제.
1. 특성이 20개인 대량의 데이터 셋에서 찾을 수 있는 주성분 개수는?
▶ 20개
특성의 개수 만큼 주성분 존재
2. 샘플 개수가 1,000개이고 특성 개수가 100개인 데이터셋(1000,100)에서 PCA를 통해 10개의 주성분을 찾아 변환 할 때 변환된 데이터셋의 크기는?
▶ (1000,10)
샘플의 개수는 그대로 유지, 특성의 개수만 100 → 10 변경
3. (2)에서 분산이 가장 큰 주성분은?
▶ 첫번째.
분산이 큰 방향부터 순서대로 주성분을 찾기 때문에 첫 번쨰 주성분에 설명 된 분산이 가장 큼.
'혼공학습단(한빛미디어)' 카테고리의 다른 글
[혼공단11기] 혼자 공부하는 SQL 1주차(Chapter 01 - 02) (0) | 2024.01.07 |
---|---|
[혼공단 10기] 혼자 공부하는 머신러닝 + 딥러닝(혼공머신) - 6주차(fin) (0) | 2023.08.19 |
[혼공단 10기] 혼자 공부하는 머신러닝 + 딥러닝(혼공머신) - 4주차 (0) | 2023.07.30 |
[혼공단 10기] 혼자 공부하는 머신러닝 + 딥러닝(혼공머신) - 3주차 (0) | 2023.07.23 |
[혼공단 10기] 혼자 공부하는 머신러닝 + 딥러닝(혼공머신) - 2주차 (0) | 2023.07.16 |