Ch.06-1 군집 알고리즘
비지도 학습
- 머신러닝의 한 종류로 훈련 데이터에 타깃이 없음 ( 타깃이 없어서 외부의 도움 없이 스스로 유용한 무언가를 학습 )
- 대표적인 비지도 학습 작업 : 군집, 차원 축소 등
히스토그램 - 구간별로 값이 발생한 빈도를 그래프로 표시한 것 ( x축 : 값의 구간(계급) / y축 : 발생 빈도(도수) )
군집 - 비슷한 샘플끼리 하나의 그룹으로 모으는 대표적인 비지도 학습 작업 ( 클러스터 : 군집 알고리즘으로 모은 샘플 그룹 )
Ch.06-2 k-평균
k-평균 알고리즘
- 처음에 랜덤하게 클러스터 중심을 선택하고 점차 가장 가까운 샘플링 중심으로 이동하는 알고리즘
- 방법
- 무작위로 k개의 클러스터 중심을 정한다.
- 각 샘플에서 가장 가까운 클러스터 중심을 찾아 해당 클러스터의 샘플로 지정한다.
- 클러스터에 속한 샘플의 평균값으로 클러스터 중심을 변경한다.
- 클러스터 중심에 변화가 없을 때까지 2번으로 돌아가 반복한다.
클러스터의 중심 (센트로이드)
- k-평균 알고리즘이 만든 클러스터에 속한 샘플의 특성 평균값
- 가장 가까운 클러스터 중심을 샘플의 또 다른 특성으로 사용하거나 새로운 샘플에 대한 예측으로 활용 가능
엘보우 방법
- 최적의 클러스터 개수를 정하는 방법 중 하나 ( 이너셔 : 클러스터 중심과 샘플 사이 거리의 제곱 합 )
- 클러스터 개수에 따라 이서녀 감소가 꺾이는 지점이 적절한 클러스터 개수 k가 됨
Ch.06-3 주성분 분석
차원 축소 - 원본 데이터의 특성을 적은 수의 새로운 특성으로 변환하는 비지도 학습의 한 종류 ( 저장 공간을 줄이고 시각화하기 쉬움, 다른 알고리즘의 성능을 높일 수 있음 )
주성분 분석
- 차원 축소 알고리즘의 하나로 데이터에서 가장 분산이 큰 방향( 주성분 )을 찾는 방법
- 원본 데이터를 주성분에 투영하여 새로운 특성을 만들 수 있으며, 일반적으로 주성분은 원본 데이터의 특성 개수 보다 작음
설명된 분산 - 주성분 분석에서 주성분이 얼마나 원본 데이터의 분산을 잘 나타내는지 기록한 것 ( 사이킷런의 PCA 클래스 : 주성분 개수나 설명된 분산의 비율을 지정해 주성분 분석을 수행 )
'혼공' 카테고리의 다른 글
혼공머신 6차시 _ 딥러닝 시작 (0) | 2024.08.18 |
---|---|
혼공머신 4차시 _ 트리 알고리즘 (2) | 2024.07.23 |
혼공머신 3차시 _ 다양한 분류 알고리즘 (0) | 2024.07.15 |
혼공머신 2차시 _ 회귀 알고리즘과 모델 규제 (0) | 2024.07.14 |
혼공머신 1차시 _ 데이터 다루기 (0) | 2024.07.06 |