본문 바로가기

혼공

혼공머신 2차시 _ 회귀 알고리즘과 모델 규제

Ch.03-1 k-최근접 이웃 회귀

회귀 - 임의의 수치를 예측하는 문제 ( + 타깃값 : 임의의 수치 )

k-최근접 이웃 회귀

 - k-최근접 이웃 알고리즘을 사용해 회귀 문제를 푸는 것

 - 가장 가까운 이웃 샘플을 찾고 이 샘플들의 타깃값을 평균하여 예측

결정계수 (R²) - 대표적인 회구 문제의 성능 측정 도구 ( 1에 가까울수록 좋고, 0에 가까우면 성능이 나쁜 모델 )

과대적합 - 모델의 훈련 세트 성능이 테스트 세트 성능보다 훨씬 높을 때 발생 ( 모델이 훈련 세트에 너무 집착해서 데이터에 내재된 거시적인 패턴 감지 못함 )
과소적합
 - 모델의 훈련 세트 성능과 테스트 세트 성능이 모두 동일하게 낮거나 테스트 세트 성능이 오히려 더 높을 때 발생 ( -> 더 복잡한 모델을 사용해 훈련 세트에 잘 맞는 모델을 만들어야 함.

 

Ch.03-2 선형 회귀

선형 회귀 - 특성과 타깃 사이의 관계를 가장 잘 나타내는 선형 방정식을 찾는 것 ( 특성이 하나 -> 직선 방정식 )

계수 또는 가중치 - 선형 회귀가 찾은 특성과 타깃 사이의 관계가 선형 방정식의 계수나 가중치에 저장 ( 가중치 : 방정식의 기울기와 절편 모두 의미하기도 함. )

모델 파라미터 - 선형 회귀가 찾은 가중치처럼 머신러닝 모델이 특성에서 학습한 파라미터

다항 회귀 - 다향식을 사용하여 특성과 타깃 사이의 관계를 나타냄 ( 비선형일 수 있지만 선형 회귀로 표현 가능 )

 

Ch.03-3 특성 공학과 규제

다중 회귀 - 여러 개의 특성을 사용하는 회귀 ( 선형 모델은 특성이 많으면 강력한 성능을 발휘 )

특성 공학 - 주어진 특성을 조합하여 새로운 특성을 만드는 일련의 작업 과정

릿지 - 규제가 있는 선형 회귀 모델 중 하나이며 선형 모델의 계수를 작게 만들어 과대 적합을 완화 ( 비교적 효과가 좋아서 널리 사용됨 )

라쏘 - 규제가 있는 선형 회귀 모델 ( 릿지와 달리 계수 값을 0으로 만들 수 있음)

하이퍼파라미터

 - 머신러닝 알고리즘이 학습하지 않는 파라미터

 - 사람이 사전에 지정해야 함

 - 대표적으로 릿지와 라쏘의 규제 강도 alpha 파라미터

'혼공' 카테고리의 다른 글

혼공머신 4차시 _ 트리 알고리즘  (2) 2024.07.23
혼공머신 3차시 _ 다양한 분류 알고리즘  (0) 2024.07.15
혼공머신 1차시 _ 데이터 다루기  (0) 2024.07.06
혼공파 6차시  (0) 2024.02.13
혼공파 5차시  (0) 2024.02.04