지도학습-분류

2023. 9. 25. 09:52공부/머신러닝

728x90
반응형

개념

입력 데이터를 이미 정의된 몇개의 클래스로 구분하는 문제

학습결과 -> 결정경계와 결정함수

 

데이터 분류

결정경계 g(x; 0)를 얻는 두가지 접근법

확률 기반 방법

P(Ck | x)를 추정하여 분류

베이즈 분류기

 

데이터 기반 방법

데이터 간의 관계를 바탕으로 분류

K-최근접 이웃 분류기

 

베이즈 분류기 = 베이즈 정이로부터 유도된 결정경계를 이용한 분류

이진 분류문제

 

K-최근접 이웃 분류기

최근접이웃 분류기 = 클래스와 상관없이 모든 데이터 중에서 가장 작은 거리값을 갖는 데이터의 클래스로 할당

지나친 학습으로 과다 적합 문제생김

K-최근접 이웃 분류기 = 모든 데이터와 거리를 계산 후 거리가 가까운 n개의 거리를 계산 후 가장많은 빈도수를 차지하는 클래스로 할당

비선형 근접 분류기 를 갖고 있어 복잡한데이터에 대해 분류 성능을 제공한다.

 

가우시안 베이즈 분류기

각 클래스에 대한 확률분포함수를 미리 가정하고 추정

학습 데이터를 통해 평균과 표준편차만 계산하여 활용

분류 과정에서 학습 데이터가 불필요

 

K-최근접이웃 분류기

확률분포모델을 미리 가정하지 않고 데이터 집합을 이용하여 추정

새 데이터가 주어질 때마다 학습 데이터 전체와의 거리 계산이 필요

항상 학습 데이터를 저장 → 비용(계산량, 메모리) 증가

 

적절한 K값의 결정

𝐾 = 1 → 바로 이웃한 데이터에만 의존하여 클래스가 결정

          → 노이즈에 민감, 과다적합 발생

𝐾 ≫ 1 → 주어진 데이터 주변 영역이 아닌 전체 데이터 영역에서 각 클래스가 차지하는 비율(선험확률)에 의존

 

주어진 데이터의 분포 특성에 의존

주어진 데이터에 대한 분류를 통해 가장 좋은 성능을 주는 값을 선택

 

K-NN 분류기의 설계 고려사항

거리함수? = 주어진 데이터와 학습 데이터 간의 거리 계산

2차 노름(유클리디안 거리), 1차노름, p차 노름, 내적, 코사인거리, 정규화된 유클리디안 거리, 마말라노비스 거리

 

  1. 분류의 개념
    - 분류 → 주어진 데이터 집합에 대해 이미 정의된 몇 개의 클래스(부류)로 입력을 구분하는 문제 → 목표 출력값을 사용하여 학습을 진행하는 지도학습을 적용
    - 분류기의 종류 → 베이즈 분류기, K–최근접이웃 분류기, 로지스틱 회귀, 결정 트리, SVM, 신경망 등
  2. 베이즈 분류기
    - 주어진 데이터가 각 클래스로부터 생성되었을 후험확률(사후확률)를 계산하고, 그 값이 가장 큰 클래스로 분류를 수행 → 후험확률은 학습 데이터를 이용하여 추정된 클래스별 분포함수를 이용하여 계산됨
    - 우도비 분류 → 각 클래스에서 데이터가 관찰된 확률밀도의 비율(“우도비”)에 의한 분류
    - 베이즈 분류기 → 후험확률에 대한 베이즈 정리로부터 유도된 판별함수를 이용하여 분류하는 방식
    - 이진 분류 문제의 경우 두 확률밀도함수의 곡선이 만나는 지점이 오류의 확률이 최소인 결정경계가 되며, 전체 데이터 집합에서 각 클래스가 차지하는 비율에 따라서 결정경계가 조정됨
    - 클래스별 확률밀도함수가 가우시안 분포를 따르는 경우 공분산행렬의 형태에 따라 결정경계와 판별함수가 달라짐 → 최소거리 분류기, 마할라노비스 거리, 정규화된 유클리디안 거리
  3. K–최근접이웃 분류기
    - 최근접이웃 분류기 → 클래스와 상관없이 모든 데이터 중 가장 작은 거리값을 가지는 데이터를 찾아 그 데이터가 속하는 클래스로 할당하는 방법 → “K=1인 K-최근접이웃 분류기”
    - K–최근접이웃 분류기(K–NN) → 주어진 데이터로부터 거리가 가까운 순서대로 K개의 데이터를 찾은 후, 그중 가장 많은 수의 데이터가 속한 클래스로 할당하는 방법 → 분류 수행을 위해 항상 학습 데이터를 저장해야 함 → 비용(계산량, 메모리) 문제 발생
    - K–NN 분류기 → 매우 비선형적인 결정경계를 가지며, 복잡한 데이터 분포에 대해서 비교적 잘 작동 → 분류를 위해서는 학습 데이터를 항상 저장해야 하는 문제점을 가짐.
    - 가우시안 베이즈 분류기 → 각 클래스에 대해 가우시안 분포를 미리 가정하고 파라미터를 추정하므로, 잘못된 가정에 따른 성능 저하의 위험성이 존재 → 학습 데이터로부터 각 클래스의 평균과 공분산을 계산한 후에는 학습 데이터가 더 이상 필요하지 않음.
    - K–NN 분류기의 설계 고려사항 → 적절한 K값과 거리 함수의 선택
    - 자주 쓰이는 거리 함수의 종류 → 2차 노름(유클리디안 거리), 1차 노름, p차 노름, 내적, 코사인 거리, 정규화된 유클리디안 거리, 마할라노비스 거리 등
728x90

'공부 > 머신러닝' 카테고리의 다른 글

비지도학습_군집화  (1) 2023.10.22
지도학습-회귀  (1) 2023.09.25
머닝러신 이란..  (0) 2023.09.10