머닝러신 이란..

2023. 9. 10. 16:38공부/머신러닝

728x90
반응형

인공지능 ⊃ 머신러닝 ⊃ 딥러닝

 

인공지능 IBM Deep Blue(chess program)

              머신러닝 IBM Watson, 구글 검색 알고리즘, 아마존 상품 추천, 이메일 스팸 필터

                               딥러닝 알파고, 음성인식, 자율주행 시스템 

포함 관계

 

인공지능(Artificial Intelligence: AI) ??

인간의 지능을 모방하여 문제 해결을 위해 사람처럼 학습/이해 하는 기계를 만듦

 

약 인공지능 (weak AI)

실제 지능의 소유 여부와 상관없이 지능적인 것처럼 행동하는 기계

단지 정의된 특정 목적을 달성하고 문제를 해결 하는 능력

 

강 인공지능 (stroing AI)

지능의 모방이 아닌 실제로 인간처럼 생각하는 기계

스스로 문제 정의 및 해결, 지속적인 학습, 자아, 감정 등의 광범위한 지적 능력을 포함

Aritificial General Intelligence (AGI), Human-Level AI

 

머신러닝(Machine Learning) ??

기계가 데이터 로부터 일반적인 규칙을 스스로 찾아내는 방법

기계학습

인간이 갖고 있는 고유의 지능적 기능인 학습 능력을 기계를 통해 구현하기 위한 접근 방법

주어진 데이터를 분석하여 그로부터 일반적인 규칙이나 새로운 지식을 기계 스스로가 자동으로 추출하기 위한 접근 방법 

 

머닝 러신 필요 이유

데이터의 다양한 변형을 다루기 위해서

 

심층학습(deep learning)

심층 신경망 기반의 머신러닝 분야

 

머신러닝의 처리과정

 

머신러닝의 기본 요소

데이터 표현

n차원의 벡터

 

데이터 집합의 분포 특성

해당 공간상에서 점들이 분포된 모양

2차원 데이터 집합의 산점도scatter plot

 

특징 추출

주어진 데이터를 처리하는데 핵심이 되는 정보를 추출 하는 것

목적 = 비용(계산량, 메모리) 절약, 데이터에 포함된 불필요한 정보의 제거

격자 특징, 수직히스토그램 ,방향특징

 

사영(rpojection)에 의한 특징 추출

어떤 방향으로 사영하는 것이 좋은가?

단순히 차원의 축소가 아닌 데이터 처리를 위한 핵심 정보를 추출 하는것이 더 중요

주어진 데이터의 분포 특성을 가장 잘 나타낼 수 있는 방향

 

데이터로부터

학습을 통해 추출하고자 하는 정보를 표현하는 시스템 학습 시스템

 

입력 x  -> 학습 시스템 -> 출력 y

                  𝑓𝑓(𝒙𝒙; 𝜽𝜽)

 

입·출력 매핑 형태의 함수로 정의

학습 → 데이터를 이용하여 함수 𝑓를 찾는 것

         → 학습 시스템의 매개변수 𝜽를 찾는 것

 

학습의 궁극적 목표

앞으로 주어질 새로운 데이터에 대한 성능을 최대화하는 것

 

 

목적함수 objective function

주어진 데이터 집합을 이용하여 학습 시스템이 달성해야 하는 목표를 기계가 알 수 있는 수학적 함수로 정의한 것

 

오차함수 error function

대표적인 목적함수

학습 시스템의 출력값과 원하는 출력값의 차이(‘오차‘)로 정의

학습의 목적 → 오차를 최소화는 것

 

오차함수를 이용한 성능 평가 기준

 

학습 오차 training error 

학습에 사용된 데이터(‘학습 데이터’) 집합에 대해 계산된 오차

 

테스트 오차 test error

학습에 사용되지 않은 새로운 데이터(‘테스트 데이터’) 집합에 대해 계산된 오차 (= 경험 오차 empirical error)

실제 시스템 성능 평가

 

일반화 오차 generalization error

찰될 수 있는 모든 데이터 분포 전체에 대해 정의되는 오차

실제 계산이 불가해서 테스트 오차로 대신하여 평가

 

교차검증법 cross validation method

제한된 데이터 집합을 이용하여 일반화 오차에 좀 더 근접한 오차값을 얻어 내기 위한 방법

K-분절 교차검증법 K-fold cross validation

 

머신러닝에서의 주제

데이터 분석

분류 classification

입력 데이터가 어떤 부류에 속하는지를 자동으로 판단하는 문제

ex) ‘~인식’ → 숫자인식, 얼굴인식, 생체인식 등

베이즈 분류기, K-최근접이웃 분류기, 결정 트리, 랜덤 포레스트, SVM, 신경망(MLP, CNN, LSTM 등)

 

회귀 regression

입력변수와 출력변수 사이의 매핑 관계를 분석

ex) 시계열 예측: 시간에 따른 데이터의 변화를 분석 시장 예측, 환율 예측, 주가 예측 등

선형회귀, 비선형회귀, 로지스틱 회귀, SVM, 신경망(MLP, RBF, CNN, LSTM)

 

군집화 clustering

데이터 집합을 서로 비슷한 몇 개의 그룹(군집 cluster)으로 묶는 문제

분류 문제에 달리 클래스 정보가 주어지지 않음

ex) 데이터 그룹화, 영상 분할 K-평균 군집화, 계층적 군집화, 가우시안 혼합 모델, 신경망(SOM)

 

데이터 표현

특징추출 feature extraction 

원래 데이터로부터 데이터 분석에 적용하기 좋은 특징을 찾아내는 문제

ex) 영상 데이터의 차원 축소, 데이터 시각화

주성분분석(PCA), 선형판별분석(LDA), MDS, t-SNE

 

  1.  머신러닝의 개념
    - 인공지능(강인공지능, 약인공지능) ⊃ 머신러닝 ⊃ 딥러닝
    - 인공지능 → 인간의 지능을 모방하여 문제해결을 위해 사람처럼 학습하고 이해하는 기계를 만드는 분야
    - 머신러닝 → 인간의 학습능력을 기계를 통해 구현하는 분야
    - 딥러닝 → 심층 신경망 기반의 머신러닝 방법
  2. 머신러닝의 처리 과정
    - 학습 단계 → 학습 데이터 집합의 분석을 통해 원하는 입․출력의 관계를 알려주는 매핑 함수(결정함수)를 찾는 과정
    - 추론 단계 → 학습을 통해 찾은 매핑 함수를 실제 데이터(“테스트 데이터”)에 적용하여 결과를 얻는 과정
  3. 머신러닝의 기본 요소
    - 각 데이터는 n차원의 열벡터로 표현 → 데이터 처리는 벡터 연산으로 정의됨
    - 전체 데이터 집합에 대한 분포 특성을 고려하여 학습을 수행하는 것이 중요함
    - 특징추출 → 데이터에서 불필요한 정보를 제거하고 처리를 위한 핵심적 정보를 얻는 것
    - 목적함수 → 주어진 데이터 집합을 이용하여 학습 시스템이 달성해야 하는 목표를 기계가 알 수 있는 수학적 함수로 정의한 것
    - 오차함수 → 학습 시스템의 출력과 원하는 출력의 차이(“오차”)로 정의되는 목적함수
    - 성능 평가 기준 → 학습오차, 테스트 오차, 일반화 오차
    - 교차검증법 → 제한된 데이터 집합을 이용하여 일반화 오차에 좀 더 근접한 오차값을 얻어 내는 방법
  4.  머신러닝에서의 주제
    - 머신러닝이 다루는 주제 → 분류, 회귀, 군집화, 특징추출
    - 분류 → 입력 데이터가 어떤 부류(클래스)에 속하는지를 자동으로 판단하는 문제
    → 학습 데이터는 입력 데이터와 클래스 레이블(“목표 출력값”)의 쌍으로 구성됨
    - 회귀 → 학습을 통해 입력변수와 원하는 출력변수 사이의 매핑 관계를 찾는 것 → 출력은 연속적인 실수값임
    - 군집화 → 주어지는 클래스 정보 없이 단순히 하나의 덩어리로 이루어진 데이터를 받아서, 데이터의 성질 또는 분포 특성 등을 바탕으로 유사한 데이터끼리 묶어서 임의로 복수 개의 그룹(“클러스터”, “군집”)으로 만드는 것
  5. 학습 시스템 관련 개념
    - 머신러닝의 유형 → 지도학습, 비지도학습, 강화학습 등
    - 지도학습(교사학습) → 학습을 수행할 때 시스템이 출력해야 할 목표 출력값(“교사”)을 함께 제공하는 방식 → 분류와 회귀 문제에 적합한 유형
    - 비지도학습(비교사학습) → 학습할 때 목표 출력값에 대한 정보가 제공되지 않는 방식 → 군집화 문제에 적합
    - 강화학습 → 원하는 출력값을 모르거나 알 수 없는 경우 출력값에 대해 정확한 값의 형태로 교사 신호를 줄 수 없어서 출력값에 대한 교사 신호를 보상 형태로 주는 방식
    - 과다적합 → 학습 시스템이 학습 데이터에 대해서만 지나치게 적합한 형태로 결정경계를 형성하는 문제 → 일반화 성능의 저하를 초래
728x90

'공부 > 머신러닝' 카테고리의 다른 글

비지도학습_군집화  (1) 2023.10.22
지도학습-회귀  (1) 2023.09.25
지도학습-분류  (1) 2023.09.25