본문 바로가기
728x90
반응형

AI/기초11

목적함수, 손실함수, 비용 함수, 오차 함수 목적함수 Objective function 우리가 최적화하고 싶어하는 함수 함수를 최소화할 때 비용함수, 손실 함수, 오류 함수 함수를 최대화할 때 MLE, 클래스 간의 다이버전스 손실함수 Loss function 어떤 문제에서 머신러닝 알고리즘이 얼마나 엉터리인지 측정하는 기준 샘플 하나에 대한 손실을 구하는 데, 즉 파라미터 추정에 쓰인다. 한 트레이닝에만 영향을 미친다. 제곱 손실 - 선형 회귀에 사용(릿지) 힌지 손실 - SVM(서포터 벡터 머신)에서 사용 0/1 손실 - 이론 분석 및 정확도 정의에 사용 log 손실 - 로지스틱 회귀에서 사용 비용함수 cost function 훈련 세트에 있는 모든 샘플에 대한 손실 함수의 합 전체 트레이닝 셋에 걸쳐있으므로 최적화 문제에 쓰인다. 평균 제곱 오.. 2022. 4. 15.
오차 역전파 back propagation 와 기울기 소실 vanishing gradient 문제 오차 역전파 back propagation 미분의 연쇄법칙(chain rule)과 경사하강법(GD)을 이용하여 임의의 가중치를 선언하고 결괏값의 오차를 구한 뒤 이를 토대로 하나 앞선 가중치를 차례로 거슬러 올라가며 조정해 나가는 다층 퍼셉트론에서의 최적화 과정 위 그림에서 입력층의 첫 노드에서 히든 층의 첫 노드를 거쳐 출력층의 첫 노드로 나오는 과정만을 따로 떼어내면 $$ x \rightarrow P1=x1w1 \rightarrow 활성화함수(시그모이드) \rightarrow y=\frac{1}{1+e^{-P1}} $$ $$ \rightarrow P2=yw2 \rightarrow 활성화함수(시그모이드) \rightarrow z=\frac{1}{1+e^{-P2}} $$ 이 되고 손실함수를 $L$이라고 .. 2022. 4. 15.
퍼셉트론 perceptron과 신경망 Neural Network 퍼셉트론 perceptron 신경망(Neural Network)을 이루는 기본 단위 용어정리 가중치(weight) 선형모델에서의 기울기 $ w_1, w_2, ..., w_M $ 바이어스(bias ; 편향) 선형모델에서의 절편 $b$ 가중합(weighted sum) 입력값($x$)와 가중치($w$)의 곱을 모두 더한 다음 거기에 바이어스($b$)를 더한 값 활성화 함수(actiivation function) 가중합의 결과를 놓고 1 또는 0을 출력해서 다음으로 보낼 때, 0과 1을 판단하는 함수 ex) 시그모이드(sigmoid) 함수, 렐루(ReLU) 함수 XOR 문제 다음과 같이 두 입력 값 $x_1$과 $x_2$가 있을 때, 출력 값 $y$를 가지는 모델을 찾는 것을 말한다. $x_1$ $x_2$ $y.. 2022. 4. 15.
시그모이드(로지스틱) 함수와 소프트맥스 함수 시그모이드 함수 $$ p(x) = \frac{1}{1+e^{-z}} $$ 시그모이드 함수의 성질(속성) $ z $가 $ \infty $로 갈 때, $ e^{-z} $는 0으로 수렴하므로 $ p(x) $는 1로 수렴한다. $ z $가 0일 때, $ e^{-z} $는 1이므로 $ p(x) $는 0.5가 된다. $ z $가 $ -\infty $로 갈 때, $ e^{-z} $는 $ \infty $로 발산하므로 $ p(x) $는 0으로 수렴한다. 시그모이드 함수의 유용성 시그모이드 함수는 0~1 사이의 값을 가진다. 이것은 확률로 표현하기 좋으므로 0과 1, 두 개의 값 중 하나를 고를 때 유용하게 쓰인다. ex) 이진 분류, 어떤 한 가지 사건이 일어날 확률 시그모이드 함수를 이용해 로지스틱 회귀를 풀어나가는 .. 2022. 4. 14.
뉴럴 네트워크(Neural Network)의 구조 1,2,3,4,5,6 -> $ \beta $ 바이어스 -> $ \varepsilon $​ 딥러닝의 구조 보통 바이어스와 활성화함수는 그려넣지 않는다. 2022. 4. 14.
선형회귀모델로 보는 가중치(기울기,절편) 찾기 ; 경사하강법(GD) 경사하강법 ( Gradient Descent ) 손실함수가 최소가 되는 파라미터(모델의 가중치)의 값(기울기가 0인 곳)을 찾기위한 방법 어느 한 점 $ \theta_j^{(n)} $에서의 순간기울기를 구해본다. $ \theta_j^{(n)} $에서의 순간기울기의 반대 방향($ -\frac{\partial}{\partial \theta_j} J(\theta^{(n)}) $)으로 조금 이동($\gamma$)시킨다. 위의 과정을 순간기울기가 0으로 수렴될 때까지 반복한다. 위의 과정을 공식으로 나타낸다면 아래와 같다. $$ \theta_j^{(n+1)} = \theta_j^{(n)} - \gamma \frac{\partial}{\partial \theta_j} J(\theta^{(n)}) $$ 여기서 $ \.. 2022. 4. 14.
선형회귀모델로 보는 가중치(기울기,절편) 찾기 ; 최소제곱법(OLS)과 손실함수(Loss function) 실제 $i$번째 데이터 $x_i$, $y_i$ 일반적인 선형 회귀 모델 $$ y = \omega_0 + \omega_1 x_1 + \omega_2 x_2 + ... $$ 특징이 1개이고 1차항인 선형 회귀 모델 $$ y = \omega_0 + \omega_1 x_1 $$ 예측하는 선형 회귀 모델 $ \hat{y} = y$의 추정치, 예측값 $$ \hat{y} = \hat{\theta}_0 + \hat{\theta}_1 x_1 + \hat{\theta}_2 x_2 + ... $$ 특징이 1 개이고 1차항인 선형 회귀 모델 $$ \hat{y} = \hat{\theta}_0 + \hat{\theta}_1 x $$ 오차 $$e = y - \hat{y}$$ 손실함수 Loss function $J$ $$ J = \.. 2022. 4. 14.
인공지능(AI)을 이해하기 위한 수학 기초: 미분 미분 기호 y를 미분한다. $ y' $ y를 x에 대해서 미분한다. $ \frac{dy}{dx} $ 함수 $f(x)$의 도함수 = 함수 $f(x)$를 미분한다. 함수 $f(x)$를 $x$에 대해서 미분한다. $ \frac{d}{dx}f(x) $ 또는 $ \frac{d}{dx}f $ 또는 $ f'(x) $ 미분계수 : 어느 한 점에서의 미분값 점 a의 미분계수 = $f'(a)$ = 점 a에서 접선의 기울기 미분법 a,b,n가 상수인 $y=ax^n+b$ 의 경우 상수는 미분하면 0이되므로 b는 0이 되어 사라지고, $$ \frac{dy}{dx} = a \cdot n \cdot x^{n-1} $$ 이 된다. 기본 법칙 $ y = f(x)+g(x) = (f+g)(x) $일 때, $$ \frac{dy}{dx} =.. 2022. 4. 12.
인공지능(AI)을 이해하기 위한 수학 기초 : 행렬, 로그, 지수, 시그마 행렬의 표현 행렬의 크기 : m x n $A = a_{ij}$ , 1=< i =< m , 1=< j = 2022. 4. 12.
머신러닝에 유용한 데이터셋 소스 20220509 1. 사이킷런(scikit-learn), 시본(seaborn) 등 파이썬 라이브러리 제공 데이터셋 2. 캐글(kaggle): https://www.kaggle.com Kaggle: Your Machine Learning and Data Science Community Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals. www.kaggle.com 3. UCI 머신러닝 저장소 ( uci dataset - 구글검색) : https://archive.ics.uci.edu/ml/datasets.php 4. 공공 데이터 (해외) Wo.. 2022. 3. 14.
기계학습(머신러닝;Machine Learning)의 분류 대분류 지도학습 Supervised Learning 정답이 있는 데이터를 활용해 데이터로부터 하나의 함수를 유추해내기 위한 기계 학습 비지도학습 UnSupervised Learnig 정답이 없는 데이터를 활용해 데이터로부터 하나의 함수를 유추해내기 위한 기계 학습 강화학습 Reinforcement Learning 어떤 환경(하이퍼파라미터) 안에서 에이전트(AI모델)가 선택 가능한 행동들 중 보상(타겟)을 최대화하는 행동 혹은 행동 순서를 선택하는 방법 에이전트는 어떤 행동을 취하고, 환경으로부터 새로운 상태와 보상을 받는다. 이 상호작용에 기반하여 강화 학습을 하는 에이전트는 누적된 포상값을 최대화하는 정책을 개발한다. 필요한 데이터가 다른 학습에 비해 적다. 장기, 단기의 포상 사이 트레이드오프가 존재.. 2022. 2. 23.
728x90
반응형