머신러닝(3)
-
머신러닝 (편향과 분산)
Training data(학습 데이터) vs Test data(평가 데이터) 데이터의 분할 입력된 데이터는 학습 데이터와 평가 데이터로 나눌 수 있음 학습 데이터는 모델 학습에 사용되는 모든 데이터셋 평가 데이터는 오직 모델의 평가만을 위해 사용되는 데이터셋 평가 데이터는 절대로 모델 학습에 사용되면 안됨 평가 데이터 학습 데이터와 평가 데이터는 같은 분포를 가지는가? 평가 데이터는 어느 정도 크기를 가져야 하는가? 모델의 복잡도 선형에서 비선형 모델로 갈수록 복잡도가 증가함 -> 파라미터 수 증가 모델이 복잡해질수록, 학습 데이터를 더 완벽하게 학습함 그러면 좋은가? 1. 데이터가 많은 상황(Under - fitting) 2. 데이터가 적은 상황(Over - fitting) 편향(bias)과 분산(va..
2024.01.11 -
머신러닝(기초 수학)
지도학습 회귀 (Regression) 1. 입력값: 연속값(실수형), 이산값(범주형) 등 모두 가능 2. 출력값: 연속값(실수형) 3. 모델 형태: 일반적인 함수 형태 분류(Classification) 1. 입력값: 연속값(실수형), 이산값(범주형) 등 모두 가능 2. 출력값: 이산값(범주형) 3. 모델 형태: 이진 분류라면 시그모이드(sigmoid)함수, 다중 분류라면 소프트맥스(softmax) 함수 꼭 포함 Notations - 용어 데이터의 구성 데이터는 피터(feature)와 라벨(lable)로 구성됨 이는 독립 변수와 종속 변수로도 불림 라벨은 y로 표기하며, 라벨의 유무로 지도학습, 비지도 학습 구분 Feature(attribute, 피처) 데이터 X의 특징, 혹은 항목을 의미 N : 데이터 ..
2024.01.10 -
머신러닝(이론)
머신러닝(Machine Learning) : 기계를 학습한다. 1) 머신이란? 인간이 제공한 데이터에 존재하는 관계를 표현할 수 있는 모델 (= 함수) 2) 학습이란? 데이터를 가장 잘 표현할 수 있는 모델을 찾는 것 (= 모델의 파라미터 최적화) 3) 어떻게? 통계적인 방법 혹은 경사하강법을 이용해 최적의 파라미터를 찾음 어떤 형태의 데이터가 머신에게 주어지는지에 따라 다음의 세부 분야들로 분류됨 비지도 학습 지도학습 강화 학습 지도학습: 정답과 문제를 모두 알려주어 학습시키는 방법 -> 분류,예측 비지도 학습: 답을 알려주지않고 학습시키는 방법 -> 군집화, 연관규칙 강화 학습: 보상을 통해 상은 최대화 벌은 최소화하는 방향으로 행위를 강화하는 학습 -> 보상 지도학습 1. 회귀 Linear and ..
2024.01.10