본문 바로가기

머신러닝

[머신러닝] 선형회귀(linear regression) - 컴도리돌이 Regression "Regression toward the mean" 전체 평균으로 되돌아간다. 즉 어떤 데이터들이 굉장히 크거나 굉장히 작은 데이터들이 나와도 결과적으로, 전체적으로 봤을 때 이 데이터들은 전체 평균으로 되돌아가려는 특징을 갖고 있다. Linear Regression 종속 변수 y와 한 개 이상의 독립 변수 x와의 선형 상관관계를 모델링하는 회귀 분석 기법을 선형 회귀라고 한다. 선형 예측 함수를 사용해 회귀식을 모델링하며, 알려지지 않은 변수는 데이터로부터 추정한다. 이렇게 만들어진 회귀식을 선형 모델이라고 한다. 선형은 말 그대로 1차이기 때문에 선형 모델은 일차 모델 즉, 대표적인 일차 방정식인 직선의 방정식을 일컫는다. 그림에서 이 파란색 점들을 데이터를 의미하며, 이 데이터 .. 더보기
[머신러닝] BWT(Burrows- Wheeler Transform)알고리즘- 컴도리돌이 Burrows-Wheeler transform (BWT) Transform LF mapping Reversing with BWT Searching with table occurrence and count BWT (Burrows-Wheeler transform) 블록 정렬 알고리즘으로 변환 결과에 Index 정보가 포함되어 있어, 다른 정보가 없더라도 변환된 문자열의 경우 유사한 문자열들끼리 뭉쳐진 형태로 나타나는 경우가 많아 압축을 위한 전처리 알고리즘 동일한 문자를 조합(block-sorting compression) 데이터 압축에 사용(예: bzip2) 압축성을 항상 향상하는 것은 아니다. 변환은 되돌릴 수 있다. 패턴의 위치를 효율적으로 찾다(O|pattern|) 변환(Transform) - ex).. 더보기
[머신러닝] 마코프 체인 모델(Markov Chain Model)-MC,HMM - 컴도리돌이 Markov chain Hidden Markov model characteristics, Difference Model parameters Construction Prediction(Forward, Backward, Viterbi alogrithm) Learning 마코프 체인(Markov Chain) 상태(state)의 확률은 단지 그 이전 관측된 상태에만 의존한다. 한 상태에서 다른 상태로의 전이(transition)는 상태 전이에 대한 긴 이력(history)을 필요로 하지 않고 바로 직전 상태에서의 전이로 추정할 수 있다. 모델 변수(model parameter): 전이 변수(transition parameter) (1) - P(X1, X2, X3, X4) = P(X1) P(X2| X1) P(X3.. 더보기
[머신 러닝] performance evaluation(precision,recall) - 컴도리돌이 ->Precision : 프로그램이 positive를 한 예상 중에서 맞춘 확률 ->Recall : 프로그램이 결과에서 내린 예상에서 맞춘 확률 example 전체 데이터 집합 : 100 Positive : 50 Negative : 50 프로그램이 예상한 Positive : 100 Precision = 50 / (50 + 50) = 0.5 Recall = 50/ 50 (false negative를 예상하지 않았기 때문에 0이다.) = 1 더보기
[머신 러닝] Overfiting - 컴도리돌이 -데이터에서 사용할 수 있는 모든 구조를 포함하지 않을 경우, training data에 underfits 한 모델 -training data의 특성을 너무 많이 포함할 경우 training data에 overfits 한 모델 가설 h에 대하여, -> training 데이터에 대한 오류율: error(training)(h) -> 모든 데이터에 대한 실제 오류율: error(true)(h) -> error(training)(h) < error(true)(h) 일 경우 h overfits 예를 들어, 노란색 고양이를 보며 고양이의 특성을 학습한 사람이 검은색이나 흰색 고양이를 보고는 그것을 고양이라고 인식하지 못하는 현상이 overfitting과 유사한 경우이다. 더보기
[머신러닝] Supervised and Unsupervised , MLE - 컴도리돌이 Supervised learning 지도 학습(Supervised learning)은 입출력 관계의 쌍을 사용하여 매핑(mapping)을 학습한다. 표본이 n개인 데이터 집합 '(x1, y1, y1,…(xn, yn)'을 고려할 때, 예시는 "만약 집의 평방 피트가 x 평방피트라면 가격을 예측하라"이다. -> 목표 함수(빨간색 그래프)와 가설(주황색 그래프)의 차이를 최소화하고자 함 = 오류 함수( error function) -> Regression(회귀-회귀 분석 입력을 연속 출력으로 매핑) : 어떤 데이터들의 특징(feature)을 토대로 값을 예측하는 것. 결과 값은 실수 값을 가질 수 있다. -> classification(분류 - 입력 내용을 클래스 집합 중 하나로 매핑) : 어떤 데이터에 대해.. 더보기
[머신러닝] Introduction to Machine Learning - 컴도리돌이 머신 러닝이란 ->컴퓨터에게 정확한 프로그래밍되지 않고 학습할 수 있는 능력을 부여하는 연구 분야다. ->컴퓨터 프로그램은 일부 과제 T와 성과 측정 P에 관해서 경험 E로부터 배운다고 하며, 만약 경험 E에 의해 측정된 T에 있어서의 과제에서의 성능이 향상된다면 P에 의해 측정된다고 한다. example - 암 질병 문제 T : 특정 환자에 대한 암 상태를 예상하는 것P : 정확하게 분류된 환자의 비율E : 주어진 암 상태를 가진 연속적인 DNA의 집합 problem setting 1. Set of examples X = {x1, ... , xn} 2. Unknown target function f: X -> Y 3. set of unction hypothesis H = {h | h : X-> Y } .. 더보기