본문 바로가기

728x90
728x90

AI/Machine Learning

[머신러닝] 선형회귀(linear regression) - 컴도리돌이 Regression "Regression toward the mean" 전체 평균으로 되돌아간다. 즉 어떤 데이터들이 굉장히 크거나 굉장히 작은 데이터들이 나와도 결과적으로, 전체적으로 봤을 때 이 데이터들은 전체 평균으로 되돌아가려는 특징을 갖고 있다. Linear Regression 종속 변수 y와 한 개 이상의 독립 변수 x와의 선형 상관관계를 모델링하는 회귀 분석 기법을 선형 회귀라고 한다. 선형 예측 함수를 사용해 회귀식을 모델링하며, 알려지지 않은 변수는 데이터로부터 추정한다. 이렇게 만들어진 회귀식을 선형 모델이라고 한다. 선형은 말 그대로 1차이기 때문에 선형 모델은 일차 모델 즉, 대표적인 일차 방정식인 직선의 방정식을 일컫는다. 그림에서 이 파란색 점들을 데이터를 의미하며, 이 데이터 .. 더보기
[머신러닝] 접미사 트라이(Suffix trie), 접미사 트리(Suffix tree) ,나이브 베이즈(Naive Bayes)- 컴도리돌이 Suffix trie Suffix tree Definition Construction with Naive algorithm 접미사 트라이(Suffix trie) edge가 문자를 가진 문자열 모음을 가진 그래프를 트라이(trie)라고 한다. 접미사 트라이(Suffix trie)는 접미사 트리(Suffix Tree)의 일반화된 개념이며, 문자열을 저장하기 위한 트리이다. 트라이 구축(trie Construction): O(|patterns|) 패턴 매칭 : O(|Text| * |LongestPattern|) text T(abaaba)의 모든 접미사(루트에서 리프까지)를 포함하는 트리로 예를 들어보자. 접미사 트리(Suffix tree) 접미사 트리(suffix tree)는 주어진 텍스트의 모든 접미사를 포.. 더보기
[머신러닝] BWT(Burrows- Wheeler Transform)알고리즘- 컴도리돌이 Burrows-Wheeler transform (BWT) Transform LF mapping Reversing with BWT Searching with table occurrence and count BWT (Burrows-Wheeler transform) 블록 정렬 알고리즘으로 변환 결과에 Index 정보가 포함되어 있어, 다른 정보가 없더라도 변환된 문자열의 경우 유사한 문자열들끼리 뭉쳐진 형태로 나타나는 경우가 많아 압축을 위한 전처리 알고리즘 동일한 문자를 조합(block-sorting compression) 데이터 압축에 사용(예: bzip2) 압축성을 항상 향상하는 것은 아니다. 변환은 되돌릴 수 있다. 패턴의 위치를 효율적으로 찾다(O|pattern|) 변환(Transform) - ex).. 더보기
[머신러닝] 마코프 체인 모델(Markov Chain Model)-MC,HMM - 컴도리돌이 Markov chain Hidden Markov model characteristics, Difference Model parameters Construction Prediction(Forward, Backward, Viterbi alogrithm) Learning 마코프 체인(Markov Chain) 상태(state)의 확률은 단지 그 이전 관측된 상태에만 의존한다. 한 상태에서 다른 상태로의 전이(transition)는 상태 전이에 대한 긴 이력(history)을 필요로 하지 않고 바로 직전 상태에서의 전이로 추정할 수 있다. 모델 변수(model parameter): 전이 변수(transition parameter) (1) - P(X1, X2, X3, X4) = P(X1) P(X2| X1) P(X3.. 더보기
[머신러닝]베이지안 네트워크(Bayesian Network)- 컴도리돌이 Basic concept for probability(Definition and How to calcultate it) Random variable, Joint probability distribution, Joint probability, Marginalization Conditional probability, Bayes rule, Chain rule, Conditionally independent Bayesian networks Characteristics Model parameters Prediction / Inference inference by enumberation by sampling(BN) by variable elimination Learning Bayesian network를 이해를 위.. 더보기
[머신 러닝] Agglomerative(bottom-up) , top-down(divisive) - 컴도리돌이 Hierarchical clustering ->거리 행렬 사용한다. ->입력으로 clusters 수(=k)가 필요하지 않다. (input 값이 필요 없지만 알고리즘의 종료도 명확하지 않다.) ->언제 멈출지 결정해야 한다. ->bottom-up(agglomerative) and top-down(divisive) 접근 Agglomerative clustering(bottom-up) 1) single link clustering ->가장 가까운 인접 클러스터링 ->두 그룹 G와 H 사이의 거리는 각 그룹의 가장 가까운 두 멤버 사이의 거리로 정의된다. -Bottom-up approach example d(1,2),3 = min(d1,3 , d2,3) = min (6,3) = 3 d(1,2),4 = min(d.. 더보기
[머신 러닝] 가우시안 혼합 모델(Gaussian Mixture models) - 컴도리돌이 Mixture models 전체 모집단 내 하위 모집단의 존재를 나타내는 확률론적 모델. 즉 여러 개의 분포가 혼합되어 있는 모델이다. GMM(Gaussian Mixture models) 가우시안 혼합 모델은 여러 개의 가우시안 분포가 혼합된 clustring 알고리즘이다. 현실에 존재하는 복잡한 분포들을 k개의 가우시안 분포를 혼합하여 표현을 한다. EM for Gaussian mixture 주어진 데이터 Xn에 대하여 데이터가 어떠한 가우시안 분포가 생성되는지 찾기 위해 responsibility r(ik)를 다음과 같이 정의하였다. Xn에 따른 GMM의 k번째 가우시안 분포가 선택되면 1, 아니면 0의 값을 갖는다. r(ik)가 1이라는 것은 Xn이 k번째 가우시안 분포에서 생성되었다는 것을 의미한.. 더보기
[머신 러닝] EM(Expectation-Maximization) vs MLE(Maximum likelihood estimation) soft clustering , k-means clustering - 컴도리돌이 MLE(maximum likelihood estimation) -> 어떤 시행의 결과에 대해서 가장 발생 가능성이 높은 가설 H를 찾는 방법 그림과 같이 A와 B 모델의 결과를 나타내는 데이터가 5개가 있다. 주어진 데이터를 가지고 물어보는 데이터가 어느 데이터 모델인지 예측을 해보자 1. 주어진 모델들의 데이터와 물어보는 데이터가 앞면과 뒷면이 몇 번 나왔는지 구한다. 2. 각 모델을 분류(classification)를 하고 분류한 표에 해당 모델의 데이터 값을 정리한다. 3. 주어진 데이터에서 각 모델에 대한 precision을 구한다. A모델 : 주어진 데이터 3개에서 실제 앞면이 24번 나온 값에 앞면이 24번, 뒷면이 6번의 합으로 나눠준다. -> 0.8 B 모델 : 주어진 데이터 2개에서 실제.. 더보기