본문 바로가기

728x90
728x90

지능형 생물학

[머신러닝] 접미사 트라이(Suffix trie), 접미사 트리(Suffix tree) ,나이브 베이즈(Naive Bayes)- 컴도리돌이 Suffix trieSuffix treeDefinitionConstruction with Naive algorithm접미사 트라이(Suffix trie)edge가 문자를 가진 문자열 모음을 가진 그래프를 트라이(trie)라고 한다.접미사 트라이(Suffix trie)는 접미사 트리(Suffix Tree)의 일반화된 개념이며, 문자열을 저장하기 위한 트리이다.트라이 구축(trie Construction): O(|patterns|)패턴 매칭 : O(|Text| * |LongestPattern|)text T(abaaba)의 모든 접미사(루트에서 리프까지)를 포함하는 트리로 예를 들어보자.접미사 트리(Suffix tree)접미사 트리(suffix tree)는 주어진 텍스트의 모든 접미사를 포함하는 압축된 "tr.. 더보기
[머신러닝] BWT(Burrows- Wheeler Transform)알고리즘- 컴도리돌이 Burrows-Wheeler transform (BWT) Transform LF mapping Reversing with BWT Searching with table occurrence and count BWT (Burrows-Wheeler transform) 블록 정렬 알고리즘으로 변환 결과에 Index 정보가 포함되어 있어, 다른 정보가 없더라도 변환된 문자열의 경우 유사한 문자열들끼리 뭉쳐진 형태로 나타나는 경우가 많아 압축을 위한 전처리 알고리즘 동일한 문자를 조합(block-sorting compression) 데이터 압축에 사용(예: bzip2) 압축성을 항상 향상하는 것은 아니다. 변환은 되돌릴 수 있다. 패턴의 위치를 효율적으로 찾다(O|pattern|) 변환(Transform) - ex).. 더보기
[머신러닝] 마코프 체인 모델(Markov Chain Model)-MC,HMM - 컴도리돌이 Markov chainHidden Markov modelcharacteristics, DifferenceModel parametersConstructionPrediction(Forward, Backward, Viterbi alogrithm)Learning마코프 체인(Markov Chain)상태(state)의 확률은 단지 그 이전 관측된 상태에만 의존한다.한 상태에서 다른 상태로의 전이(transition)는 상태 전이에 대한 긴 이력(history)을 필요로 하지 않고 바로 직전 상태에서의 전이로 추정할 수 있다.모델 변수(model parameter): 전이 변수(transition parameter) (1) - P(X1, X2, X3, X4) = P(X1) P(X2| X1) P(X3| X1, X2) .. 더보기
[머신러닝]베이지안 네트워크(Bayesian Network)- 컴도리돌이 Basic concept for probability(Definition and How to calcultate it)Random variable, Joint probability distribution, Joint probability, MarginalizationConditional probability, Bayes rule, Chain rule, Conditionally independentBayesian networksCharacteristics Model parametersPrediction / Inferenceinference by enumberationby sampling(BN)by variable elimination LearningBayesian network를 이해를 위한 확률 공부(B.. 더보기
[머신러닝] Introduction to Machine Learning - 컴도리돌이 머신 러닝이란 ->컴퓨터에게 정확한 프로그래밍되지 않고 학습할 수 있는 능력을 부여하는 연구 분야다. ->컴퓨터 프로그램은 일부 과제 T와 성과 측정 P에 관해서 경험 E로부터 배운다고 하며, 만약 경험 E에 의해 측정된 T에 있어서의 과제에서의 성능이 향상된다면 P에 의해 측정된다고 한다. example - 암 질병 문제 T : 특정 환자에 대한 암 상태를 예상하는 것P : 정확하게 분류된 환자의 비율E : 주어진 암 상태를 가진 연속적인 DNA의 집합 problem setting 1. Set of examples X = {x1, ... , xn} 2. Unknown target function f: X -> Y 3. set of unction hypothesis H = {h | h : X-> Y } .. 더보기