Algorithm Analysis on Mulatta Blog

1D 패턴 일치 문제

Tue, 20 Feb 2024 00:00:00 +0000

개요

이전 1C 역상보 문제의 결과에서 우리는 Vibrio cholerae 의 가장 빈번한 상위 4 종류의 서열 중 ATGATCAAG와 CTTGATCAT가 서로 상보적 관계에 있음을 알 수 있었다. 이 결과는 DnaA box를 찾았다는 결론을 뒷받침하는 근거로 여겨질 수 있을까?

이전 장에서 찾은 위의 결과는 유전체의 처음부터 끝까지 전체 영역에서 등장하는 Pattern이었다. 즉, 우리가 찾은 결과는 분포에 대한 정보를 포함하지 않는다. 따라서 결과 pattern들은 유전체 상에서 고르게 분포 되어있을 수 있다.

이것이 왜 중요할까? 다음의 그림을 통해, 유전체의 복제가 어떻게 진행되는지 그 양상을 확인할 수 있다. Bacteria의 경우 Origin of Replication이 하나의 영역에 존재하는 것을 확인할 수 있고, Eukaryotes의 경우 Origin of Replication이 여러 영역에 걸쳐 밀집되어 있음 을 알 수 있다.

따라서 우리는 이전 장에서 찾은 pattern들이 어느 위치에 존재하는지 아는 것이 중요하다. 위치에 대한 정보를 알게 되면 우리가 찾은 pattern들이 얼마나 밀집되어있는지를 확인할 수 있기 때문이다.

그러므로 이번 장에서는 임의의 입력 pattern이 어느 위치에 존재하는지 그 위치를 반환하는 함수를 구현하였다.

Fig 1. (A) Bacterial Replication Initiation, (B) Eukaryotic Replication Initiation - Wikipedia

Problem

Input: 찾을 pattern, 유전체
Output: 유전체 상 pattern이 등장하는 위치
function: 찾으려는 문자열 pattern이 유전체 상에서 등장하는 모든 위치(인덱스)를 리스트로 반환

Pseudo-code

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11


findPatternIndices(genome, pattern)
 patternSize = len(pattern)
 genomeSize = len(genome)

 indexList <-- empty List

 for i <- 0 to genomeSize
 if genome[i:i+patternSize] == pattern
 add i to indexList

 return indexList

Evaluation

Time Complexity

입력크기: $\left\vert genome \right\vert = n$, $\left\vert pattern \right\vert = k $

line[2] ~ line[5]: 변수 초기화 → $O(1)$
line[7]: 모든 genome의 시작점을 순회 → $O(n)$
line[8]: 문자열 비교 연산 → $O(k)$¹
line[9]: (일반적으로) $O(1)$²

어떠한 경우에도 모든 문자열을 순회해야 correct solution이 도출됨

Total Time Complexity: $O(1) + O(n) \times O(k) \approxeq O(nk)$

Implementation

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14


# 주어진 text 문자열에서 pattern이 발생한 문자열의 인덱스를 리스트로 반환하는 함수
def findPatternIndices(text, pattern):

 # 발생 빈도를 저장할 배열 선언
 OccList = []

 # pattern을 셀 수 있는 모든 문자열을 시작점으로 순회
 for idx in range(len(text) - len(pattern) + 1):

 # 시작 문자열부터 pattern 길이만큼의 부분문자열(substring)이 pattern을 형성하면 그 인덱스를 배열에 저장
 if(text[idx:idx + len(pattern)] == pattern):
 OccList.append(idx)

 return OccList

Discussion Points

Summary

이전 결과는 유전체 상에서 pattern이 고르게 등장하는 경우를 포함할 수 있음 (밀집된 경우보다 Randomness가 더 큼)
따라서 빈번한 pattern이 얼마나 밀집되어있는지 (Localization)에 대한 정보가 필요함
이를 알기 위해서는 특정 Pattern이 등장하는 위치를 찾아야 함

Implementation Strategy

유전체 문자열을 순회하며 주어진 pattern만큼 문자열을 가져옴
가져온 유전체의 부분 문자열과 주어진 pattern을 비교
서로 같으면 그 위치를 저장 후 순회가 끝나면 모든 위치를 반환

Implications

이를 통해 찾은 이전 결과 ATGATCAAG의 등장 위치는 116556, 149355, 151913, 152013, 152394, 186189, 194276, … 으로 총 17번임
이 중 위의 151913, 152013, 152394은 매우 가까이 위치한 곳으로, 나머지 경우에서는 이와 같이 군집을 이루지 않음
즉, 이 영역이 DnaA box의 영역일 수 있음을 시사함 ³

Reference

Compeu, P., Pevzner, P. (2018). Bioinformatics Algorithms 3/e. 에이콘 출판사
Replication Initiation figure: https://en.wikipedia.org/wiki/Origin_of_replication

두 문자열 중 가장 긴 것만큼 포인터가 순회하여 비교할 수 있음. strcmp(str1, str2) → O(s), where s = max(str1, str2) ↩︎
초기 할당된 메모리 크기를 벗어날 경우, 배열의 크기 재조정을 위해 값 복사가 일어날 수 있음 → O(l), where l =len(indexList) ↩︎
단순히 가까워서라기보다, 통계적 근거에 기반한 추론임 ↩︎

1B 빈번한 단어 문제

Tue, 30 Jan 2024 00:00:00 +0000

개요

앞선 문제에서는 입력된 pattern이 얼마나 등장하는지, 즉, Pattern → count 였다면, 이번에는 pattern에 대한 조건을 다루어 볼 수 있다. 즉, 원하는 길이의 Pattern 중 가장 많이 등장하는 k-mer를 찾을 수 있다.

앞선 목표: Pattern → count

이번 목표: k → Pattern

Brute-Force를 통해 알고리즘을 수행하면, 이전에 구현한 PatternCount를 이용해, 다음과 같은 아이디어를 이용할 수 있다.

문자열의 모든 문자 하나하나를 시작점으로 하는 k-mer pattern 에 대해
주어진 입력 문자 text를 PatternCount로 count

Fig 1. index가 0일 때 pattern count

Fig 2. index가 1일 때 pattern count

Problem

Input: 전체 문자열 Text, Text에서 찾으려는 문자열 Pattern의 길이 k
Output: 가장 빈번하게 등장하는 k-mer
function: k $\to$ Pattern

Pseudo-code

1
2
3
4
5
6
7
8


FrequentWords(Text, k)
 FrequentPatterns <-- empty set
 count = []
 for i <- 0 to |Text| - k
 Pattern = Text(i, i + k)
 count[i] = PatternCount(Text, Pattern)
 find index of max count
 return Text(index, index + k)

Evaluation

Time Complexity

입력 크기: $\left\vert Text \right\vert = n, \left\vert Pattern \right\vert=k$

$\text{Constraints: n ≥ k}$

line[2] ~ line[3: 대입연산 $\to O(1)$
line[4]: k-mer 형성이 가능한 모든 문자 순회 반복문 $\to O(n-k)$
line[5]: 문자열 슬라이싱 $\to O(1)$
line[6]: PatternCount $\to O(nk)$
line[7]: find index of max count $\to O(n\log{n}) ~ O(n^2)$
- 최대값을 찾는 과정은 정렬을 수행¹

Total Time Complexity: $O(1) + O(n-k) \times (O(1) + O(nk)) + O(n^2) \approxeq O(n^2k)$

Implementation

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21


# 주어진 text에서 특정 words의 빈도수를 계산하여 빈도수가 가장 높은 k-mer를 기록하고 반환하는 함수
def FrequentWords(text, k):

 # 입력된 text와 같은 크기로 등장 빈도수를 동일한 인덱스에 저장하는 리스트 선언
 count = [0 for i in range(len(text))]

 # 출력할 최대 빈도수의 pattern을 저장할 set 선언 - uniqueness로 중복 값을 저장하지 않음
 FrequentPattern = set()

 # i-th value가 가지는 k-mer의 빈도 수를 count라는 배열에 저장
 for i in range(len(text) - k + 1):
 pattern = text[i:i+k]
 count[i] = PatternCount(text, pattern)

 # count의 원소가 maxCount인 pattern을 FrequentPattern으로 저장
 maxCount = max(count)
 for i in range(len(text) - k):
 if count[i] == maxCount:
 FrequentPattern.add(text[i:i+k])

 return FrequentPattern

Discussion Points

Summary

주어진 임의의 서열에서 가장 빈번한 pattern이 무엇인지 확인할 수 있다.

Implementation Strategy

이전에 구현한 PatternCount를 통해 가능한 모든 k-mer 조합이 전체 text에서 등장하는 횟수를 모두 배열(count)에 기록
기록된 배열 중 가장 큰 count를 가진 pattern을 다시 반환함
가장 많이 등장하는 pattern이 어떤 pattern인지 확인할 수 있었다.

implications

이전 장과 서론의 문제 해결 아이디어를 더불어 생각해보면, k → Pattern → count로 어떤 k-mer가 가장 많이 등장하는지도 확인할 수 있을 것이다.
이러한 접근은 아무 정보도 주어지지 않은 상태에서 어떤 임의의 반복 서열이 가장 많은 count를 가지는지 확인할 수 있는 단서로 활용할 수 있을지도 모른다.

다음 문제에서는, 이번에 찾은 다양한 Pattern들과 연관된 상보적인 서열 의 등장 횟수를 고려하여, 빈번한 pattern이 우연이 아닌 상관관계/타당성을 가진다고 말할 수 있는지 알아보도록 하겠다.

Reference

Compeu, P., Pevzner, P. (2018). Bioinformatics Algorithms 3/e. 에이콘 출판사
Craig, N., Cohen-Fix, O., Green, R., Greider, C., Storz, G., & Wolberger, C. (2010). Molecular biology: Principles of genome function. Oxford University Press.

최대값/최소값을 찾는 알고리즘은 정렬을 수행해야 한다. 기수정렬을 제외한 일반적인 merge/quick sort의 경우 $O(n^2)$, 힙정렬의 경우 $O(nlog{n})$의 시간복잡도가 소요된다. ↩︎