1 外卡匹配問題 Wildcard Matching

在經典字串匹配問題中，我們通常會被給予一份文本 \(T\) (Text) 以及一個較短的型樣字串 \(P\) (Pattern)。文本與型樣原則上是取自一個字母集 \(\Sigma\)（例如二元集 \(\{0, 1\}\)、英文字母集 [a-z] 等，總之是個固定大小的有限集合）。而目標便是要找出所有型樣字串 \(P\) 出現在文本中的位置。

而外卡匹配問題則是引入了外卡符號 \(\texttt{?}\) (wildcard)，代表該符號與任意字母都能夠匹配。我們令 \(\Sigma_\star = \Sigma\cup \{\texttt{?}\}\) 為包含外卡符號之延伸字母集。對於兩個長度皆為 \(m\) 的字串 \(A, B\in \Sigma_\star^m\)，我們定義 \(A\) 與 \(B\) 匹配若且唯若對於所有整數 \(i\in [0, m-1]\) 皆有 \(A[i]=B[i]\) 或者 \(A[i]\)、\(B[i]\) 至少一者為外卡符號。

外卡匹配問題：給定長度為 \(n\) 的文本 \(T\in \Sigma_\star^n\) 以及長度為 \(m\) 的型樣字串 \(P\in \Sigma_\star^m\)。請設計一個演算法找出所有 \(P\) 出現在 \(T\) 中的位置。意即，找出所有註標 \(i\in [0, n-m]\)，使得文本中以 \(i\) 開始的子字串 \(T[i..i+m-1]\) 與 \(P\) 匹配。

範例

若 \(T={\texttt{ab?ac?ab?b?a?ca}}\)、\(P={\texttt{a?b}}\)，那麼 \(P\) 出現在 \(T\) 中 6 次。

方法一：直截了當地暴力比對

這個方法其實寫起來滿有效率的呢。時間複雜度可想而知是個 \(O(mn)\)。

方法二：如果文本沒有外卡符號...

如果型樣字串也沒有外卡符號，那麼原本的問題便能夠以 KMP 或 Rabin-Karp 等經典字串匹配演算法在 \(O(n+m)\) 的時間很有效率地解決。利用這點，我們可以將型樣字串用 \(P\) 以外卡符號的位置切成好幾段，找出每一段子字串出現在文本當中的位置，最後拼湊起來。這麼一來時間複雜度是 \(O(n(k+1))\) 其中 \(k\) 是型樣字串中外卡字元的數量。如果這個數量很少，那麼這個方法便相對地有效率。

另外也可以考慮將文本符號建立一個後綴樹 (Suffix Tree)。並且讓型樣字串沿著該後綴樹走訪，如果遇到的字元是外卡符號，那麼便『同時』沿著所有可能的下一條路走之。也就是說，我們要維護的是，當前型樣字串出現在後綴樹中所有可能的位置的集合。但由於這個集合可能是後綴樹中所有的節點，因此該方法在最糟情形下是 \(O(nm\vert \Sigma\vert )\) 的。

方法三：如果型樣字串沒有外卡符號...

考慮將文本 \(T\) 以外卡符號切成許多片段 \(T_0, T_1, \ldots, T_k\)，其中 \(k\) 是外卡符號的數量。對於每一個片段 \(T_i\) 我們想知道的是「哪些型樣字串 \(P\) 的前綴是 \(T_i\) 的後綴」、「哪些型樣字串 \(P\) 的後綴是 \(T_i\) 的前綴」、以及「哪些型樣字串 \(P\) 的子字串完整地表達了 \(T_i\)」。把這些訊息組合起來就可以在 \(O((k+1)m)\) 的時間內得到我們要的答案啦～

方法四：利用摺積計算個別字元「不匹配」的數量

這類滑動窗框的問題，只要把其中一邊反過來，總是可以跟摺積 (convolution) 聯想在一起。離散摺積能做到什麼呢？它可以用來表達形如 \(C[i] := \sum_j A[-j]B[i+j]\) 的乘積和。若 \(A\) 與 \(B\) 為兩個長度為 \(N\) 的陣列，那麼快速傅立葉轉換能幫助我們在 \(O(N\log N)\) 的時間計算出所有非零的 \(C[i]\) 之值。

如果我們能夠透過計數，算出 \(P\) 與 \(T[i..i+m-1]\) 有多少個位置「不匹配」，就可以用來判定實際上有多少個子字串是匹配的啦！首先，一個簡單的想法是，我們可以針對每一種字元 \(x\in\Sigma\)，計算它在文本中每個對應窗框的不匹配數量。具體來說要怎麼做呢？若 \(P[j]=x\)，那麼我們便令 \(A[-j]=1\)，否則令 \(A[-j]=0\)；相對地，若 \(T[i]=x\) 或外卡符號 \(\texttt{?}\) 那麼我們就令 \(B[i]=0\)，否則令 \(B[i]=1\)。如此一來，\(C[i] = \sum_j A[-j]B[i+j]\) 剛好就會等於型樣字串中的 \(x\) 與文本片段 \(T[i..i+m-1]\) 不匹配的位置數量啦～

於是我們就得到一個 \(O(\vert \Sigma\vert n\log n)\) 的演算法。而這個演算法還可以利用簡單的切塊技巧加速至 \(O(\vert \Sigma\vert n\log m)\) 時間複雜度。

Fischer-Paterson 演算法

只要不匹配的數量不為零，就代表 \(P\) 與 \(T[i..i+m-1]\) 不匹配。因此，求出不匹配的數量並非重點，有些不匹配的數量被多算幾次其實也沒關係。我們可以利用二分法個概念，將 \(O(\vert \Sigma\vert n\log m)\) 時間複雜度的演算法加速至 \(O(n\log m\log\vert \Sigma\vert )\)：

不妨假設所有字母都是正整數，即 \(\Sigma=\{1, 2, \ldots, \vert \Sigma\vert \}\)。在第 \(k\) 次的摺積計算中，我們將 \(\Sigma\) 依照該字母的二進位表達式裡面的第 \(k\) 個位元之值，分成兩半，其中一邊該位元是 \(0\) 另一邊該位元是 \(1\)。然後只要設計出對應的 \(A, B\) 陣列之值，就可以算出「該位元」不匹配的位置數量啦。

Clifford-Clifford 演算法

上述演算法於 1978 年被提出後，其實陸續地有更有效率的 \(O(n\log m)\) 演算法出現，比方說 2002 年的 Cole-Hariharan 高維摺積演算法與 2002 年的 Kalai 隨機演算法。筆者覺得最神奇的，則是 2007 年才被發現的 Clifford-Clifford 演算法：

他們注意到『兩個字元相等若且唯若他們的差是零』

（廢話......)

但是，將他們的差「平方」以後，就可以用摺積來表達了（酷）。換句話說，在不存在外卡符號的情形下，\(P\) 與 \(T[i..i+m-1]\) 兩字串匹配若且唯若 \(\sum (P[-j]-T[i+j])^2=0\)。如果我們令外卡符號的值為 \(0\)，那麼 \(P\) 與 \(T[i..i+m-1]\) 兩字串匹配若且唯若

\[\sum P[-j] T[i+j] (P[-j]-T[i+j])^2=0,\]

展開以後得到

\[ \sum P[-j]^3T[i+j] - 2\sum P[-j]^2T[i+j]^2 + \sum P[-j]T[i+j]^3 = 0. \]

於是乎，我們只需要進行 3 次摺積運算（定義不同的 \(A\)、\(B\) 陣列之值），然後把三次找到的數值加起來，就能夠分辨出哪些位置能匹配了！而利用切塊法簡單加速後，時間複雜度也會是乾淨的 \(O(n\log m)\)。

參考資料

Peter Clifford and Raphaël Clifford, Simple Deterministic Wildcard Matching, Information Processing Letter (IPL), 2007.
M. Fischer and M. Paterson, String matching and other products, SIAM-AMS Complexity of Computations, 1978.
Leetcode 10 - Regular Expression Matching
MPC 底下的外卡匹配 String Matching with Wildcards in the Massively Parallel Computation Model
利用位元運算加速的外卡匹配 Fast Convolutions of Packed Strings and Pattern Matching with Wildcards

演算法的分析與證明