KMP算法总结

博主：梅零落
发布时间：2022 年 08 月 26 日
1084 次浏览
暂无评论
5113字数
分类：数据结构与算法

KMP算法思想

Knuth-Morris-Pratt 字符串查找算法，简称为 “KMP算法”，常用于在一个文本串S内查找一个模式串P 的出现位置，这个算法由Donald Knuth、Vaughan Pratt、James H. Morris三人于1977年联合发表，故取这3人的姓氏命名此算法。

假设现在文本串S匹配到 i 位置，模式串P匹配到 j 位置

如果j = -1，或者当前字符匹配成功（即S[i] == P[j]），都令i++，j++，继续匹配下一个字符；
如果j != -1，且当前字符匹配失败（即S[i] != P[j]），则令 i 不变，j = next[j]。此举意味着失配时，模式串P相对于文本串S向右移动了j - next [j] 位。
换言之，当匹配失败时，模式串向右移动的位数为：失配字符所在位置 - 失配字符对应的next 值，即移动的实际位数为：j - next[j]，且此值大于等于1。

很快，你也会意识到next 数组各值的含义：代表当前字符之前的字符串中，有多大长度的相同前缀后缀。例如如果next [j] = k，代表j 之前的字符串中有最大长度为k 的相同前缀后缀。

此也意味着在某个字符失配时，该字符对应的next 值会告诉你下一步匹配中，模式串应该跳到哪个位置（跳到next [j] 的位置）。如果next [j] 等于0或-1，则跳到模式串的开头字符，若next [j] = k 且 k > 0，代表下次匹配跳到j 之前的某个字符，而不是跳到开头，且具体跳过了k 个字符。

代码：

public static int KMPmatch(String str1, String str2,int[] next) {
        char[] s1 = str1.toCharArray();
        char[] s2 = str2.toCharArray();

        int s1Len = s1.length;
        int s2Len = s2.length;

        int i = 0;
        int j = 0;

        while (i < s1Len && j < s2Len) {
            //①如果j = -1，或者当前字符匹配成功（即s1[i] == s2[j]），都令i++，j++
            if (j==-1||s1[i] == s2[j]) {
                i++;
                j++;
            } else {
                //②如果j != -1，且当前字符匹配失败（即s1[i] != s2[j]），则令 i 不变，j = next[j]
                //next[j]即为j所对应的next值
                j = next[j];
            }
        }

        if (j == s2Len) {
            return i - j;
        } else {
            return -1;
        }
    }

构造 next 数组

构造方法为：next[i] 对应的下标，为 P[0...i - 1] 的最长公共前缀后缀的长度，令 P[0] = -1。具体解释如下：

例如对于字符串 abcba：

前缀：它的前缀包括：a, ab, abc, abcb，不包括本身；
后缀：它的后缀包括：bcba, cba, ba, a，不包括本身；
最长公共前缀后缀：abcba 的前缀和后缀中只有 a 是公共部分，字符串 a 的长度为 1。

所以，我们将 P[0...i - 1] 的最长公共前后缀的长度作为 next[i] 的下标，就得到了 next 数组。

构造next数组.png

代码递推计算next 数组

如果对于值k，已有p0 p1, ..., pk-1 = pj-k pj-k+1, ..., pj-1，相当于next[j] = k。
此意味着什么呢？究其本质，next[j] = k 代表p[j] 之前的模式串子串中，有长度为k 的相同前缀和后缀。有了这个next 数组，在KMP匹配中，当模式串中j 处的字符失配时，下一步用next[j]处的字符继续跟文本串匹配，相当于模式串向右移动j - next[j] 位。
下面的问题是：已知next [0, ..., j]，如何求出next [j + 1]呢？
对于P的前j+1个序列字符：

若p[k] == p[j]，则next[j + 1 ] = next [j] + 1 = k + 1；
若p[k ] ≠ p[j]，如果此时p[ next[k] ] == p[j ]，则next[ j + 1 ] = next[k] + 1，否则继续递归前缀索引k = next[k]，而后重复此过程。相当于在字符p[j+1]之前不存在长度为k+1的前缀"p0 p1, …, pk-1 pk"跟后缀“pj-k pj-k+1, …, pj-1 pj"相等，那么是否可能存在另一个值t+1 < k+1，使得长度更小的前缀 “p0 p1, …, pt-1 pt” 等于长度更小的后缀 “pj-t pj-t+1, …, pj-1 pj” 呢？如果存在，那么这个t+1 便是next[ j+1]的值，此相当于利用已经求得的next 数组（next [0, ..., k, ..., j]）进行P串前缀跟P串后缀的匹配。

如下图所示，假定给定模式串ABCDABCE，且已知next [j] = k（相当于“p0 pk-1” = “pj-k pj-1” = AB，可以看出k为2），现要求next [j + 1]等于多少？因为pk = pj = C，所以next[j + 1] = next[j] + 1 = k + 1（可以看出next[j + 1] = 3）。代表字符E前的模式串中，有长度k+1 的相同前缀后缀。

next数组1.jpg

但如果pk != pj 呢？说明“p0 pk-1 pk” ≠ “pj-k pj-1 pj”。换言之，当pk != pj后，字符E前有多大长度的相同前缀后缀呢？很明显，因为C不同于D，所以ABC 跟 ABD不相同，即字符E前的模式串没有长度为k+1的相同前缀后缀，也就不能再简单的令：next[j + 1] = next[j] + 1 。所以，咱们只能去寻找长度更短一点的相同前缀后缀。

next数组2.jpg

结合上图来讲，若能在前缀“ p0 pk-1 pk ” 中不断的递归前缀索引k = next [k]，找到一个字符pk’ 也为D，代表pk’ = pj，且满足p0 pk'-1 pk' = pj-k' pj-1 pj，则最大相同的前缀后缀长度为k' + 1，从而next [j + 1] = k’ + 1 = next [k' ] + 1。否则前缀中没有D，则代表没有相同的前缀后缀，next [j + 1] = 0。

那为何递归前缀索引k = next[k]，就能找到长度更短的相同前缀后缀呢？这又归根到next数组的含义。我们拿前缀 p0 pk-1 pk 去跟后缀pj-k pj-1 pj匹配，如果pk 跟pj 失配，下一步就是用p[next[k]] 去跟pj 继续匹配，如果p[ next[k] ]跟pj还是不匹配，则需要寻找长度更短的相同前缀后缀，即下一步用p[ next[ next[k] ] ]去跟pj匹配。此过程相当于模式串的自我匹配，所以不断的递归k = next[k]，直到要么找到长度更短的相同前缀后缀，要么没有长度更短的相同前缀后缀。如下图所示：

next数组3.jpg

所以，因最终在前缀ABC中没有找到D，故E的next 值为0：
模式串的后缀：ABDE
模式串的前缀：ABC
前缀右移两位：ABC

读到此，有的读者可能又有疑问了，那能否举一个能在前缀中找到字符D的例子呢？OK，咱们便来看一个能在前缀中找到字符D的例子，如下图所示：

next数组4.jpg

给定模式串DABCDABDE，我们很顺利的求得字符D之前的“DABCDAB”的各个子串的最长相同前缀后缀的长度分别为0 0 0 0 1 2 3，但当遍历到字符D，要求包括D在内的“DABCDABD”最长相同前缀后缀时，我们发现pj处的字符D跟pk处的字符C不一样，换言之，前缀DABC的最后一个字符C 跟后缀DABD的最后一个字符D不相同，所以不存在长度为4的相同前缀后缀。

怎么办呢？既然没有长度为4的相同前缀后缀，咱们可以寻找长度短点的相同前缀后缀，最终，因在p0处发现也有个字符D，p0 = pj，所以p[j]对应的长度值为1，相当于E对应的next 值为1（即字符E之前的字符串“DABCDABD”中有长度为1的相同前缀和后缀）。
综上，可以通过递推求得next 数组，代码如下所示：

public static void GetNext(String p,int next[])
    {
        int pLen = p.length();
        next[0] = -1;
        int k = -1;
        int j = 0;
        while (j < pLen - 1)
        {
            //p[k]表示前缀，p[j]表示后缀
            if (k == -1 || p.charAt(j) == p.charAt(k))
            {
                ++k;
                ++j;
        // 未优化之前的代码
        next[j] = k; 

        // 优化next数组代码
                //if (p.charAt(j) != p.charAt(k))
                //    next[j] = k;   //之前只有这一行
                //else
                //    //因为不能出现p.charAt(j) = p.charAt(next[j])，所以当出现时需要继续递归，k = next[k] = next[next[k]]
                //    next[j] = next[k];
            }
            else
            {
                k = next[k];
            }
        }
    }

参考

摘抄自：

很详尽KMP算法（厉害）

最后修改：2022 年 12 月 20 日

如果觉得我的文章对你有用，请随意赞赏

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

评论 *

私密评论

名称 *

🎲

邮箱 *

地址

lhcpezlxwf
新车新盘嘎嘎稳嘎嘎靠谱coinsrore.com
peljmfbrmw
新车新盘嘎嘎稳嘎嘎靠谱
eegjprercn
做了几十年的项目我总结了最好的一个盘（纯干货）coinsro...
fhhoctdomy
新车上路，只带前10个人
ojlrmhogdy
新项目准备上线，寻找志同道合的合作伙伴

HTML5_Speedtest测试脚本
浏览次数: 1674
KMP算法总结
浏览次数: 1085
taylor swift
浏览次数: 2016
Rclone挂载OneDrive方法-自建API
浏览次数: 4352
Rclone挂载GoogleDrive
浏览次数: 1488

KMP算法总结

梅零落 • 2022 年 08 月 26 日

<h1>KMP算法思想</h1>Knuth-Morris-Pratt 字符串查找算法，简称为 “KMP算法”，常用于在一个文本串S内查找一个模式串P 的出现位置，这个算法由Donald Knuth、Vaughan Pratt、James H. Morris三人于1977年联合发表，故取这3人的姓氏命名此算法。假设现在文本串S匹配到 i 位置，模式串P匹配到 j 位置<ol><li>如果j = -1，或者当前字符匹配成功（即S[i] == P[j]），都令i++，j++，继续匹配下一个字符；</li><li>如果j != -1，且当前字符匹配失败（即S[i] != P[j]），则令 i 不变，j = next[j]。此举意味着失配时，模式串P相对于文本串S向右移动了j - next [j] 位。 换言之，当匹配失败时，模式串向右移动的位数为：失配字符所在位置 - 失配字符对应的next 值，即移动的实际位数为：j - next[j]，且此值大于等于1。</li></ol>很快，你也会意识到next 数组各值的含义：代表当前字符之前的字符串中，有多大长度的相同前缀后缀。例如如果next [j] = k，代表j 之前的字符串中有最大长度为k 的相同前缀后缀。此也意味着在某个字符失配时，该字符对应的next 值会告诉你下一步匹配中，模式串应该跳到哪个位置（跳到next [j] 的位置）。如果next [j] 等于0或-1，则跳到模式串的开头字符，若next [j] = k 且 k &gt; 0，代表下次匹配跳到j 之前的某个字符，而不是跳到开头，且具体跳过了k 个字符。代码：<pre><code>public static int KMPmatch(String str1, String str2,int[] next) {
 char[] s1 = str1.toCharArray();
 char[] s2 = str2.toCharArray();

int s1Len = s1.length;
        int s2Len = s2.length;

int i = 0;
        int j = 0;

while (i &lt; s1Len &amp;&amp; j &lt; s2Len) {
            //①如果j = -1，或者当前字符匹配成功（即s1[i] == s2[j]），都令i++，j++
            if (j==-1||s1[i] == s2[j]) {
                i++;
                j++;
            } else {
                //②如果j != -1，且当前字符匹配失败（即s1[i] != s2[j]），则令 i 不变，j = next[j]
                //next[j]即为j所对应的next值
                j = next[j];
            }
        }

if (j == s2Len) {
 return i - j;
 } else {
 return -1;
 }
 }</code></pre><h1>构造 next 数组</h1>构造方法为：next[i] 对应的下标，为 P[0...i - 1] 的最长公共前缀后缀的长度，令 P[0] = -1。 具体解释如下：例如对于字符串 abcba：<ul><li>前缀：它的前缀包括：a, ab, abc, abcb，不包括本身；</li><li>后缀：它的后缀包括：bcba, cba, ba, a，不包括本身；</li><li>最长公共前缀后缀：abcba 的前缀和后缀中只有 a 是公共部分，字符串 a 的长度为 1。</li></ul>所以，我们将 P[0...i - 1] 的最长公共前后缀的长度作为 next[i] 的下标，就得到了 next 数组。<img src="https://www.imgyh.com/usr/uploads/2022/08/3222071152.png" alt="构造next数组.png" title="构造next数组.png" style=""><h1>代码递推计算next 数组</h1><ol><li>如果对于值k，已有p0 p1, ..., pk-1 = pj-k pj-k+1, ..., pj-1，相当于next[j] = k。 此意味着什么呢？究其本质，next[j] = k 代表p[j] 之前的模式串子串中，有长度为k 的相同前缀和后缀。有了这个next 数组，在KMP匹配中，当模式串中j 处的字符失配时，下一步用next[j]处的字符继续跟文本串匹配，相当于模式串向右移动j - next[j] 位。</li><li>下面的问题是：已知next [0, ..., j]，如何求出next [j + 1]呢？ 对于P的前j+1个序列字符：</li></ol><ul><li>若p[k] == p[j]，则next[j + 1 ] = next [j] + 1 = k + 1；</li><li>若p[k ] ≠ p[j]，如果此时p[ next[k] ] == p[j ]，则next[ j + 1 ] = next[k] + 1，否则继续递归前缀索引k = next[k]，而后重复此过程。 相当于在字符p[j+1]之前不存在长度为k+1的前缀"p0 p1, …, pk-1 pk"跟后缀“pj-k pj-k+1, …, pj-1 pj"相等，那么是否可能存在另一个值t+1 &lt; k+1，使得长度更小的前缀 “p0 p1, …, pt-1 pt” 等于长度更小的后缀 “pj-t pj-t+1, …, pj-1 pj” 呢？如果存在，那么这个t+1 便是next[ j+1]的值，此相当于利用已经求得的next 数组（next [0, ..., k, ..., j]）进行P串前缀跟P串后缀的匹配。</li></ul>如下图所示，假定给定模式串ABCDABCE，且已知next [j] = k（相当于“p0 pk-1” = “pj-k pj-1” = AB，可以看出k为2），现要求next [j + 1]等于多少？因为pk = pj = C，所以next[j + 1] = next[j] + 1 = k + 1（可以看出next[j + 1] = 3）。代表字符E前的模式串中，有长度k+1 的相同前缀后缀。<img src="https://www.imgyh.com/usr/uploads/2022/08/3392873716.jpg" alt="next数组1.jpg" title="next数组1.jpg" style="">但如果pk != pj 呢？说明“p0 pk-1 pk” ≠ “pj-k pj-1 pj”。换言之，当pk != pj后，字符E前有多大长度的相同前缀后缀呢？很明显，因为C不同于D，所以ABC 跟 ABD不相同，即字符E前的模式串没有长度为k+1的相同前缀后缀，也就不能再简单的令：next[j + 1] = next[j] + 1 。所以，咱们只能去寻找长度更短一点的相同前缀后缀。<img src="https://www.imgyh.com/usr/uploads/2022/08/3245274506.jpg" alt="next数组2.jpg" title="next数组2.jpg" style="">结合上图来讲，若能在前缀“ p0 pk-1 pk ” 中不断的递归前缀索引k = next [k]，找到一个字符pk’ 也为D，代表pk’ = pj，且满足p0 pk'-1 pk' = pj-k' pj-1 pj，则最大相同的前缀后缀长度为k' + 1，从而next [j + 1] = k’ + 1 = next [k' ] + 1。否则前缀中没有D，则代表没有相同的前缀后缀，next [j + 1] = 0。那为何递归前缀索引k = next[k]，就能找到长度更短的相同前缀后缀呢？这又归根到next数组的含义。我们拿前缀 p0 pk-1 pk 去跟后缀pj-k pj-1 pj匹配，如果pk 跟pj 失配，下一步就是用p[next[k]] 去跟pj 继续匹配，如果p[ next[k] ]跟pj还是不匹配，则需要寻找长度更短的相同前缀后缀，即下一步用p[ next[ next[k] ] ]去跟pj匹配。此过程相当于模式串的自我匹配，所以不断的递归k = next[k]，直到要么找到长度更短的相同前缀后缀，要么没有长度更短的相同前缀后缀。如下图所示：<img src="https://www.imgyh.com/usr/uploads/2022/08/946880797.jpg" alt="next数组3.jpg" title="next数组3.jpg" style="">所以，因最终在前缀ABC中没有找到D，故E的next 值为0： 模式串的后缀：ABDE 模式串的前缀：ABC 前缀右移两位：ABC读到此，有的读者可能又有疑问了，那能否举一个能在前缀中找到字符D的例子呢？OK，咱们便来看一个能在前缀中找到字符D的例子，如下图所示：<img src="https://www.imgyh.com/usr/uploads/2022/08/4058147938.jpg" alt="next数组4.jpg" title="next数组4.jpg" style="">给定模式串DABCDABDE，我们很顺利的求得字符D之前的“DABCDAB”的各个子串的最长相同前缀后缀的长度分别为0 0 0 0 1 2 3，但当遍历到字符D，要求包括D在内的“DABCDABD”最长相同前缀后缀时，我们发现pj处的字符D跟pk处的字符C不一样，换言之，前缀DABC的最后一个字符C 跟后缀DABD的最后一个字符D不相同，所以不存在长度为4的相同前缀后缀。怎么办呢？既然没有长度为4的相同前缀后缀，咱们可以寻找长度短点的相同前缀后缀，最终，因在p0处发现也有个字符D，p0 = pj，所以p[j]对应的长度值为1，相当于E对应的next 值为1（即字符E之前的字符串“DABCDABD”中有长度为1的相同前缀和后缀）。 综上，可以通过递推求得next 数组，代码如下所示：<pre><code>public static void GetNext(String p,int next[])
 {
 int pLen = p.length();
 next[0] = -1;
 int k = -1;
 int j = 0;
 while (j &lt; pLen - 1)
 {
 //p[k]表示前缀，p[j]表示后缀
 if (k == -1 || p.charAt(j) == p.charAt(k))
 {
 ++k;
 ++j;
 // 未优化之前的代码
 next[j] = k;

// 优化next数组代码
 //if (p.charAt(j) != p.charAt(k))
 // next[j] = k; //之前只有这一行
 //else
 // //因为不能出现p.charAt(j) = p.charAt(next[j])，所以当出现时需要继续递归，k = next[k] = next[next[k]]
 // next[j] = next[k];
 }
 else
 {
 k = next[k];
 }
 }
 }</code></pre><h1>参考</h1>摘抄自：<a class="no-external-link" href="https://www.cnblogs.com/zzuuoo666/p/9028287.html" target="_blank">很详尽KMP算法（厉害）</a>

KMP算法总结

KMP算法思想

构造 next 数组

代码递推计算next 数组

参考

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

qBittorrent一键安装脚本

heroku搭建免费的onemanager

Redis实现滑动窗口限流

Rclone挂载OneDrive方法-自建API

Cloudflare面板使用教程

HTML5_Speedtest测试脚本

KMP算法总结

taylor swift

Rclone挂载OneDrive方法-自建API

Rclone挂载GoogleDrive

KMP算法总结

KMP算法思想

构造 next 数组

代码递推计算next 数组

参考

发表评论 取消回复 使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

KMP算法总结

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款