动态规划——最小编辑代价

1.问题描述

上一次说了最小编辑距离,这次在这上面加一点料,a1、a2和a3每次操作的代价不同了,加入了每个操作的代价,这下问题变为,针对字符串a和字符串b定义三种操作,a1、a2、a3:
a1:修改a中一个字符,代价为A
a2:插入一个字符到a中,代价为B
a3:从a中删除一个字符,代价为C
经过这三种操作,将a变换成b,在给定a和b的情况下,求需要的最小代价

2.问题分析

该问题同样是一个动态规划求解问题,首先构建动态规划矩阵进行分析。假设a字符串“abcd”,b字符串“acde”,以a字符串为列,b字符串为行,构建动态规划矩阵如下所示。

a c d e
a
b
c
d

现在的问题是要将列逐渐变成行,即将字符串a变成b,关键问题是填充上述矩阵元素值的方法。我们可以看到,矩阵的第一行,和第一列可以直接比较得出,即第一行字符“a”变成字符串b需要的操作,“a”变成第一列“a”,。两字符相等,不需要操作;“a”变成字符串“ab”需要再右侧基础上加一部插入操作,所以在矩阵[0,0]位置加上一部插入,变成矩阵[0,1]位置;依次类推,我们可以逐渐插入字符,从字符串“a”变成b,得到矩阵第一行的操作次数记录,这时记得插入操作的代价为B。同理,按列操作,可以得到a变换成字符“a”的操作次数,这里是删除操作,代价为C。如此得到矩阵第一行和第一列,如下所示。

a c d e
a 0 B 2B 3B
b C
c 2C
d 3C

下面是计算的关键部分,就是如何计算矩阵中如下元素的值,可以看到,在矩阵中,从上方[i-1,j]到[i,j]为删除操作,代价为C,从左侧[i,j-1]到[i,j]为插入操作,代价为B,从左上方[i-1,j-1]到[i,j]是修改操作,如果此时a[i]!=b[j],执行修改,代价为A。

a c d e
a 0 B 2B 3B
b C min(n1,n2,n3)
c 2C
d 3C |

从矩阵可以得出规律,每次需要操作时,都在$$[i-1,j-1]$$(i表示行,j表示列),$$[i-1,j]$$和$$[i,j-1]$$三个位置的基础上,计算当前元素[i,j]是否需要进行操作。根据[i-1,j],[i,j-1]和[i-1,j-1]三个位置的取值最小的值来判断进行的操作,加上操作的代价Cost,即为当前[i,j]的取值。最终结果取这三个值的最小值。可以得到动态规划方程:

int ncostA = 0, ncostB = nB, ncostC = nC;
if (a[i] != b[j])
{
    ncostA = A;
}
[i,j] = min([i-1,j] + ncostC, [i,j-1] + ncostB, [i-1,j-1] + ncostA);

通过规划方程,对矩阵所有元素进行赋值,最终矩阵右下角次数值即为所求最少操作次数。为了编程方便,我们在构建矩阵时在原有字符串前加入一个标识位,假设A=1,B=2,C=3,得到如下矩阵。

a c d e
0 2 4 6 8
a 3 0 2 4 6
b 6 3 1 3 5
c 9 6 3 2 4
d 12 9 6 3 3

3代码

int min(int a, int b)
{
    if (a < b)
    {
        return a;
    }
    else
    {
        return b;
    }
}

int min(int a, int b, int c)
{
    int ntemp1 = min(a, b);
    int ntemp2 = min(b, c);

    if (ntemp1 < ntemp2)
    {
        return ntemp1;
    }
    else
    {
        return ntemp2;
    }
}

int minEditNumber(char *src, char * dst, int nA, int nB, int nC)
{
    int nsrc = strlen(src);
    int ndst = strlen(dst);

    if (0 == nsrc)
    {
        return ndst;
    }
    else if (0 == ndst)
    {
        return nsrc;
    }

    int **pnmatrix = new int* [nsrc + 1];

    for (int n = 0; n <= nsrc; n++)
    {
        pnmatrix[n] = new int[ndst + 1];
    }

    for (int i = 0; i <= nsrc; i++)
    {
        pnmatrix[i][0] = i*nC;
    }

    for (int j = 0; j <= ndst; j++)
    {
        pnmatrix[0][j] = j*nB;
    }

    for (int i = 1; i <= nsrc; i++)
    {
        for (int j = 1; j <= ndst; j++)
        {
            int ncost = 0;
            if (src[i-1] != dst[j-1])
            {
                ncost = nA;
            }
            pnmatrix[i][j] = min(pnmatrix[i - 1][j - 1] + ncost, pnmatrix[i - 1][j] + nC, pnmatrix[i][j - 1] + nB);
        }
    }

    //print matrix
    for (int i = 0; i <= nsrc; i++)
    {
        for (int j = 0; j <= ndst; j++)
        {
            cout << pnmatrix[i][j] << " ";
        }
        cout << endl;
    }

    int nReturn = pnmatrix[nsrc][ndst];

    for (int i = 0; i <= nsrc; i++)
    {
        delete[] pnmatrix[i];
        pnmatrix[i] = NULL;
    }
    delete[] pnmatrix;
    pnmatrix = NULL;

    return nReturn;
}

int main()
{
    char *p1 = "abcd";
    char *p2 = "acde";

    int nNo = minEditNumber(p1, p2,1,2,3);
}

原创文章,作者:admin,如若转载,请注明出处:https://www.isclab.org.cn/2015/11/09/%e5%8a%a8%e6%80%81%e8%a7%84%e5%88%92-%e6%9c%80%e5%b0%8f%e7%bc%96%e8%be%91%e4%bb%a3%e4%bb%b7/

(1)
adminadmin
上一篇 2015年9月9日
下一篇 2016年1月21日

相关推荐

  • Transformer中的Multi-Head Attention

          注意力(Attention)机制被广泛应用到基于深度学习的自然语言处理(NLP)各个任务中。随着注意力机制的…

    2018年12月17日
    1.9K
  • 智能体的工具调用攻击

    本报告探讨了大语言模型智能体工具调用机制中的安全漏洞,重点分析了两种新型攻击方法。AMA攻击通过黑盒迭代优化恶意工具的元数据,使其在语义合法的前提下显著提升被智能体选择的概率,在多…

    2026年1月26日
    1.7K
  • 准确高效地检测安卓APP中的第三方库

    本次报告主要讲述了如何准确高效地检测安卓APP内的第三方库。介绍了第三方库检测的基本概念和主要困难,解释了准确高效检测第三方库的意义,详细讲解布隆过滤器的原理与使用方法、基于熵的代…

    2023年7月27日
    1.6K
  • python Web编程-Django

    本次学术报告介绍Web及其两种基本开发方式前后端分离和前后端不分离,然后针对pythonWeb开发中适合初学者且较为稳定的Django 展开介绍,内容主要包括Django基本开发模…

    2021年1月24日
    2.0K
  • 从生成机制探索机生文本检测新方法

    随着大语言模型生成文本规模持续扩大,跨模型、跨领域场景下的机生文本检测面临泛化性不足的挑战。本次学术报告从文本生成机制出发,系统介绍了基于前文记忆建模与多范围写作策略差异的代表性方…

    2026年1月5日
    1.8K
  • 文本分类硬标签黑盒模型的对抗样本生成方法研究

    研究文本分类硬标签黑盒模型的对抗样本生成方法,分析模型的潜在安全风险,为加强模型鲁棒性提供方向。本次学习报告讲解了文本分类模型对抗样本生成方法的总体状况,并介绍了关于文本分类硬标签…

    2024年11月27日
    1.6K
  • 网络安全

    虚拟化技术:        初识虚拟化技术        XenAccess介绍        虚拟化安全监控技术小结  漏洞分析与利用:        缓冲区溢出漏洞浅析    …

    学术报告 2014年11月5日
    1.7K
  • Cache侧信道攻击与防御

    本报告讲述了cache侧信道攻击与防御基本分类及理论基础,给出了基于冲突和基于访问两类侧信道攻击和反制措施的基本概念,并对介绍基于映射随机化和基于隔离两类防御方法的文献进行了详细介…

    2021年11月23日
    3.1K
  • 基于GNN的加密流量方法

    本次报告围绕基于GNN的加密流量分类技术展开,首先阐述了基于GNN的加密流量分类的基本概念、研究背景和研究意义,然后介绍了传统加密流量识别方法的特点与优劣势,并介绍了利用GNN进行…

    2025年6月4日
    1.6K
  • 协议模糊测试方法

    本次报告围绕协议模糊测试方法展开,从提升协议模糊测试效率和有效性上考虑,要满足以下三个层面内容:1、数据生成角度:生成的测试用例要符合协议规范;2、数据传输角度:生成的测试用例能够…

    2026年3月1日
    847