博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
古德-图灵估计
阅读量:5902 次
发布时间:2019-06-19

本文共 871 字,大约阅读时间需要 2 分钟。

  古德-图灵估计可以解决n元语法模型(n-gram)中的数据的稀疏问题。主要的思想是把非零的n元语法的概率降低匀给一些低概率n元语法,以修改最大似然估计与真实概率之间的偏离。是实用比较多的平滑算法。

                        

            图:从左到右的变化:把一部分看得见的事件的概率匀给未看见的事件  

      以统计词典中的概率为例,来说明古德-图铃公式。

      假定在语料库中出现r次的词有Nr个,特别的出现0次(未登录词)出现的次数为N0个。语料库中词语的个数为N,显然

                                

      出现r次的词在词典中的相对频度为r/N。如果不做任何优化处理,就依这个相对频度作为这些词的概率估计。

      加入当r非常小时,这么统计可能不可靠,因此出现r次的那些词在计算它们的概率时要使用一个更小一点的数,是dr,而不是r。古德-图灵估计按照下面的公式计算dr:

                                   dr=(r+1)* Nr+1/Nr

      显然

                                  

      一般来说,出现一次的词的数量比出现两次的词的数量多,出现两次的词的数量比出现三次的数量多。这叫做Zipf定律。下图是一个小语料库中,出现次数r和对应的数量Nr之间的关系。

      这样就给未登录词一个很小的非零值,从而解决了零概率问题。同时下调了出现频率很低的词的概率。在实际的自然语言处理中,一般对出现次数超过某个阈值的词概率不下调;只对低于这个阈值的词,概率下调;下调的频率之和等于未登录词的概率。

      对于二元组(wi-1,wi)的条件概率估计P(wi|wi-1)也可以做同样的处理。因通过前一个词wi-1预测后一个词wi时,所有可能情况的条件总和应该为1,即

                  

      对于出现次数非常少的二元组(wi-1|wi),它们出现的次数需要按着古德-图灵的方法打折扣,这样意味着有一部分概率没有分配出去,留给了未登录的二元组(wi-1wi)。基于这种思想,估计二元模型概率公式如下:

                 

      其中T是一个阈值,一般在8-10左右,fgt表示经过古德-图灵估计后的相对频度。

本文转自jihite博客园博客,原文链接:http://www.cnblogs.com/kaituorensheng/p/4175955.html,如需转载请自行联系原作者

你可能感兴趣的文章
idea 编译级别的设置
查看>>
内置对象Array的原型对象中添加方法
查看>>
12行代码的相关节点
查看>>
6大设计原则
查看>>
Github简介
查看>>
部署包含水晶报表Crystal Reports 的VS.NET2005应用程序[原创]
查看>>
存储过程—导出table数据为inser sqlt语句
查看>>
Windows 7下Maven3.0.3的安装
查看>>
CISCO2691的OSPF点对点密文测评测试
查看>>
POJ 1661 Help Jimmy(递推DP)
查看>>
Node.js 中文学习资料和教程导航
查看>>
查找(AVL平衡二叉树)
查看>>
Javascript函数调用的四种模式
查看>>
用 Asterisk 搭建自己的免费 VoIP 服务器
查看>>
lua笔记二 赋值语句
查看>>
Android 中 Internal Storage 和 External Storage 的区别
查看>>
移动端拖拽(模块化开发,触摸事件,webpack)
查看>>
spring配置和注解事务同时存在导致的事务嵌套
查看>>
AE要素选择(点选和拉框选择)
查看>>
AJAX-初学AJAX本地环境配置
查看>>