・设计分析 最大熵和HMM在中文词性标注中的应用 余昕聪 李红莲 吕学强(北京信息科技大学,北京i00101) 摘 要:隐马尔可夫模型(HMM)基于n一元语法的标注效果虽然不错,但由于预测信息的不足,对汉语的词性标注,特别是未登录词的词性标 注精度影响很大。而最大熵模型使用特征的形式,有效的利用了上下文信息,在一定的约束条件下可以得到与训练数据一致的概率分布,即使 是未登录词,由于其丰富的上下丈信息,对它的词性标注也起到了很好的预测作用。实验结果证明最大熵方法取得了较好的标注效果。 关键词:隐马尔科夫模型(FIMM);最大熵模型;未登录词;汉语的词性标注 1引言 经过人工标注和校对的训练语料库中有大量的词性标注 词的标记,词的上下文信息),即(t,x)样本。经过统计可以 近年来,信息处理技术在现代社会具有广泛的应用,中文 实例(信息处理也已经进入了快速发展阶段,并极大地提高了中文社 得到训练语料中在特定的上下文中一个词出现某一词性的频 会的信息处理效率。中文信息处理分为汉字信息处理与汉语信 率,从而得到训练语料中上下文信息与输出的经验概率分布:息处理两部分,具体内容包括对字、词、句、篇章的输入、存储 http://baike.baidu.com/view/87682.htm、传输、输出、识别、 转换、压缩、检索、分析、理解和生成等方面的处理技术。在中 文信息处理研究领域中,中文的词性标注是一项基础性的课 题,它是通过适当的方法对于句子中的每个词都标注上一个合 适的词性。词性标注的难点主要是由词性的兼类所引起的,即 同一个词有很多种词性的现象,而我们正在朝着解决这些问题 的方向前进着。 目前词性标注的方法主要有基于规则和基于统计的方 法,常用的词性标注模型有N元模型、隐马尔科夫模(HMM)、 最大熵模型、决策树模型等,本文主要介绍基于最大熵模型的 词性标注方法,将实验结果与隐马尔科夫模型方法进行对比分 析。 2最大熵模型 最大熵是指已知未知分布时,选取这些知识,且熵值最大 的概率分布。假设存在n个特征,所求的模型是在满足约束集合 c= e p ): 惦)} e(1’2'…,一)的条件下生成的模型,而满足约束集 合的模型不只一个,需要的是具有最均匀分布的概率模型,最 大熵原理的实质就是已知部分信息时,对未知部分信息随机, 最合理的推断。而随机事件的不确定性我们可以用条件熵衡 量: Ⅳ(p)=∑p(x)p(t lx)logp(t l ) 式中:p(t 1 )一X出现的情况下t的实际概率。而最大熵模 型就是找出满足上式的具有最均匀分布的模型。故最大熵模型 可以用下式表示: P‘:arg maxH(p) , 在数据分布的先验的限制和条件中,求得的分布与我们认 为重要和可靠的已知条件相符合即可,不去对为未知的数据做 任何的可能的先验假设,从而引入了最大的不确定性,这也是最 大熵模型成功的因素之一。 2.1模型参数的估计 若随机过程所有的输出值所构成集合为T(在本文中T为词 性标记集合),而已知语料库中的所有上下文信息为集合x,对于 一个词来说,其输出t∈T会受到其在文[} |下文信息的影响。对 于词性标记而言,假设x为与待标记词有关的上下文信息的组合 t为该词可能出现的词性标记。那么,对于给定的t∈x,精确估 计输出为t∈T的条件概率,即为对P(t IT)进行精确估讯 p( freq丽(x,t) 随机过程的输出受上下文信息的影响。如在词性标注系统 中,文本待标记可能出现的词性标记与其上下文有关,而上下文 信息可以用特征来表示,建立一个预测模型,可以引人了特征 函数来表述数据集中(x,t)的特性,它被定义为f0,1}域上的二值 函数,例如可用如下所示的二值函数来表示: f(x,t)-{裟 进一步可以引人_系列的特征函数来表示训练数据集的限 制,并在此基础上通过对特征函数的期望值施加一定的约束来 表述存在在原数据集中的上下文依赖关系,即要求特征函数在 p(x)分布上的期望值和在先验模型 ( )上的相同。 ∑p , )=∑ , )’ f=1,2,...,Ⅳ 2.2算法描述 2.2.1训练模型 假设满足最大熵条件的概率具有Gibbs分布: p㈤ 南唧喜 ㈥ 其中: )=∑exp∑^ , ) 每个特征函数对应一个权重值 。 设有n个特征函数,每个特征函数对应一个权重值,我们的 目的实在满足约束集合的模型集合内,求出其中熵最大模型的 一组值,过程如下: (1)从训练语料中经过统计得到 (f, 并计算出: )=∑ (f, (f, ) (2)从训练语料中得到每个词的上下文信息及当前的词性 标记,每一条记为一个import,然后合并成相同的imports; (3)通过对imports的统计得到建立模型所需的特征,并 增加“true”作为校正信息,来满足算法对特征函数的限制条 件。 (4)对于每个import,计算其特征个数m。如果特征个数为 常数则记为C,否Nc为特征个数中的最大值,同时增 ̄JIk=C—m个 校正true,以便使得每个import的c均为常数。 (5)对于所有的i (1 2.., ),设置^:0; (6)对于每个ie0,2,…,一): 其中ch一 ,q,= )表示状态(词性) ;到下一个状态(词 性)S 的次数; c【gf_1= )表示状态(词性) 出现的次数。而每个状态(词 性)所对应的符号(单词)的输出概率矩阵B可以由下列式子求 出: (i)设m为迭代次数,计算: P =V,lq,= J=c(q= p (ffx) e , ) ,q,:8i)/C(q =s ) 其中P【D= = J表示为状态(词性)为s 时输出词 的概 (ii)计算: 率;符号c代表的是其括号内因子在语料库中的计数。 E‘ =∑p‘ (f,x) 通过以上统计方法可以求得模型 =(A,B】将问题转化为已 知词序列w(观测序列)和得到的模型九的情况下,求使得条件 (iii)计算: 概率P , )值最大的那个r,一般记作r=argmaxP ̄T IW, )。 如果训练语料库没有标注,则可以通过一些辅助资源,利 用前向一后向算法进行学习HMM模型。前向一后向算法被用于解 (iv)更新 = +△ 。 决HMM的第三个问题,即HMM的参数估计问题。如果已经训练了 重复(6)直到收敛或循环若干次。 一个与语料库对应的HMM词性标注模型,那么就可以利用这个 在本文中,对于每个import,当f'0, )不为常数时,都增 模型来解决词性标注问题。针对观察序列D=q,02… 和模型 JJHk+ ̄正信  ̄true,使得每个import都有相同的特征个数,而 =(A,B),选择最优的状态序列O=el q:,..., ,使得该状态序 不是对所有的imports统一增加一个校正特征,这样在迭代时 就不存在计算校正参数与其它参数不一致的问题了,这使得在 咆 = 列“最好地解释”观察序列。这里主要采用维特比算法解码,HMM模型的第二大基本问题就是专门来解决这个问题的。 模型训练时,训练时间减少了。同时校正信息与可能的标记形成 了不只一个的校正特征函数,能更精确的进行预测,这使得对 lI- 2.2最佳状态的确定 . ,L: Viterbi算法是运用动态规划搜索这种最优状态序列的算 文本进行词性标记时正确率较增加一个校正参数形成的模型 、●●, 法。Viterbi算法定义了一个维特比变量 J,它表示在时间t 而言有所提高。 隐马尔科夫模型沿着某一条路径到达状态S ,并输出观察序列 2.2._l 2测试模型 q ….. 的最大概率,即: 给定一句需要词性标注的句子,可以得到一个词可能出现 (f)=max P(g1g 2…qt-iq g1,g 2..-gI—l 的词性概率,而这一句话的词性标注的条件概率可表示为: =i,OID 2…D 3 l ) p(f。…f—q… )=兀p(f Ix,) 和前向变量相似, {f)有如下的递归关系,使得我们能 够应用动态规划。除了 【f)外,Viterbi算法利用变量、I, )来 曼宝《 测试模型的目的是要求出使上式的值最大的一组词性标 记忆在时间t隐马尔科夫模型是通过哪一条概率最大的路径到 计 注,在该系统中是用动态规划法实现的。 达状态 的。实际上、I, O)记录了该路径上状态s;的前面一个(在 分 析 2隐马尔科夫模型 时间t一1的)状态。 词性标注问题可描述为给定词序列的条件下,搜寻词性序 对于其算法过程可以用图1进行描述,已知图中符号A和B 列使得最大。可变为在给定观察序列条件下搜索最佳的隐马尔 分别代表了观测序列,下面的Ml、N1分别代表该符号可能输出 科夫状态序列的问题。若第i个词出现的概率依赖于它前面的 的状态,从H2返回s1的最佳状态为N1,因为P(M1-H2)=0.6*0.5= N—1个词,该模型成为N元文法模型。将w视作一阶Markov链,则 0.3,而P(Nl-H2)=0.4x0.8=0.32,说明了从状态N1N达状态H2的 有二元文法模型(Bigram模型):单词出现概率只依赖于。 概率比较大,同时采用、l, O)记录了该路径上状态的前面一个(在 隐马尔科夫模型在词性标注中主要需要解决—下两个问 时间t-1的)状态,即最佳状态N1。尽管搜索还没有完全结束,但 题: 是H2已经找到了最佳返回节点为N1。 (1)模型参数的估计 A B A B (2)最佳状态的确定(Viterbi算法) 2.1模型参数的估计 对于训练语料,其隐藏状态(标记集)和观察符号(单词)是 确定的。确定了标记集和单词,就可以通过训练语料集的性质 进行学习HMM的各项参数。对于初始状态(词性)的概率分布矩 阵n可以通过统计方法得到。而标记间的状态转移概率矩阵A 可以通过如下公式求出: 图1 算法过程示意 ・设计分析 信息的关联进行改进提高正确率。 现如今,统计学方法在中文词性标注中的主流的方法,然 3实验数据 3.1实验方法 本实验采用的是训练语料库为1998年人民日报标记语料 而若是能在这些方法中融入_些有效的语言规则,建立更大规 库。首先,我们要选取适当的内容区完成词性标注的任务,一般 模的语料库,使其能尽可能涵盖更多的语言现象,涉及更多的 好的集更有助于对词的类别和信息进行合理的划分,这里采用 领域,相信会使得词性标注系统有更高的效率和准确率。26个标记词性标记集。从语料库中抽取150万词的内容作为训练 4总结 语料,再从l50万词的训练语料中抽取50万的词作为封闭测试语 汉语的词性标注,是中文信息处理领域中的基础。而关于 料,进行词性标注,并记录正确率。从选定的训练语料之外,再 诃眭标注的研究结果,直接涉及到机器翻译、信息检索、自然语 选取50万的词作为开放测试语料,进行词性标注,并记录正确 言理解等诸多领域。目前来说,在处理中文词性标注方面,有很 率。 多种统计学方法,本文主要最大熵模型和隐马尔科夫模型这两 再分别用最大熵模型和HMM模型两种方法对上述语料进行 种重要的方法进行对比,发现最大熵模型由于采用了.上下文特 开放测试和封闭测试,最后比较二者的正确率。 征机制取得了较好的标注效果。 3.2实验结果 实验结果: [参考文献] 按照以上实验步骤,得到以下实验结果: [1]Jiang Y,Zhou Z,Wan L,et a1.Cross sentence oriented 标注正确率 compl icated Chinese grammar proofreading method and 模型 封闭测试 开放测试 practice[CJ.Information Management,Innovation Management and H删 94.51% 89.19% Industrial Engineering(ICIII),2012 Internationa1 Conference 最大熵 95.13% 90.2l% oil.IEEE,2012,3:254—258. 【2]Zhao Y,Wang X L,Liu B Q,et a1.Applying class triggers 实验结果分析: in Chinese POS tagging based on maximum entropy model lcj. 我们可以从表中的数据看出,对语料进行开放测试和封闭 Machine Learning and Cybernetics,2004.Proceedings of 2004 测试的准确率大有不同。开放测试中由于未登录词( ̄pi)ll练语 International Conference on.IEEE,2004。3:1641-1645. 料中没出现过的词语)的出现,导致其测试概率明显低于封闭 [3]孔海霞.基于最大熵的汉语词性标注[D].大连理工大学.2007. [4]林红,苑春法,郭树军.基于最大熵方法的汉语词性标注[J].计算机应 测试的概率。可见未登录词很大程度上影响了词性标注的准确 用.2004,24(1):14-16. 率。同时我们发现,在汉语词性标注中,最大熵模型提供了较为 [5]赵红 王希杰.基于隐马尔科夫模型的词性标注[IT].安阳师范学院学 灵活的特征机制,能让我们有效的利用上下文的信息去得到更 报.2010(5):9—12. 好的标注结果,更高的准确率,而隐马尔科夫模型中针对上下文 [6]胡春静。韩兆强.基于隐马尔可夫模型(HMM)的词性标注的应用研究 的应用还有待完善,可以通过提高模型的阶数以及针对上下文 [IT].计算机工程与应用.2002,38(6):62—64. (上接第46页) (1)A s c I I编码是已经收到的字符串,可以使用 存的文件就是测量的结果,外业任务完成之后把所得出的结果 MultiByteTowidechar函数转变成Unicode编码然,在进行处 直接输入到Pc,经过对程序的进一步分析,能直接评估精准度 理。 及计算坐标,不使用人工来进行操作,从一定程度上减少了工 (2)测量指令在进行发送出去后,全站仪中的数据不是一次 作人员的工作量,也能减少造成不要的麻烦,有效的提高工作 性发完,应该是分层次来进行发送,因此,字符串要直接连接 效率。 到字符串,才能完成接受任务。 6结束语 (3)字符串的主要任务就是接收完后,要依据复合框进行有 数据通信中使用全站仪和PDA能够有效进行测量,对全站 效的选择,分析全站仪的字符串,也会显示的很清楚。 仪有效进行控制。野外采集数据是比较困难的一个程序,未来 (4)拓扑康是第二种模式,符串后的任务就是接受,在输送 的发展工作研究可能就是要完成PDA与GPS通信,进一步将PDA、 时显示清楚。相反,就会把全站仪输送数据全部给PDA,造成不 GIS和GPS的集成来完成个人移动系统导航。 良后果。 5应用在实际生活中 [参考文献] VC++2005 smart device的MFC smart device [1]杨雄,陈伟.基于WinCE的电梯多媒体系统通信设计与实现[J].工业控 Application,PDA与全站仪中的通信主要依靠多线程来完成, 制计算机.2009,4(08):45-46. 使他们能够稳定运行。根据太原市在进行测绘进行探索指出, [2]吕维涛,李东.基于串口通信的虚拟仪表实时显示技术[J].四川兵工学 外业进行采集时,效果是良好的。全站仪中的数据直接读取,防 报.2010,7(07):89—90. [3]尹丽娜,史仪凯,王文东.手机血压计界面与串口通信的设计研究[J].中 止在读、记方面存在有误差。不过,对存在有误差的数据要自动 国制造业信息化.2011,6(07):45—46. 检查,防止2C差、差互差、2c互差的影响产生误差,而不能及时 [4]郭玉珍,张向伟.基于PDA的全站仪二次开发技术研究[J].矿山测量. 的进行检查,而导致返工现象的发生,工作效率的提高,PDA储 2008,4(01):89-90. 124日圜匿圆