序列标注任务常用方法

手机游戏开发者 2024-9-24 12:36:24 92 0 来自 中国
1. HMM

1.1 模型原理

HMM中,有5个基本元素:{N,M,A,B,π},结合序列标志任务(NER)对其的概念定义为:

  • N:状态的有限集合。在这里,是指每一个词语背后的标注。
  • M:观察值的有限集合。在这里,是指每一个词语本身。
  • A:状态转移概率矩阵。在这里,是指某一个标注转移到下一个标注的概率。
  • B:观测概率矩阵,也就是发射概率矩阵。在这里,是指在某个标注下,生成某个词的概率。
  • π:初始概率矩阵。在这里,是指每一个标注的初始化概率。
而以上的这些元素,都是可以从训练语料集中统计出来的。最后根据这些统计值,应用维特比(viterbi)算法,算出词语序列背后的标注序列了,命名实体识别本质上就是序列标注,只需要定义好对应的标签以及模式串,就可以从标注序列中提取出实体

假设对于t时刻的一个词
您需要登录后才可以回帖 登录 | 立即注册

Powered by CangBaoKu v1.0 小黑屋藏宝库It社区( 冀ICP备14008649号 )

GMT+8, 2024-11-22 00:05, Processed in 0.167370 second(s), 32 queries.© 2003-2025 cbk Team.

快速回复 返回顶部 返回列表