CRF条件随机场的原理、例子、公式推导和应用

news/2024/5/20 15:31:19/文章来源:https://blog.csdn.net/WitsMakeMen/article/details/131204733

转子:https://zhuanlan.zhihu.com/p/148813079
在这里插入图片描述
条件随机场(Conditional Random Field,CRF)是自然语言处理的基础模型,广泛应用于中文分词、命名实体识别、词性标注等标注场景。

条件随机场CRF与深度学习结合,产生了BiLSTM-CRF、BiLSTM-CNN-CRF等模型,在中文分词、命名实体识别、词性标注也取得不错的效果。

条件随机场CRF与Attention机制结合,又发展成了Transformer-CRF、BERT-BiLSTM-CRF等模型,使中文分词、命名实体识别、词性标注效果又有显著提高。

本文先引出条件随机场CRF的场、随机场、团、最大团等相关基础概念;接着介绍CRF的原理,重点阐述了线性链条件随机场的原理;然后介绍CRF在中文分词、命名实体识别、词性标注的具体应用;最后对CRF进行总结,指出图模型之间的演化关系,及CRF模型的发展简史。

本文结构如下:

一、CRF基础
1、无向图
2、马尔可夫随机场
3、最大团
4、无向图的因子分解

二、CRF原理
1、条件随机场
2、线性链条件随机场
3、线性链条件随机场公式
4、条件随机场例子

三、CRF应用
1、中文分词
2、命名实体识别
3、词性标注

四、CRF总结
1、CRF的概括总结
2、图模型之间的关系
3、CRF的发展简史

在这里插入图片描述

一、CRF基础

在这里插入图片描述
1、无向图

什么是图?什么是无向图?

在这里插入图片描述
2、马尔可夫随机场

什么是场?什么是随机过程?

在这里插入图片描述
什么是随机场?什么是马尔可夫随机场?
在这里插入图片描述
3、最大团

什么是团?什么是最大团?

在这里插入图片描述
4、无向图的因子分解

Hammersley-Clifford 定理如下:
在这里插入图片描述
举个无向图的因子分解的例子。
在这里插入图片描述

二、CRF原理

在这里插入图片描述
1、条件随机场

2001年,John Lafferty, Andrew McCallum 和 Fernando Pereira,在论文《 Conditional Random fields :Probabilistic Models for Segmenting and Labeling Sequence Data》提出条件随机场。

Conditional Random fields :Probabilistic Models for Segmenting and Labeling Sequence Data
​citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.26.803&rep=rep1&type=pdf
提出条件随机场。

在这里插入图片描述
条件随机场定义如下:

在这里插入图片描述
2、线性链条件随机场

在这里插入图片描述
线性链条件随机场的定义如下:

在这里插入图片描述
线性链条件随机场CRF的图结构

在这里插入图片描述
3、线性链条件随机场公式
在这里插入图片描述
特征函数定义如下:

在这里插入图片描述
为了简单起见,将转移特征和状态特征及其权值用统一符号表示。条件随机场简化公式如下:

在这里插入图片描述
4、条件随机场例子

例2:已知中文文本"刘启林”,采用IOB标注方法,求实体标注序列为{ B,I,I }的概率。

在这里插入图片描述
例1的几何描述如下:

在这里插入图片描述

例1的标注序列为{B、I、I}的联合概率分布如下:

在这里插入图片描述

三、CRF应用

在这里插入图片描述
1、中文分词

刘启林:中文分词的原理、方法与工具
178 赞同 · 8 评论文章

基于CRF由字构词方法的基本思想,基本原理如下:

在这里插入图片描述

CRF中文分词的图结构如下:

在这里插入图片描述
2、命名实体识别

刘启林:中文命名实体识别NER的原理、方法与工具
195 赞同 · 16 评论文章

基于CRF的命名实体识别过程如下:

在这里插入图片描述
CRF命名实体识别的图结构如下:

在这里插入图片描述
3、词性标注

基于CRF词性标注方法的基本思想,基本原理如下:

在这里插入图片描述
CRF中文词性标注的图结构如下:
在这里插入图片描述

四、CRF总结

在这里插入图片描述

1、CRF的概括总结
在这里插入图片描述
2、图模型之间的关系

朴素贝叶斯、HMM、逻辑回归、CRF等图模型关系如下:
在这里插入图片描述

朴素贝叶斯、HMM、逻辑回归、CRF对比如下表所示:
在这里插入图片描述
更多HMM可参考:

刘启林:HMM隐马尔可夫模型的例子、原理、计算和应用
437 赞同 · 39 评论文章

更多LR逻辑回归模型可参考:

刘启林:LR逻辑回归模型的原理、公式推导、Python实现和应用
141 赞同 · 12 评论文章

3、CRF的发展简史

在这里插入图片描述
机器学习阶段:CRF

深度学习阶段:BiLSTM-CRF、BiLSTM-CNN-CRF

Attention阶段:Transformer-CRF、BERT-BiLSTM-CRF

条件随机场CRF一直是标注问题的基础模型。

由于能力和水平的限制,我的可能是错的。

参考文献:
1、王元等, 数学大词典(第二版), 科学出版社[M], 2017.09

2、John Lafferty, Andrew McCallum, and Fernando Pereira, "Conditional Random Fields:

Probabilistic Models for Segmenting and Labeling Sequence Data", June 2001.

3、李航, 统计学习方法(第2版), 清华大学出版社[M], 2019.05

4、宗成庆, 统计自然语言处理(第2版), 清华大学出版社[M], 2013.08

5、Charles Sutton and Andrew McCallum, An Introduction to Conditional Random Fields, 2011

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_694648.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ThreadLocal引发的内存泄漏分析

预备知识(引用) Object o new Object(); 这个o,我们可以称之为对象引用,而new Object()我们可以称之为在内存中产生了一个对象实例。 当写下 onull时,只是表示o不再指向堆中object的对象实例,不代表这个…

const用于C++引用(注意事项)

const用于C引用 存在的问题解决方法原理 存在的问题 左值是可以被引用的数据对象,可以通过地址访问它们,例如:变量、数组元素、结构体成员、引用和解引用的指针。 非左值包括字面常量(用双引号包含的字符串除外)和包含…

国家版权局正版化检查工具添加自定义检查软件及问题处理

使用国家版权局正版化检查工具进行软件正版化检查时,根据各个单位购买的正版化软件的不同,需要将自购软件和禁用软件增加到检查清单,本文件介绍添加自定义检查软件的方法及问题处理。 一、检查清单文件介绍及修改方法 国家版权局正版化检查工…

CentOS阿里镜像源

阿里CentOS镜像源位置:http://mirrors.aliyun.com/centos/?spma2c6h.25603864.0.0.50d03715CS95s4 CentOS下载最小位置: https://mirrors.aliyun.com/centos/7.9.2009/isos/x86_64/?spma2c6h.25603864.0.0.5e38f5advNCSXC 如图:

华为OD机试真题 JavaScript 实现【火星文计算】【2022Q2 100分】,附详细解题思路

一、题目描述 已知火星人使用的运算符为#、$,其与地球人的等价公式如下: x#y 2*x3*y4 x$y 3*xy2 其中x、y是无符号整数;地球人公式按C语言规则计算;火星人公式中,$的优先级高于#,相同的运算符&#x…

索引介绍和基本使用

介绍 索引就是用来加速SQL查询的 由于索引也是需要存储成索引文件的,因此对索引的使用也会涉及磁盘I/O操作。如果索引创建过多,使用不当,会造成SQL查询时,进行大量无用的磁盘I/O操作,降低了SQL的查询效率&#xff0c…

相机标定实战之双目标定

相机标定原理 文章目录 相机标定原理前言一、采集图像二、基于Matlab单双目标定流程采集棋盘图 三、基于OpenCV-Python双目标定流程检测棋盘格角点对角点进行亚像素精细化单目标定双目标定双目校正保存标定参数读取标定参数代码示例 参考 前言 相机标定可以说是计算机视觉/机器…

【链表复习】C++ 链表复习及题目解析 (2)

目录 牛客 CM11 链表分割 牛客 OR36 之链表的回文结构 Leetcode 160. 相交链表 LeetCode 141. 环形链表 LeetCode 138. 复制带随机指针的链表 本文继续延续前文,为大家带来几道经典的链表中等难度的题目。 牛客 CM11 链表分割 现有一链表的头指针 ListNode* p…

7--Gradle进阶 - settings.gradle的文件说明

7--Gradle进阶 - settings.gradle的文件说明 前言 介绍 settings.gradle 文件之前,先来说明一下,settings.gradle 主要是用来多模块工程使用的。 所以我们先来创建一个多模块的工程。 多模块工程创建 1. 创建 root 工程 1.1 配置本地 Gradle 1.2 配置依赖…

怎么把图片放大不改变清晰度,给大家介绍两个方法

时代的发展和进步,我们在使用手机、电脑等设备时,常常需要对图片进行放大操作。从功能上来说,图片放大可以让我们更好地观看和理解图片内容,同时也可以提高图像分辨率和清晰度,以满足不同的需求和场景首先,…

WDM波分复用技术:TFF(薄膜滤波) AWG(阵列波导光栅)介绍

WDM (Wavelength Division Multiplexing)技术是通过在光纤中传输多个不同波长的光信号来扩大光纤传输带宽并提高网络传输能力的一种技术,而TFF(薄膜滤波)和AWG(阵列波导光栅)则是两种常用的WDM技术。 TFF技术 TFF &a…

object类clone、finalize

2 什么是API API(Application Programming Interface,应用程序接口)是一些预先定义的函数。目的是提供应用程序与开发人员基于某软件可以访问的一些功能集,但又无需访问源码或理解内部工作机制的细节. API是一种通用功能集,有时公…

自动驾驶专题介绍 ———— 激光雷达标定

文章目录 介绍激光雷达与激光雷达之间的外参标定激光雷达与摄像头的标定 介绍 激光雷达在感知、定位方面发挥着重要作用。跟摄像头一样,激光雷达也是需要进行内外参数标定的。内参标定是指内部激光发射器坐标系与雷达自身坐标系的转换关系,在出厂之前就已…

【道友避坑】CUB数据集转yolov5格式

写在前面:最近我拿到一个CUB_200_2011鸟类训练模型,但是我想将他转为yolov的格式进行应用。看了些其他博主博客后,发现跳跃性有些强。再此记录转换过程,希望各位道友修得此法后,能有所收获! 一、获取数据集…

为什么年龄越大工作失误越多水平越低能力越差-个人案例

此为内容创作模板,在发布之前请将不必要的内容删除 在日复一日的工作中,我们免不了会产生一些失误,会因此感到沮丧和失望。但如何正确地对待和处理这些失误才是最重要的,它直接影响到我们的工作表现和个人成长。一起来谈谈作为职…

信贷产品的贷前获客营销策略搭建

在竞争激烈的信贷市场中,有效的贷前获客营销策略对于吸引潜在借款人、提高转化率以及保持客户忠诚度至关重要。本文将分享一些关于信贷产品贷前获客营销策略搭建的基本框架和经验分享,希望能对大家有所启发。 1、市场调研和目标客户定义 在制定贷前获客…

使用Unity开发一个游戏类型的区块链 [独立区块链]

ArouseBlockchain [Unity独立区块链] 这是一个学习性质的项目,使用了Unity进行独立区块链游戏的开发。 徽章维护者如何贡献使用许可 项目说明 关于本项目的使用说明 背景安装使用说明 生成器 区块链简述 区块链的基础知识简述 背景 未来趋势 区块链未来趋势的…

【什么是iMessage推送,im群发】苹果推iMessage是苹果公司为其设备用户提供的即时通讯服务

iMessage是苹果公司为其设备用户提供的即时通讯服务,拥有一系列强大的功能和特点。然而,至今为止,苹果并未提供官方的群发部署功能。iMessage主要被设计为点对点的通信工具,即用户可以与一个或多个人进行私密的聊天对话。以下是关…

VMware Workstation 17 的安装

一、简介 VMware Workstation 17.0是一款功能非常强大的虚拟机,可以帮助用户在Windows系统上同时开启多个系统,不仅能在虚拟机上安装上不同的操作系统,比如Mac、Linux以及Windows10/11等,还能与云技术和容器技术(如 D…

SpringCloud Eureka注册服务提供者(七)

这里我们在原来的服务提供者项目 microservice-student-provider-1001 上面直接修改&#xff1a; 首先pom.xml修改&#xff0c;加上eureka客户端依赖&#xff1a; <dependency> <groupId>org.springframework.cloud</groupId> <artifactId>…