自然语言语义分析研究进展_笔记

news/2024/5/6 2:46:23/文章来源:https://blog.csdn.net/qq_45556665/article/details/126975627

自然语言语义分析研究进展_笔记

词语语义分析:确定词语意义,衡量两个词之间的语义相似度或相关度;

句子语义分析:研究包含句义分析和句义相似度分析两方面;

文本语义分析:识别文本的意义、主题、类别等语义信息的过程,从而实现对大规模文本集合的 有效管理与挖掘。

当前的研究策略:基于知识或语义学规则的语义分析(语义词典、知识库、概念本体库)和基于统计学的词语语义分析。

一、词语语义分析

词语相似性:也可称为可替代性 例如:橘子和橙子

词语相关性:语义相关,但语义不可以替代 例如:爱情和浪漫

(一)基于知识规则的词语语义相似(相关) 分析

利用词语语义知识库中定义好的概念及其之间上下位关系等逻辑关系,通过计算两个概念在概念体系中的距离来衡量词语间的语义相似或相关度。常见的用于词语语义分析的知识表 示方法有: 语义场、语义网络、概念图和本体论。

语义场:由德国学者特雷尔最先提出,目的是研究词汇的语义结构和词语语义相似(或相关)度分析。

语义网络:一种知识表示方法。由美国学者提出,语义网络是由一些有向图表示的三元组连接而成。(结点i、弧、结点j)结点表示概念,弧表示概念之间的关系。

典型的语义知识库:WordNet、FrameNet、MindNet、知网HowNet、同义词词林、中文概念词典。

语义词典:将所有的词组织成树状的层次结构,而词语在树结构图中的路径长度通常作为词语语义距离的度量方法。

利用知网和同义词词林对汉语词语相似和相关度研究具有一定的帮助。

(二)基于统计的词语语义分析

语料库:对现实生活中真实的语言资源进行一定的加工处理并存储在计算机中的语料资源。

常见语料库:

国外:Brown、LOB、LLC、CO-BUILD、ACL/DCI

中文:北京大学的《人民日报》语料库、中国科学院自动化研究所的LDC语料库、清华大学的现代汉语语料库、哈尔滨工业大学信息检索室的语料库、台湾“中央”研究院语料库等。

Word2vec 将词语转换成向量

词语之间相关度计算:相关熵、平均互信息、词语在语料库中的共现概率

二、句子语义分析

(一)句义分析

1.以句法为中心的句义分析

浅层语义分析的流程通常包含 5 个步骤:①预 处理。采用分词、词性标记、名实体识别、句 法分析等自然语言处理技术对输入文本进行处理,得到句子的句法分析树。②句法树剪枝。过滤掉句法分析树中的非语义角色的句法成 分,提高语义分析准确率。③语义角色识别。逐个判断候选句法成分是否为目标谓词的语义角色。④语义角色分类。标记识别出的语义角 色及其对应的语义角色类型。⑤后处理。修正语义角色标注结果,更正一些明显的错误。

2.以语义为中心的句义分析

语法和语义其实是问文本分析过程中的两种研究思路

(二)句子语义相似(相关)度分析

1.基于词层面的句义相似( 相关) 度计算

通过考虑词频和词性的信息来度量句子间的相似(相关)度。

2.基于句子结构层面的句义相似( 相关) 度计算

在句法分析基础上,按照分析出的句子结构来衡量句子之间的相似( 相关) 度。

三、文本语义分析

(一)基于统计的文本语义分析

利用词语的统计信息将大量文本表示为词语向量集合或者词语与文本的某种概率关系,并据此分析文本集合中隐含的主题、词间潜在的语义结构等语义信息。

1.潜在语义分析LSA:文本中的词与词之间存在某种潜在的语义结构,采用统计的方法可以找到该语义结构。对传统的向量空间模型VSM做出改进,有效地解决自然语言的模糊性带来的问题

2.概率潜在语义分析PLSA:将文本由单词空间映射至主题空间,但是,PLSA 模型参数数量随着文本集增长而线性增长,并且会产生过拟合的问题。和 LSA 相比,PLSA 有明确的物理意义,多义词和同义词的现象均可在潜在的 语义空间中得到合理的表示。是对LSA模型的改进

3.隐含狄利克雷分配LDA:LDA 主题模型是一个三层贝叶斯产生式概率模型。该模型假设文 档是由一系列潜在主题随机混合而成,主题是由词汇表中所有的词混合而成,不同文档的主要区别在于其主题混合比例不同。该模型针对每个文档从狄利克雷(Dirichlet)分布中抽样产生该文档包含的主题比例,结合主题和词的概率分布生成该文档中的每一个词汇。

相较于LSA和PLSA,LDA的优点在于具有清晰的内在结构,算法效率高,通过无监督方法进行训练,从而于训练样本数量无关。

LDA 模型能分析出隐藏在海量文本背后的主题语义信息,也可以完成文本分类、主题检测、文本自动摘要和关联判断等多方面的文本语义挖掘。

(二)基于语义学的文本语义分析

格语法、概念层次理论、框架语义学、本体语义学
在这里插入图片描述

无论词语、句子还是篇章,按照研究策略的不 同, 现有每层次语义分析研究都大概可分为基于知识或语义学规则的语义分析和基于统计学的语义分析。前者是一种理性主义方法,它 以语言学、心理学、哲学等理论为基础,由人工编写语法语义知识表示体系(如语义词典、语义网络等) ,构造相应的语义推理程序,系统根据规则和程 序,将自然语言所含意义推 导出来。后者是一种经验主义方法,它通过建立特定的数学模型来学习语料库中的语言结构,然后利用统计学、概率论等数学方法来观测词语、句子和文本中客观存在的各种关联,从而识别其相关的语义信息。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_11808.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用@JsonFormat并进一步了解:格式化java.util.Date对象

Java 8 Spring Boot 2.7.3 jackson 2.13.3 -- ben发布于博客园 0、前言 开发过程中遇到问题: 前端调用接口得到的时间对象(java.util.Date)总是存在这样那样的问题。 调查后发现,可以使用 @JsonFormat注解(来自jackson依赖包)解决相关问题。 ben发布于博客园 新建spring …

区块链分叉带来的安全挑战

区块链分叉分为软分叉和硬分叉。本文主要探讨的是硬分叉,一种不支持向后兼容的软件升级方式。硬分叉是共识的分裂或者改变,共识就是区块链系统中各节点达成数据一致性的算法,正常情况下每个节点需要运行相同规则的算法,例如比特币…

计算机毕业设计之java+javaweb的影院管理系统-电影院管理系统

计算机毕业设计之javajavaweb的影院管理系统-电影院管理系统 项目介绍 影院的需求和管理上的不断提升,影院管理的潜力将无限扩大,影院管理系统在业界被广泛关注,本网站及对此进行总体分析,将影院信息管理的发展提供参考。影院管理系统对影院发展有着明显的带动效应,尤其对当地影…

【ManageEngine】OpManager 2022用户体验报告

关于SoftwareViews SoftwareReviews是Info-Tech Research Group的一个部门,是一家世界级的技术研究和咨询公司,拥有超过20年的基于研究的IT建议和技术实施。 SoftwareViews务实的工具和详细的客户洞察力帮助软件购买者在技术决策中取得最大成功。 Sof…

Java并发编程解析 | 基于JDK源码解析Java领域中ReentrantLock锁的设计思想与实现原理 (一)

苍穹之边,浩瀚之挚,眰恦之美; 悟心悟性,善始善终,惟善惟道! —— 朝槿《朝槿兮年说》写在开头在并发编程领域,有两大核心问题:一个是互斥,即同一时刻只允许一个线程访问共享资源;另一个是同步,即线程之间如何通信、协作。主要原因是,对于多线程实现实现并发,一直以…

全能赛道、热门方向、稀缺数据,“嬴彻-清华AIR杯”自动驾驶技术大赛火热开赛中

如果你关注自动驾驶,那有这样一个算法大赛,值得参与。由卡车自动驾驶领导者嬴彻科技与清华大学智能产业研究院(AIR)精心打造的“嬴彻-清华AIR杯”自动驾驶技术挑战赛正火热开赛中。这是国内首个同时覆盖干线物流和城市道路双赛道的大赛。决策规划是自动驾驶当下的热门方向和技术…

go语言的基本数据类型

基本数据类型中的常量已经介绍了 var const iota 。此处要对字符串特别说明,字符串也会被认为是基本数据类型,字符串实际在底层原理上与复合类型的数据非常相似。同事go语言支持八进制,6进制,科学计数法。空指针的值是nil。 整…

百度地图API

一、百度地图API接入 1、搜索百度地图开发平台 2、注册百度账号 3、登陆并申请成为开发者 4、在百度地图开发平台的首页选择控制台,在控制台中创建应用 创建好应用以后就能在控制台我的应用中看到这个应用,其中最重要的是AK,这是百度地图…

从0-1,如何用低代码搭建管理系统

关键字:功能模块、流程中心、OA 前言:对于搭建系统,字眼上都知道是怎么回事,但要怎么搭建到最后怎么呈现一个投入运作的系统,估计就很少人知道了。当然作为专业的程序员肯定知道怎么操作,但是不是必须要专业…

IDEA集成Git

介绍 参考视频教程: https://www.bilibili.com/video/BV1vy4y1s7k6?p27 1 配置 Git 忽略文件 1.1为什么要配置 问题 1:为什么要忽略他们? 答:与项目的实际功能无关,不参与服务器上部署运行。把它们忽略掉能够屏蔽 IDE 工具之 间的差异。…

湖仓一体电商项目(十八):业务实现之编写写入DWD层业务代码

文章目录 业务实现之编写写入DWD层业务代码 一、代码编写 二、​​​​​​​​​​​​​​创建Iceberg-DWD层表 1、在Hive中添加Iceberg表格式需要的包 2、创建Iceberg表 三、代码测试 1、在Kafka中创建对应的topic 2、将代码中消费Kafka数据改成从头开始消费 3、执…

【展馆攻略】展馆室内精准定位导航服务,便捷无忧,所见必达!

近年来,室内定位导航服务被各大商场、园区、景区等场所广泛使用,逐渐融入到人们日常生活中。室内地图从传统的平面信息图发展到智能化3D可视化交互展示,实现了室内综合场景的精准定位导航。 在面对室内或者建筑物遮挡区域,室内导航…

浏览器如何渲染页面?

DOM 浏览器渲染页面的过程就像是盖房子,一般先请求服务器得到HTML文件,HTML文件就相当于网页的框架结构,不过一开始浏览器得到的是显示字节内容的HTML文件,必须要内化为自己看的懂的语言才行,于是就把字节转化为字符&…

vue小案列(hello world)

目录 1 页签图标的报错解决 2 创建vue实例 3 初识Vue分析 1 页签图标的报错解决 1 首先,在我们的html中定义一个容器,然后右键(Open with LIve Server)打开,需要安装LIve Server插件 打开之后发现控制台报如下错误&a…

2022年服装进销存软件排行榜重磅出炉!

小编调研了一下身边做服装行业的老板,普遍反映如今服装实体店越来越难做了,日常经营过程中,难免会遇到各种问题:商品种类多、款式多、库存多、活动多……这些都让老板们应接不暇,尽管每天早出晚归地管理店铺&#xff0…

怎么音频转文字?快把这些方法收好

相信不少的小伙伴,经常需要对自己的录音文件进行整理归纳吧,其中不乏是课堂的重点知识、会议上的重点纪要、谈判中的重点内容。那小伙伴们平时在整理的时候,大概都需要花费多少时间呢?为了能够将音频的内容完整呈现出来&#xff0…

SpringBoot多数据源

使用场景 在实际开发中,可能遇到多数据源的场景。 业务复杂(数据量大) 数据分布在不同的数据库中,对业务数据进行垂直拆分。 可以拆分为微服务架构,依赖的业务可以通过远程调用的方式来是实现,那么这种方…

机器学习中常见性能度量汇总

前言 如果你对这篇文章可感兴趣,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。 回归 在回归任务上,目前最常用的性能度量方式是均方误差 (Mean Squared Error, MSE): MSE1m∑i1…

flex布局

flex布局 开启flex功能 <html><head><style>.container{border: 1px solid #000;width: 400px;height: 400px;margin-left: 20px;margin-top: 20px;display: flex; // 开启flex布局}.item{width: 100px;height: 100px;color: #fff;text-align: center;line…

kubernetes(2)k8s环境搭建:kubeadm安装、二进制方式安装

环境平台规划 k8s里面之前我们了解过&#xff0c;主要的内容是master和node&#xff0c;所有这里可以划分为 单master集群多master集群 单master集群 缺点&#xff1a;master挂掉后&#xff0c;便不能去管理node节点了 多master集群 与之前的区别便是多了master 服务器硬件…