目录
摘要 1
Abstract 2
前言 3
第一章 概述 4
1.1引言 4
1.2 课题的主要任务和目标 4
1.3本文的组织 4
第二章 相关技术背景 6
2.1 知识图谱 6
2.2文本情感分析 6
第三章 数据整理和算法设计 8
3.1数据的清洗 8
3.2中文分词 9
3.3停用词处理 10
3.4知识图谱提取设计 10
3.5本章小结 11
第四章 实验设计分析和评估 12
4.1实验设计 12
4.2实验结果分析 20
4.3实验评估 25
4.4本章小结 25
第五章 总结和展望 27
5.1课题总结 27
5.2课题展望 27
参考文献 29
致谢 30
本文首先介绍课题的内容,任务,以及目标。接着,本文介绍课题的技术背景:第一是知识图谱的技术背景;第二是文本情感分析的技术背景。随后本文介绍搭建基于投诉文本的知识图谱的数据整理算法以及知识图谱提取算法。接下来,根据这些算法,并且结合诸如Beautiful Soup、jieba分词、matplotlib等等工具进行具体的实验,取得了预期的实验效果。
文本情感分析又被称为意见挖掘[5],是指对存在主观情感倾向的文本进行情感分析和提取的过程。文本情感分析技术一般被用来做网络营销、企业舆情监控、政府舆论监控等等用途。一般来讲,文本情感分析技术可以划分成几个子任务,首先是提取给定文本的主题。接着是确定陈述者主体,然后是提取该主体的陈述的主观性语句,过滤那些客观性语句。最后是对他的情感倾向进行判断分析。根据给定文本的粒度不同,可以将文本情感分析划分为词汇级,语句级,篇章级,以及海量数据级。本文转载自http://www.biyezuopin.vip/onews.asp?id=14606针对海量数据级,随着互联网的发展,网络的各个平台都存在“网络水军”,他们所陈述的意见往往都是不真实的,可能会对最终结果造成较大影响。因此需要首先根据噪声的特征进行数据清洗。
常见的文本情感分析方法有:(1)基于机器学习的技术,比如支持向量机等等。(2)基于词典的方法,即对一个新出现的词,根据词典中相似词对其进行情感倾向推理。目前,中文的文本情感分析还存在一些挑战,具体在:(1),效果良好的英文文本情感分析技术无法在中文文本上获得相同效果。(2),不同语境下的情感分析技术效果不佳,等等。随着智能手机的火热以及诸如微博这类信息发布和分享平台的发展,短文本的情感分析将会越来越受到人们的重视。
import tkinter as tk
from tkinter import *
file=open("../text/实体关联排序.txt",'r',encoding='UTF-8')
dic={}#存放数据的字典
line=file.readline()
while(line):text=line.strip('\n')dic[(text.split()[0],text.split()[1])]=text.split()[2]line=file.readline()
print(len(dic))
delete=['客户']
def searchEntity(text):for i in dic:if text==str(i[0]) and str(i[1]) not in delete:print(str(i[1]))strvar.set(str(i[1]))returnelif text==str(i[1]) and str(i[0]) not in delete:print(str(i[0]))strvar.set(str(i[0]))return;print("NONE")strvar.set("NONE")
def button():t=search.get()searchEntity(t)
def labelClear():t=search.get()gui=tk.Tk()
gui.title('基于投诉文本的知识图谱')
gui.geometry('500x300+700+300')
search=tk.Entry(gui)
go=tk.Button(gui,text='GO',command=button)
clear=tk.Button(gui,text='CLEAR',command=labelClear)
strvar=StringVar()
strvar.set("")
label=tk.Label(gui,textvariable=strvar)
search.pack()
go.pack()
label.pack(padx=5, pady=80)
gui.mainloop()
file.close()#物业 :没人 机动车:机动车道 交警:交管