转载 干货 | 陪伴我学习NLP、知识图谱的那些资源(教程+书籍+网站+工具+论文...可以说很全面了)

news/2024/5/20 14:21:56/文章来源:https://blog.csdn.net/studyvcmfc/article/details/109449379

https://blog.csdn.net/guleileo/article/details/81140179

干货 | 陪伴我学习NLP、知识图谱的那些资源(教程+书籍+网站+工具+论文...可以说很全面了)...

csdn人工智能头条 2018-07-20 17:30:15  8744  已收藏 33

640?wx_fmt=jpeg

 

作者 | antkillerfarm

来源 | antkillerfarm的CSDN博客

 

【人工智能头条导读】作者一年前整理了这份关于 NLP 与知识图谱的参考资源,涵盖内容与形式也是非常丰富,接下来人工智能头条还会继续努力,分享更多更好的新资源给大家,也期待能与大家多多交流,一起成长。

 

NLP参考资源

 

自然语言处理(Natural Language Processing)是深度学习的主要应用领域之一。

 

教程

 

  • CS224d: Deep Learning for Natural Language Processing

    http://cs224d.stanford.edu/

     

  • CS224d课程的课件

    http://web.stanford.edu/class/cs224n/syllabus.html

     

  • CMU的NLP教程。该网页下方还有美国其他高校的NLP课程的链接。

    http://demo.clab.cs.cmu.edu/NLP/

     

  • 北京大学的NLP教程,特色:中文处理。缺点:传统方法居多,深度学习未涉及。

    http://ccl.pku.edu.cn/alcourse/nlp/

     

  • COMS W4705: Natural Language Processing

    http://www.cs.columbia.edu/~cs4705/

     

  • 初学者如何查阅自然语言处理(NLP)领域学术资料

    https://mp.weixin.qq.com/s/TSc4E8lKwgc-EvzP8OlJeg

     

  • 揭开知识库问答KB-QA的面纱(知识图谱方面的系列专栏)

    https://zhuanlan.zhihu.com/kb-qa

     

  • 《语音与语言处理》第三版,NLP和语音合成方面的专著

    http://web.stanford.edu/~jurafsky/slp3/ed3book.pdf

     

  • CIPS ATT 2017 文本分析和自然语言课程PPT

    https://mp.weixin.qq.com/s/5KhTWdOk-b84DXmoVr68-A

     

  • CMU NN for NLP

    http://phontron.com/class/nn4nlp2017/assets/slides/

     

  • CMU Machine Translation and Sequence to Sequence Models

    http://phontron.com/class/mtandseq2seq2017/

     

  • Oxford Deep NLP 2017 course

    https://github.com/oxford-cs-deepnlp-2017/lectures

 

书籍

 

  • 《Natural Language Processing with Python》,Steven Bird、Ewan Klein、Edward Loper著。这本书的作者们创建了著名的NLTK工具库。

    http://ccl.pku.edu.cn/alcourse/nlp/LectureNotes/Natural%20Language%20Processing%20with%20Python.pdf

 

注:Steven Bird,爱丁堡大学博士,墨尔本大学副教授。 
http://www.stevenbird.net/about.html

 

Ewan Klein,苏格兰人,哥伦比亚大学博士(1978年),爱丁堡大学教授。

 

Edward Loper,宾夕法尼亚大学博士。

 

  • 推荐5本经典自然语言处理书籍

    https://mp.weixin.qq.com/s/0HmsMytif3INqAX1Si5ukA

 

网站

 

  • 一个自然语言处理爱好者的群体博客。包括52nlp、rickjin、liwei等国内外华人大牛.

    http://www.52nlp.cn/

     

  • 实战课程:自己动手做聊天机器人

    http://www.shareditor.com/bloglistbytag/?tagname=%E8%87%AA%E5%B7%B1%E5%8A%A8%E6%89%8B%E5%81%9A%E8%81%8A%E5%A4%A9%E6%9C%BA%E5%99%A8%E4%BA%BA

     

  • 北京大学计算机科学技术研究所语言计算与互联网挖掘研究

    http://www.icst.pku.edu.cn/lcwm/

     

  • NLP深度学习方面的代码库

    https://github.com/rockingdingo/deepnlp

     

  • NLP专家李维的blog

    https://liweinlp.com/

     

  • 一个NLP方面的blog

    http://www.shuang0420.com/

     

  • 一个DL+ML+NLP的blog

    http://www.cnblogs.com/Determined22/

     

  • 一个NLP方面的blog

    http://www.cnblogs.com/robert-dlut/

     

  • 一个NLP方面的blog

    https://blog.csdn.net/wangxinginnlp

工具

 

参考:

http://www.cnblogs.com/baiboy/p/nltk3.html

pip install --upgrade gensim

GitHub 地址:

https://github.com/RaRe-Technologies/gensim

 

参考学习:

情感分析的新方法——基于Word2Vec/Doc2Vec/Python

http://www.open-open.com/lib/view/open1444351655682.html

Gensim Word2vec使用教程

http://blog.csdn.net/Star_Bob/article/details/47808499

代码:

https://github.com/tensorflow/models/tree/master/textsum

 

参考:

http://www.jiqizhixin.com/article/1449

 

谷歌开源新的TensorFlow文本自动摘要代码:TensorFlow文本摘要生成 - 基于注意力的序列到序列模型

http://blog.csdn.net/tensorflowshizhan/article/details/69230070

 

参考:

这个网页对于NLP的大多数功能进行了可视化的展示。NLP入门必看。

http://ictclas.nlpir.org/nlpir/

 

作者blog:

http://www.hankcs.com/

 

Github:

https://github.com/hankcs/HanLP/

 

从作者的名气来说,HanLP无疑是最低的,性能也不见得有多好。然而对于初学者来说,这却是最适合的工具。这主要体现在以下几个方面:

 

1.中文处理能力。NLTK和OpenNLP对中文支持非常差,这里不光是中文分词的问题,有些NLP算法需要一定的语言模型数据,但浏览NLTK官方的模型库,基本找不到中文模型数据。

 

2.jieba、IK之类的功能太单一,多数局限在中文分词方面领域。gensim、THUCTC专注于NLP的某一方面,也不是通用工具。

 

3.NLPIR和Stanford CoreNLP算是功能最强的工具包了。前者的问题在于收费不开源,后者的问题在于缺少中文文档。FudanNLP的相关文档较少,文档友好度不如HanLP。

 

4.HanLP在主页上提供了相关算法的blog,便于初学者快速掌握相关概念。其词典是明文发布,便于用户修改。HanLP执行时,会将明文词典以特定结构缓存,以提高执行效率。

注:不要以为中文有分词问题,就比别的语言复杂,英文还有词根问题呢。。。每种语言都不简单。

 

Allen AI实验室由微软联合创始人Paul G. Allen投资创立。

http://allenai.org/

  • 其他

python版的汉字转拼音软件

https://github.com/mozillazg/python-pinyin

 

Java分布式中文分词组件-word分词

https://github.com/ysc/word

 

jena是一个语义网络、知识图谱相关的软件。

http://jena.apache.org/

 

 

Github:

https://github.com/NLPchina

  • 词性标注

    ICTPOS3.0汉语词性标记集

    http://jacoxu.com/ictpos3-0%E6%B1%89%E8%AF%AD%E8%AF%8D%E6%80%A7%E6%A0%87%E8%AE%B0%E9%9B%86/

     

  • Word Hashing

    Word Hashing是非常重要的一个trick,以英文单词来说,比如good,他可以写成#good#,然后按tri-grams来进行分解为#go goo ood od#,再将这个tri-grams灌入到bag-of-word中,这种方式可以非常有效的解决vocabulary太大的问题(因为在真实的web search中vocabulary就是异常的大),另外也不会出现oov问题,因此英文单词才26个,3个字母的组合都是有限的,很容易枚举光。

那么问题就来了,这样两个不同的单词会不会产出相同的tri-grams,paper里面做了统计,说了这个冲突的概率非常的低,500K个word可以降到30k维,冲突的概率为0.0044%。

但是在中文场景下,这个Word Hashing估计没有这么有效了。

 

词汇共现是指词汇在文档集中共同出现。以一个词为中心,可以找到一组经常与之搭配出现的词,作为它的共现词汇集。

 

词汇共现的其中一种用例:

 

有若干关键词,比如:水果、天气、风,有若干描述词,比如,很甜、晴朗、很大,然后现在要找出他们之间的搭配,在这个例子里,我们最终要找到:水果很甜、天气晴朗、风很大

 

 

知识图谱参考资源

 

  • 知识图谱构建技术综述

    https://wenku.baidu.com/view/38ad3ef7e109581b6bd97f19227916888586b959.html

     

  • 知识图谱技术综述

    https://wenku.baidu.com/view/e69a3619fe00bed5b9f3f90f76c66137ee064f15.html

     

  • 知识图谱技术原理介绍

    https://wenku.baidu.com/view/b3858227c5da50e2534d7f08.html

     

  • 基于知识图谱的问答系统关键技术研究

    https://mp.weixin.qq.com/s/JLYegFP7kEg6n34crgP09g

     

  • 什么是知识图谱?

    https://mp.weixin.qq.com/s/XgKvh63wgEe-CR9bchp03Q

     

  • 当知识图谱遇上聊天机器人

    https://mp.weixin.qq.com/s/iqFXvhvYfOejaeNAhXxJEg

     

  • 知识图谱前沿技术课程实录

    https://mp.weixin.qq.com/s/U-dlYhnaR8OQw2UKYKUWKQ

     

  • 阿里知识图谱首次曝光:每天千万级拦截量,亿级别全量智能审核

    https://mp.weixin.qq.com/s/MZE_SXsNg6Yt4dz2fmB1sA

     

  • 东南大学漆桂林:知识图谱的应用

    https://mp.weixin.qq.com/s/WIro7pk7kboMvdwpZOSdQA

     

  • 东南大学高桓:知识图谱表示学习

    https://mp.weixin.qq.com/s/z1hhG4GaBQXPHHt9UGZPnA

     

  • 复旦肖仰华:基于知识图谱的问答系统

    https://mp.weixin.qq.com/s/JZYH_m1eS93KRjkWA82GoA

     

  • 多源信息表示学习在知识图谱中的应用

    https://mp.weixin.qq.com/s/cEmtOAtfP2gSBlaPfGXb3w

     

  • 如何构建知识图谱

    https://mp.weixin.qq.com/s/cL1aKdu8ig8-ocOPirXk2w

     

  • 中文通用百科知识图谱(CN-DBpedia)

    https://mp.weixin.qq.com/s/Nh7XJOLNBDdpibopVG4MrQ

 

原文链接:

https://blog.csdn.net/antkillerfarm/article/details/78082564

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_701277.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ROR与社区网站开发

Ruby on Rails社区网站开发 “这是一部杰作!有它在手,足以开发出一个真正的社区网站。书中采用了模块化的方法,实例可以非常容易地复用,比如在现有网站中添加社区网络功能。” ——David Berube,资深Ruby技术专家&…

如何规划令人流连忘返的网站?

信息架构的重要性毋庸置疑 , 就像盖房子要有建筑图纸 , 建网站同样要有设计蓝图 。 但是人们常常会不甚明了 , 信息架构到底是什么 ? 怎样才能得到合适的信息架构 ? 读完《锦绣蓝图:怎样规划令人流连忘返的…

技术网站 --websystique.com

2019独角兽企业重金招聘Python工程师标准>>> 这是一篇很前言的网站,内容包括: angularjs、spring4、spring4 mvc、maven、json等http://websystique.com/ 转载于:https://my.oschina.net/u/2312022/blog/730134

网站设计支离破碎:究竟是谁之过

——摘自《赢在设计》 我们认为公司对网站设计的态度是导致很多公司网站身处困境的主要原因。如果网站设计被视为一种扩大盈利能力和实现组织目标的方式,那么我们不会看到下面的统计数字: 在线购物车的平均放弃率为59.8%。 这意味着每10 个人中只有4 个…

CSS Tricks网站创始人作序推荐,这本书助你成为Web开发高手

以下内容来自于 CodePen 联合创始人 Chris Coyier 为《深入解析CSS》一书写的序。“只需一分钟就能学会,却要用一辈子的时间去精通”,这句话现在略显老套,但我还是很喜欢。这句话在现代作为《黑白棋》(Othello)游戏的标语而得到普及。在《黑白…

WordPress 网站开发“微信小程序“实战(二)

原文链接:https://devework.com/wordpres...,转载请用明链注明来源,谢谢!本文是“WordPress 开发微信小程序”系列的第二篇,本文记录的是开发“DeveWork”小程序v1.1 版本的过程。一如既往,目标读者为了解W…

10搜索文件内容搜不出_百度搜索广告太多?内容太杂?可能你们缺少这10个神器网站...

百度搜索广告太多,搜索结果内容太杂,有很多虚假无用的信息。用过百度的应该都有这些体会。众所周知,百度搜索早已成为互联网基础设施,人人皆知人人都用,给百度贴上"必不可少"的标签都不为过。下图是皮哥在网…

手把手教你利用hexo搭建自己的博客网站----史上完整详细版(基于GitHub for mac)

文章目录一、安装Node.js1.1 下载完该安装包,直接进行安装即可。1.2 打开终端,切换至root用户。1.3 查看一下node的版本1.4 查看npm的版本二、安装hexo2.1 安装cnpm2.2 查看cnpm2.3 查看cnpm的版本2.4 利用cnpm来全局安装hexo博客框架2.5 验证hexo是否安…

linux运行隐藏文件,Linux下如何隐藏文件_网站服务器运行维护,Linux,隐藏文件

linux系统怎样安装软件_网站服务器运行维护linux系统安装软件的方法:1、使用apt命令进行安装,如【apt install app_name】;2、使用rpm命令进行安装,如【rpm -i app_name.rpm】。这篇文章主要介绍了Linux下隐藏文件方法&#xff0c…

我的网站搭建: (第一天) 模型设计

2019独角兽企业重金招聘Python工程师标准>>> 网站已经成功部署好多天了,今天突然发现以前在开发过程中遇到的问题没有被好好的记录下来,或者说是没有被保存。这样肯定是不可取的,这会让我陷入问题的轮回中,重复思考着如…

icns图标制作_PPT制作必备:这6个网站,帮你打造超强的图标素材库

在制作PPT,设计网站或者进行其他一些文档的排版时,适当得使用一些小图标不仅能起到锦上添花的作用,使页面看起来更有设计感,而且也能让排版脱离单调的文字堆叠,看起来更加形象具体。比较下面几页PPT,效果一…

真正从零开始搭建网站:云服务器+宝塔面板+wordpress(超详细教程)

虽然懵懵懂懂,迷迷糊糊,但在大佬的耐心指导下也终于成功搭建好了自己的网站嘻嘻! 跟着大佬教程:戳-->从零开始用云服务器宝塔面板WORDPRESS搭建网站(详细教程)(在大佬自建网站中&#xff09…

网站留言板防重复留言_如何做一个2000年风格复古的个人网站(3)创建个人小站-主页...

上一章,我们创建了首页。下面我们准备开始做主页。先新建一个页面:home.htm主页相对于展现个性的首页,内容要多很多,那么就要讲究排版了。当时流程的排版还是用 table,div 大概是 2003 - 2004 年慢慢流行起来的。整个首…

圣才电子书怎么提取pdf_总结10个免费网站,助你解决PDF所有问题!

PDF是我们常用的文件处理格式,比如打印文档、阅读文献等等。已有的软件不是付费,就是难以使用。今天推荐10个一站式免费解决PDF所有问题的网站,让你任性地使用与PDF有关的所有工具。01iLovePDFiLovePDF是一款满足你所有PDF需求的免费工具&…

微软正式发布Azure Storage上的静态网站

微软正式宣布了Azure Storage上的静态网站,提供了从托管在Azure Storage上的HTML、CSS和JavaScript文件提供内容的能力。静态网站包含内容固定的Web页面,同时仍然允许利用JavaScript等客户端代码来创建丰富的用户体验。 有了这个新功能,继用于…

linux nginx php 目录权限,Nginx环境中配置网站目录权限设置

在Nginx与php环境下,务必要设置好Nginx目录权限,安全的目录权限设置,将是网站安全的一道屏障,有需要的朋友做个参考吧。配置权限的原则是,在保证网站正常运行下,尽量给最低权限。nginx目录权限配置&#xf…

idm 爬取网站 跳转路径_儋州网站案例基本流程,电子元件网络推广,浅析

首页 > 新闻列表 > 正文作者:佚名 点击数: 7更新时间:2020-11-06 11:19:34 导读:北京佐助信息科技有限公司为您提供儋州网站案例基本流程,电子元件网络推广的相关知识与详情: 是否交换朋友链需要每天检查&#…

php mysql网站导航跳转_PHP微信公众平台跳转网页实现定位思路 By:阿尚

这两天做微信公众平台的时候遇到一个进入网页进行用户定位的功能,由于各方面原因,没有去使用微信提供的js定位。以前也没做过微信相关的开发-加之微信官方提供的API文档着实看着蛋疼,苦思无果,终于在第三天某位高人提了一点思路&a…

j2ee mysql 图片_实战 J2EE 开发购物网站 二_MySQL

J2EE第三步,安装配置jBuilder 7这里我安装的是weblogic版安装jBuilder不要把它装到带有空格的目录里如Prograih Files,或是中文目录中,不然编译时会出错的。安装很简单,不必多言,这里着重讲一下配置小技巧一:大家觉得j…

python网络爬虫_Python网络爬虫——爬取视频网站源视频!

原标题:Python网络爬虫——爬取视频网站源视频!学习前提1、了解python基础语法 2、了解re、selenium、BeautifulSoup、os、requests等python第三方库 1.引入库爬取网站视频需要引入的第三方库:import os from selenium import webdriver impo…