前言
本文是该专栏的第1篇,后面会持续分享NLP的各种干货知识,值得关注。
一般来说,自然语言处理(NLP)就是开发能够理解人类语言的应用程序或者应用服务。
举个例子,如Facebook News Feed这种社交网站推送,它的算法知道你的兴趣是自然语言处理,就会推送相关的广告或者帖子;再比如Apple的Sri,它通过语言引擎处理,应对你的问题,给出一些回答内容。
现阶段,自然语言工具包最受欢迎的自然语言处理库是Natural language toolkit (NLTK),其是用python编写的,有着非常强大的社区支持。而且NLTK非常容易上手,主要在于它是最简单的自然语言(NLP)处理库。
以下使用NLTK处理停用词为例,跟着笔者直接往下看。
正文
1. 安装
如果你已安装,请忽略该步骤,直接往下看即可。安装方法如下:
pip install nltk
2. 统计词频
假设,现在需要读取某个txt文本内容,将其内容的词频进行统计,示例