云计算项目实战 之分词管理

2019/7/21 13:59:35 人评论 次浏览 分类:学习教程

原文链接:http://www.cnblogs.com/riasky/p/3478942.html

第一部分 需求分析

什么是中文分词

  中文分词  (  Chinese Word Segmentation)  指的是将一个汉字序列切分成一个一个单独的词
  中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果
什么是庖丁词汇
  Paoding  (庖丁解牛分词)基于  Java  的开源中文分词组件,提供  lucene    solr  接口,具有极   高效率  和   高扩展性
  采用基于   不限制个数  的词典文件对文章进行有效切分,使能够将对词汇分类定义
  庖丁系统是个完全基于  lucene  的中文分词系统,它就是新建了一个  analyzer,  叫做  PaodingAnalyzer    这个  analyer 的核心任务就是生成一个可以切词  TokenStream 
  仅支持  Java  语言。
功能需求
  庖丁词汇初始化
  分词表的基本维护与查询
第二部分: 技术点
安装与配置庖丁分词
  下载庖丁最新的  Jar
  https  ://code.google.com/p/paoding
  将字典文件装载到本地的某个文件夹
  例如  /home/test/  dic
    paoding-analysis.properties  放在  resources  文件下或者修改  jar  包内该配置文件,指定
  paoding.dic.home  =/home/test/  dic
基本使用演示

Analyzer a = new PaodingAnalyzer();

String doctext = test  test;

 

TokenStream token = a.tokenStream(doctext ,new StringReader(doctext));

 

Token k = null;

 while((k = token.next != null){

    System.out.println(k);

  }

 

 

关键词

作用:生成用画像时候的一个元素

 

Keyword_keywordId

rowkey:

keyword!`!keywordid

C_FAMILY

data


 

Keywordid_keyword

rowkey:

keywordid!`!keyword

C_FAMILY

data

部分 代码实现

请参考视频和源码

 


私塾在线原创独家云计算课程

 

转载于:https://www.cnblogs.com/riasky/p/3478942.html

相关资讯

    暂无相关的资讯...

共有访客发表了评论 网友评论

验证码: 看不清楚?
    -->