中文分词技能,在各大范畴都属于最基础,可是最焦点的一块技能。尤其是SEO应用中,公道使用分词技能,可以极大提高内容相关性和页面要害词标签的准确性。中文分词与英文分词有极大的差点,英文分词更简朴容易一些,中文分词在有些环境下还需要凭据语境举行词切分。常用的分词引擎有如下几种:Paodingmmseg4j(切分速率、精确率较高)Imdict-chinese-analyzerAnsjHttpcwshttps://github.com/nltk/nltkNLTK天然语言处置惩罚包http://www.ltp-cloud.com/document哈工大LTP语言云http://bosonnlp.com/dev/centerBosonNLPhttp://www.oschina.net/p/ikanalyzerIKAnalyzerhttp://ictclas.nlpir.org/docsNLPIRhttp://www.xunsearch.com/scws/docs.phpSCWS中文分词https://github.com/fxsjy/jieba结巴分词http://pangusegment.codeplex.com/盘古分词https://code.google.com/p/paoding/庖丁解牛(精确率、分词速率、新词辨认等,最棒)http://www.sogou.com/labs/webservice/搜狗分词http://www.qcloud.com/wiki/API%E8%AF%B4%E6%98%8E%E6%96%87%E6%A1%A3腾讯文智http://www.sinacloud.com/doc/sae/python/segment.html新浪云https://github.com/thunlp/THULAC清华大学THULAChttp://hanlp.hankcs.com/HanLP在Python范畴,应用最广的是结巴分词,有许多有意思的特征。在使用全文检索引擎范畴,Solr和ElasticSearch广泛使用IKAnalyzer分词。其余的,以哈工大、清华和HanLP在应用性上比力普遍。从前分享为一段代码,使用Python开辟结巴分词,共同自界说分词,快速提取文章标签。焦点逻辑就是加载自界说辞书,在自界说辞书中配置自界说的词性。通过jieba.load_userdict('user.txt')加载自界说辞书。分词之后,通过过滤词性。将本身的词拿出来,到达快速匹配标签的功能。在内存加载完辞书之后,每秒可处置惩罚上千文章的标签提取。公司项目BrandInsights,原WI-ORM体系,焦点技能,就是使用Elasticsearch做海量数据的检索。内里焦点基础的部份就是分词技术的应用。我们在IK分词器的基础上,做了代码进级迭代及优化。以支撑更高效的分词和数据处置惩罚。在分词的基础上,还可以举行情绪正负面阐明和语义阐明,要害词提取,择要提取等诸多功能。有乐趣的同事可以进一步交流。
我要评论