NLP相关知识（切词/plsa）

切词：

切词可以是说是所有分析中最核心的模块，能否切出合适的词语，是所有做策略分析的关键，具体的方法我也没有去研究，基本也就是查找trie树，同时在性能上做优化，核心其实还是词表；

plsa:

plsa的英文含义是概率潜在语义分析，主要是计算两个文本的语义相关度，是根据统计学的，需要事先有词典，相关的文章可以网上查，工程上来说一般用来识别两个长文本的相似度；

wordsim:

对短文本进行特征扩展，用于计算两个 query 相似度；说简单点，就是两个词拿过来分别取抓百度或者其他搜索引擎搜索结果概要，然后切词后，计算两个的相关性；这个是依靠百度或者其他搜索引擎的相关性来判断是否相关

相关工具有，但是比较庞大，实时查询版是：获得query后，根据query拼url抓网页，截取核心区域或者title，切词后过滤stopwords（的&你&呢等），只是一般查询的操作比较慢，所以一般会线下先做一遍查询，然后存到库里去，到时候实时查询就是查库，这个又转到一个kv系统的设计上去了，之后会讲

词性标注：postag

主要是对词语标注词性，对词语来说，词性对于判断并进行筛选是重要的选择项，但是越短的词语，准确性越差，只能作为基本参考；

中文转拼音：

常用的直接baidu就可以了；

推荐（simplesug）

这里的推荐不是相关性推荐，而是输入a把所有以a开头的中文或者因为现实出来，更好的含义应该是suggestion

clicksim

基于点击的相似性吧，word2vector 可以查这个，如果将来要用的话，虽然我没有整明白这个事情

老和山下云儿飞

心有多大，这个世界就有多大！

发表评论取消回复

老和山下云儿飞

心有多大，这个世界就有多大！

发表评论 取消回复

发表评论取消回复