切词:
切词可以是说是所有分析中最核心的模块,能否切出合适的词语,是所有做策略分析的关键,具体的方法我也没有去研究,基本也就是查找trie树,同时在性能上做优化,核心其实还是词表;
plsa:
plsa的英文含义是概率潜在语义分析,主要是计算两个文本的语义相关度,是根据统计学的,需要事先有词典,相关的文章可以网上查,工程上来说一般用来识别两个长文本的相似度;
wordsim:
对短文本进行特征扩展,用于计算两个 query 相似度;说简单点,就是两个词拿过来分别取抓百度或者其他搜索引擎搜索结果概要,然后切词后,计算两个的相关性;这个是依靠百度或者其他搜索引擎的相关性来判断是否相关
相关工具有,但是比较庞大,实时查询版是:获得query后,根据query拼url抓网页,截取核心区域或者title,切词后过滤stopwords(的&你&呢 等),只是一般查询的操作比较慢,所以一般会线下先做一遍查询,然后存到库里去,到时候实时查询就是查库,这个又转到一个kv系统的设计上去了,之后会讲
词性标注:postag
主要是对词语标注词性,对词语来说,词性对于判断并进行筛选是重要的选择项,但是越短的词语,准确性越差,只能作为基本参考;
中文转拼音:
常用的直接baidu就可以了;
推荐(simplesug)
这里的推荐不是相关性推荐,而是输入a把所有以a开头的中文或者因为现实出来,更好的含义应该是suggestion
clicksim
基于点击的相似性吧,word2vector 可以查这个,如果将来要用的话,虽然我没有整明白这个事情