预测性别

一个新的用户来到网站,我们需要了解他是男是女,这是一个最简单的二分类问题,给出一个方案:
第一步是建体系,男、女:
第二步是获取样本,找10000个人,我们事先确定好他们的性别(passport或者其他,务必要准确减少噪点)作为标注结果,我们将他们过去一个月在百度上搜索的query拿出来作为样本;(选取时男女比例保证1:1,选取的query不超过5000个,避免网吧或共用电脑等情况)
第三步是获取训练集:对这些query进行切词获取特征(切成短语),去掉stopwords,然后按权重(检索量)每个人选取3000个短语作为特征生成训练集;
第四步是用不同的方法进行训练,不管svm/boost/adaboost,还是用两种方法的结合也好;

最重要的是第二步和第三步,在于选取特征,这些特征不仅仅是网民搜索过的query,还可以是他们浏览过的网页,还有一些操作行为,如访问各个频道的频次,关注吧名,是分类中最重要的,在所有的策略过程中,选特征是一条漫漫长路,也是所有分类问题中最重要的;

在写这篇文章的时候,看了看过去的总结,发现4年匆匆而过,确实是变化蛮大,我们做事情,不仅是要做的没有问题,还要讲的没有问题,让别人都听得懂,听得清楚;

发表评论

电子邮件地址不会被公开。 必填项已用*标注