开启收割韭菜的新时代
|
3 样本工程
运营平台
2 规则与模型对比 新型作弊大规模出现时,非常影响客户体验,进而影响业务发展,规则适合解决这种紧急出现的大规模作弊;且规则容易实时部署;且规则可解释性强,早期的反作弊中使用较多,正因为这个原因,微软的广告反作弊系统2016年主要还是规则;再者反作弊场景天然缺少作弊样本,也是规则受欢迎的一个原因。但由于规则过于依赖人的经验,且维度单一,容易被作弊者绕过,在作弊退去时可能因为准确率变低而误过;另外一个规则解决一类作弊的话,后期会出现规则过多,维护成本高。另外统计规则为了保证准确率段首较大。
当规则和人工经验多了会积累作弊样本,这时候将规则作为模型的特征训练模型,让模型自己学作弊的特点以召回作弊。由于模型使用特征较多,准确率更高,且一定程度上解决规则的段首问题。 数据层 线上系统使用了用户历史多天的站内全链路行为数据,和最近的曝光、点击数据。行为反映用户的意图,在行为序列模型TextCNN、BiLSTM、Bert和GraphSage里都用到了用户的历史行为序列。 算法层&应用层 如前面所述,作弊和反作弊都在不断迭代升级。目前的算法主要集中在人工经验规则、统计策略、机器学习和深度学习模型、图模型。 下述简单介绍算法迭代的过程,详细介绍请参考后面核心算法部分。
架构层
广告点击涉及到钱,时效性要求高,所以必须有实时反作弊;但是实时策略只能看到当前点击之前的数据,不能看到点击之后的数据,可能存在少量判断不准的情况。故我们增加了小时级别的离线模型,使用更多数据提升准确率和召回率。 (编辑:烟台站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |

