加入收藏 | 设为首页 | 会员中心 | 我要投稿 烟台站长网 (https://www.0535zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 外闻 > 正文

开启收割韭菜的新时代

发布时间:2021-02-02 12:37:53 所属栏目:外闻 来源:互联网
导读:3 样本工程 前面提到我们是电商场景,所以有转化数据,而且前期有统计规则的过滤点击,故可以用规则圈一些较准确的样本(即转化率较低的样本)。 基于经验构造样本,也就是在其他场景的反作弊经验的迁移应用。 使用SMOTE[4]生成样本,我尝试过SMOTE生成样本的

3 样本工程

  • 前面提到我们是电商场景,所以有转化数据,而且前期有统计规则的过滤点击,故可以用规则圈一些较准确的样本(即转化率较低的样本)。
  • 基于经验构造样本,也就是在其他场景的反作弊经验的迁移应用。
  • 使用SMOTE[4]生成样本,我尝试过SMOTE生成样本的实验,召回上略有提升。当作弊样本较少,SMOTE相当于差值法,生成作弊样本使得取值分布更全面。
  • 使用GAN[5]生成样本,[6]用GAN生成欺诈样本用于训练有监督模型。下图是GAN生成作弊样本的思路。

运营平台

  • 投诉反馈是与广告主反馈无效点击的通道。
  • 主动发现作弊是我们离线运行一些达不到上线准确率的策略,以在广告主感知到之前主动发现作弊,提升客户体验。由于准确率达不到上线标准,故需要较多的人力分析挖掘的疑似作弊。在后面的主动发现作弊环境会详细介绍思路。
  • 数据沉淀包括两方面,一是识别的无效点击用于后续训练有监督模型识别作弊,二是识别无效点击,以便下游广告算法等清洗数据。

2 规则与模型对比

新型作弊大规模出现时,非常影响客户体验,进而影响业务发展,规则适合解决这种紧急出现的大规模作弊;且规则容易实时部署;且规则可解释性强,早期的反作弊中使用较多,正因为这个原因,微软的广告反作弊系统2016年主要还是规则;再者反作弊场景天然缺少作弊样本,也是规则受欢迎的一个原因。但由于规则过于依赖人的经验,且维度单一,容易被作弊者绕过,在作弊退去时可能因为准确率变低而误过;另外一个规则解决一类作弊的话,后期会出现规则过多,维护成本高。另外统计规则为了保证准确率段首较大。

当规则和人工经验多了会积累作弊样本,这时候将规则作为模型的特征训练模型,让模型自己学作弊的特点以召回作弊。由于模型使用特征较多,准确率更高,且一定程度上解决规则的段首问题。
 

数据层

线上系统使用了用户历史多天的站内全链路行为数据,和最近的曝光、点击数据。行为反映用户的意图,在行为序列模型TextCNN、BiLSTM、Bert和GraphSage里都用到了用户的历史行为序列。

算法层&应用层

如前面所述,作弊和反作弊都在不断迭代升级。目前的算法主要集中在人工经验规则、统计策略、机器学习和深度学习模型、图模型。

下述简单介绍算法迭代的过程,详细介绍请参考后面核心算法部分。

  • 业务刚开始的作弊主要是机器作弊,一些人机识别、爬虫识别、黑名单即可识别大部分作弊。我们称之为单点反作弊。
  • 随后作弊者升级到人工作弊,比如大规模人工点击(期间还不断清除介质),或者只点没有转化的行为序列异常,我们会升级到计数、比例、分布等统计策略和行为序列模型TextCNN、BiLSTM,已经能拦截大部分的个人作弊。我们称之为线上反作弊。
  • 接着作弊者又会升级高级的人工作弊,模拟人的点击,尽可能的各种特征上不集中,但是毕竟作弊者要达到收益的话,需要有一定的作弊量,而他们不知道正常点击的真实分布,自然的会在一些维度上出现异常。我们反作弊算法升级到无监督相对熵模型,再后面有样本了升级到有监督的GBDT和Wide&Deep,均是从多个维度和特征上识别作弊。我们称之为面上反作弊。
  • 再后面作弊难度更大了,他们会有众包团伙作弊,我们也升级联通图、图神经网络GraphSage等模型,识别作弊团伙。我们称之为体反作弊。

架构层

广告点击涉及到钱,时效性要求高,所以必须有实时反作弊;但是实时策略只能看到当前点击之前的数据,不能看到点击之后的数据,可能存在少量判断不准的情况。故我们增加了小时级别的离线模型,使用更多数据提升准确率和召回率。


(编辑:烟台站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读