加入收藏 | 设为首页 | 会员中心 | 我要投稿 烟台站长网 (https://www.0535zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 外闻 > 正文

从MySQL、ES、HBASE等技术一起探讨下!

发布时间:2021-02-02 12:37:00 所属栏目:外闻 来源:互联网
导读:4 特征工程 一般来说,真实流量一般自然 (真实的流量在各个维度中表现一定是自然的)与多样(网民的喜好各不相同,行为一定也是多样的)。而对于虚假流量,常表现出一定的目的性(虚假流量的产生一定和某个特定的目的有关)和规律性(特定的目的导致虚假流量一定有

4 特征工程

一般来说,真实流量一般自然 (真实的流量在各个维度中表现一定是自然的)与多样(网民的喜好各不相同,行为一定也是多样的)。而对于虚假流量,常表现出一定的目的性(虚假流量的产生一定和某个特定的目的有关)和规律性(特定的目的导致虚假流量一定有特殊的规律)。

由于虚假流量与真实流量在具体访问行为有较大差异,围绕用户行为可从以下几方面识别出虚假流量。

模型的特征值或者规则是由下述的“维度*特征*类型”组合而成的,其中类型是通用的,支持配置。

维度

常用维度:时间&地域维度、终端类型、操作系统、联网方式、浏览器、设备介质、IP、广告主账号、refer、query集中等。

下面以时间维度&地域维度举例:正常的流量访问分布在一天中的各个时段、地理分布较为均匀(区域性投放或者活动除外)、访问趋势较为平缓。而虚假流量出现时间段特殊、来源区域集中、趋势突增的情况。因此,通过流量产生的时间、地理位置、访问趋势变化都可以成为判断虚假流量的参考方式。

同理用户的终端类型、操作系统、联网方式、浏览器、设备介质、IP、广告主账号、refer、query集中等属性,同样可以成为判断虚假流量的参考标准。

特征

1)产品参与度

具体包括平均访问深度、平均访问时长、用户行为路径、鼠标点击位置等。

  • 平均访问深度:访问深度是用户一次浏览网站、APP的深度,它是衡量网站服务效率的重要指标之一。以刷量为目的的虚假流量,用户访问深度通常非常低,因为他的目的是作弊,点完即走。当然造成用户访问深度不够的原因有多种,如新投放的落地页的失败引导。因此我们在观察此指标时,应率先排除产品较大改动造成的访问深度不足等特殊情况,或者与其他渠道的流量数据综合比较,进行科学评估。
  • 平均访问时长:平均访问时长指标,主要用来衡量用户与网站、APP 交互的深度。交互越深,相应停留的时长也越长。显然虚假流量追求的是“量”,而非“时长”,因此平均访问时长也可以配合几个网站参与度指标一起分析。比如机器点击的访问时间会比较集中。
  • 用户行为路径:用户在网站中的访问行为路径,用户路径的分析模型可以将用户行为进行可视化展示。因此通常用户通过渠道来到。网站后会有不同的行为,他们一般会从落地页开始进行分流,会访问不同的页面,并在不同的页面结束对网站的访问。显然, 用户行为序列分布是没规律的,而对于虚假流量,虽然通过某些方式完成点击,但也是预先设定,有迹可循的。后面的TextCNN和BiLSTM模型解决的就是行为序列异常的作弊,有相应的作弊case,用户基本只访问homepage和detail,没有访问其他页面。
  • 鼠标点击位置:虚假流量用户的鼠标点击位置通常是集中的,借助热力图工具可以较为容易地发现问题。

2)转化情况

很多作弊流量可以模仿人类行为,成功绕过平均访问深度和停留时长这些宏观指标,但是要模仿一个业务转化就比较难了,如果宏观指标表现很好,业务转化很少的话,就需要提高警觉。当广告主被恶意攻击时,其点击击率会突然变高或者推广时长突然变低。

类型

以下的策略类型均可配置“特征”和“维度”。

  • 计数:如策略“IP近1天点击次数”,超过一定阈值是则是作弊。适用于过滤大规模攻击。
  • 比例:如策略“IP下平均访问时长小于等于0秒的点击数占比为Y”,Y过大也是作弊。适用于“可列特征取值的某一个值占比异常的情况”。
  • 分布:如下图所示是作弊点击和正常点击在访问时长的分布。我们可以用相对熵或者卡方分布计算其异常度。适用于“可列特征取值是多个值”。

(编辑:烟台站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读