设为首页收藏本站 开启辅助访问
搜索
    查看: 619|回复: 0

    在广告联盟中虚拟身份用户画像方法研究(上)

    [复制链接]
    发表于 2017-7-29 17:08:49 | 显示全部楼层 |阅读模式
    前言:(随着互联网技术日新月异,各种互联网应用应运 而生,通过互联网进行沟通交流、商品交易等已经成为人们生活的一部分;互联网应用的便捷性与高效性,使得人们的生活更广泛地融入的互联网环境中。然而, 这些应用大多数无需实认证就可使用,一个人可以注册多个相同种类或不同种类的虚拟账号,这给网络空间安全管理提出了艰巨难题,如何寻找到一种有效 的虚拟身份刻画方法,成为解决该问题的重要突破口。 本文基于广告联盟机制,提出一种有效的虚拟身份串并关联方法,实现网络空间身份的刻画,为网络空间安全管理提供有力的支撑。)
    为了实现准确计费与广告匹配,广告联盟平台通常采用页面标签技术通过访客浏览器收集数据,并将这些数据发送到远程数据接收服务器,分析人员可以从远程服务器查看数据报告。图1展示广告联盟原理。这些信息通常通过放置在网站每个页面中的 JavaScript代码进行收集[1_2]。页面标签技术使用 cookie追踪访客,通常会在用户的浏览器端创建唯一 用户ID,用户访问参与广告联盟加盟站点时,通过Cokie携带用户ID表明身份信息,用于计费、用户偏 好刻画等。表1为通过账号jackcatlll访问www. cshn. net时抓取的Cookie数据,表2为通过账号jack- cat 访问 www. 7k7k. com 时抓取的数据。表中数据显 示,这两次不同的网站访问,BAIDUID却是相同的。 此处BAIDUID为百度广告联盟机制中追踪访客的用户ID,该用户ID存储在Cookie中。上述的BAIDUID 跟设备、浏览器相关,并由这些因素决定,且在一定时间内保持不变,而且唯一。从而,我们可以认定账号 jackcatlll和jackcat为关联账号,进而通过有效的关联分析算法,将其他网络虚拟信息串并起来,从另一视角刻画网络用户。



    图l广告联盟原理图



    续表1



    表2访问7k7k游戏网站Cookie数据表



    2虚拟身份画像模型
    通过第l节的介绍,我们可以以广告联盟用户I 为突破口,串并出关联的虚拟身份,然后通过设定的关联分析规则,归整出身份属性(虚拟账号),并通过不断的迭代更新,完善身份特征刻画模型。基于广告联盟的虚拟身份画像模型如图2所示。该模型构建过程分为两个主要过程:关联绑定、关联分析。



    图2基于广告联盟的虚拟身份画像模型
    2.1关联绑定
    关联绑定即通过广告联盟用户ID将无关联 的虚拟身份绑定为关联虚拟身份关联绑定分为广告联盟内虚拟身份关联绑定、广告联盟间虚拟身份关联绑定。
    广告联盟内虚拟身份关联绑定规则为来自不同 Cookie信息中的虚拟身份,若Cookie信息中的同一广告联盟用户I相同,则认为这些虚拟身份为关联虚拟身份,并称为初始关联组。图3为一初始关联组,是通过百度联盟用户 ID ( BAIDUID) 9E304CC9357C1E000 9336A1EB49E0E86:FG = 1进行虚拟身份绑定的。



    图3初始关联组
    广告联盟间虚拟身份绑定建立在广告联盟内虚拟身份关联绑定的基础上,同一时间同一 I地址上抓取的cookie信息中包含不同广告联盟用户ID,则可以将这些广告联盟用户I对应的初始关联组合并,形成合并关联组。图4为一合并关联组,由于凤凰博客网既使用百度联盟,也使用了淘宝联盟,通过凤凰博客账号 jackmanlll访问该网站,抓取的Cookie信息中既包含百度联盟用户ID,又包含淘宝联盟用户ID,从而可将这两个用户I对应的初始关联组合并,进而可知淘宝账号Jackman与csdn账号jackcatlll为关联账号。经过关联绑定形成的组统称为关联组。



    图4 合并关联组
    2.2关联分析
    通过2. l节的关联绑定后,构建了一张虚拟身份关系网大图4,该大图可能包含重复的信息以及不准确的信息,由此我们需要预设一些关联分析规则,进步完善大图信息,最后对虚拟身份画像进行特征描述。
    通过第l节介绍我们知道,广告联盟用户I跟设备、浏览器相关,并由这些因素决定;当不同的用户使用同一台设备的相同浏览器时,同一关联组中将出现同一网站的不同账号。如图5所示,csdn网站的不同 账号Jackcatlll与tina属于同一关联组,这种情况下, 将无法确定开心网账号547687927@ qq. cm与哪个cdn账号关联。另外同一用户使用不同的设备或不同的浏览器访问网站时,这些用户I也会不同,这种情况可能出现某网站账号(如csdn账号tina)出现在不同的关联组。如图6所示。



    图6同一用户不同账号被分到不同的关联组示意图
    为了解决上述问题,首先我们引人关联度的定义。
    定义1关联度不同虚拟账号之间的紧密程度称为关联度。关联度的取值范围为[0,l]。不同虚拟账号之间初始的关联度为0;若两个虚拟账号关联度为l则表示这两个虚拟账号属于同一用户;关联度为l时具有传递性;即若虚拟账户A与虚拟账号B之间关联度为l,虚拟账户A与虚拟账号C之间关联度为l,则虚拟账号B与虚拟账号C之间的关联度也为l。
    接下来,引人以下规则:
    1) 初始设置关联组内的虚拟账号之间的关联度记为0.5。
    2) 关联组中同一时间同一 IP获取的虚拟账号之间的关联度记为l所有相互之间关联度为l的虚拟账号组成不同用户组。
    3) 不同用户组中,存在两个及以上相同虚拟账号的,判定为同一用户组,并合并这些组。
    反复运用规则l)〜3)对大图进更新,直到不满 足条件为止。至此可以得到用户组群(虚拟账号之间的关联度为l)和剩下的关联组群(虚拟账号之间的关
    联度为0.5)。用户组群中每个用户组内不同虚拟身份我们可以认定为同一画像,从而构建虚拟身份画像原型以下简称原型)。
    以下为关联分析算法:
    算法1关联分析算法
    新建一个n * n关联度矩阵A,初始值为0;这里矩阵A为上三角矩阵;
    对于初始数据列表:
    If第k行与第m行的广告联盟类型与广告联盟值相同(0 < k < m<= n)则 A[ k] [ m] = 0. 5 ;
    对于所有 A[k][m] =0.5(0
    I初始数据列表中第k行与第m行的时间与IP相同,则A
    [k] [in] = 1
    对于所有的 j,k,m (0
    找出所有用户组集合A1、A2、…、Ak,每个用户组集合 满足:
    1) 元素由序号组成,且大于0小于n;
    2) 对于任意x,y属于该集合,A[x][y] =1,(假设x
    2.3相似度计算
    通过研究发现,Cookie有一定的有效期,且可以被清空,这样用户I将重新分配;或者用户在不同的设备进行上网,这就出现同一个人将分配不同的用户ID,这样的我们也将构建的多个虚拟身份画像原型。 另外,同一个人对用的用户ID所关联的虚拟身份可能不尽相同,为了使得构建的原型的更加全面,计算上一节所构建的原型之间的相似系数,计算公式采用的是改进的Jaccard相似系数,如下所示:
    IMJaccard(X,Y) = ⑴
    mm((,,)
    这里的X、Y表示为不同虚拟身份画像原型。X= !*1, *2,…,丨,由个虚拟账号组成,表示原型X第^个 虚拟账号;Y=丨,由m个虚拟账号组成, ^表示原型Y的第A个虚拟账号;当X、Y之间的 /Mjaowd相似系数超过某阈值,我们认定X、Y原型 为同一原型,将X、Y原型合并,取X U Y,组成新原型。
    文章转载自甲爪广告联盟!由日付广告联盟整理编辑!原文链接:(http://www.jiazhua.com/wz/1159.html

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    QQ|小黑屋|Archiver|手机版|安全狗论坛-汇聚安全的力量 ( 闽ICP备14014139号-1  

    GMT+8, 2019-8-21 00:58 , Processed in 0.089585 second(s), 23 queries .

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表