
来自伦敦大学学院的两名研究人员偶然发现由35万个推特僵尸账户组成的一个推特僵尸网络,这些僵尸的最爱竟然是引用《星球大战》小说中的词句。
推特僵尸一直因歪曲美国2016年大选而受人诟病。它们其实还可用于娱乐、营销、发送垃圾信息、操控热门话题和公共意见、制造虚假粉丝、传播恶意软件等等。
这两名研究人员在论文中详述了对1%的英语推特账户即600万个推特账户随机抽样后所得到的结果。
研究人员本来是查看2000万条有地理位置标签推文的地理分布特征(这些数据来自8.43亿条账户样本推文),结果发现了一个异常的分布模式。一些账户的分布模式符合预期,它们跟欧美的人口密集区分布吻合。但另外一组账户显示了随机分布模式,推文常常来自沙漠、海洋和北极圈地区。
当研究人员手动查看这些推文内容后,发现多数推文是由《星球大战》小说中的随机章节组成,而且很多推文都是以不完整的字开头或者结尾,或者是包含随机标注位置的标签。
他们查看了与4942个账户相关的推文,结果发现3244个僵尸账户拥有一致的特征:
推文内容仅仅由《星球大战》小说中的词句组成。
使用的标签是随机词句的前缀。
从来不会转发推文或者提及其它推特用户。
每个僵尸的推文总数只有11条或更少。
每个僵尸的好友数量在10到31个之间。
僵尸仅选择“Windows电话”的推特版本作为源应用程序。
僵尸的用户ID号码在1.5 × 10^9 和1.6 × 10^9之间。
研究人员随后创建了机器学习分类器来抓取有相似特征的其它账户。这一算法识别出356,957个《星球大战》僵尸。研究人员指出,他们很幸运地找到了这些僵尸,这些僵尸的目的似乎是阻止自动化的检测方式。他们指出正是人类的身份才让他们发现了这些僵尸。
论文指出,将僵尸账户的标签设置为北美和欧洲的随机地理位置,目的就是让推文看起来更加真实。但是这种技巧因为标签设在地图上不同寻常的位置如沙漠等而露馅。不过这种异常只有通过人类才能辨别出来,而计算机算法是很难意识到这种异常的。
不过很奇怪的是,《星球大战》僵尸从2013年起就处于寂静状态。设置时间越早的僵尸在地下黑市的售价越高,原因应该是这些僵尸的可信度更高。
目前他们已经问题反馈给推特,后者似乎也是才意识到这个问题,因此拒绝对此作出评论。
研究人员专门设置了一个推特账户@thatisabot供人们提交发现的僵尸。另外还做了一个网站www.thatisabot.com,不久将开放供提交僵尸。

