今日头条面试题
关联用户第三方账号(如微博),可以冷启动阶段匹配用户更有可能选择的属性,推荐用户选择
交互性做好
这里需要允许用户跳过,后续再提醒用户填写
告知用户填写的信息会受到很好的保护
如原来男性20人,点击1人;女性100人,点击99人,总点击率100/120
现在男性100人,点击6人;女性20人,点击20人,总点击率26/120
F检验是检验两个正态分布的样本的方差是否存在显著差异
也可以用于对多组样本之间比较
计量中,F检验原假设所有自变量对因变量都没有影响,排除原假设说明至少有一个自变量对因变量有影响
渠道特征:渠道、渠道次日留存率、渠道流量以及各种比率特征
环境特征:设备(一般伪造假用户的工作坊以低端机为主)、系统(刷量工作坊一般系统更新较慢)、wifi使用情况、使用时间、来源地区、ip是否进过黑名单
用户行为特征:访问时长、访问页面、使用间隔、次日留存、活跃时间、页面跳转行为(假用户的行为要么过于一致,要么过于随机)、页面使用行为(正常用户对图片的点击也是有分布的,假用户的行为容易过于随机)
异常特征:设备号异常(频繁重置idfa)、ip异常(异地访问)、行为异常(突然大量点击广告、点赞)、数据包不完整等
行存储:传统数据库的存储方式,同一张表内的数据放在一起,插入更新很快。缺点是每次查询即使只涉及几列,也要把所有数据读取
列存储:OLAP等情况下,将数据按照列存储会更高效,每一列都可以成为索引,投影很高效。缺点是查询是选择完成时,需要对选择的列进行重新组装。
- END -
本文为转载分享&推荐阅读,若侵权请联系后台删除
----------------- 长按识别下方二维码,并关注公众号 ![]()
1.回复“PY”领取1GB Python数据分析资料
2.回复“BG”领取3GB 名企数据分析报告

