基于纵向联邦学习的保险个性化定价方案- 大数跨境

数组智控产业发展科技院

2021-09-03

导读：由于受到其他行业高度个性化服务的影响，保险行业的发展已经从过去的统一保险费用定价向个性化定价转变，高度个性化

由于受到其他行业高度个性化服务的影响，保险行业的发展已经从过去的统一保险费用定价向个性化定价转变，高度个性化的保费俨然是一个新的发展趋势，《2020年保险业技术发展趋势》中指出，当前有超过80%的保险消费者会寻找某种形式的个性化服务，比如定价、推荐或来自保险公司的信息。

案例描述：

保险个性化定价，与其他个性化服务一样，需要平衡保险公司和客户之间的关系。一方面，消费者会根据自身的需要选择符合个人的产品；而另一方面，为了提高客户满意度，保险公司也需要具备扎实的数据洞察力基础。

埃森哲咨询公司的一项研究显示，77%的保险客户愿意提供自己的使用和行为数据以换取保险建议、更快的理赔或更低的保费。保险领域显然正在利用这一点，因为只有20%的客户认为他们的保险提供商没有任何客户定制方面的经验。

但保险业的个性化定价却受到很多因素的制约，导致其模型的构建往往不准确，其中主要的难点在于数据层面。对保险进行个性化定价，需要结合每一位客户的特征属性，但是客户的数据属性多种多样，包括央行征信报告、税收、信贷、消费能力、年龄、职业等。

然而，对于金融机构来说，能直接使用的数据一般只有中央银行的信用报告和信贷数据，其他数据都在其他机构中，数据的缺失是导致个性化建模不准确的最关键因素。

理想情况下，构建保险定价模型期望拿到的数据，包括社交属性中的年龄、职业、收入等；购买属性中的消费额度等；银行属性中的贷款记录和征信等。

但在现实情况中，如前面所述，每一项数据都保存在不同的机构中，银行能获取的只有贷款记录数据和征信数据。

保险个性化定价的纵向联邦建模：

这个案例需要联合多方数据构建一个保险个性化定价模型，用来预测一个客户的出险概率。

我们假设现在保险公司与一家出租车公司合作，希望通过个性化模型帮助出租车公司预测客户的出险概率，同时保险公司还与其他行业机构公司有合作，但是这三方之间的数据是不连通、政策监管上也是不允许共享的。

保险公司如何在合法合规的前提下，联合两方的数据联合建模，提升保险定价的模型效果呢？

出租车公司有每一个客户的订单信息、车辆信息和业务表现等，我们把这些特征数据记为X1，同时出租车公司还有历史订单中客户的出险概率，记为Y。

此外，该保险公司与另一家互联网公司也有业务合作，在该互联网公司的产品中，用户注册时会带有客户的画像属性，包括人口属性、兴趣爱好、教育信息和财务状况等，我们将这部分特征数据记为X2，这样，可以将问题构建为纵向联邦学习建模。

两个参与方的本地数据部分样例格式，其中X2=（ID，x1，x2），X1=（ID，x3），（X1，Y）和X2分别分布于不同的公司和机构之间。通常，两个机构的特征数据X1和X2是不重叠的，即满足X1∩X2=ϕ。

个性化的保险定价，本质上是根据客户的特征信息预测出险概率，可以将问题归结为二分类问题，案例中我们使用逻辑斯蒂回归模型来预测保险定价：

要在数据不共享的前提下，求解式（8.1）的最优参数W，这是纵向联邦学习的经典应用，使用FATE进行纵向线性回归的训练求解，只需要将训练模型从线性回归改为逻辑斯蒂回归即可，主要的执行步骤包括：

（1）求取相交的用户ID集合：我们看到在联合建模的时候，两家公司所含有的用户ID集合不同，即用户群体不可能完全重叠，因此第一步需要找到相同的用户ID集合，这种在不泄露数据的前提下，找到双方公共ID集合的技术称为私有集交集（PSI），由此还需要提供一种基于散列与RSA加密算法相结合的实现方案。

不失一般性，我们设公司A的用户集合为uA={u1，u2，u3，u4}，公司B的用户集合为uB={u1，u2，u3，u5}

步骤1：公司B利用RSA算法生成公钥对（n，e）和私钥对（n，d），并将公钥对（n，e）发送给公司A

步骤2：公司A对其本地的用户集合uA中的每一个元素ui，生成一个对应的随机数ri，利用公钥对（n，e）对随机数ri进行加密得到。

将ui代入散列函数H中得到H（ui）。将两者相乘，得到

设YA=

注意：这里ui、ri与（YA）i三者之间是一一对应的。

将YA发送给公司B，同时，我们在公司A中保存YA与uA值的一一对应关系映射表，记为（YA→uA）。

步骤3：公司B利用私钥对（n，d），对YA进行解密，记为ZA，得到

YA的元素与ZA的元素是一一对应的关系，记为映射（YA→ZA）。同时，公司B利用散列函数H作用于本地用户集合uB中的每一个元素，得到H（uB），再利用私钥对（n，d）对H（uB）加密，重新输入散列函数H中，得到ZB：

uB的元素与ZB的元素是一一对应的关系，记为映射（uB→ZB）。将ZA=

和映射（YA→ZA）一起发送给公司A

步骤4：公司A首先将映射表（YA→uA）与映射表（YA→ZA）进行连接（join）运算，得到新的映射表（ZA→uA）。同时，将（ZA）i值除以随机数ri，并代入散列函数H中，得到

ZA的元素与DA的元素是一一对应的关系，记为映射（ZA→DA）。将（ZA→DA）与映射表（ZA→uA）进行连接运算得到新的映射表（DA→uA）。步骤5：将DA与ZB执行相交运算，得到加密和散列组合状态下的ID交集，记为I：

集合I中的元素是映射表（DA→uA）中的key值，因此我们利用该映射表，查找出对应的明文集合，设I对应的明文状态下的集合为（u1，u2，u3），这样公司A就得到了交集结果。但我们不能直接发送明文结果给公司B（防止信息泄露），而是将集合I发送给公司B，由公司B利用自身的映射表单独求取明文结果

公司A将加密状态下的交集I发送给公司B

步骤6：同理，集合I中的元素同样是公司B本地映射表（DB→uB）的key值，利用该映射表，我们同样能够查询出I对应的明文状态下的交集（u1，u2，u3）。至此，公司A和公司B完成了在加密状态下求取相交的用户集合的任务。

结果对比：

联邦学习在保险定价上所取得的效果，传统的定价模型因数据割裂等原因，无法获取足够的特征信息，因此利用本地数据训练的模型效果欠佳。

使用联邦学习后，保险个性化定价占比（个性化定价占比是指个性化定价订单量在总体订单量的占比的提升效果），个性化定价占比大幅提升，覆盖率超90%；利润提升效果相比于传统的保险定价方式，引入联邦学习之后，利润提升了50%。

联邦学习与传统规则的保险定价的效果对比

【声明】内容源于网络

数组智控产业发展科技院

以AI技术为底层能力，聚焦智慧园区、城市公共安全、数智警务、健康医疗、能源电力、科研实验及平安校园等领域，提供从感知到决策的全流程软硬件一体化的国产装备智能体产品解决方案。

内容 986

粉丝 0

数组智控产业发展科技院以AI技术为底层能力，聚焦智慧园区、城市公共安全、数智警务、健康医疗、能源电力、科研实验及平安校园等领域，提供从感知到决策的全流程软硬件一体化的国产装备智能体产品解决方案。

总阅读940

粉丝0

内容986