大数跨境

陶俊/万佳雨/李昕Joule:半监督学习用于可解释的小样本电池寿命预测 | Cell Press论文速递

陶俊/万佳雨/李昕Joule:半监督学习用于可解释的小样本电池寿命预测 | Cell Press论文速递 科学材料站
2024-04-04
0
导读:PBCT这一半监督学习技术为高数据驱动电池状态估计开辟了新路径。


物质科学

Physical science

2024年3月14日,复旦大学陶俊团队、上海交通大学万佳雨团队、昆山杜克大学李昕团队等联合在Cell Press细胞出版社旗下期刊Joule上发表了题为“Semi-supervised learning for explainable few-shot battery lifetime prediction”的研究论文。由于锂电池具有能量密度高、使用寿命长等优点,当前已被广泛应用于电动汽车、手机等各个领域,在现代社会中起着至关重要的作用。为了保证电池系统的安全可持续运行,人们需要对锂电池寿命进行准确的预测,以便有效管理其健康状态。传统的基于物理和半经验模型的预测方法易受误差影响,精度十分有限。近年来,尽管数据驱动的寿命预测方法在技术上取得了显著进步,但由于缺乏足够多的有标签数据,其模型的准确性依然受到严重制约。该论文提出了使用半监督学习方法,实现了小样本下电池状态的准确估计。该方法有效利用了易获取的无标签数据,在提升模型预测精度的同时,极大的节约了时间成本和测试成本。此外,文章中还从对预测精度和可解释性两方面揭示了无标签数据在模型训练过程中起到的关键作用,展示了数据洞察与物理规律的内在联系。论文第一作者为郭南麟,陈思慧;共同通讯作者为陶俊,万佳雨,李昕。

▲长按图片识别二维码阅读原文

研究背景


相比于互联网中的海量数据,在物质科学中使用人工智能往往会受限于可训练数据样本数量。实际实验中高质量、有标签数据的获取常常耗时耗力,导致AI模型精度受到严重制约。为解决上述挑战,该文章以电池寿命预测为例,提出利用经济、易获取的无标签数据,通过半监督学习,可显著提升小样本条件下的模型预测精度。


电池寿命预测在电池的全生命周期,如电芯研发、生产制造、使用管理、回收利用等方面均可起到重要的正面作用。在电池寿命预测问题中,其标签数据为电池的寿命本身。这类标签数据的获取需要将电池循环测试到其原始容量的80%,每个数据点的获取长达数月,获取时间长、难度大。在机器学习实践中,在数据样本受限的情况下,通常的做法是通过引入外部信息来解决模型精确性的问题。引入外部信息的方法有多种,比如迁移学习、正则化等。然而,上述方法都存在局限性,如迁移学习仍需使用大量其他类型电池的有标签数据,这类数据同样较难获取;并且,这类数据和原数据分布可能不同,实际使用时具有一定复杂性。


为解决此难题,作者提出了一种基于半监督学习的方案,利用易获取的无标签数据来提升模型精度。无标签数据具有如下特点: (1)无标签数据在现实生活中大量存在,几乎没有额外的成本;(2) 无标签数据和实际数据分布一致性没有显著差异。因此,无标签数据具有较好的可用性,结合一定数量的有标签数据协同训练,使用用半监督学习也更加合理。


图1. 电池寿命预测算法对比:传统监督学习方法(高度依赖标签数据,耗时耗能)vs. 半监督学习方法(利用易获取的无标签数据,降本增效)。


图2. 小样本条件下电池寿命预测精度提升的必要性,传统方法及半监督学习算法示意。


全文要点


要点一:提出部分贝叶斯协同训练半监督学习算法用于电池寿命预测


针对上述挑战,合作团队提出了利用无标签数据进行半监督学习的电池寿命预测方法——部分贝叶斯协同训练(PBCT)。作者首先用partial view model进行一个大致估计,使其能用少量样本就能得到一个相对可靠的模型;其次,再将其作为一个指引,用partial view模型产生的虚拟标签去训练一个能力更强的complete view model。接着,基于统计学原理,让这两个模型之间的预测结果互相匹配,以致最终可以得到一个更加精确的训练效果。PBCT充分利用了这些低成本且丰富的无标签数据,通过提取其中的隐藏信息,深化了对底层数据模式的认识,进而显著提升了电池寿命预测的精确度。


图3. PBCT算法介绍。


要点二:PBCT半监督学习算法相比其他算法具有良好的先进性和准确度


为证明该方法的通用性和优势,作者在几个不同的真实数据集上进行了实验,并与几个不同的经典算法进行了比较,包括深度学习算法(NN)、正则化的方法 (Lasso, ElasticNet)、生成数据算法 (VAE)、以及传统的半监督学习方法 (HSSR) 。实验结果表明,作者提出的PBCT算法从实验效果均上优于其他对比方法。所以,PBCT算法不仅具有理论上的先进性,而且具有实用上的优越性。


图4. PBCT半监督学习算法与其他对比算法的结果展示。


要点三:PBCT半监督学习算法具有显著的成本优势和经济价值


作者提出的PBCT算法不仅能更准确预测电池寿命,且具有重要的经济价值。PBCT同时利用有标签数据和无标签数据对模型进行训练,能得到一个比仅用有标签数据训练得到模型更好的效果。如果使用(全)监督学习,需要把所有电池都打上标签;如果用半监督学习,仅需要给部分电池打上标签,剩下的都是无标签数据。因为打标签需要对电池进行多次充放电循环直至电池达到终止寿命(80%的原始容量),此过程需要耗费大量的时间、能源和金钱。用PBCT算法,标记更少的电池,就能达到和全监督算法接近的预测精度,可以节约大量的成本。尤其当电池规模很大的时候,作者提出的PBCT方法能带来十分显著的经济价值。


图5. 不同算法的经济效益分析。


要点四:无标签数据对电池寿命预测精度的提升具有较高的可解释性


相较于传统经典的数据驱动方法,作者提出的PBCT算法使用的无标签数据,不仅能提升电池寿命的预测精度,还能帮助揭示影响电池寿命的关键因素。通过进一步的实验与分析,作者发现在同样的条件下,当作者用了更多的无标签数据,PBCT算法能更容易地把影响电池寿命的关键特征筛选出来。相应的,在选出关键特征的同时,新模型也提升了电池寿命预测的准确率。所以,随着无标签数据的引入,PBCT半监督学习算法无论是在实际效果上,还是可解释性上,都提升了电池寿命预测模型的性能。


图6. 特征分析及无标签数据对特征选择的影响。


前景及展望


PBCT算法在电池寿命预测中的成功实施表明其在加速电池研发和制造场景中具有潜在的优势。在现实世界中,电池的研发需要对电池中多种材料的电解液、电极和活性材料等设计和优化;在制造过程中,也需要进行多种参数优化,如涂布参数、干燥参数和化成条件等。因此,使用文中的PBCT半监督学习算法,有望低成本并快速优化电池加速研发及其高效生产制造的巨大参数空间(图6)。与对所有测试电池进行全寿命测试的传统方法不同,PBCT只需要少量电池(如20%)即可进行全寿命试验。结合从剩余电池的有限循环测试中获得的未标记训练数据,可以以足够的准确性和可解释性训练完整的模型。该模型可以快速将信息反馈给决策者,大大加快电池的研发和制造。


图7. PBCT算法在加速电池研发和制造方面的展望。

总结


PBCT充分利用了低成本且信息丰富的无标签数据,通过提取其中的隐藏信息,深化了对底层数据模式的认识,进而显著提升了电池寿命预测的精确度。与现有的方法相比,PBCT在寿命预测精度上取得了高达20%的提升,且几乎无需额外的数据采集成本。因此,在同样预测精度的前提下,PBCT可以大幅度降低数据采集成本。此外,该研究还发现,将无标签数据纳入训练过程中,有助于揭示影响电池寿命的关键因素,这些因素在仅对标记数据进行分析时往往会被忽略。因此,PBCT这一半监督学习技术,为高效且具备可解释性的数据驱动电池状态估计开辟了新的路径,引领了未来的研究方向。


作者介绍





万佳雨

  副教授

万佳雨,上海交大溥渊未来技术学院副教授,深度能源实验室负责人,博士生导师。曾在美国斯坦福大学进行博士后研究,分别在美国马里兰大学及华中科技大学获得博士与学士学位。课题组研究方向主要为储能器件与材料、先进制造、及其与人工智能的交叉融合。到目前为止,在能源和材料领域的国际著名学术期刊如Science, Nature子刊、Cell子刊等发表SCI论文80余篇,总被引用11,000余次,H因子49,研究成果被多家海内外知名媒体撰文报道。曾获得美国真空协会全美博士研究生奖“Dorothy M. and Earl S. Hoffman Award”(全球每年一名)、中国留学基金委颁发的“国家优秀自费留学生奖学金”,斯坦福大学全球前2%科学家年度榜单(2020-2022)。担任National Science Open、Materials Today Energy, eScience, Carbon Energy,中国化学快报、稀有金属等期刊青年编委。与国内外多所高校同行拥有良好合作关系,受邀在国际会议、高校、科研院所及平台做主题报告、邀请报告等70余次。课题组长期欢迎并支持博士后、访问学生协同科研。详情参考深度能源实验室网站:https://www.x-mol.com/groups/deepenergy



陶俊

教授

陶俊,复旦大学微电子学院教授、博导,IEEE高级会员,长期从事集成电路EDA算法等研究。已在本领域的权威国际期刊和会议包括IEEE Trans. on CAD、IEEE Trans. on VLSIJSSCC、DAC、ICCAD等上发表论文近50篇。多次担任国际学术会议DAC、ASPDAC、ICSICT等技术委员会成员。已主持多项EDA领域国家自然科学基金项目、国家重点研发计划课题与子课题等。




李昕

教授

李昕,教授,2005年获美国卡内基梅隆大学电子与计算机工程系博士,国际电气电子工程师协会会士(IEEE Fellow)。现任昆山杜克大学协理副校长(研究生院与科研)、兼任ConvertLab首席科学家、富士康工业富联独立董事。李昕教授集自身在机器学习、计算机视觉、智能制造、生物医学等方面的专长,成功开拓多领域的交叉研究,得到国际同行高度赞誉和广泛引用及应用。出版著作3本,在国际顶级期刊发表论文80余篇,在国际顶级学术会议发表论文150余篇,获得6次最佳论文奖和6次最佳论文提名。曾担任国际顶级期刊IEEE Trans. on Computer-Aided Design常务主编,IEEE Trans. on Biomedical Engineering副主编,IEEE Trans. on Computer-Aided Design副主编,ACM Trans. on Design Automation of Electronic Systems副主编,IEEE Design & Test副主编,IET Cyber-Physical Systems: Theory & Applications副主编和Journal of Low Power Electronics副主编。被聘为世界著名学术组织ACM Special Interest Group on Design Automation,IEEE Technical Committee on Cyber-Physical Systems和IEEE Technical Committee on VLSI的执行委员会成员。

相关论文信息

研究成果发表在Cell Press细胞出版社旗下Joule期刊上,点击“阅读全文”或扫描下方二维码查看论文。

论文标题:

Semi-supervised learning for explainable few-shot battery lifetime prediction

论文网址:

https://www.cell.com/joule/abstract/S2542-4351(24)00103-X

DOI:

https://doi.org/10.1016/j.joule.2024.02.020

▲长按图片识别二维码阅读原文


经过50年的不懈努力,Cell Press细胞出版社的编辑与全球的作者、审稿人一起,创办了一系列优秀出版物,未来我们也将不断深耕科研创新和科学信息的传播交流,启迪更多科学新发现。


CellPress细胞出版社


推荐阅读

Joule支持作者中文署名啦!

器件效率突破26.41%!清华大学易陈谊Joule:实现高效率稳定钙钛矿太阳能电池 | Cell Press论文速递



【声明】内容源于网络
0
0
科学材料站
内容 0
粉丝 0
科学材料站
总阅读0
粉丝0
内容0