大数跨境
0
0

飞桨星河社区月度报告(2025年8月)

飞桨星河社区月度报告(2025年8月) 飞桨PaddlePaddle
2025-09-18
26
导读:飞桨星河社区8月月度报告。

月度动态总览

产品功能更新

1. 数据集升级

新增CLI、SDK、Git命令三种上传/下载方式,单文件上限提升至500GB,支持超大规模数据传输;数据预览页支持文本、图像、音频、视频等多模态内容的可视化查看,覆盖前1000行或5GB数据;详情页新增版本管理与回溯功能,支持Git Tag和网页按钮两种操作方式,便于高效迭代与历史版本恢复。

访问地址:
https://aistudio.baidu.com/datasetoverview

2. 算力上新

新增昆仑芯P800 XPU算力资源,适用于项目启动与专业开发环节,为模型训练与开发提供更丰富的硬件选择。

访问地址:
https://aistudio.baidu.com/membership

3. 个人中心新增模型管理

个人中心新增模型管理功能,优化导航栏排序,帮助开发者更高效地统一管理项目、模型及数据集资源。

4. 支持中英文切换

核心页面已完成中英文国际化升级,支持首页、项目大厅、模型库等功能模块的语言切换,并优化登录流程,新增谷歌账号登录方式,提升海外开发者使用体验。

社区内容更新

1. 项目资源

精选32个优质实训项目,涵盖大模型部署与微调、飞桨工具套件应用、竞赛方案复现、多模态创新及入门教程等多个方向。

访问地址:
https://aistudio.baidu.com/projectoverview

精选项目:

- 大模型部署与微调

  • 基于飞桨星河社区昆仑芯XPU P800部署文心开源大模型
    简介:手把手教学如何在昆仑芯XPU P800上部署文心开源大模型。
    项目链接:
    https://aistudio.baidu.com/projectdetail/9442594

  • ErnieKit X Fastdeploy实现Ernie大模型微调部署
    简介:使用ErnieKit对Ernie4.5系列模型进行微调,并通过FastDeploy完成服务化部署。
    项目链接:
    https://aistudio.baidu.com/projectdetail/9414060

- 竞赛方案开源

  • 【LIC2025】赛道一 基于文心4.5系列开源模型监督的医疗知识图谱系统
    简介:集成语音识别、文档解析、知识图谱构建与智能问答的医疗智能系统,使用ERNIE4.5-0.3B演示。
    项目链接:
    https://aistudio.baidu.com/projectdetail/9433626

  • 【LIC2025】粤语长视频一键重塑为爆款短片《炉火粤剪》
    简介:融合ASR、大模型与TTS技术,将粤语长视频自动提炼为短视频并生成明星音色配音。
    项目链接:
    https://aistudio.baidu.com/projectdetail/9427866

- 多模态与创新应用

  • 【ERNIE-4.5-21B-A3B】基于OCR、文心模型的发票流程自动化系统
    简介:结合PP-OCR与ERNIE-4.5-21B-A3B模型,实现发票识别、信息提取、企业查询与风险分析全流程自动化。
    项目链接:
    https://aistudio.baidu.com/projectdetail/9431022

  • 【ERNIE&PaddleOCR】基于Ernie4.5和OCR的食物热量计算器
    简介:上传食物照片后,通过大模型与OCR技术联合评估热量。
    项目链接:
    https://aistudio.baidu.com/projectdetail/9429212

- 教程项目精选

  • 【ERNIE-4.5-21B-A3B】AgenticRAG全面教程:从理论到实战
    简介:详解无需向量化检索增强生成(Agentic RAG)的技术原理与实践方法。
    项目链接:
    https://aistudio.baidu.com/projectdetail/9398112

  • 【0基础系列】GPT-Nano预训练完整教学案例(Demo)
    简介:基于PaddlePaddle 3.1.0和PaddleNLP从零构建并预训练小型语言模型。
    项目链接:
    https://aistudio.baidu.com/projectdetail/9429213

2. 数据集资源

新增80+高质量数据集,覆盖人类偏好对齐、科学推理、真实世界视觉问答、全球知识评估等关键方向。代表性数据集包括:

  • Intel/orca_dpo_pairs:专为直接偏好优化(DPO)设计,助力模型输出与人类偏好对齐。
  • lmarena-ai/arena-human-preference-140k:包含14万组人工标注对话偏好对,适用于DPO微调。
  • xai-org/RealworldQA:xAI发布的视觉问答数据集,评估模型在真实场景中的视觉理解能力。
  • MegaScience/MegaScience:含125万科学实例,覆盖数理化生等领域,强化模型科学推理能力。
  • CohereLabs/Global-MMLU:全球化多语言MMLU基准,评测跨文化背景下的知识与推理水平。

访问地址:
https://aistudio.baidu.com/datasetoverview

精选数据集:

- Intel/orca_dpo_pairs数据集
由英特尔发布,用于直接偏好优化(DPO),提升模型输出质量。
访问地址:
https://aistudio.baidu.com/datasetdetail/352492

- xai-org/RealworldQA数据集
专注于真实世界复杂推理的视觉问答任务,提升多模态模型现实适应能力。
访问地址:
https://aistudio.baidu.com/datasetdetail/352687

- lmarena-ai/arena-human-preference-140k数据集
大规模人类偏好数据集,广泛应用于模型价值观对齐训练。
访问地址:
https://aistudio.baidu.com/datasetdetail/352479

- MegaScience/MegaScience数据集
超大规模科学数据集,显著增强模型在科研领域的逻辑与计算能力。
访问地址:
https://aistudio.baidu.com/datasetdetail/352497

- CohereLabs/Global-MMLU数据集
全球化知识评估基准,测试模型跨文化、跨学科综合推理能力。
访问地址:
https://aistudio.baidu.com/datasetdetail/352488

3. 边学边练赋能体系

推出“文心开源共学计划”——配套文心开源创新大赛的系列课程,涵盖赛事解读、平台实操、模型微调、多模态与AI硬件开发等内容,助力开发者快速掌握核心技术。

课程四大模块:

  • 赛事入门与平台实操:讲解双赛道规则,实操项目创建、模型部署与API调用。
  • 文心大模型核心技术:深度解析ERNIEKit微调与FastDeploy部署全流程。
  • 多模态赛道实战:邀请往届获奖选手分享创新思路与关键技术。
  • AI+硬件赛道实战:专家讲解端侧硬件选型、部署流程与典型应用场景。

立即学习:
https://aistudio.baidu.com/course/introduce/35566

社区生态共建

1. 重点活动

(1)文心开源开放日杭州站
8月28日成功举办,聚焦文心大模型4.5技术解读与产业落地,设置基于ERNIE-4.5-0.3B-Paddle的知识图谱构建Workshop,吸引众多开发者现场实操,推动技术服务与产业需求对接。

(2)文心开源开放日厦门站
7月24日在厦门软件园举办,围绕“技术赋能·即刻行动”主题,为5位AI专家和6家生态企业授牌,开展知识图谱实战培训,30位企业技术负责人完成全流程实操,提升大模型应用能力。

(3)文心开源开放日上海站
7月25日举办闭门沙龙,汇聚行业领袖与创业者,探讨AI数智化转型路径。百度风投、复旦大学、法国高等外贸学院专家分享Agent发展、企业管理与商业生态洞察,促进企业间合作交流。

2. 热门赛事

(1)文心开源创新大赛
第三届赛事已启动,聚焦“多模态应用”与“AI+硬件”两大方向,总奖池达40万元。提供全栈实战课程与速通攻略,支持全球开发者基于文心4.5探索创新方案。

(2)第八期飞桨黑客松圆满收官
四大赛道共验收31个作品,19位开发者完成开源贡献、护航计划与硬核项目攻坚,推动多项功能进入飞桨3.0/3.1版本迭代,有效加速框架优化与工具链完善。

(3)第九期飞桨黑客松正式开启
2025年8月20日上线,由国家工程研究中心主办,新增“文心大模型案例征集”赛道,鼓励开发者提交基于文心4.5的应用案例。优秀成果可纳入发版流程或成为官方推荐案例。

(4)GitCode&文心大模型&智源研究院AI应用开发大赛
面向全球征集融合“感知+认知”的AI应用,设三大赛道:自带装备(21B/28B大模型)、空手上场(0.3B微调)、专注应用(API调用)。优秀项目可获现金奖励及GitCode流量扶持。

(5)2025人工智能创新创业大赛·通用AI场景应用需求赛
依托北京上地街道产业资源,联合百度飞桨与文心大模型,以“政府搭台、企业出题、生态共建”模式推动AI在制造、金融、医疗等领域的落地转化,总奖金230万元。

【声明】内容源于网络
0
0
飞桨PaddlePaddle
1234
内容 1696
粉丝 0
飞桨PaddlePaddle 1234
总阅读9.8k
粉丝0
内容1.7k