大数跨境

谷歌推出LangExtract:一款从非结构化文本提取结构化数据的Python库

谷歌推出LangExtract:一款从非结构化文本提取结构化数据的Python库 洞见畏来
2025-08-08
2
导读:谷歌推出LangExtract:一款从非结构化文本提取结构化数据的Python库

一、谷歌新工具登场,聚焦非结构化文本处理难题

2025年8月8日,谷歌正式发布了一款名为LangExtract的开源Python库。这款工具旨在帮助开发者借助大型语言模型(如Gemini模型),从非结构化文本中提取结构化信息,轻松解决临床笔记、法律文本、客户反馈等自由格式文本的转换难题。

开发者只需通过自然语言指令和示例数据来定义提取任务,就能高效处理各类非结构化内容,实现信息的规范化整理,无需具备深厚的机器学习专业知识。

二、LangExtract的核心特性:精准、透明且高效

  • 可控生成技术:这是LangExtract的突出亮点,能确保提取的信息格式一致,并且准确关联到文本中的原始来源。库中会高亮显示相关文本片段,让每个提取的实体都能追溯到原始文档中的精确位置,大大提升了信息提取的透明度和可靠性。

  • 适配长文档与复杂内容:针对冗长复杂的文档,LangExtract融入了文本分块、并行处理和多轮提取等先进策略。这些技术在提高召回率和准确性的同时,保证了从大量文本中提取信息的高效性,且无需对底层模型进行大量微调,适用于医疗、法律等多个领域。

  • 兼容性与灵活性强:该库可与多种大型语言模型集成,既包括Gemini等云端模型,也能通过Ollama等平台连接本地模型,为不同场景下的开发者提供了灵活选择。

三、开发者社区反响热烈,生态持续扩展

LangExtract的发布在开发者社区引发了积极响应:

  • 核心贡献者阿克沙伊·戈尔(Akshay Goel)表示:“很高兴今天能和团队一起发布LangExtract,期待看到开发者社区用它创造出创新应用!” 话语中体现了项目背后的协作精神。

  • 开发者凯尔·布朗(Kyle Brown)认为,这是AI透明度领域的一大进步,它将非结构化文本转化为结构化、可理解的数据。

  • 社区的活跃参与还体现在技术扩展上,已有开发者将LangExtract移植到TypeScript语言,使其不仅支持谷歌Gemini模型,还能兼容OpenAI模型,进一步拓宽了适用范围。

四、如何获取与使用?

LangExtract基于Apache 2.0许可协议发布,开发者可通过pip轻松安装。对于希望为应用添加信息提取功能的开发者来说,它是一款兼具易用性和强大功能的工具。


【声明】内容源于网络
0
0
洞见畏来
专注于前沿科技趋势,剖析底层算法逻辑,深耕商业化场景落地
内容 633
粉丝 0
洞见畏来 专注于前沿科技趋势,剖析底层算法逻辑,深耕商业化场景落地
总阅读228
粉丝0
内容633