大家好,我是小金。最近逛 GitHub,看到几个挺有意思的开源项目,不管是做技术、搞教育,还是准备面试,都挺实用的。分享一下,说不定对你也有帮助。
1 Docling:不只是提取文字,是真正“读懂”文档
如果你经常和 PDF、Word 或 PPT 这类文档打交道,尤其是需要把它们喂给 AI 做 RAG、智能问答之类的,那你一定会喜欢 Docling。
它不光是把文字提出来就完事——它真的在“理解”文档。比如 PDF 里的表格、公式、代码块,甚至是页面布局和阅读顺序,它都能准确识别。更酷的是,它还能对嵌入的图片做分类,把一堆杂乱的非结构化文档,变成结构清晰、机器友好的格式(叫 DoclingDocument)。
支持的格式也特别全:PDF、DOCX、PPTX、XLSX、HTML 都不在话下,连音频(MP3/WAV)、图片(JPEG/PNG)和字幕(VTT)也能处理。
支持完全在本地环境中运行,确保敏感数据无需离开你的服务器,完美适用于有严格隐私和安全要求的场景。
并且,Docling 为主流的 AI 框架提供了开箱即用的集成,包括 LangChain, LlamaIndex, Crew AI, Haystack 等。
快速上手 (Python)只需几行代码:
from docling.document_converter import DocumentConverter
# 可以是本地文件路径,也可以是 URL
source = "https://arxiv.org/pdf/2408.09869"
converter = DocumentConverter()
# 转换并获取 DoclingDocument 对象
doc = converter.convert(source).document
# 轻松导出为 Markdown
print(doc.export_to_markdown())
你也可以直接在终端中使用 Docling:
# 基本使用
docling https://arxiv.org/pdf/2206.01062
# 使用 VLM 视觉模型进行解析
docling --pipeline vlm --vlm-model granite_docling https://arxiv.org/pdf/2206.01062
👉 项目地址:https://github.com/docling-project/docling
ChinaTextbook
这个项目让我挺感动的。
作者看到国内虽然有免费教育资源,但普通人获取起来其实并不容易,甚至有人在二手平台高价卖带水印的教材。于是他决定把从小学到大学的数学教材全部整理好,免费开源。
更深层的初衷,是希望海外华人家庭的孩子也能方便地接触国内教育体系,也让教育不再只是“为了考试”。
目前仓库里已经收录了非常完整的数学教材体系:
-
小学(1–6 年级,上下册齐全) -
初中(7–9 年级) -
高中 -
大学(高数、线代、概率、离散数学等)
项目寄托了一个美好的愿景:“希望未来出现更多不是为了考学而读书的人。” 这份纯粹的初心,让这份资源库更添温度。
👉 项目地址:https://github.com/TapXWorld/ChinaTextbook
技术面试手册
Tech Interview Handbook 是一个一站式的技术面试准备仓库。与那些仅仅罗列外部链接的资源不同,它为你提供了直接可用的、高质量的精选内容。作者将海量信息进行浓缩和提炼,旨在告诉你成功通过面试所需知道的最低限度,让你把宝贵的时间花在最有效的练习上。
这个手册涵盖了从简历准备、算法刷题、行为面试,到最终 Offer 谈判的全过程。
👉 项目地址:https://github.com/yangshun/tech-interview-handbook
用心发掘优质开源项目,欢迎关注!
最近推荐的开源项目:

