基于豆包、Claude识别的中国 A 股人工智能领域企业数据 2010-2024
在智能技术快速发展的浪潮中,通过企业的经营范围文本精准识别中国 A 股市场中属于人工智能领域的企业,是深入探究该领域发展规律、评估产业发展潜力的关键前提。其重要性不仅体现在为学术研究提供可靠的样本基础,也为企业战略制定、市场监管等实践工作提供有力的数据支撑。
人工智能企业是以人工智能技术为核心驱动力,致力于研发和应用机器学习、深度学习、自然语言处理等智能算法,实现模拟人类智能进行决策、推理、识别等功能,像从事人工智能算法研发、智能系统集成、智能机器人研发等业务的企业便属于此类,其核心在于让机器具备类似人类的智能能力。
本数据中用于依据企业经营范围文本判断其是否为人工智能企业的核心指标构建过程如下:数据来源于中国 A 股上市公司的官方网站、年度报告等公开渠道。借助豆包(doubao-1-5-pro-32k-250115)和 Claude (claude-sonnet-4-20250514)两个大型模型,分别对企业的经营范围文本内容进行识别,综合两者的判断结果,确定该企业是否为人工智能领域的企业,最终获得 2010-2024 年的相关数据。
与使用 XGBOOST、BERT 等机器学习模型基于经营范围文本进行判断的方式相比,本方法优势显著。XGBOOST 作为基于树模型的算法,高度依赖人工特征工程,对于企业经营范围这类复杂文本,人工提取特征不仅耗时费力,还易遗漏关键信息,导致其对复杂语义的理解能力受限,难以精准识别人工智能领域的企业。BERT 虽在自然语言处理领域表现较好,但在泛化性和对非规范文本的处理上存在不足,面对企业经营范围中涉及人工智能领域的模糊表达、行业特有术语等,准确性会受影响。而豆包和 Claude 具备强大的自然语言理解与生成能力,无需复杂的特征构建,能深度解读企业经营范围文本中的语义信息,对涉及人工智能领域的模糊、非规范表述有效理解,从而更精准判断企业是否为人工智能领域企业。
选择豆包和 Claude 进行判断,原因在于豆包是一款先进的语言模型,在中文语义理解方面优势突出,能精准把握中国上市公司各类文本中复杂的经营范围表述,尤其对涉及人工智能领域的内容有良好的解读能力,契合国内市场的语言习惯和业务场景。Claude 是一款知名的大型模型,在多领域应用广泛,对不同业务场景的经营范围理解能力较强,且在多语言处理上有一定优势,能辅助识别人工智能领域企业。二者结合,可从不同角度对企业经营范围文本深入分析,形成互补,降低误判概率,提升判断结果的准确性和全面性。
数据来源
中国 A 股上市公司官方网站、上市公司年度报告等。
2010-2024 年
中国 A 股上市公司
excel形式
数据指标
注: Symbol为 股票代码,IndustryCode为行业分类,is_ai为两大模型根据企业经营范围识别的是否为人工智能企业的0-1变量,1表示是人工智能企业,0表示不是。
因数据量较大,此处仅展示部分示例数据:
1.基于双模型对人工智能企业经营范围文本识别的效果优化研究:以本数据为基础,对比豆包和 Claude 单独基于经营范围文本识别与联合识别人工智能企业的效果差异,构建优化的双模型识别机制,为提高人工智能企业分类准确性提供新方法。
2.从经营范围文本看人工智能企业动态发展轨迹:利用 2010-2024 年的数据,通过分析企业经营范围文本的变化,追踪人工智能企业在不同时期的发展变化,分析其成长规律与制约因素。
3.人工智能企业与经营绩效的关联性分析:选取数据中的企业,探究人工智能企业与非人工智能企业在营收增长、利润率等经营绩效指标上的差异,揭示人工智能属性对企业发展的影响。
4.政策环境对人工智能企业数量变化的影响研究:梳理 2010-2024 年相关政策,结合数据中人工智能企业的数量变化情况,运用回归模型分析政策对该类企业发展的驱动作用。
5.跨行业视角下人工智能企业技术应用扩散:以识别出的人工智能企业为样本,分析其技术向其他行业企业的扩散路径与效果,为推动产业融合提供参考。