大数跨境
0
0

【新刊首发】AI 辅助翻译:《人工智能与社会科学研究的变革—细致的偏差管理和数据保真是关键》

【新刊首发】AI 辅助翻译:《人工智能与社会科学研究的变革—细致的偏差管理和数据保真是关键》 新译研究院
2024-01-26
0
导读:总第9辑人工智能应用场景下的社会学知识生产第9辑 目录卷首语 游天龙AI与研究方法大语言模型时代的社会学

总第9辑

人工智能应用场景下的社会学知识生产



第9辑 目录

卷首语 游天龙


AI与研究方法

大语言模型时代的社会学   范晓光

大语言模型时代的社会学》评审意见   郭茂灿


婚姻的教育和民族匹配:基于 ChatGPT 的量化分析及文本生成&技术报告   郭茂灿   吴宇雨

婚姻的教育和民族匹配基于 ChatGPT 的量化分析及文本生成》评审意见   刘少杰


民族互嵌地区少数民族文化如何传承——基于 ChatGPT 的质性分析和文本生成 &技术报告  郭茂灿   吴宇雨   鲁思研   高思蓉

民族互嵌地区少数民族文化如何传承?——基于 ChatGPT 的质性分析和文本生成》评审意见   游天龙


基于人工智能技术的翻译工具的翻译水平比较研究   马倩 崔筱慈


ChatGPT4.0生成学术论文全文的使用方法和评测   朱悦


地方性知识在民族工艺传承上的嵌入——基于鹤庆县银器传承的 ChatGPT 文本生成案例分析&技术报告   山鑫垚   王燊嵘

地方性知识在民族工艺传承上的嵌入———基于鹤庆县银器传承的ChatGPT 文本生成案例分析》评审意见    李炎


跨越边界的社会工作:社会工作参与边境服务的选择性嵌入策略——基于ChatGPT赋能学术写作的探索&技术报告   田一然   吴佳潞

《跨越边界的社会工作:社会工作参与边境服务的选择性嵌入策略——基于ChatGPT赋能学术写作的探索》评审意见 游天龙


AI与社科研究

ChatGPT “共舞”:人机协作的知识生产探索与反思——以一项劳动控制的民族志研究为例    誉梓    蒲威东

《与 ChatGPT “共舞”: 人机协作的知识生产探索与反思——以一项劳动控制的民族志研究为例》 评审意见   文军


社区老年高血压患者疾病感知的叙事分析&技术报告   姚红

社区老年高血压患者疾病感知的叙事分析》评审意见   王爱丽


孝道观念变迁下的代际关系适应研究——基于 ChatGPT 整体取向的质性文本分析&技术报告   杨曦    赵宇翔    王海宇

《孝道观念变迁下的代际关系适应研究——基于 ChatGPT 整体取向的质性文本分析》评审意见   周晓虹


社会支持研究中生成式人工智能的应用   邓雅心   蔡莉

《社会支持研究中生成式人工智能的应用》评审意见   陈云松


其他

AI辅助翻译:《人工智能与社会科学研究的变革——细致的偏差管理和数据保真是关键》   Igor GrossmannMatthew Feinberg 崔筱慈马倩 译


首届 魁阁青年学者论坛——面向数字社会中国青年社会学者的回应   马俊红


首届 魁阁社会学人类学写作工作坊——非虚构写作的社会学与人类学意涵    邵滢候    殷陈茹 


研究乡村治理问题的一部力作—— 《乡村社会的文化治理书评    郑晔


百年和顺图书馆提供了文化社会学研究的极好案例     傅才武


文章正文

作者简介:

lgor Grossmann ,滑铁卢大学教授;Matthew Feinberg ,多伦多大学助理教授 

筱慈 ,云南 大学民族学与社会学学院硕士研究生 ;马倩 ,云南大学民族学与社会学学院硕士研究生。








人工智能 (AI),尤其是大型语言模型 (LLM) 的进步正在对社会科学研究产生重大影响。这些基于转换器的机器学习模型对大量文本数据进行了预训练,越来越能够模拟人类的反应和行为 (Bubeck et al. , 2023;Grossmann et al. , 2023), 为大规模、快速地检验关于人类行为的理论和假设提供了机会。这也带来了紧迫的挑战:如何调整甚至重塑社会科学研究实践以利用基础人工智能的力量? 如何在确保研究透明和可复制的同时做到这一点?


社会科学依赖一系列的方法 ,包括问卷调查法 、行为测试 、半结构化访谈的混合方法分析 、基于代理的建模(ABM)、观察研究和实验 。它们的共同目标是获得个人 、群体 、文化及其动态特征的通用表征( Grossmann  et al. 2023)。随着先进人工智能系统的出现 ,社会科学数据收集的格局可能会发生改变 LLMs 利用深度学习的优势来捕捉语言中的复杂关系。与以往的人工智能相比 LLMs 的语言扫盲能力在处理 、生成和与人类进行语言互动方面具有语境感知性和语义准确性( Bubeck et al. 2023),表了一种重大转变,以往的人工智能方法往往难以处理语言的细微差别,如讽刺 、隐喻等情感基调 。通过适当的调节( Argyle et al. 2023),LLMs  可以更准确地模拟出人类的行为反应。


LLMs 可以取代人类参与者进行数据收集 。例如 LLMs 已经证明其有能力生成有关消费者行为的正式调查反馈( Grossmann et al. ,2023)。尽管对这种应用的可行性众说纷纭,但至少可以通过对这种模拟参与者的研究来生成假设 ,随后可以在真实人类群体中去检验证实这些假设( Argyle et al. ,2023; Park et al. ,2023)。这种方法的成功取决于训练数据的算法保真度( Argyle et al. ,2023)、模型训练的透明度 、快速工程和基准选择。


为什么这种情况是可行的? 通过对海量数据集的预先训练 ,先进的人工智能模型可以反映大量的人类经验和观点 ,与传统的人类参与方法相 ,它们可能有更大的自由度来产生不同的反应,这有助于减少研究中的普遍性问题( Grossmann et al. ,2023)。 由于人类的注意力有限 ,反应会有偏差或习惯化等实际问题 LLMs 可以比人类参与者在更广泛的参数范围内产生反应 ,从而提供较少偏差的潜在维度 。这使其在高风险项目中特别有用  因为对于这些项目 ,传统的数据收集是不切实际的 ,可以在真实世 界中实际实施干预措施前对模拟人群进行试验。


LLMs 可以用其他方式作为替代品。它们有可能通过复制不同理论或思想流派的观点来加强政策分析。例如,可以培训 LLMs,以捕捉复杂辩论的细微差别, 如在面对人为和技术因素时核威慑的稳定性和可靠性 (Tetlock et al. , 1991)。可对 LLMs 进行培训, 以捕捉各种视角,包括评估可能发生的 “假设” 情景, 如 1962 年的古巴导弹危机,并评估这些情景的可信度 。一旦 LLMs 通过了意识形态图灵测试这意味着 ,它们能够以一种与真实人类难以区分的方式准确地表达对立的观点研究者就可以使用它们来生成未来的场景 。因此 ,未来的 LLMs 经过适当的训练( Argyle et al. ,2023)后 ,可能会在分析任务方面胜过人类 ,如综合分析相互冲突的观点 ,从而生成出色的预测和政策处方。


人工智能还可以在涉及个人或群体的社会交互研究中扮演 “ 同盟   受控实验伙伴)的角色( Shirado & Christakis 2017),有可能成为基于代理的模拟的组成部分 LLMs-ABMs 混合模型可以使用 LLMs 来推导出基于经验的社会决策或行为规则  以模拟具有特定特征和信仰的个人的社会互动( Park et al. 2023)。这种方法可以探究具有这些特定特征的主体如何影响后续与人的交互 ,从而为更广泛的社会科学问题提供信息 ,如虚假信息是如何在整个社交网络中传播的( Pennycook et al. 2020)。


这些研究提出了关于 LLMs 作为人类认知和决策模型的局限性的问题。 我们能否通过要求 LLMs 在分享前评估新闻项目的质量来“ 推动  LLMs 从而复制人类的研究成果( Pennycook et al. 2020)? 如果可以这样的话, 我们是否可以使用 LLMs-ABMs 综合模型来确定干预措施 ,从而减少通过社交网络传播的错误信息?一般而言 ,如果 LLMs-ABMs 能够提供关于人类行为主体如何选择共享信息 、在社会困境中合作和竞争以及遵守社会规范的新见解 ,那么它们能够以比先前的人类决策模型更高的保真度为人类行为 和社会动态的内在机制提供( Galesic et al. ,2021) 有价值的见解。


由于运行原理不同 ,将 LLMs 纳入 ABMs 会带来新的挑战。LLMs 根据从大量语言数据中得出的统计模式来生成和解释语言,而传统的 ABMs 则基于预定义的形式规则( Antosz et al. ,2022) 来运行 ,该规则可以通过使用真实世界语言数据和其他定性数据来生成 。想要利用 LLMs 的能力来模拟问卷调查的结果 、定义不明确情况下的行为或开放式回答( Grossmann et al. , 2023),则需要对 ABMs 进行新的设计 。通过为 ABMs 创建现实的初始人口样本 LLMs 可以模拟受试者潜在的认知或情感状态 ,从而超越传统研究者的能力,为未来的理论生成打开大门。


LLMs 的潜在发展前景包括创造多样化的文化产品作为样本 ,提供比使用传统方法能得到的更准确的人类行为和社会动态的写照,传统方法通常依赖较弱异质性和代表性的便利性样本 ( Grossmann et al. , 2023)。LLMs 可以帮助应对社会科学研究中的共同挑战,这些挑战可能导致有偏见的模型,包括普遍性和自我选择问题 (Grossmann et al. , 2023)。


有效的人工智能辅助研究取决于人工智能能够准确反映不同人口群体的观点 。众所周知,语言文化产品的预训练模型能够捕捉社会中存在的社会文化偏见( Grossmann et al. ,2023; Abid et al. ,2021)。当偏见被识别 ,它们的起源成了一个关键问题 :它们是否正确地反映了群体? 或者它们是模型构造中的人工产物( Grossmann et al. ,2023) 吗? 模型构建偏差可能源于整个设计和开发流程的不正确或无效选择( 例如 ,选择了在人口 统计群体里差别有效的数据进行模型 ,建构策划时使用了缺乏多样性或者编码包含着某些人类注释者偏见的数据集 ,或选择了未能描绘出与少数群体特 定模式相关的模型),以及现有的社会差异(Grossmann et al. ,2023)。


人文主义科学家的窘境是关键 :尽管科学家的目标是研究“ 纯粹  LLMs ,以模拟人类行为并追踪其文化演变( Grossmann et al. 2023),但伦理约束要求工程师保护 LLMs 免受这些偏见的影响。LLMs 程师已经针对 应该” 的世界(Bai et al. ,2022),而不是实际世界 ,对经过预训练的模型进行了微调。这种减少人工智能训练偏差的努力(Grossmann et al.2023;Biasin,2022) 可能                    性。 LLMs 培训的专有“ 黑匣子 ”性质挑战了研究人员评估潜在机制和复制发现的能力 。为解决这一问题 ,提倡开源 LLMs ,以获得经过预训练但未微调的科研模型 ,以及透明的方法( 如 BLOOM 、Cerbras-GPT  LLaMA),对于确保可靠和可信的 AI 驱动研究至关重要( Grossmann et al. ,2023)。


总体而言 ,研究人员需要为 LLMs 在研究中的伦理使用制定指南 ,解决与数据隐私 、算法公平性 [ 对比单一文化( Grossmann et al. ,2023) ] 环境成本( Grossmann et al. ,2023; Biasin ,2022) 以及潜在的 LLMs 误用产生的结果相关的问题 。对数据质量 、公平性以及访问强大人工智能系统的公平性的实用性关注将是广泛的。


在决定是否使用 LLMs 来模拟人类行为时 ,研究人员必须首先验证语言为中介的( 潜在) 结构( Grossmann et al. ,2023)。他们可以将 LLMs 产 生的反应视为非人类参与者的“ 样本”,并系统地改变提示 ,类似于在传统实验中的随机刺激 。在将 LLMs 用于研究时 ,一个重要的考虑因素是外部效度和内部效度之间的权衡 。未来的 LLMs 受训于不同的文化内容 ,通过模拟人类的反应和向现实世界的场景推广 ,提供更强的外部有效性 。然而,其不透明性将限制其内部有效性。 相反,建立在较小受控数据集上的实验室生长的自然语言处理模型将提供更强的内部有效性,但代价是降低可靠性和可概括性,因为有限的训练数据可能妨碍它们在不同环境中一致和广泛地执行的能力。


“……大型语言模型依赖文化产品中描述的人类经验的‘影子’。”


在不同情况下 ,这些方法都能发挥一致而广泛的作用 。研究人员应该根据他们自己的优先事项仔细选择这些方法。


研究人员还必须考虑他们的研究背景 。涉及暴力的高风险情况或大量人类参与者明显不可行的情况可能更适合 LLMs 例如 LLMs 可用于探索 太空旅行中的人类动力学,或为在线性侵犯者的研究创建施害者和受害者原型,这是一个                        创伤。


随着人工智能重塑社会科学的格局( Peterson et al. 2021),研究人员的专业知识也将更多样化 ,他们将扮演新的角色 ,如模型偏差搜寻者、人工智能数据验证者或人工智能交互者 。在此种情况 ,保持概念清晰度 Grossmann et al. 2023)、理解测量基础( Grossmann et al. 2023)、坚持  基于伦理的实践智慧( Grossmann et al. 2020),对于选择适合自己研究问题的人工智能辅助设计是必不可少的 。随着人工智能辅助数据采集的民主 ,早期社会科学培训和支持定量方法( 如计算 、统计等) 的重要性越来越凸显 ,这就需要对社科教育计划进行修订。


正如柏拉图洞穴寓言中的囚犯观察墙上的影子并相信它们代表了现实一样 LLMs 依赖文化产品中描述的人类经验的“ 影子”。这些“ 影子 ”对 它们所代表的现象的真实本质提供了一个有限的视角  因为文化产品中捕捉到的民间心理学可能并不总能反映支配人类行为的机制这是社会科学家必须承认的局限性 。无论是在代表性偏差 、抽样方法还是方法论上的个人主义( Grossmann et al. ,2023),研究 LLMs 的局限性和偏差也为许多领域中的常见做法提供了一面镜子。


尽管存在这些障碍,但 LLMs 允许社会科学家突破传统的研究方法,以创新的方式开展工作 LLMs 模型很可能会削弱在线众作平台的能力,而在线众作平台是许多社会科学领域的人类参与者数据的主要来源 ,原因很简单 ,一是简单任务的表现不尽如人意 ,二是由 LLMs 引导的机器人的开放式回答无法与人类参与者区分开来,这就需要新的人类数据验证方 。社会科学家必须准备好去适应技术发展带来的不确定性( Grossmann et  al. 2020), 同时注意当前研究实践的局限性 。只有保持透明度和可复制 (Grossmann et al. , 2023),我们才能确保人工智能辅助的社会科学研究真正有助于我们理解人类经验。


注:因篇幅原因,文章在公众号宣发时省略参考文献









【声明】内容源于网络
0
0
新译研究院
新译研究院是新译信息科技(北京)有限公司设立的智库,由中国出版协会副理事长、社科文献出版社原社长谢寿光担任创始院长。研究方向包括与相关部委、行业协会、大学、企业开展智能翻译深度研究,组织行业会议,发布机器翻译年度报告,提供语言服务咨询等。
内容 48
粉丝 0
新译研究院 新译研究院是新译信息科技(北京)有限公司设立的智库,由中国出版协会副理事长、社科文献出版社原社长谢寿光担任创始院长。研究方向包括与相关部委、行业协会、大学、企业开展智能翻译深度研究,组织行业会议,发布机器翻译年度报告,提供语言服务咨询等。
总阅读15
粉丝0
内容48