斯坦福大学研究:教育水平较低地区的 AI 写作工具使用率更高
GoodNav 于 3 月 4 日报道,自 2022 年底 ChatGPT 发布以来,关于人工智能语言模型将对世界产生深远影响的讨论一直持续着。随着斯坦福大学最近发布的一项新研究,这一前景愈发明朗。研究指出,AI 语言模型目前已在多个领域协助处理多达四分之一的专业沟通任务,尤其在教育水平较低的地区,其影响力尤为显著。
研究团队在报告中提到:“我们的研究揭示了一种新的现实,即企业、消费者及国际组织在沟通中对生成式 AI 的依赖日益加深。”他们追踪了 2022 年 1 月至 2024 年 9 月间不同行业中大型语言模型(LLM)的应用情况。研究所用的数据集涵盖了美国消费者金融保护局(CFPB)收到的 687,241 份消费者投诉、537,413 份企业新闻稿、3.043 亿个工作招聘启事和 15,919 份联合国新闻稿。
通过统计方法检测词汇使用的变化,研究人员发现,在此期间,约 18% 的金融消费者投诉(阿肯色州的投诉中这个比例为 30%)具有 AI 协助的特征;企业新闻稿中有 24%、工作招聘启事中有 15% 以及联合国新闻稿中有 14% 的内容同样显示出 AI 的参与。
此外,研究还发现尽管城市地区的 AI 采用率整体较高(18.2%),但教育水平较低地区的 AI 写作工具使用率更高(19.9%),高于教育水平较高地区(17.4%)。这种情况与以往技术采用的模式相悖,一般而言,受过高等教育的人群更快采纳新技术。
研究人员指出:“在消费者投诉领域,LLM 的地理和人口统计分布与历史技术传播趋势截然不同。传统上,新技术的采用集中在城市、高收入和高学历的人群中。”
他们认为,AI 写作工具可能为那些教育背景较少的人群提供了一种“支持”。研究人员写道:“虽然城乡数字鸿沟依旧存在,但教育水平较低的地区在消费者投诉中显示出更高的 LLM 使用率,这表明这些工具可能成为消费者维权的‘平等化工具’。”
然而,关于 AI 写作检测服务的可靠性一直存在争议,本研究也证实了这一点。在单个文档层面上,AI 检测工具的有效性不足,但在分析数百万份文档的整体数据时,一些特征模式开始显现,这些模式揭示了 AI 语言模型对文本的影响。
研究团队基于先前发布的统计框架开发了一种新方法,分析 ChatGPT 发布前后词汇频率和语言模式的变化。研究者通过比较 ChatGPT 推出前后的大量文本,估算了 AI 辅助内容在人口层面上的比例。他们假设,大型语言模型通常倾向于使用某些特定的词汇、句式结构和语言特征,这些特征与典型人类写作存在微小差异。
为验证方法的可靠性,研究人员创建了一个已知 AI 内容比例(从 0% 到 25%)的测试集,并发现其方法预测这些比例的误差率低于 3.3%。这一统计验证增强了他们对自身人口层面估算的信心。
需要注意的是,研究人员特别指出,他们的估算可能仅代表 AI 使用的最低水平,而实际的 AI 参与度可能更高。由于难以检测经过大规模编辑或者由越来越复杂的 AI 生成的内容,研究人员认为,他们报告的采用率可能显著低估了生成式 AI 的真实应用水平。
根据研究人员的观察,他们分析的所有领域(消费者投诉、企业沟通、工作招聘启事)均显示出类似的采用模式:在 ChatGPT 于 2022 年 11 月发布后的三到四个月内,使用率猛增,随后在 2023 年底趋于平稳。
研究人员承认,由于研究主要集中在英文内容,分析存在局限性。此外,如前述,他们发现无法可靠地检测经过人工编辑或那些模仿人类写作风格的新一代模型生成的 AI 内容。因此,研究人员认为他们的结果仅反映 AI 写作工具采用率的下限。
研究人员指出,2024 年 AI 写作采用率的停滞可能象征着市场饱和,或者是越来越复杂的 LLM 生成的文本难以被检测。他们总结道,当前我们身处一个人类写作与 AI 写作日益难以区分的时代,这对社会沟通产生了深远的影响。
研究人员表示:“对 AI 生成内容的日益依赖可能给沟通带来挑战。在敏感领域中,过度依赖 AI 可能导致信息无法解决实际问题,或在公开发布时降低信息的可信度。同时,这也可能引发公众对企业信息真实性的不信任。”