(一)一天,从提出需求到代码上线
我们课题组的报销流程一直很繁琐,至少我在处理了几次报销流程后是这么认为的。每次出差或采购后,导师总会选一位同学,他会在微信中戳每一位需要报销的同学,把发票、支付记录、行程单、审批表等等一大堆材料手动整理、归档。这种方式效率很低,经常出错,而且往往在提交之后被打回。
终于,从北京出差回来的那天下午,我突发奇想,正好我也在用Cursor(一种基于AI的智能代码编辑器)帮我写分析实验数据的代码,就试着用自然语言让LLM(大语言模型)帮我写一个报销材料收集系统。我其实并不精通前后端开发,只是描述了我的需求,然后跟大模型反复交互迭代修改了几轮之后(就像是产品经理和程序员反复沟通需求那样),LLM就生成了完整的、可以直接部署的代码。从需求描述到系统上线,前后不到一天。
导师看到后很高兴,我也挺得意的。但我在高兴之余也感到了一次不安,不是因为什么高尚的道德焦虑,也不是担心未来可能被更先进的人工智能取代的焦虑,更多的是而是因为我突然意识到:我一个普普通通的博士研究生,不到一天就能做出一个完整的应用。那些真正懂技术的人,或者那些怀有恶意的人,他们能用同样的工具做什么?关于技术、能力、责任,我从小到大学到的很多东西可能正在被快速改写,而我还没来得及理解这种改写意味着什么。
后来我才意识到,这种不安究竟从何而来:当技术让生成变得如此轻易,我们习以为常的眼见为实还能成立吗?
(二)“每个人看起来都很真实啊”
从一则真实的案例说起吧。2024年初,英国工程集团Arup香港分公司的一位财务职员,在参加了一场看似正常的视频会议后,按照所谓CFO的指示,分十几次向多个银行账户转账了2亿港元。
荒诞的地方在于:这个职员一开始并没有完全相信,但当他进入视频会议,看到公司CFO、一些同事、还有几个外部人员后,他的警惕性就放下了。这可都是他的“熟面孔”,据当事人回忆称“每个人看起来都很真实啊”。
诈骗者是怎么做到的呢?他们通过公司的YouTube视频和从其他公开渠道获取的媒体资料,成功地仿造了英国公司高层管理人员的形象和声音,再利用Deepfake(深度伪造)技术制作伪冒视频。整个会议只有受害人一个人是真的,其他所有人都是AI生成的。
读到这个案例的时候,我想起了小时候看过的科幻电影。当时觉得那些情节太遥远了,遥远到可以当作纯粹的娱乐来消费。但现在,那些看似遥远的场景正在以一种极其日常的方式照进现实。
(三)眼见为实?
如果说香港的诈骗案还可以被视为个别极端事件,那么2025年初发生的一连串事情则让人无法再抱有任何侥幸心理。这次我们把目光投向广大网友(特别是中老年朋友们)都在刷的短视频平台。
2025年1月7日,西藏定日县地震后,一系列小男孩被埋图在互联网平台广泛传播,配文日喀则地震等关键词,引发大量网民关注。后来有人发现,图中的小男孩有6根手指,这是AI生成图像的典型破绽。看到这种谣言有时候挺让人无语的……
但这只是开始。3月初,广东出现强对流天气,多地下起冰雹。很快,网络上就出现了冰雹比鸡蛋还大、冰雹砸坏汽车、冰雹砸垮了房屋顶棚等图片。经核实,这些图片均为AI生成,画面明显夸大了灾情。
无独有偶。AI冰雹图片的谣言过去还没几天,3月5日,新疆阿克苏地区震后仅3小时,某短视频平台便出现了伤亡人数和房屋倒塌的谣言,配以AI拼接的房屋坍塌图片和方言配音的灾民呼救视频。实际上,经当地政府全面摸排,此次地震未造成人员伤亡和财产损失。
三小时。从地震发生到谣言成型,只用了三小时。
让我感到最不安的不是某一条具体的谣言,而是这种工业化生产的模式。据报道,利用AI造谣已经形成了分工明确的灰色产业链:不法者在兼职群里发布招募信息,教学员洗稿牟利,一人动辄手握上千个账号。专家发现,网络灰产团伙利用扩散模型和智能体技术,可以日均生成10万条AI谣言,传播速度是人工造谣的50倍。
还有更荒诞的。2024年底,网上出现了一段复旦大学附属华山医院感染科主任张文宏卖力推销某保健品的视频。不少网友出于对张文宏的信任购买、转发。然而,张文宏本人很快澄清,该视频是用AI伪造的。
你信任一个人,所以你相信他说的话。但现在,你信任的“他”可以被伪造。
“视频不能P所以是真的!”互联网平台上网友们常玩这个梗。但是,当技术能轻易制造有图有真相、有视频有真相的谎言,信息的真实性就变得扑朔迷离。人们常说眼见为实,现在这句话需要加一个巨大的问号。
(四)它只知道什么是“像”
坏人自古就有,技术只是换了他们的工具。不是那些恶意造谣的人,真正让我不安的,是AI本身那个被称为幻觉的东西。
大模型会撒谎,它自己会“编造”。“这不是bug,这是feature。”程序员们都很熟悉这句话,某种程度上放在这里还挺恰当的。我们计算机、软件工程、人工智能专业的研究生(以及高年级本科生)都或多或少了解这一事实,当前绝大多数的大语言模型基于Transformer架构的概率统计机制,本质上是通过海量数据训练形成的概率游戏。它不像是传统的搜索引擎、推荐系统在查找或检索答案,而是在预测下一个最可能出现的词,并且带有一定的随机性。但是,当它没有见过某些文本(这些文本是训练语料之外的,例如近期的新闻),找不到合适的“资料”时,如果不加以特殊的方法来缓解,就还是会继续按算法选择下一个最可能出现的词,所以看上去就像是自动编造看上去合理的细节来填补空白。
有人这样说,就像人类大脑的创造性思维需要容错空间,这也是AI之所以具有创新能力的关键。我第一次读到这句话的时候愣了很久。创造力和胡说八道,竟然是同一枚硬币的两面。
2023年,美国有一起航空公司侵权案件。律师用ChatGPT撰写法律简报,引用了大量法院过去的判例。但法官审查时发现,那些判例全是编造的!案件名称、日期、裁决结果,一切看起来都很真实,但在现实中根本不存在。这像极了用LLM写出来的学术论文,乍一看有模有样,但是参考文献是不能看的,因为没有一篇是真实存在的文献。
当我刚开始了解自然语言处理(当前大语言模型的核心技术领域)时,我就听说了一句话:自然语言处理实际上是教计算机如何说人话,怎样说好人话。实际上,AI没有说谎的意图(除非使用提示词刻意引导),它只是在做它被设计来做的事:生成看起来合理的文本。它不知道什么是真实,因为真实这个概念对它来说毫无意义。它只知道什么是“像”。
互联网上良莠不齐的信息源会加剧这种错误。而当AI生成的错误信息又被当作训练数据喂给下一代模型时,谎言就开始自我繁殖。我们正在建造一座巴别塔,但这次不是通往天堂,而是通往一个真假难辨的世界。
(五)代码生成亦是如此
回到代码生成上吧,这是我作为软件工程专业学生最直接接触到的领域。
最近的学术研究表明,超过四成的AI生成代码解决方案存在安全漏洞,即使是使用最新的大语言模型也是如此。这个比例相当惊人。可能这样举例并不是很恰当,但是可以想象一下,如果有人告诉你,你在网上购买的食品有40%存在食品安全问题,你还会轻易购买吗?
多项基准研究报告显示,根据任务、语言、模型和提示配置的不同,相当大一部分由AI生成的代码片段不符合基本的安全编码标准,或明确触发CWE分类(通用弱点枚举,本质就是一个软件和硬件缺陷类型列表)的漏洞。这些漏洞包括SQL注入、跨站脚本攻击(XSS)以及缓冲区溢出等,这些都是教科书里反复警告我们要避免的经典错误。
LLM产生安全缺陷的原因,和它产生幻觉的原因如出一辙:训练数据可能包含不安全的代码,同时模型对安全编码原则的理解仍然不足。我们总会听到一种论调,LLM不是在思考代码应该怎么写,而是在预测代码通常怎么写。而互联网上流传的代码,有太多本身就是有问题的。
更值得警惕的是,即使是经验丰富的用户也很少能识别出LLM建议代码中的漏洞。2024年Stack Overflow年度开发者调查显示,超过七成的受访者正在使用或计划在开发过程中使用AI工具编写代码。我们也做过一些软件研发效能的调研,实际上当LLM生成代码的速度超过一个正常人能够阅读代码的速度时,大多数的开发者会倾向于这些代码,并不会严格讨论这些代码的准确性和安全性,表示“能跑就行”。更为严峻的一个问题是,现在的开发者遇到问题后甚至并不会到Stack Overflow上发帖求助了,而是直接去问LLM。
这意味着我们正在以前所未有的速度生产代码,但其中相当比例是有问题的,而大多数人甚至没有能力察觉这些问题。这不是单一个体层面的问题,而是一种面向整个程序员群体,甚至是我们所有人类的系统性的风险。
(六)LLM时代的“圈地运动”
当我们使用ChatGPT或其他商业AI产品时,我们不只是在使用工具。我们的注意力成为广告收入的来源,我们的对话成为训练数据……大语言模型的能力并非凭空而来,它依赖于海量的人类创作内容作为训练数据,其中大部分创作者既没有被告知,也没有获得补偿。
2023年,四位插画师起诉小红书旗下AI绘画产品Trik AI,指控其未经授权使用原告美术作品训练AI模型并生成高度相似图片,构成著作权侵权。2023年底,《纽约时报》在美国纽约南区联邦地区法院提起诉讼,称OpenAI未经许可大量使用其作品训练人工智能模型,构成著作权侵权。
这是一种什么样的社会关系?我倾向于认为,这是一种新型的原始积累。正如资本主义早期通过圈地运动将公共土地转化为私人资本,今天的AI公司正在将人类的集体智慧成果——文本、图像、代码——转化为私有的模型参数(至少大部分的商业模型并不开源模型参数)。这个过程更加隐蔽,但逻辑是一样的:把原本属于公共领域或个体创作者的东西,悄然纳入私人资本的版图。
(七)用魔法打败魔法
但我不想把这篇文章写成对技术的控诉。那样太简单了,也太不诚实了。
实话说,我自己也在用这些工具。写代码的时候,我会用Cursor、GitHub Copilot这类代码编辑器或者插件帮我补全或生成代码;遇到不懂的概念,我会去问DeepSeek、ChatGPT、豆包;甚至在写这篇文章前的案例收集,我也在Bing(微软搜索引擎)检索的过程中使用并参考了Copilot Search的总结,并验证了信息的来源。完全拒绝使用AI工具在今天已经不太现实,就像在电力时代拒绝用电一样。
所以问题不是要不要用AI,而是怎么用,以及谁来决定怎么用。
对于代码安全,专家的建议是:始终仔细检查任何建议的代码再执行,不要盲目信任AI。LLM生成的代码必须默认被视为不可信的,需要经过严格的多阶段审查。
对于AI谣言,政策层面已经有所行动。2022年,国家网信办出台《互联网信息服务深度合成管理规定》;2024年又发布《人工智能生成合成内容标识办法(征求意见稿)》,明确要求AI生成内容必须添加显著的提示标识。技术层面,2025年初腾讯发布了AI检测工具“朱雀”,尝试用AI打击AI谣言。同时我们也看到了监管部门和内容平台的一系列举措。自今年1月1日起,在全国范围内开展的为期一个月的“AI魔改”视频专项治理行动中,此次专项行动重点整治基于四大名著、历史题材、革命题材、英模人物等电视剧作品进行“AI魔改”的内容。仅看部分网络视听平台公布的第一周处理结果,就有4800余条视频被处置。但是,随着AI生成内容越来越逼真,测假的能力还远远跟不上造假的速度。
看起来,这像是一场永无止境的军备竞赛。
无论是针对代码安全还是谣言治理,我们总结一下其实可以发现:个体可以提高警惕、加强审查,可以提升所谓的数字免疫力,但个体无法解决面向整个社会的系统性问题。当网络灰产团伙可以日均生成10万条AI谣言,传播速度是人工造谣的50倍;当一个人可以手握上千个账号批量生产虚假信息……面对这样的规模,个人的谨慎和理性显得如此渺小。
(八)绕不过去的路
那么,系统性的问题需要什么样的系统性解决方案?
这是我思考最多但也最没有把握的部分。如果我这里去讲加强监管、完善法律之类的空话就显得有点无力了。除了这些空话之外,有几点是我比较确定的,是值得我们讨论的。
第一,无论是开发者还是使用者,都应该清楚地知道AI系统的能力边界和潜在风险,即“透明性”。训练数据应该尽可能公开;模型的行为限制应该被明确说明;AI生成的内容应该被标识。上面提到的《人工智能生成合成内容标识办法》就是朝这个方向迈出的一步,尽管执行层面仍有很长的路要走。透明性不是万能药,但它是任何负责任治理的前提条件。
第二,现有的知识产权制度是否真的适应AI时代呢?当前AI的创作能力正以指数级提升,在一部作品的创作中,到底哪些是模型贡献,哪些又是作者贡献,或许在不远的未来将越来越难以判断。我们可能需要一种新的制度安排来确保AI发展的收益被更公平地分享,也许是某种形式的创作者分红机制,亦或是对训练数据使用的许可制度。
第三,平台不能“独善其身”。当一个平台的算法推荐机制能让AI谣言在几小时内触达数百万人,当先发后审的审核模式让虚假信息有足够的时间完成传播,平台早就不应是被动的中介。它们主动设计算法、塑造信息流、引导用户注意力,并从中获取利润,也就意味着平台需要尽到更严格的事前审核义务,以及实现对高风险内容的传播限速机制等等。
最后,也是最根本的,我认为我们需要培养一种批判性思维。这不仅仅是学会使用AI工具,更是理解这些工具的局限性、内嵌的偏见、以及使用它们的社会后果。免疫力不是让你永远不生病,而是让你在病毒入侵时有能力识别和抵抗。因此,提升所谓的数字免疫力,不是要求每个人都成为技术专家,而是让普通人具备基本的判断力。要知道什么时候该怀疑,知道去哪里核实,知道便捷的背后可能藏着什么代价。
(九)我不能假装什么都没发生
我在写这篇文章的时候反复问自己:我到底想说什么?
我想说的是,LLM时代的技术伦理问题不是一个可以通过喊几句口号、制定几条规定就能解决的问题。它涉及到我们对技术、对能力、对责任、对人与人之间关系的根本理解。
香港那位被骗的员工,他的错误是什么?是太轻信视频会议里的“同事”?但在Deepfake技术出现之前,看到即可相信、所见即所得本来就是人类社会运转的基本原则。那些在地震后转发小男孩被埋图的网民,他们的错误是什么?他们只是出于善意想要传播灾情、呼吁救援,却不知道自己转发的是AI生成的虚假图片。张文宏代言保健品视频的受害者,他们的错误又是什么?他们只是信任一个在疫情期间给过他们专业指导的医生。
技术改变了规则,但我们大多数人还没来得及意识到规则已经变了。
眼见为实失效了,专家背书可以被伪造,有图有真相变成了最大的谎言。我们用了几千年建立起来的信任机制,正在被几年内发展起来的技术逐一瓦解。
马克思说过:“哲学家们只是用不同的方式解释世界,问题在于改变世界。”我觉得在LLM时代,这句话需要被补充:改变世界之前,我们首先需要理解这个正在被技术急剧重塑的世界。
我没有什么宏大的结论,只有困惑和思考。但也许,保持困惑和持续思考本身,就是面对这个混乱有序的时代的一种破局之法。
我不知道明天这个世界会变成什么样,但我知道我不能假装什么都没发生。