首页 / 行业
AI如何检测这类虚假新闻
2019-04-28 17:18:00
上个月,OpenAI 发布其最新语言模型——GPT-2,但因为担心它可能被用来制造大量伪造和虚假的信息,颇为戏剧性地决定不开源该模型。
这一决定也使得 AI 社区开始讨论:如何检测这类虚假新闻。
在一项新实验中,来自麻省理工学院-IBM Watson 人工智能实验室和哈佛大学自然语言处理实验室的研究人员思考,能够生成如此逼真的文本的语言模型,是否可以用来检测其他语言模型生成的文本的真假。
图 丨 OpenAI GPT-2 生成的假新闻。(来源:HENDRIK STROBELT AND SEBASTIAN GEHRMANN)
这个假设背后的想法很简单:语言模型通过不断预测单词序列中的下一个概率最大的单词来产生句子。因此,如果某个语言模型能够轻松地预测某一段落中的大部分词语,那这段文本很可能就是这个语言模型生成的。
研究人员通过构建基于 OpenAI GPT-2 开源的小模型的交互式工具来测试他们的想法。当为该工具提供一段文字时,它会让每个单词高亮不同的颜色,从绿色到黄色到红色,表示预测几率逐渐下降;如果语言模型根本没有预测出某一单词,它会用紫色高亮该单词。所以从理论上讲,红色和紫色词的越多,该文本由人类书写的概率就越大;如果绿色和黄色词的份额越大,该文本由语言模型生成的概率就越大。
图 丨 OpenAI GPT-2 小模型生成的文本。(来源:HENDRIK STROBELT AND SEBASTIAN GEHRMANN)
事实上,研究人员发现,GPT-2 的小模型和完整版本的模型所写的段落几乎完全是绿色和黄色,而人类写的科学文摘和美国入学标准化测试中阅读理解段落中的文字有很多红色和紫色。
图 丨 美国入学标准化测试中的阅读理解短文,由人类书写。(来源:HENDRIK STROBELT AND SEBASTIAN GEHRMANN)
但事情没有想象中的简单。Janelle Shane 是一位负责运营“Letting Neural Networks Be Weird“博客的研究员,她并未参与前文所述的研究。她将该工具用于更严格的测试,不仅仅提供 GPT-2 生成的文本,还提供了由其他语言模型生成的文本,包括一个用亚马逊评论训练的模型和一个用《龙与地下城》语料训练的模型。
她发现,这个工具无法预测每个段落中的大部分单词,因此该工具认为这些文本是人类写的。这说明一个重要观点:语言模型可能擅长检测自己的输出,但不一定擅长检测其他语言模型的输出。
看来,人类打击互联网假新闻还是任重道远啊。
最新内容
手机 |
相关内容
分离式光电液位传感器与电容式液位
分离式光电液位传感器与电容式液位传感器对比,传感器,值会,温度,检测,测量,介电常数,分离式光电液位传感器与电容式液位传感器是常什么是带阻三极管,带阻三极管的基本
什么是带阻三极管,带阻三极管的基本结构、工作原理、电阻比率、常用型号、应用、检测、操作规程及发展历程,三极管,检测,工作原理,应用在城市井盖积水检测中的深水液
应用在城市井盖积水检测中的深水液位传感芯片,芯片,检测,积水,监测,传感器,实时,深水液位传感芯片在城市井盖积水检测中起到了重要什么是电机启动器,电机启动器的基本
什么是电机启动器,电机启动器的基本结构、优缺点、工作原理、类型、检测、操作规程及发展历程,工作原理,类型,检测,结构,启动,断开,什么是真空接触器,真空接触器的基本
什么是真空接触器,真空接触器的基本结构、优缺点、工作原理、应用、安装、检测、故障原因及发展历程,原因,故障,检测,安装,结构,工可穿戴传感器能够实现准确的实时检
可穿戴传感器能够实现准确的实时检测,检测,实时,传感器,可穿戴,高精度,数据传输,可穿戴传感器(Wearable Sensors)是一种集成在人体上全极性霍尔芯片LM224DR2G可实现共
全极性霍尔芯片LM224DR2G可实现共享充电宝中位置检测功能,位置,检测,充电,宝中,芯片,输出,全极性霍尔芯片LM224DR2G是一种用于位置森萨塔推出首款经UL认证的A2L制冷
森萨塔推出首款经UL认证的A2L制冷剂泄漏检测传感器,检测,首款,认证,森萨塔,推出,传感器,森萨塔是一家专注于制冷和空调技术的领先公