首页 / 行业
Dolly 2.0发布,首个真正开放、可商用的指令调优LLM
2023-04-14 09:33:00
Databricks 发布了 Dolly 2.0,这是该公司于两周前发布的一种训练成本不到 30 美元,类似 ChatGPT 的大型语言模型 (LLM) Dolly 的改进版本。公告称,Dolly 2.0 是第一个开源的指令跟随型语言模型,它在人类生成的指令数据集上进行了微调,可用于研究和商业用途。
根据介绍,Dolly 1.0 使用了斯坦福大学 Alpaca 团队使用 OpenAI API 创建的数据集进行训练;该数据集包含 ChatGPT 的输出,而其服务条款试图阻止任何人创建与 OpenAI 竞争的模型。因此,Dolly 1.0 并不能用于商业用途。且据已知信息,目前所有现有的知名指令跟随模型 (Alpaca, Koala, GPT4All, Vicuna) 都受到此限制,禁止商业使用。为了解决这个难题,Databricks 于是决定创建一个没有商业用途限制的新数据集。
Dolly 2.0 是一个基于 EleutherAI pythia 模型系列的 12B 参数语言模型,并在透明且免费提供的数据集上进行了微调;该数据集称为 databricks-dolly-15k,也已开源发布。Databricks 表示,他们正在开源整个 Dolly 2.0,包括训练代码、数据集和模型权重,所有这些都适合商业使用。这意味着任何组织都可以创建、拥有和定制强大的 LLM,这些 LLM 可以与人们交谈,而无需支付 API 访问费用或与第三方共享数据。
databricks-dolly-15k 包含来自数千名 Databricks 员工的 15,000 个高质量的人工生成的提示 / 响应对,专为指令调优大型语言模型而设计。且 databricks-dolly-15k 根据(Creative Commons Attribution-ShareAlike 3.0 Unported License)的许可条款,任何人都可以出于任何目的使用、修改或扩展此数据集,包括商业应用程序。
Databricks 称这是 “第一个开源的、人工生成的指令语料库,专门设计用于让大型语言能够展示 ChatGPT 的神奇交互性”。并补充到,虽然 databricks-dolly-15k 比训练 Dolly 1.0 的数据集 Alpaca 小得多,但基于 EleutherAI 的 pythia-12b 生成的 Dolly 2.0 模型表现出高质量的指令遵循行为。另一方面, databricks-dolly-15k 是由专业人士生成的、质量很高,并且包含对大多数任务的长篇答案。
Databricks 表示,他们并没有期望 Dolly 在有效性方面达到最先进水平。但确实希望 Dolly 和开源数据集将成为大量后续工作的种子,“这可能有助于引导出更强大的语言模型”。
“我们还认为,偏见、问责制和人工智能安全等重要问题应该由不同利益相关者组成的广泛社区来解决,而不仅仅是少数大公司。开源数据集和模型鼓励评论、研究和创新,这将有助于确保每个人都能从人工智能技术的进步中受益。”
审核编辑 :李倩
最新内容
手机 |
相关内容
光耦仿真器简介和优势
光耦仿真器简介和优势,仿真器,参数,接收器,设计方案,耦合,器件,光耦仿真器是一种用于模拟光耦合器件的工具,它可以帮助工程师在设计电源滤波器的设计原则和参数选择
电源滤波器的设计原则和参数选择,设计原则,参数,选择,滤波器,噪声,高频,AM26LV32CDR电源滤波器是用来净化电源信号的装置,能够阻止高所有遥不可及,终因AI触手可及
所有遥不可及,终因AI触手可及,出行,平台,无人驾驶汽车,导致,人工智能,学习,人类历史上,有许多事物曾被认为是遥不可及的,然而随着科技面向6G+AI,鹏城云脑的演进
面向6G+AI,鹏城云脑的演进,鹏城,人工智能,数据存储,脑可,智能终端,智能,随着科技的不断进步,人们的生活方式也在不断改变。6G+AI(人工可穿戴传感器能够实现准确的实时检
可穿戴传感器能够实现准确的实时检测,检测,实时,传感器,可穿戴,高精度,数据传输,可穿戴传感器(Wearable Sensors)是一种集成在人体上直播回顾 | 宽禁带半导体材料及功
直播回顾 | 宽禁带半导体材料及功率半导体器件测试,测试,性能测试,常见,参数,可靠性,器件,宽禁带半导体材料及功率半导体器件是现代探秘英伟达显卡的制造之路 | 英伟
探秘英伟达显卡的制造之路 | 英伟达断供GPU,中国大模型何去何从?,英伟达,模型,中国大,显卡,方案,能力,英伟达(NVIDIA)是全球领先的图形Transphorm推出TOLL封装FET,将氮化
Transphorm推出TOLL封装FET,将氮化镓定位为支持高功率能耗人工智能应用的最佳器件,支持,定位,推出,高功率,封装,器件,加利福尼亚州戈