炼数成金 门户 商业智能 自然语言处理 查看内容

参数量110亿,附赠750GB数据集,Google提NLP预训练模型T5

2019-10-25 14:12| 发布者: 炼数成金_小数| 查看: 18572| 评论: 0|来自: AI科技大本营

摘要: T5 库里主要是用于用文本到文本的 Transformer 来重现探索迁移学习极限实验的代码。此存储库中的大部分代码用于加载、预处理、混合和评估数据集。它还提供了一种方法来微调发布的预训练模型。T5 提供了有用的模块来 ...

网络 工具 模型 测试 商业智能

近日,Google 在一篇共有 53 页的论文《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》中,提出了一个的预训练模型 T5(全称 Text-To-Text Transfer Transformer),其参数量达到了 110 亿,要知道 Bert Large 模型的参数量不过才 3.4 亿,是后者的 32 倍多。
    
Google 还放出了源代码:
GitHub 链接:
https://github.com/google-research/text-to-text-transfer-transformer
 
论文:
https://arxiv.org/abs/1910.10683
 
尽管文章主题是探索迁移学习的局限性,但其做了大量的预训练模型试验对比。这篇论文太长,亮点可以笼统概括为以下两大部分。
 
预训练模型 T5

             
T5 库里主要是用于用文本到文本的 Transformer 来重现探索迁移学习极限实验的代码。此存储库中的大部分代码用于加载、预处理、混合和评估数据集。它还提供了一种方法来微调发布的预训练模型。
 
T5 提供了有用的模块来训练和微调 text-to-text 混合任务的模型,可以作为未来模型开发的库。
 
研究人员通过大规模语料库上训练了几种基于 Transformers 的模型,以评估其文本到文本方法的有效性。

T5 登顶 GLUE 和 SUPERGLUE

这个较大的模型 T5 包含多达 110 亿个参数,或进行预测时所需的模型内部配置变量。研究人员表示,他们对各种语言任务进行了微调,并在 GLUE 和阅读理解基准 SQuAD和CNN / Daily Mail上取得了分数为 89.7。他们还在 SuperGLUE 上进行了测试,该基准包含了一些比当前 NLP 系统更加困难的任务,得分为 89.8,表现可媲美人类。
 
关于 T5 的所有测试结果都在论文最后一页。“你说你有足够多的算力?那你把这个表格复现一下?”

             
“买 T5 送 750GB 的 C4 数据集”
T5 模型的成功除了庞大参数量的助力,还包括 Google 研究人员开源的一个新数据集 Colossal Clean Crawled Corpus,简称 C4。顺便说一句,Google 真会起名。
 
Google研究人员称,将 T5 这个有史以来较大的模型之一提交到通用语言理解评估(GLUE)基准并进行测试后,他们在涵盖问题解答、文本分类等任务上获得了 SOTA 结果。
 
据称,T4 数据集源于 Common Crawl 项目,该项目每个月会从网络上爬取大约 20 TB 的英文文本。为了过滤出乱码、样板菜单和错误消息,它们仅保留以终端标点符号(句点、感叹号、问号或结束引号)结尾的文本行,同时删除带有明显填充文本和重复项的页面。结果,他们宣称得到一个比大多数用于预训练数据集都大一个数量级的 T4 数据集,约为 750 GB。
  
然而,Google 团队坦陈,他们的模型在诸如翻译之类的语言任务中表现不尽人意,将原因归结为特定任务数据相对缺乏和训练规模不足。因此,他们提倡使用较小的模型实现更强性能的方法,让迁移学习发挥较大的效能。

该论文的合著者写道:“我们的研究得出一个令人惊讶但重要的结果,那就是较大的模型往往表现更好。用于运行这些模型的硬件价格越来越低,功能却越来越强大,这一事实表明,扩大规模可能仍然是实现更好性能的有效方法。但是,在某些应用程序和场景中,使用较小或较便宜的模型更有效这一现象总是存在的,例如在执行客户端推断或联合学习时。”

网友评价
有知乎网友评论称,这篇论文更多是“大力出奇迹”的结果,有钱可以为所欲为,但内容上没有新意,没有惊喜。较大的意义就是为 NLP 预训练领域目前基本所有方法做了一个系统性的综述和实验对比。
 
另有网友调侃,Google的这一篇论文估计半路截杀了好几十篇正在酝酿中的 paper。“Google——nlp的灯塔,普通nlper毁灭者。”

你觉得呢?

更多技术详情,还需要你自己啃一遍论文,不,也许需要好几遍。

参考链接:
https://venturebeat.com/2019/10/24/google-achieves-state-of-the-art-nlp-performance-with-an-enormous-language-model-and-data-set/

声明:本文版权归原作者所有,文章收集于网络,为传播信息而发,如有侵权,请联系小编及时处理,谢谢!

欢迎加入本站公开兴趣群
商业智能与数据分析群
兴趣范围包括:各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识
QQ群:81035754

鲜花

握手

雷人

路过

鸡蛋

相关阅读

最新评论

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

 

GMT+8, 2019-11-22 17:46 , Processed in 0.178225 second(s), 25 queries .