炼数成金 商业智能自然语言处理
订阅

自然语言处理

1.6万亿参数,秒杀GPT-3!谷歌推出超级语言模型Switch Transformer,比T5快4倍
1.6万亿参数,秒杀GPT-3!谷歌推出超级语言模型Switch Transformer,比T5快4倍
对于机器学习来说,参数可以算得上算法的关键:他们是历史的输入数据,经过模型训练得来的结果,是模型的一部分。一般来说,在NLP领域,参数数量和复杂程度之间具有正相关性。迄今为止,OpenAI 的 GPT-3是有史以来最 ...
Transformer家族简史(PART II)
Transformer家族简史(PART II)
Transformer 不同 head 所关注的序列长度 span 是不一样的,一些 head(如 Head A)重点关注附近较短的信息,而另外一些 head(如 Head B)则关注在范围更大的全文。如果能在训练中利用这一特性,就可以显著减少计算 ...
Transformer家族简史(PART I)
Transformer家族简史(PART I)
经过之前一段时间的 NLP Big Bang,现在相对比较平静了,Transformer 派已经占据了绝对的主导地位,在各类应用中表现出色。看标题大家也可以猜个差不多,整理了一系列自《Attention is all you need》之后的对 Vanil ...
完全图解GPT-2:看完这篇就够了(二)
完全图解GPT-2:看完这篇就够了(二)
在本节中,我们会详细介绍该过程是如何实现的。请注意,我们将会以试图弄清单个单词被如何处理的角度来看待这个问题。这也是我们会展示许多单个向量的原因。这实际上是通过将巨型矩阵相乘来实现的。但是我想直观地看 ...
完全图解GPT-2:看完这篇就够了(一)
完全图解GPT-2:看完这篇就够了(一)
GPT-2 有着超大的规模,它是一个在海量数据集上训练的基于 transformer 的巨大模型。GPT-2 成功的背后究竟隐藏着什么秘密?本文将带你一起探索取得优异性能的 GPT-2 模型架构,重点阐释其中关键的自注意力(self-att ...
解读自然语言处理的2020年:“大力出奇迹”的GPT-3证明了大算力、大模型的价值
解读自然语言处理的2020年:“大力出奇迹”的GPT-3证明了大算力、大模型的价值
近几年,自然语言处理遵循一个规律或者说方法论,大部分在做 Pre-training(预训练),用更复杂的模型、更大的数据量、更多的计算资源进行模型预训练。然后针对领域或者特定任务进行 Fine tuning(微调),还会遇到 ...
Google综述:细数Transformer模型的17大高效变种
Google综述:细数Transformer模型的17大高效变种
在NLP领域transformer已经是成功地取代了RNN(LSTM/GRU),在CV领域也出现了应用,比如目标检测和图像加注,还有RL领域。这是一篇谷歌2020年9月份在arXiv发表的综述论文 “Efficient Transformers: A Survey“,值得 ...
给BERT加一个loss就能稳定提升?斯坦福+Facebook最新力作!
给BERT加一个loss就能稳定提升?斯坦福+Facebook最新力作!
关注CV领域的小伙伴一定都记得Hinton团队在年初提出的SimCLR,采用自监督的对比学习方法进行encoder的训练,各种碾压之前的模型。所以今年我一直在等某个大招,终于在20年的尾巴看到了一丝希望。今天要介绍的这篇工 ...
BERT模型蒸馏有哪些方法?
BERT模型蒸馏有哪些方法?
我们都知道预训练模型的标准范式:pretrain-利用大量的未标记数据通过一些自监督的学习方式学习丰富的语义和句法知识。例如:Bert 的 MLM,NSP 等等。finetune-将预训练过程中所学到的知识应用到子任务中,以达到优 ...
从word2vec开始,说下GPT庞大的家族系谱
从word2vec开始,说下GPT庞大的家族系谱
本文从从老祖级别的 word2vec 开始,从头到尾梳理了 GPT 的 「家谱」 和 word2vec 领衔的庞大的 NLP「家族集团」。GPT 不是凭空而出,它是经过了很多人的努力,以及很长一段时间的演化得来的。因此,梳理一下 GPT 的 ...
谷歌最新模型pQRNN:效果接近BERT,参数量缩小300倍
谷歌最新模型pQRNN:效果接近BERT,参数量缩小300倍
文本分类是NLP最常见的应用之一,有了BERT之后更是可以通过小批量数据精调达到不错的效果。但在对速度要求高、没有钱买GPU、移动设备部署的场景下,还是得用浅层网络。今天就跟大家介绍Google最近新出的一个模型—— ...
按照时间线帮你梳理10种预训练模型
按照时间线帮你梳理10种预训练模型
BERT中及XLNet和RoBERTa中,词嵌入大小 E 和隐藏层大小 H 相等的,H =E=768;而ALBERT认为,词嵌入学习单个词的信息,而隐藏层输出包含上下文信息,应该 H>>E。所以ALBERT的词向量的维度小于encoder输出值维度。 ...
一定要GPT3吗?不,BERT的MLM模型也能小样本学习
一定要GPT3吗?不,BERT的MLM模型也能小样本学习
大家都知道现在GPT3风头正盛,然而,到处都是GPT3、GPT3地推,读者是否记得GPT3的论文的名字呢?事实上,GPT3的论文叫做《Language Models are Few-Shot Learners》,标题里边已经没有G、P、T几个单词了,只不过它跟 ...
BERT为什么是NLP的革新者
BERT为什么是NLP的革新者
BERT,全称 Bidirectional Encoder Representation from Transformers,是一款于 2018 年发布,在包括问答和语言理解等多个任务中达到顶尖性能的语言模型。它不仅击败了之前最先进的计算模型,而且在答题方面也有超 ...
任务式对话中的自然语言理解
任务式对话中的自然语言理解
随着人工智能技术的发展,智能对话的应用场景越来越多,目前已经成为了研究的热点。天猫精灵,小度小度,腾讯叮当,这些智能助手都是智能对话在业界的应用。智能助手的对话方式可分为三种:任务式对话 ( 用户输入指 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

社区热帖

     

    GMT+8, 2021-1-23 21:15 , Processed in 0.132051 second(s), 16 queries .