炼数成金 商业智能自然语言处理
订阅

自然语言处理

给BERT加一个loss就能稳定提升?斯坦福+Facebook最新力作!
给BERT加一个loss就能稳定提升?斯坦福+Facebook最新力作!
关注CV领域的小伙伴一定都记得Hinton团队在年初提出的SimCLR,采用自监督的对比学习方法进行encoder的训练,各种碾压之前的模型。所以今年我一直在等某个大招,终于在20年的尾巴看到了一丝希望。今天要介绍的这篇工 ...
BERT模型蒸馏有哪些方法?
BERT模型蒸馏有哪些方法?
我们都知道预训练模型的标准范式:pretrain-利用大量的未标记数据通过一些自监督的学习方式学习丰富的语义和句法知识。例如:Bert 的 MLM,NSP 等等。finetune-将预训练过程中所学到的知识应用到子任务中,以达到优 ...
从word2vec开始,说下GPT庞大的家族系谱
从word2vec开始,说下GPT庞大的家族系谱
本文从从老祖级别的 word2vec 开始,从头到尾梳理了 GPT 的 「家谱」 和 word2vec 领衔的庞大的 NLP「家族集团」。GPT 不是凭空而出,它是经过了很多人的努力,以及很长一段时间的演化得来的。因此,梳理一下 GPT 的 ...
谷歌最新模型pQRNN:效果接近BERT,参数量缩小300倍
谷歌最新模型pQRNN:效果接近BERT,参数量缩小300倍
文本分类是NLP最常见的应用之一,有了BERT之后更是可以通过小批量数据精调达到不错的效果。但在对速度要求高、没有钱买GPU、移动设备部署的场景下,还是得用浅层网络。今天就跟大家介绍Google最近新出的一个模型—— ...
按照时间线帮你梳理10种预训练模型
按照时间线帮你梳理10种预训练模型
BERT中及XLNet和RoBERTa中,词嵌入大小 E 和隐藏层大小 H 相等的,H =E=768;而ALBERT认为,词嵌入学习单个词的信息,而隐藏层输出包含上下文信息,应该 H>>E。所以ALBERT的词向量的维度小于encoder输出值维度。 ...
一定要GPT3吗?不,BERT的MLM模型也能小样本学习
一定要GPT3吗?不,BERT的MLM模型也能小样本学习
大家都知道现在GPT3风头正盛,然而,到处都是GPT3、GPT3地推,读者是否记得GPT3的论文的名字呢?事实上,GPT3的论文叫做《Language Models are Few-Shot Learners》,标题里边已经没有G、P、T几个单词了,只不过它跟 ...
BERT为什么是NLP的革新者
BERT为什么是NLP的革新者
BERT,全称 Bidirectional Encoder Representation from Transformers,是一款于 2018 年发布,在包括问答和语言理解等多个任务中达到顶尖性能的语言模型。它不仅击败了之前最先进的计算模型,而且在答题方面也有超 ...
任务式对话中的自然语言理解
任务式对话中的自然语言理解
随着人工智能技术的发展,智能对话的应用场景越来越多,目前已经成为了研究的热点。天猫精灵,小度小度,腾讯叮当,这些智能助手都是智能对话在业界的应用。智能助手的对话方式可分为三种:任务式对话 ( 用户输入指 ...
微软与OpenAI达成合作,获得GPT-3独家使用授权
微软与OpenAI达成合作,获得GPT-3独家使用授权
当地时间9月22日,微软在官网发布通告,与OpenAI合作,独家获取了GPT-3语言模型的使用许可。这份通告以微软首席技术官凯文·斯科特(Kevin Scott)的身份发出,称微软正在与OpenAI合作,独家授权GPT-3使用。“这使我 ...
性能媲美BERT,但参数量仅为1/300,这是谷歌最新的NLP模型
性能媲美BERT,但参数量仅为1/300,这是谷歌最新的NLP模型
在过去的十年中,深度神经网络从根本上变革了自然语言处理(NLP)领域的发展,但移动端有限的内存和处理能力对模型提出了更高的要求。人们希望它们可以变得更小,但性能不打折扣。去年,谷歌发布了一种被称为 PRADO ...
GPT-1 & 2: 预训练+微调带来的奇迹
GPT-1 & 2: 预训练+微调带来的奇迹
GPT,全称是Generative Pre-training,顾名思义,就是预训练模型。在GPT出现之前,通用的使用预训练的方式是word2vec,即学习词语的表达。而在GPT出现之后,通用的预训练方式是预训练整个网络然后通过微调(fine-tune ...
Transformer: Attention的集大成者
Transformer: Attention的集大成者
Transformer模型是机器翻译领域的一个全部基于attention的模型。那么什么是attention呢?且看下图。图中是一个seq2seq+attention的机器翻译模型。机器翻译问题中分为源语言和目标语言,图中是英语到西班牙语的翻译, ...
bert性能优化之——用另一种方式整合多头注意力
bert性能优化之——用另一种方式整合多头注意力
众所周知,经典的transformer架构中采用了multi-head attention机制来引导模型从不同角度学习不同的语义信息,从各种实验对比中也能发现多头机制确实能够提升模型在NLP任务上的精度。然而,随着目前大规模预训练模型 ...
使用BERT进行跨领域情感分析
使用BERT进行跨领域情感分析
文章所研究的“跨领域情感分析”,旨在通过源领域的标注数据对目标领域的无标注数据进行情感分类。源领域如餐饮领域,目标领域如电子产品领域,这两个领域之间存在一定的差异。为了克服领域间的差异,一大类工作的思 ...
强大如GPT-3,1750亿参数也搞不定中国话
强大如GPT-3,1750亿参数也搞不定中国话
2019 年,GPT-2 凭借将近 30 亿条参数的规模拿下来“最强 NLP 模型”的称号;2020 年,1750 亿条参数的 GPT-3 震撼发布,并同时在工业界与学术界掀起了各种争论。随着时间的推移,争论的焦点也发生了变化,人们逐渐 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

社区热帖

     

    GMT+8, 2020-12-5 22:02 , Processed in 0.085783 second(s), 16 queries .