炼数成金 商业智能自然语言处理
订阅

自然语言处理

GPT-2大战GPT-3:OpenAI内部的一场终极对决
GPT-2大战GPT-3:OpenAI内部的一场终极对决
生成式预训练 Transformer(GPT)是 OpenAI 开发在自然语言处理(NLP)领域的创新之举。这些模型被认为是同类模型中最先进的,甚至在坏人手中也可能是很危险的。它是一种无监督的生成模型,也就是说,它接收句子等输 ...
这些语言习惯,可能是分手征兆?
这些语言习惯,可能是分手征兆?
分手从来不是一件突如其来的事情,即使一个人对此毫无防备,但另一个人却已经计划分手几个星期了,会逐渐拉开自己和对象的距离。而在这一过程中的语言变化还涉及了相当多的大脑决定变化,关键的两种就是认知处理和分 ...
龙泉寺贤超法师:用 AI 为古籍经书识别、断句、翻译
龙泉寺贤超法师:用 AI 为古籍经书识别、断句、翻译
坐落在京郊凤凰岭脚下的龙泉寺,称得上全国甚至全球科研实力最强的佛教寺庙。凭借当年学诚法师的一句「佛教是古老的,但佛教徒是现代的」,推动了龙泉寺里的高僧们搞科研、写代码,将佛学与新技术结合,将项目大众化 ...
SOTA集结,2020登顶关系抽取的3篇佳作
SOTA集结,2020登顶关系抽取的3篇佳作
2020实体关系联合抽取一片红海,各种SOTA方法你方唱罢我方登场,在一些数据集上也是不断刷出新高度,为信息抽取领域带来了新思路,推动了信息抽取领域的发展。本文梳理了实体关系联合抽取取得SOTA的三种方法,以做总 ...
1.6万亿参数,秒杀GPT-3!谷歌推出超级语言模型Switch Transformer,比T5快4倍
1.6万亿参数,秒杀GPT-3!谷歌推出超级语言模型Switch Transformer,比T5快4倍
对于机器学习来说,参数可以算得上算法的关键:他们是历史的输入数据,经过模型训练得来的结果,是模型的一部分。一般来说,在NLP领域,参数数量和复杂程度之间具有正相关性。迄今为止,OpenAI 的 GPT-3是有史以来最 ...
Transformer家族简史(PART II)
Transformer家族简史(PART II)
Transformer 不同 head 所关注的序列长度 span 是不一样的,一些 head(如 Head A)重点关注附近较短的信息,而另外一些 head(如 Head B)则关注在范围更大的全文。如果能在训练中利用这一特性,就可以显著减少计算 ...
Transformer家族简史(PART I)
Transformer家族简史(PART I)
经过之前一段时间的 NLP Big Bang,现在相对比较平静了,Transformer 派已经占据了绝对的主导地位,在各类应用中表现出色。看标题大家也可以猜个差不多,整理了一系列自《Attention is all you need》之后的对 Vanil ...
完全图解GPT-2:看完这篇就够了(二)
完全图解GPT-2:看完这篇就够了(二)
在本节中,我们会详细介绍该过程是如何实现的。请注意,我们将会以试图弄清单个单词被如何处理的角度来看待这个问题。这也是我们会展示许多单个向量的原因。这实际上是通过将巨型矩阵相乘来实现的。但是我想直观地看 ...
完全图解GPT-2:看完这篇就够了(一)
完全图解GPT-2:看完这篇就够了(一)
GPT-2 有着超大的规模,它是一个在海量数据集上训练的基于 transformer 的巨大模型。GPT-2 成功的背后究竟隐藏着什么秘密?本文将带你一起探索取得优异性能的 GPT-2 模型架构,重点阐释其中关键的自注意力(self-att ...
解读自然语言处理的2020年:“大力出奇迹”的GPT-3证明了大算力、大模型的价值
解读自然语言处理的2020年:“大力出奇迹”的GPT-3证明了大算力、大模型的价值
近几年,自然语言处理遵循一个规律或者说方法论,大部分在做 Pre-training(预训练),用更复杂的模型、更大的数据量、更多的计算资源进行模型预训练。然后针对领域或者特定任务进行 Fine tuning(微调),还会遇到 ...
Google综述:细数Transformer模型的17大高效变种
Google综述:细数Transformer模型的17大高效变种
在NLP领域transformer已经是成功地取代了RNN(LSTM/GRU),在CV领域也出现了应用,比如目标检测和图像加注,还有RL领域。这是一篇谷歌2020年9月份在arXiv发表的综述论文 “Efficient Transformers: A Survey“,值得 ...
给BERT加一个loss就能稳定提升?斯坦福+Facebook最新力作!
给BERT加一个loss就能稳定提升?斯坦福+Facebook最新力作!
关注CV领域的小伙伴一定都记得Hinton团队在年初提出的SimCLR,采用自监督的对比学习方法进行encoder的训练,各种碾压之前的模型。所以今年我一直在等某个大招,终于在20年的尾巴看到了一丝希望。今天要介绍的这篇工 ...
BERT模型蒸馏有哪些方法?
BERT模型蒸馏有哪些方法?
我们都知道预训练模型的标准范式:pretrain-利用大量的未标记数据通过一些自监督的学习方式学习丰富的语义和句法知识。例如:Bert 的 MLM,NSP 等等。finetune-将预训练过程中所学到的知识应用到子任务中,以达到优 ...
从word2vec开始,说下GPT庞大的家族系谱
从word2vec开始,说下GPT庞大的家族系谱
本文从从老祖级别的 word2vec 开始,从头到尾梳理了 GPT 的 「家谱」 和 word2vec 领衔的庞大的 NLP「家族集团」。GPT 不是凭空而出,它是经过了很多人的努力,以及很长一段时间的演化得来的。因此,梳理一下 GPT 的 ...
谷歌最新模型pQRNN:效果接近BERT,参数量缩小300倍
谷歌最新模型pQRNN:效果接近BERT,参数量缩小300倍
文本分类是NLP最常见的应用之一,有了BERT之后更是可以通过小批量数据精调达到不错的效果。但在对速度要求高、没有钱买GPU、移动设备部署的场景下,还是得用浅层网络。今天就跟大家介绍Google最近新出的一个模型—— ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

社区热帖

     

    GMT+8, 2021-5-9 13:05 , Processed in 0.125908 second(s), 16 queries .