炼数成金 商业智能自然语言处理
订阅

自然语言处理

关于Transformer,那些的你不知道的事
关于Transformer,那些的你不知道的事
基于Transformer的架构主要用于建模语言理解任务,它避免了在神经网络中使用递归,而是完全依赖于self-attention机制来绘制输入和输出之间的全局依赖关系。
GPT-3的威力,算法平台的阴谋
GPT-3的威力,算法平台的阴谋
大概一个月之前,史上最巨无霸NLP模型GPT-3问世。当时它向世界展示的能力是,“不仅会写短文,而且写出来的作文挺逼真的,几乎可以骗过人类,可以说几乎通过了图灵测试。”可能是因为它的前一代模型GPT-2也因“擅长 ...
揭秘Facebook搜索中的语义检索技术
揭秘Facebook搜索中的语义检索技术
相对于传统的网页搜索,社交网络中的搜索问题不仅需要关注输入 query 的信息,还需要考虑用户的上下文信息,在 Facebook 搜索场景中用户的社交图网络便是这种上下文信息中非常重要的一部分。怎么把各式各样的信息进 ...
BERT-of-Theseus:基于模块替换的模型压缩方法
BERT-of-Theseus:基于模块替换的模型压缩方法
模型压缩就是“简化大模型,得到推理速度更快的小模型”。当然,一般来说模型压缩是有一定牺牲的,比如最明显的是最后的评测指标会有一定的下降,毕竟“更好又更快”的免费午餐是很少的,所以选择模型压缩的前提是能 ...
Longformer:超越RoBERTa,为长文档而生的预训练模型
Longformer:超越RoBERTa,为长文档而生的预训练模型
传统Tranformer-based模型在处理长文本时有着天然的劣势。因为传统模型采用的是“全连接”型的attention机制,即每一个token都要与其他所有token进行交互。其attention复杂度高达。此前的解决办法是将长文切分为若干 ...
GitHub超3万星:Transformer 3发布,BERT被一分为二
GitHub超3万星:Transformer 3发布,BERT被一分为二
来了来了,它来了!它带着全新的tokenizer API、TensorFlow改进以及增强的文档和教程来了!G站上最受欢迎的NLP项目,AI界无人不知的最先进NLP模型Transformer刚刚推出了第三代。这次更新力度可谓诚意满满,不仅带来 ...
BERT大魔王为何在商业环境下碰壁?
BERT大魔王为何在商业环境下碰壁?
大型基于Transformer的神经网络,例如BERT,GPT和XLNET,最近在许多NLP任务中取得了最新的成果。这些模型的成功基于通用任务(例如语言建模)和特定下游任务之间的迁移学习, 这些模型在有标记数据的静态评估集上表 ...
深入浅出词嵌入技术
深入浅出词嵌入技术
独热编码是NLP领域最简单的一种单词表示法。One-hot Encoding就是一个单词用长度为的向量表示,其中只有一个位置为,其余位置为,为语料中词库的大小。One-hot Encoding有什么问题呢?假如我想用余弦相似度计算上图 ...
文本增强、半监督学习,谁才是 NLP 少样本困境问题更优的解决方案?
文本增强、半监督学习,谁才是 NLP 少样本困境问题更优的解决方案?
谈起文本增强技术,相信NLPer一定不会陌生,相关方法也是数不胜数。我们通常对标注数据集提供附加的感应偏置进行扩充,如何设计增强变换就变得至关重要。本文尝试从一个新角度——是否条件增强,借鉴文献进行了总结 ...
无监督分词和句法分析!原来BERT还可以这样用
无监督分词和句法分析!原来BERT还可以这样用
BERT 的一般用法就是加载其预训练权重,再接一小部分新层,然后在下游任务上进行 finetune,换句话说一般的用法都是有监督训练的。基于这个流程,我们可以做中文的分词、NER 甚至句法分析,这些想必大家就算没做过也 ...
LTP 4.0!单模型完成6项自然语言处理任务
LTP 4.0!单模型完成6项自然语言处理任务
语言技术平台(Language Technology Platform, LTP)是哈工大社会计算与信息检索研究中心(HIT-SCIR)历时多年研发的一整套高效、高精度的中文自然语言处理开源基础技术平台。该平台集词法分析(分词、词性标注、命 ...
全面改进Transformer类预训练模型,自然语言任务超越BERT
全面改进Transformer类预训练模型,自然语言任务超越BERT
语言模型(Language Modeling)作为自然语言领域经典的序列建模任务,已有数十年的研究历史。近年来,因其自监督的特性备受学术界与工业界关注,相继涌现出 GPT2、BERT、RoBERTa、XLNET 等一系列预训练语言模型,不 ...
GPT-3诞生,Finetune也不再必要了!NLP领域又一核弹!
GPT-3诞生,Finetune也不再必要了!NLP领域又一核弹!
2018年10月推出的BERT一直有着划NLP时代的意义,然而还有一个让人不能忽略的全程陪跑模型——OpenAI GPT(Generative Pre-Training)在以它的方式坚持着,向更通用的终极目标进发。最初的GPT只是一个12层单向的Trans ...
Facebook 开源聊天机器人Blender,经94 亿个参数强化训练,更具“人情味”
Facebook 开源聊天机器人Blender,经94 亿个参数强化训练,更具“人情味”
不久前,Facebook 开源了号称是全球最强大的聊天机器人 Blender,它标志着 Facebook 在 AI 领域的新进展:新的聊天机器人不仅解决了此前聊天机器人的固有缺点,更是拥有史无前例的 94 亿个参数。近日,Facebook 的人 ...
终于有人对语音技术来了次彻头彻尾的批判!
终于有人对语音技术来了次彻头彻尾的批判!
ImageNet的出现带来计算机视觉领域的突破发展,掀起了一股预训练之风,这就是所谓的ImageNet时刻。但与计算机视觉同样重要的语音领域,却是迟迟不见“ImageNet时刻”的到来。而作为NLP研究中最重要的方向之一——语 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

社区热帖

     

    GMT+8, 2020-10-28 01:40 , Processed in 0.087335 second(s), 16 queries .