炼数成金 商业智能自然语言处理
订阅

自然语言处理

用腻了 CRF,试试 LAN 吧?
用腻了 CRF,试试 LAN 吧?
统计自然语言处理中,条件随机场(Conditional Random Field)在词性标注,命名实体识别,中文分词等序列标注任务上都取得了惊人的效果。然而在深度学习时代,很多情况下 BiLSTM-CRF 并没有比不对输出序列进行建模的 ...
参数量110亿,附赠750GB数据集,Google提NLP预训练模型T5
参数量110亿,附赠750GB数据集,Google提NLP预训练模型T5
T5 库里主要是用于用文本到文本的 Transformer 来重现探索迁移学习极限实验的代码。此存储库中的大部分代码用于加载、预处理、混合和评估数据集。它还提供了一种方法来微调发布的预训练模型。T5 提供了有用的模块来 ...
NLP工程师都在看的:从入门到精通谷歌BERT技术
NLP工程师都在看的:从入门到精通谷歌BERT技术
为了确保大家可以循序渐进地理解BERT是怎样一项技术,它又是如何在命名实体识别(Named Entity Recognition,NER)任务中被应用的(它可以应用在很多NLP任务中,这里只是以实体识别为背景举例),我们需要先了解一些 ...
从语言模型到Seq2Seq:Transformer如戏,全靠Mask
从语言模型到Seq2Seq:Transformer如戏,全靠Mask
自 Attention is All You Need 以后,基于纯 Attention 的 Transformer 类模型逐渐变得流行起来,而 BERT 的出现则将这股潮流推向了一个新的高度。而后,各种基于大规模预训练的 Transformer 模型的工作不断出现,有 ...
乐府:基于GPT的中国古诗词生成系统
乐府:基于GPT的中国古诗词生成系统
古人云:熟读唐诗三百首,不会写诗也会吟。华为诺亚方舟实验室最近的研究表明,古人诚不我欺也。中国古诗词意境深远、格律优美、朗朗上口,是中国文化中璀璨的明珠。但由于形式和内容上的严格要求,普通人很难掌握写 ...
AI 冒充老板声音骗走 24.3 万美元
AI 冒充老板声音骗走 24.3 万美元
制作逼真的深度造假(deep fake)视频可能需要做大量的工作,但使用AI,用虚假语音实施欺诈来得更容易更快捷,在这起显然成功的CEO欺诈案之后可能数量会增加。据《华尔街日报》报道,犯罪分子使用基于AI的软件,冒充 ...
NLP这两年:15个预训练模型对比分析与剖析
NLP这两年:15个预训练模型对比分析与剖析
在BERT出现之后的这大半年的时间里,模型预训练的方法又被Google、Facebook、微软、百度、OpenAI等极少数几个玩得起游戏的核心玩家反复迭代了若干版,一次次的刷新我们这些吃瓜群众的案板上的瓜。有没有感觉出瓜速度 ...
BERT不是“银弹”,它做不到什么?
BERT不是“银弹”,它做不到什么?
基于语言目标建模的预训练的 NLP 模型最近非常流行,甚至已经成为特定任务微调的先驱。预训练模型如 BERT(Devlin et al,2019)和 ELMo(Peters et al,2018a),在各项任务中表现出最佳性能,表明这些预训练的模型 ...
后 BERT 时代的那些 NLP 预训练模型
后 BERT 时代的那些 NLP 预训练模型
我们可以看到进入 2019 年之后,无监督的 Contextual Word Embedding 成为 NLP 领域最热门的研究方向,没过多久就会有新的模型出来刷榜。这一方面说明了在海量的未标注的文本里包含了大量有用的语义知识,因此我们希 ...
自然语言处理:从基础到 RNN 和 LSTM
自然语言处理:从基础到 RNN 和 LSTM
机器学习领域一个最令人着迷的任务,就是训练机器理解人类交流能力的进步。在机器学习领域,这一分支被称为自然语言处理(Natural Language Processing)。本文尝试解释自然语言处理的基础知识,以及随着深度学习和神 ...
智能机器人在滴滴出行场景的技术探索
智能机器人在滴滴出行场景的技术探索
单轮问答指识别用户问题,并给出相应答案。这种场景下的目标是做到识别准确,尽量理解用户问题,给出合适的答案。开发过程中的难点和挑战:数据:标注数据少,这是 NLP 领域的痛点问题,因为标注成本相对较高;业务 ...
特朗普推文的文本分析
特朗普推文的文本分析
通常不会发布关于政治的信息(我对投票不是特别精明,这是数据科学对政治产生最大影响的地方),但本周末我看到了一个关于唐纳德特朗普的推特账户的假设,这个假设只是被要求调查有数据:当特朗普祝奥运队好运时,他 ...
人工智能聊天机器人:现实与炒作
人工智能聊天机器人:现实与炒作
聊天机器人是机器人与人类进行对话的软件程序。这种对话可以通过文本方法、语音,甚至通过识别人类表达来实现。聊天机器人的互动范围从简单的答案到诸如“外部温度是多少”等问题,以及需要进行一系列对话以获得结果 ...
Bert 之后:预训练语言模型与自然语言生成
Bert 之后:预训练语言模型与自然语言生成
Bert 在自然语言理解领域获得了巨大的成功,但是在自然语言生成领域却表现不佳,这是由于 Bert 训练时所采用的语言模型所决定的。Bert 这种 DAE 语言模型只学习到了词的上下文表征的能力,即理解语言的能力,但没有 ...
一大批中文(BERT等)预训练模型等你认领!
一大批中文(BERT等)预训练模型等你认领!
预训练模型已经成为了 NLP 领域最重要的资源之一。当我们拿到一个 NLP 数据集时,首要任务是寻找一个预训练模型。当然,目前大家会趋同的选择 Google 发布的 BERT 模型 。预训练模型一般分成四个部分:语料、编码器 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2019-11-22 17:28 , Processed in 0.119746 second(s), 16 queries .