炼数成金 商业智能自然语言处理
订阅

自然语言处理

乐府:基于GPT的中国古诗词生成系统
乐府:基于GPT的中国古诗词生成系统
古人云:熟读唐诗三百首,不会写诗也会吟。华为诺亚方舟实验室最近的研究表明,古人诚不我欺也。中国古诗词意境深远、格律优美、朗朗上口,是中国文化中璀璨的明珠。但由于形式和内容上的严格要求,普通人很难掌握写 ...
AI 冒充老板声音骗走 24.3 万美元
AI 冒充老板声音骗走 24.3 万美元
制作逼真的深度造假(deep fake)视频可能需要做大量的工作,但使用AI,用虚假语音实施欺诈来得更容易更快捷,在这起显然成功的CEO欺诈案之后可能数量会增加。据《华尔街日报》报道,犯罪分子使用基于AI的软件,冒充 ...
NLP这两年:15个预训练模型对比分析与剖析
NLP这两年:15个预训练模型对比分析与剖析
在BERT出现之后的这大半年的时间里,模型预训练的方法又被Google、Facebook、微软、百度、OpenAI等极少数几个玩得起游戏的核心玩家反复迭代了若干版,一次次的刷新我们这些吃瓜群众的案板上的瓜。有没有感觉出瓜速度 ...
BERT不是“银弹”,它做不到什么?
BERT不是“银弹”,它做不到什么?
基于语言目标建模的预训练的 NLP 模型最近非常流行,甚至已经成为特定任务微调的先驱。预训练模型如 BERT(Devlin et al,2019)和 ELMo(Peters et al,2018a),在各项任务中表现出最佳性能,表明这些预训练的模型 ...
后 BERT 时代的那些 NLP 预训练模型
后 BERT 时代的那些 NLP 预训练模型
我们可以看到进入 2019 年之后,无监督的 Contextual Word Embedding 成为 NLP 领域最热门的研究方向,没过多久就会有新的模型出来刷榜。这一方面说明了在海量的未标注的文本里包含了大量有用的语义知识,因此我们希 ...
自然语言处理:从基础到 RNN 和 LSTM
自然语言处理:从基础到 RNN 和 LSTM
机器学习领域一个最令人着迷的任务,就是训练机器理解人类交流能力的进步。在机器学习领域,这一分支被称为自然语言处理(Natural Language Processing)。本文尝试解释自然语言处理的基础知识,以及随着深度学习和神 ...
智能机器人在滴滴出行场景的技术探索
智能机器人在滴滴出行场景的技术探索
单轮问答指识别用户问题,并给出相应答案。这种场景下的目标是做到识别准确,尽量理解用户问题,给出合适的答案。开发过程中的难点和挑战:数据:标注数据少,这是 NLP 领域的痛点问题,因为标注成本相对较高;业务 ...
特朗普推文的文本分析
特朗普推文的文本分析
通常不会发布关于政治的信息(我对投票不是特别精明,这是数据科学对政治产生最大影响的地方),但本周末我看到了一个关于唐纳德特朗普的推特账户的假设,这个假设只是被要求调查有数据:当特朗普祝奥运队好运时,他 ...
人工智能聊天机器人:现实与炒作
人工智能聊天机器人:现实与炒作
聊天机器人是机器人与人类进行对话的软件程序。这种对话可以通过文本方法、语音,甚至通过识别人类表达来实现。聊天机器人的互动范围从简单的答案到诸如“外部温度是多少”等问题,以及需要进行一系列对话以获得结果 ...
Bert 之后:预训练语言模型与自然语言生成
Bert 之后:预训练语言模型与自然语言生成
Bert 在自然语言理解领域获得了巨大的成功,但是在自然语言生成领域却表现不佳,这是由于 Bert 训练时所采用的语言模型所决定的。Bert 这种 DAE 语言模型只学习到了词的上下文表征的能力,即理解语言的能力,但没有 ...
一大批中文(BERT等)预训练模型等你认领!
一大批中文(BERT等)预训练模型等你认领!
预训练模型已经成为了 NLP 领域最重要的资源之一。当我们拿到一个 NLP 数据集时,首要任务是寻找一个预训练模型。当然,目前大家会趋同的选择 Google 发布的 BERT 模型 。预训练模型一般分成四个部分:语料、编码器 ...
细思极恐!只需54块钱,你也能让AI伪造一系列联合国发言
细思极恐!只需54块钱,你也能让AI伪造一系列联合国发言
联合国发言生成器了解一下?最近,有研究人员真就搞出了一个。手握这个生成器,你就可以无限生成逼真的联合国演讲风格的内容。快速传递假新闻、随口就能生成仇恨言论、冒充知名人物进行演讲……这个模型让人细思极恐 ...
20项任务横扫BERT!CMU谷歌发布XLNet,NLP再迎屠榜时刻
20项任务横扫BERT!CMU谷歌发布XLNet,NLP再迎屠榜时刻
这世界变化快。去年10月,Google团队发布BERT模型横扫一切,在11种不同NLP测试中创出最佳成绩。现在,轮到BERT被碾压了。CMU和Google Brain团队最新发布的XLNet,在20项任务上超过了BERT的表现,包括SQuAD、GLUE、RA ...
中文自然语言处理数据集:ChineseNLPCorpus
中文自然语言处理数据集:ChineseNLPCorpus
推荐一个Github项目:ChineseNLPCorpus,该项目收集了一批中文自然语言处理数据集的相关链接。中文自然语言处理数据集,平时做做实验的材料。欢迎补充提交合并。
哈工大讯飞联合实验室发布基于全词覆盖的中文BERT预训练模型
哈工大讯飞联合实验室发布基于全词覆盖的中文BERT预训练模型
基于Transformers的双向编码表示(BERT)在多个自然语言处理任务中取得了广泛的性能提升。近期,谷歌发布了基于全词覆盖(Whold Word Masking)的BERT预训练模型,并且在SQuAD数据中取得了更好的结果。应用该技术后 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2019-9-20 00:38 , Processed in 0.130935 second(s), 16 queries .