炼数成金 商业智能自然语言处理
订阅

自然语言处理

北大开源了Python中文分词工具包,准确度远超Jieba
北大开源了Python中文分词工具包,准确度远超Jieba
“土地,快告诉俺老孙,俺的金箍棒在哪?”“大圣,您的金箍,棒就棒在特别适合您的发型。”中文分词,是一门高深莫测的技术。不论对于人类,还是对于AI。最近,北大开源了一个中文分词工具包,名为PKUSeg,基于Pyth ...
简单易用NLP框架Flair发布新版本!
简单易用NLP框架Flair发布新版本!
Flair 是 Zalando Research 开发的一款简单易用的 Python NLP 库,近日,Flair 0.4 版发布!Flair 具备以下特征:强大的 NLP 库。Flair 允许将当前最优自然语言处理(NLP)模型应用于文本,如命名实体识别(NER)、 ...
BERT大火却不懂Transformer?读这一篇就够了
BERT大火却不懂Transformer?读这一篇就够了
前一段时间谷歌推出的BERT模型在11项NLP任务中夺得SOTA结果,引爆了整个NLP界。而BERT取得成功的一个关键因素是Transformer的强大作用。谷歌的Transformer模型最早是用于机器翻译任务,当时达到了SOTA效果。Transfor ...
清华大学NLP组整理的机器翻译论文阅读清单
清华大学NLP组整理的机器翻译论文阅读清单
2018年即将结束,在18年的最后一个工作日,清华大学自然语言处理组整理了一份机器翻译论文的阅读清单想给大家看。这份阅读清单里回顾了统计机器翻译(SMT)时代的亮点论文,并概括了近期神经机器翻译(NMT)方向下的 ...
NLP预训练模型大集合!
NLP预训练模型大集合!
词语和句子嵌入已经成为任何基于深度学习的自然语言处理系统的必备组成部分。它们将词语和句子编码成稠密的定长向量,从而大大地提升神经网络处理文本数据的能力。近日,Separius 在 GitHub 上列举了一系列关于 NLP ...
微软亚洲研究院:NLP将迎来黄金十年
微软亚洲研究院:NLP将迎来黄金十年
NLP 的历史几乎跟计算机和人工智能(AI)的历史一样长。自计算机诞生,就开始有了对人工智能的研究,而人工智能领域最早的研究就是机器翻译以及自然语言理解。 过去二十年,NLP 利用统计机器学习方法,基于大规模的 ...
深度长文:NLP的巨人肩膀(上)
深度长文:NLP的巨人肩膀(上)
回顾过去基于深度学习的 NLP 任务可以发现,几乎绝大多数都比较符合这三层概念。比如很多生成任务的 Seq2Seq 框架中不外乎都有一个 Encoder 和一个 Decoder。对应到这里,Decoder 更像是一个 Task-specific Model, ...
NLP 的巨人肩膀(下):从 CoVe 到 BERT
NLP 的巨人肩膀(下):从 CoVe 到 BERT
分类器足够简单,足够浅层,相比那些在这些分类任务上设计的足够复杂的模型来说简直不值一提。然而令人大跌眼镜的是,这些简单的分类器都能够比肩甚至超越他们各自时代的最好结果,这不能不说是个惊喜。而创造这些惊 ...
不只有BERT!盘点2018年NLP令人激动的10大想法
不只有BERT!盘点2018年NLP令人激动的10大想法
2018年,NLP领域的大年。最瞩目的莫过于BERT,横扫多种不同的NLP测试,被誉为NLP新时代的开端。但2018年,不只有BERT。最近,爱尔兰的NLP研究科学家Sebastian Ruder写一篇文章,基于12篇经典论文盘点了2018年NLP领域 ...
谷歌BERT模型fine-tune终极实践教程
谷歌BERT模型fine-tune终极实践教程
从11月初开始,Google Research就陆续开源了BERT的各个版本。Google此次开源的BERT是通过TensorFlow高级API—— tf.estimator进行封装(wrapper)的。因此对于不同数据集的适配,只需要修改代码中的processor部分,就 ...
谷歌、Facebook新研究:2.26亿合成数据训练神经机器翻译创最优
谷歌、Facebook新研究:2.26亿合成数据训练神经机器翻译创最优
机器翻译依赖于大型平行语料库,即源语和目的语中成对句子的数据集。但是,双语语料是十分有限的,而单语语料更容易获得。传统上,单语语料被用于训练语言模型,大大提高了统计机器翻译的流畅性。进展到神经机器翻译 ...
几千条文本库也能做机器学习!NLP小数据集训练指南
几千条文本库也能做机器学习!NLP小数据集训练指南
作为数据科学家,为你的问题选择正确的建模方法和算法应该是你最重要的技能之一。几个月前,我致力于解决一个文本分类问题,关键在于判断哪些新闻文章与我的客户相关。我只有一个几千条带标注的新闻数据集,所以我从 ...
254页PPT!这是一份写给NLP研究者的编程指南
254页PPT!这是一份写给NLP研究者的编程指南
要做到快速编程,不要从头开始写所有内容,而是使用框架。这里的框架不仅指 tensorflow 或 pytorch 之类的框架,也可以理解为模板。比如上图中如果写 training loop 的部分,已经有人写好了。我们只要看懂后,直接拿 ...
自然语言处理中的语言模型预训练方法
自然语言处理中的语言模型预训练方法
语言模型简单来说就是一串词序列的概率分布。具体来说,语言模型的作用是为一个长度为 m 的文本确定一个概率分布 P,表示这段文本存在的可能性。在实践中,如果文本的长度较长,P(wi | w1, w2, . . . , wi−1) ...
谷歌最强NLP模型BERT官方中文版来了!多语言模型支持100种语言
谷歌最强NLP模型BERT官方中文版来了!多语言模型支持100种语言
上周,谷歌AI团队开源了备受关注的“最强NLP模型”BERT的TensorFlow代码和预训练模型,不到一天时间,收获3000多星!今天,谷歌再次发布BERT的多语言模型和中文模型!BERT,全称是Bidirectional Encoder Representat ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2019-1-17 14:26 , Processed in 0.126754 second(s), 16 queries .