炼数成金 商业智能自然语言处理
订阅

自然语言处理

lazynlp:构建大规模语料库的"懒人"工具箱
lazynlp:构建大规模语料库的"懒人"工具箱
lazynlp,目的是提供一个直接的库让用户直接抓取、清洗和对相关网页进行清洗,以生成一个大规模的单语语料库。使用这个库,用户可以直接生成一个比OpenAI 用于 GPT-2 训练数据还要大的数据集。根据该项目github主页 ...
BERT、GPT-2这些顶尖工具到底该怎么用到我的模型里?
BERT、GPT-2这些顶尖工具到底该怎么用到我的模型里?
近期的NLP方向,ELMO、GPT、BERT、Transformer-XL、GPT-2,各种预训练语言模型层出不穷,这些模型在各种NLP任务上一次又一次刷新上线,令人心驰神往。但是当小编翻开他们的paper,每一个上面都写着四个大字:“弱者 ...
迄今最大模型?OpenAI发布参数量高达15亿的通用语言模型GPT-2
迄今最大模型?OpenAI发布参数量高达15亿的通用语言模型GPT-2
几个月前谷歌推出的语言模型 BERT 引发了业内的广泛关注,其 3 亿参数量刷新 11 项纪录的成绩让人不禁赞叹。昨天,OpenAI 推出了一种更为强大的算法,这一次模型达到了 15 亿参数。这种机器学习算法不仅在很多任务上 ...
Google BERT 中文应用之春节对对联
Google BERT 中文应用之春节对对联
在网上看到有人用 seq2seq 训练一个对对联的机器人,很好奇能不能用Google的BERT预训练模型微调,训练出一个不仅可以对传统对子,也可以对新词新句的泛化能力更好的对对联高手。今天大年初一,这样的例子刚好应景。 ...
效果惊人的GPT 2.0模型:它告诉了我们什么
效果惊人的GPT 2.0模型:它告诉了我们什么
未来两年NLP可能会不断爆出类似的刷屏新闻,真的进入一个技术快速发展期。按理说,这是NLP研发者的黄金期,这种时期最容易出好的成果,但是事实上,很可能你只能作为看热闹的看客,眼看他起高楼,眼看他宴宾客,但是 ...
15亿参数!史上最强通用NLP模型诞生:狂揽7大数据集最佳纪录
15亿参数!史上最强通用NLP模型诞生:狂揽7大数据集最佳纪录
OpenAI今天在官博上介绍了他们的新NLP模型,刷新了7大数据集的SOTA(当前最佳结果),并且能够在不进行任何与领域知识相关数据训练的情况下,直接跨任务执行最基础的阅读理解、机器翻译、问答和文本总结等不同NLP任务 ...
AI Challenger 2018 机器翻译参赛总结
AI Challenger 2018 机器翻译参赛总结
机器翻译的开源库很多,比如 OpenNMT、FairSeq 和 tensor2tensor 等,我们主要是基于 tensor2tensor 等工具库进行的程序实现。它是 Google 基于 TensorFlow 开发的高级库,内置了许多经典模型,开发调试比较方便。 ...
现有模型还「不懂」自然语言:20多位研究者谈NLP四大开放性问题
现有模型还「不懂」自然语言:20多位研究者谈NLP四大开放性问题
我认为最大的开放性问题是关于自然语言理解的。我们应该通过构建文本表征,开发出能像人类一样阅读和理解文本的系统。在那之前,我们所有的进步都只是在提升系统模式匹配的能力。在专家采访中,很多专家认为自然语言 ...
近900000条if-then关系图谱,让神经网络“懂”常识推理
近900000条if-then关系图谱,让神经网络“懂”常识推理
“神经网络能学习日常事件的常识推理吗?能,如果在 ATOMIC 上训练的话。”ATOMIC(原子) 是一个机器常识图集,一个用自然语言建立的 870, 000 个 if-then 关系的图谱。这一项目的研究者是来自华盛顿大学艾伦人工智 ...
NLP Chinese Corpus项目:大规模中文自然语言处理语料
NLP Chinese Corpus项目:大规模中文自然语言处理语料
众所周知,中文NLP领域缺乏高质量的中文语料。作者徐亮(实在智能算法专家) 创建了一个中文自然语言处理语料库项目:nlp_chinese_corpus ,初步贡献了几个已经预处理好的中文语料,包括维基、新闻和百科语料。希望大 ...
五张动图,看清神经机器翻译里的Attention!
五张动图,看清神经机器翻译里的Attention!
过去几十年来,统计机器翻译一直是占据主导地位的机器翻译模型,直到神经机器翻译(NMT)诞生。神经机器翻译(NMT)是近几年来新兴的机器翻译模式,该模式试图构建和训练能够读取输入文本,并输出翻译结果的单个大型 ...
Facebook开源增强版LASER库,包含93种语言工具包
Facebook开源增强版LASER库,包含93种语言工具包
前不久,Facebook 发布了一项新研究,提出一种可学习 93 种语言的联合多语言句子表征的架构。该架构仅使用一个编码器,且可在不做任何修改的情况下实现跨语言迁移。今日,Facebook 开源增强版 LASER 库,包含上述研 ...
北大开源了Python中文分词工具包,准确度远超Jieba
北大开源了Python中文分词工具包,准确度远超Jieba
“土地,快告诉俺老孙,俺的金箍棒在哪?”“大圣,您的金箍,棒就棒在特别适合您的发型。”中文分词,是一门高深莫测的技术。不论对于人类,还是对于AI。最近,北大开源了一个中文分词工具包,名为PKUSeg,基于Pyth ...
简单易用NLP框架Flair发布新版本!
简单易用NLP框架Flair发布新版本!
Flair 是 Zalando Research 开发的一款简单易用的 Python NLP 库,近日,Flair 0.4 版发布!Flair 具备以下特征:强大的 NLP 库。Flair 允许将当前最优自然语言处理(NLP)模型应用于文本,如命名实体识别(NER)、 ...
BERT大火却不懂Transformer?读这一篇就够了
BERT大火却不懂Transformer?读这一篇就够了
前一段时间谷歌推出的BERT模型在11项NLP任务中夺得SOTA结果,引爆了整个NLP界。而BERT取得成功的一个关键因素是Transformer的强大作用。谷歌的Transformer模型最早是用于机器翻译任务,当时达到了SOTA效果。Transfor ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2019-7-20 03:30 , Processed in 0.114217 second(s), 16 queries .