炼数成金 商业智能自然语言处理
订阅

自然语言处理

谷歌、Facebook新研究:2.26亿合成数据训练神经机器翻译创最优
谷歌、Facebook新研究:2.26亿合成数据训练神经机器翻译创最优
机器翻译依赖于大型平行语料库,即源语和目的语中成对句子的数据集。但是,双语语料是十分有限的,而单语语料更容易获得。传统上,单语语料被用于训练语言模型,大大提高了统计机器翻译的流畅性。进展到神经机器翻译 ...
几千条文本库也能做机器学习!NLP小数据集训练指南
几千条文本库也能做机器学习!NLP小数据集训练指南
作为数据科学家,为你的问题选择正确的建模方法和算法应该是你最重要的技能之一。几个月前,我致力于解决一个文本分类问题,关键在于判断哪些新闻文章与我的客户相关。我只有一个几千条带标注的新闻数据集,所以我从 ...
254页PPT!这是一份写给NLP研究者的编程指南
254页PPT!这是一份写给NLP研究者的编程指南
要做到快速编程,不要从头开始写所有内容,而是使用框架。这里的框架不仅指 tensorflow 或 pytorch 之类的框架,也可以理解为模板。比如上图中如果写 training loop 的部分,已经有人写好了。我们只要看懂后,直接拿 ...
自然语言处理中的语言模型预训练方法
自然语言处理中的语言模型预训练方法
语言模型简单来说就是一串词序列的概率分布。具体来说,语言模型的作用是为一个长度为 m 的文本确定一个概率分布 P,表示这段文本存在的可能性。在实践中,如果文本的长度较长,P(wi | w1, w2, . . . , wi−1) ...
谷歌最强NLP模型BERT官方中文版来了!多语言模型支持100种语言
谷歌最强NLP模型BERT官方中文版来了!多语言模型支持100种语言
上周,谷歌AI团队开源了备受关注的“最强NLP模型”BERT的TensorFlow代码和预训练模型,不到一天时间,收获3000多星!今天,谷歌再次发布BERT的多语言模型和中文模型!BERT,全称是Bidirectional Encoder Representat ...
一文看懂NLP神经网络发展历史中最重要的8个里程碑!
一文看懂NLP神经网络发展历史中最重要的8个里程碑!
语言建模任务指的是给定前一个单词去预测文本中的下一个单词。它可能是比较简单的语言处理任务,具体的实际应用场景包括 智能键盘、电子邮件回复建议(Kannan 等人, 2016)、拼写自动更正等。正如很多人所知,语言 ...
NLP的游戏规则从此改写?从word2vec, ELMo到BERT
NLP的游戏规则从此改写?从word2vec, ELMo到BERT
说来也都是些俗套而乐此不疲一遍遍写的句子,2013年Google的word2vec一出,让NLP各个领域遍地开花,一时间好像不用上预训练的词向量都不好意思写论文了。而word2vec是什么呢?显然就是一个“线性”语言模型。既然我 ...
NLP历史突破!谷歌BERT模型狂破11项纪录,全面超越人类!
NLP历史突破!谷歌BERT模型狂破11项纪录,全面超越人类!
今天请记住BERT模型这个名字。谷歌AI团队新发布的BERT模型,在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩:全部两个衡量指标上全面超越人类!并且还在11种不同NLP测试中创出最佳成绩,包括将GLUE基准推至8 ...
语音合成(TTS)技术的概念、技术边界与未来机会
语音合成(TTS)技术的概念、技术边界与未来机会
TTS(Text-To-Speech,语音合成),目前是一个“小而美”的AI领域,但我个人觉得非常有意思,感觉TTS在未来会被行业真正重视起来,并且会出现做得不错的创业公司。我们比较熟悉的ASR技术(Automatic Speech Recognit ...
EMNLP 2018 最佳论文:Facebook提升11BLEU的无监督机器翻译
EMNLP 2018 最佳论文:Facebook提升11BLEU的无监督机器翻译
说到机器翻译,谷歌吃螃蟹并商用的 NMT、微软研究院媲美人类水平的 AI 翻译系统我们都做过比较多的报道,大家也都比较熟悉;不过它们都是需要监督的。谷歌自然可以使用海量语料训练 NMT,微软研究院的系统即便使用了 ...
白宫版“潜伏”,数据分析锁定副总统
白宫版“潜伏”,数据分析锁定副总统
9月5日,《纽约时报》发表了一封匿名来信《我是特朗普政府中的一名抵抗者》,作者自称特朗普总统身边的高管,对特朗普的执政大肆批评并揭露了不少白宫内幕,称政府内部存在针对特朗普的“抵抗力量”。来信中他表示, ...
NLP 和知识图谱:金融科技领域的“双子星”
NLP 和知识图谱:金融科技领域的“双子星”
金融行业因其与数据的高度相关性,成为人工智能最先应用的行业之一,而NLP与知识图谱作为人工智能技术的重要研究方向与组成部分,正在快速进入金融领域,并日益成为智能金融的基石。一般的Fintech公司只会集中在其中 ...
中文词向量论文综述(一)
中文词向量论文综述(一)
在目前的NLP各项任务中,词向量已经得到了广泛的应用并取得了很好的效果,然而大多数是对于英文等西方语言,对于中文,由于中文汉字包含了巨大的信息,在中文词向量的工作中有很大的提升,这篇论文认为汉字的组件( ...
论文解析 | 罪行预测
论文解析 | 罪行预测
近些年来,Legal Jugement Prediction 任务越来越引起大家的关注,这个任务的目的是通过给定的事实描述,预测出罪名,法条以及刑期等相关信息,charge prediction 任务就是这样的一个任务,这对一些法律助手是很有帮 ...
AI对话系统3.0:社交聊天机器人
AI对话系统3.0:社交聊天机器人
最近,人工智能领域的后起之秀Facebook着实火了一把。根据2017 年6 月17 日美国《大西洋月刊》的报道,Facebook人工智能实验室设计的两个聊天机器人在谈判的训练中,发展出了一种全新的、只有它们自己能够理解的语言 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2019-9-18 04:57 , Processed in 0.111090 second(s), 16 queries .