炼数成金 商业智能自然语言处理
订阅

自然语言处理

机器翻译不可不知的Seq2Seq模型
机器翻译不可不知的Seq2Seq模型
Seq2Seq,全称Sequence to Sequence。它是一种通用的编码器——解码器框架,可用于机器翻译、文本摘要、会话建模、图像字幕等场景中。Seq2Seq并不是GNMT(Google Neural Machine Translation)系统的官方开源实现。 ...
深度强化学习在指代消解中的一种尝试
深度强化学习在指代消解中的一种尝试
本文出自斯坦福 NLP 组,发表在 EMNLP 2016,其将深度强化学习应用于指代消解领域是一大创新,相较于其他方法有很好的效果提升。指代消解是自然语言处理的一大研究领域,常见的指代消解算法多数模型采用启发式损失函 ...
时间卷积网络(TCN)在 NLP 多领域发光,RNN 或将没落
时间卷积网络(TCN)在 NLP 多领域发光,RNN 或将没落
也就是从 2014、15 年起,我们基于深度神经网络的应用就已经在文本和语音识别领域达到 95% 的准确率,可以用来开发新一代的聊天机器人、个人助理和即时翻译系统等。卷积神经网络(Convolutional Neural Nets, CNNs) ...
问答系统冠军之路:用CNN做问答任务的QANet
问答系统冠军之路:用CNN做问答任务的QANet
问答系统本质上是一个信息检索(IR)系统,只是它从文具中获取更多信息,返回更加精准的答案。传统的问答系统将按照以下的流程工作:(1)问题解析(2)信息检索(3)答案抽取。问题解析的工作包括分词、词性标注、 ...
会打电话的 AI 背后:谷歌Duplex技术解析
会打电话的 AI 背后:谷歌Duplex技术解析
长期以来,人类和计算机之间交互的目标都是希望两者之间可以进行自然的对话,就像两个人之间讲话那样。近几年来,计算机理解和生成自然语音的能力出现了革命性的提高,谷歌语音搜索、WaveNet 之类基于深度神经网络的 ...
不懂word2vec,还敢说自己是做NLP?
不懂word2vec,还敢说自己是做NLP?
到目前为止最常用的词表示方法是 One-hot Representation,这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小,其中绝大多数元素为 0,只有一个维度的值为 1,这个向量就代表了当前的词。每个词都是 ...
使用fasttext进行文档分类
使用fasttext进行文档分类
fasttext原理fasttext提供了一种有效且快速的方式生成词向量以及进行文档分类。fasttext模型输入一个词的序列,输出这个词序列属于不同类别的概率。fasttext模型架构和Word2Vec中的CBOW模型很类似。不同之处在于,fa ...
TF-IDF与余弦相似性的应用(二):找出相似文章
TF-IDF与余弦相似性的应用(二):找出相似文章
有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我举 ...
TF-IDF与余弦相似性的应用(一):自动提取关键词
TF-IDF与余弦相似性的应用(一):自动提取关键词
这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到?这个问题涉及到数据挖 ...
原创翻译 | 用NLP识别“假新闻”
原创翻译 | 用NLP识别“假新闻”
我们的目标是寻找一种利用自然语言处理(NLP)来识别和分类假文章的方法。我们收集数据,对文本进行预处理,并将文章转换为用于监督和非监督模型的特性。我们从一开始就知道,把一篇文章归类为“假新闻”可能有点灰色 ...
自然语言处理领域公开数据集
自然语言处理领域公开数据集
网上公开的数据集很多,在这里整理了一份关于自然语言处理领域的公开数据集的清单,内容如下。1. Apache Software Foundation Public Mail Archives(公共邮件存档)大小:200GB内容:截至2011年7月11日所有公开可用 ...
大数据分析5万首《全唐诗》,发现了这些秘密
大数据分析5万首《全唐诗》,发现了这些秘密
近些年来,弘扬中华传统文化的现象级综艺节目不断涌现,如《中国汉字听写大会》、《中国成语大会》、《中国谜语大会》、《中国诗词大会》等,其背后的社会成因,在于人们对中国文化中最精致文字的膜拜心理,虽然浸淫 ...
和机器聊天就像一场糟糕的相亲
和机器聊天就像一场糟糕的相亲
一间普通的会议室里的桌子上,放着一个亚马逊的智能家居产品“Echo”(里面住着一名叫做Alexa的虚拟助手)。另一个会议室里,10个亚马逊员工坐成一排,观察着隔壁场景里的一举一动。第三间会议室里,3个人坐在用黑布 ...
基于Freebase的问答研究
基于Freebase的问答研究
在知识问答中,要把一个自然语言的问句映射到知识库 KB 中是很难的,目前的问答系统通常是将 NLP 问句转换成一个 SPARQL 查询语句去检索 KB。如何完成这一转换过程面临着很多问题,比如怎么在 KB 中找到和问句中匹配 ...
2018年聊天机器人状态报告
2018年聊天机器人状态报告
根据Drift、SurveyMonkey Audience、Salesforce和myclever的“2018年聊天机器人状态报告”,聊天机器人预计能够24小时为简单任务提供即时服务,但不是进行复杂查询的最佳渠道。聊天机器人尚未在消费者中找到广泛的吸 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2018-11-14 08:05 , Processed in 0.105395 second(s), 16 queries .