炼数成金 商业智能自然语言处理
订阅

自然语言处理

细数2018年最好的词嵌入和句嵌入技术
细数2018年最好的词嵌入和句嵌入技术
在任何一种基于深度学习的自然语言处理系统中,词嵌入和句子嵌入已成为重要组成部分。它们使用固定长度的稠密向量对词和句子进行编码,从而大幅提升通过神经网络处理文本数据的能力。对通用嵌入的追寻是个大趋势:在 ...
再谈最小熵原理:“飞象过河”之句模版和语言结构
再谈最小熵原理:“飞象过河”之句模版和语言结构
对于大多数人来说,并不会真正知道什么是语法,他们脑海里就只有一些“固定搭配”、“定式”,或者更正式一点可以叫“模版”。大多数情况下,我们是根据模版来说出合理的话来。而不同的人的说话模版可能有所不同,这 ...
基于Doc2vec训练句子向量
基于Doc2vec训练句子向量
许多机器学习算法需要的输入是一个固定长度的向量,当涉及到短文时,最常用的固定长度的向量方法是词袋模型(bag-of-words)。尽管它很流行,但是词袋模型存在两个主要的缺点:一个是词袋模型忽略词序,如果两个不同 ...
Deep active learning for named entity recognition
Deep active learning for named entity recognition
深度学习(deep learning)的方法在命名实体识别(NER)任务中已广泛应用,并取得了state-of-art性能,但是想得到优秀的结果通常依赖于大量的标记数据。本文证明当深度学习与主动学习(active learning)相结合时, ...
cw2vec理论及其实现
cw2vec理论及其实现
目前已经存在很多的词向量模型,但是较多的词向量模型都是基于西方语言,像英语,西班牙语,德语等,这些西方语言的内部组成都是拉丁字母,然而,由于中文书写和西方语言完全不同,中文词语包含很少的中文字符,但是 ...
Google Duplex语气自然流利,外媒却质疑其演示通话录音是伪造的
Google Duplex语气自然流利,外媒却质疑其演示通话录音是伪造的
上周,Google CEO 桑达尔·皮查伊( Sundar Pichai )在 Google 年度开发者大会上发布了 Google 最新虚拟助手技术 Google Duplex,不过这项技术造成的不安超出了皮查伊的预料。硅谷一直致力于生产可以像人类一样说话的 ...
机器翻译不可不知的Seq2Seq模型
机器翻译不可不知的Seq2Seq模型
Seq2Seq,全称Sequence to Sequence。它是一种通用的编码器——解码器框架,可用于机器翻译、文本摘要、会话建模、图像字幕等场景中。Seq2Seq并不是GNMT(Google Neural Machine Translation)系统的官方开源实现。 ...
深度强化学习在指代消解中的一种尝试
深度强化学习在指代消解中的一种尝试
本文出自斯坦福 NLP 组,发表在 EMNLP 2016,其将深度强化学习应用于指代消解领域是一大创新,相较于其他方法有很好的效果提升。指代消解是自然语言处理的一大研究领域,常见的指代消解算法多数模型采用启发式损失函 ...
时间卷积网络(TCN)在 NLP 多领域发光,RNN 或将没落
时间卷积网络(TCN)在 NLP 多领域发光,RNN 或将没落
也就是从 2014、15 年起,我们基于深度神经网络的应用就已经在文本和语音识别领域达到 95% 的准确率,可以用来开发新一代的聊天机器人、个人助理和即时翻译系统等。卷积神经网络(Convolutional Neural Nets, CNNs) ...
问答系统冠军之路:用CNN做问答任务的QANet
问答系统冠军之路:用CNN做问答任务的QANet
问答系统本质上是一个信息检索(IR)系统,只是它从文具中获取更多信息,返回更加精准的答案。传统的问答系统将按照以下的流程工作:(1)问题解析(2)信息检索(3)答案抽取。问题解析的工作包括分词、词性标注、 ...
会打电话的 AI 背后:谷歌Duplex技术解析
会打电话的 AI 背后:谷歌Duplex技术解析
长期以来,人类和计算机之间交互的目标都是希望两者之间可以进行自然的对话,就像两个人之间讲话那样。近几年来,计算机理解和生成自然语音的能力出现了革命性的提高,谷歌语音搜索、WaveNet 之类基于深度神经网络的 ...
不懂word2vec,还敢说自己是做NLP?
不懂word2vec,还敢说自己是做NLP?
到目前为止最常用的词表示方法是 One-hot Representation,这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小,其中绝大多数元素为 0,只有一个维度的值为 1,这个向量就代表了当前的词。每个词都是 ...
使用fasttext进行文档分类
使用fasttext进行文档分类
fasttext原理fasttext提供了一种有效且快速的方式生成词向量以及进行文档分类。fasttext模型输入一个词的序列,输出这个词序列属于不同类别的概率。fasttext模型架构和Word2Vec中的CBOW模型很类似。不同之处在于,fa ...
TF-IDF与余弦相似性的应用(二):找出相似文章
TF-IDF与余弦相似性的应用(二):找出相似文章
有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我举 ...
TF-IDF与余弦相似性的应用(一):自动提取关键词
TF-IDF与余弦相似性的应用(一):自动提取关键词
这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到?这个问题涉及到数据挖 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2018-6-19 09:12 , Processed in 0.092566 second(s), 16 queries .