炼数成金 商业智能自然语言处理
订阅

自然语言处理

分析了3500种中西药品说明书,发现了中药命名的秘密
分析了3500种中西药品说明书,发现了中药命名的秘密
国家药品监督管理局(以下简称药监局)自今年3月组建后,中药问题似乎更受关注。6月19日,药监局发布《中药药源性肝损伤临床评价技术指导原则》。7月13日,药监局曝光42批次药品不合格,其中40个批次为中药饮片或制 ...
如何匹配两段文本的语义?
如何匹配两段文本的语义?
在目前主流的研究方向来看,匹配两段文本的语义主要有两个任务,一个是paraphrase,即判断一段文本是不是另一段文本的释义(即换一种说法,但是意思不变);一个是问答对匹配,或者说检索式QA,即给定一个问题,判断 ...
不得不了解的五种Attention模型方法及其应用
不得不了解的五种Attention模型方法及其应用
先简单谈一谈 attention 模型的引入。以基于 seq2seq 模型的机器翻译为例,如果 decoder 只用 encoder 最后一个时刻输出的 hidden state,可能会有两个问题(我个人的理解)。encoder 最后一个 hidden state,与句子 ...
近期有哪些值得读的QA论文?
近期有哪些值得读的QA论文?
GDAN,Question Generation 和 Question Answering 相结合,利用少量的有标注的 QA 对 + 大量的无标注的 QA 对来训练 QA 模型。回顾下 CMU 11411/611/711 的 final project,项目是阅读理解,分为 Asking System 和 ...
COLING 2018 最佳论文解读:序列标注经典模型复现
COLING 2018 最佳论文解读:序列标注经典模型复现
在词的表示方面,本文摒弃了基于传统的特征的方法,直接使用词本身的信息进行编码。除了词向量以外,为了更好地对那些不常见的词编码,文章使用 LSTM 或者 CNN 对构成词语的字符进行编码。在整个句子级别,文章同样 ...
用递归神经网络,撰写一份特朗普式发言稿!
用递归神经网络,撰写一份特朗普式发言稿!
特朗普充满个人特色的语言风格让作者产生了兴趣,如果把他的推文和演讲稿都用于训练数据,再运用递归神经网络能否生成一份有特式风格的发言稿呢?结论是,如果数据和算力足够大的情况下,总统竞选班子里或许可以有算 ...
我一个理科生造的AI,怎么就去做历史高考题了呢?
我一个理科生造的AI,怎么就去做历史高考题了呢?
文综提分哪家强?上海交大找AI。之所以这么说,是因为arXiv上出现了一篇论文,一个可以答高考历史题的AI,还能给高考文综的历史题“提分”。而这篇论文的作者,是两位上交的同学,分别来自计算机系和上海市教委智能 ...
基于汉语短文本对话的立场检测系统理论与实践
基于汉语短文本对话的立场检测系统理论与实践
汉语短文本对话立场检测的主要任务就是通过以对话的一个人的立场为主要立场,而判断另一个人针对该人的回话的立场。立场包括支持,反对,中立三种立场。基于对话的立场检测应用方向很广,比如人机对话系统,机器需要 ...
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
深度学习已经显著地改善了自然语言处理任务中的最先进的性能,如机器翻译、摘要、问答和文本分类。每一个任务都有一个特定的衡量标准,它们的性能通常是由一组基准数据集测量的。这也促进了专门设计这些任务和衡量标 ...
细数2018年最好的词嵌入和句嵌入技术
细数2018年最好的词嵌入和句嵌入技术
在任何一种基于深度学习的自然语言处理系统中,词嵌入和句子嵌入已成为重要组成部分。它们使用固定长度的稠密向量对词和句子进行编码,从而大幅提升通过神经网络处理文本数据的能力。对通用嵌入的追寻是个大趋势:在 ...
再谈最小熵原理:“飞象过河”之句模版和语言结构
再谈最小熵原理:“飞象过河”之句模版和语言结构
对于大多数人来说,并不会真正知道什么是语法,他们脑海里就只有一些“固定搭配”、“定式”,或者更正式一点可以叫“模版”。大多数情况下,我们是根据模版来说出合理的话来。而不同的人的说话模版可能有所不同,这 ...
基于Doc2vec训练句子向量
基于Doc2vec训练句子向量
许多机器学习算法需要的输入是一个固定长度的向量,当涉及到短文时,最常用的固定长度的向量方法是词袋模型(bag-of-words)。尽管它很流行,但是词袋模型存在两个主要的缺点:一个是词袋模型忽略词序,如果两个不同 ...
Deep active learning for named entity recognition
Deep active learning for named entity recognition
深度学习(deep learning)的方法在命名实体识别(NER)任务中已广泛应用,并取得了state-of-art性能,但是想得到优秀的结果通常依赖于大量的标记数据。本文证明当深度学习与主动学习(active learning)相结合时, ...
cw2vec理论及其实现
cw2vec理论及其实现
目前已经存在很多的词向量模型,但是较多的词向量模型都是基于西方语言,像英语,西班牙语,德语等,这些西方语言的内部组成都是拉丁字母,然而,由于中文书写和西方语言完全不同,中文词语包含很少的中文字符,但是 ...
Google Duplex语气自然流利,外媒却质疑其演示通话录音是伪造的
Google Duplex语气自然流利,外媒却质疑其演示通话录音是伪造的
上周,Google CEO 桑达尔·皮查伊( Sundar Pichai )在 Google 年度开发者大会上发布了 Google 最新虚拟助手技术 Google Duplex,不过这项技术造成的不安超出了皮查伊的预料。硅谷一直致力于生产可以像人类一样说话的 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2018-11-14 08:20 , Processed in 0.080881 second(s), 16 queries .