炼数成金 商业智能自然语言处理
订阅

自然语言处理

BERT时代与后时代的NLP
BERT时代与后时代的NLP
2018年是NLP的收获大年,模型预训练技术终于被批量成功应用于多项NLP任务。之前搞NLP的人一直羡慕搞CV的人,在ImageNet上训练好的模型,居然拿到各种任务里用都非常有效。现在情形有点逆转了。搞CV的人开始羡慕搞NLP ...
结巴中文分词原理分析3
结巴中文分词原理分析3
分词都是调用jieba.cut 这个函数,cut函数即是分词的入口,这个函数在文件jieba/__init__.py。其中参数sentence是需要分词的句子样本;cut_all是分词的模式,精确模式,全模式,默认使用HMM模型。
结巴中文分词原理分析2
结巴中文分词原理分析2
基于字符串匹配分词,机械分词算法。将待分的字符串与一个充分大的机器词典中的词条进行匹配。分为正向匹配和逆向匹配;最大长度匹配和最小长度匹配;单纯分词和分词与标注过程相结合的一体化方法。所以常用的有:正 ...
结巴中文分词原理分析1
结巴中文分词原理分析1
jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型。jieba.cut_for_search 方法接受两个参数:需要分词的字符串;是否使用 HMM 模型。该 ...
基于小样本学习的意图识别冷启动
基于小样本学习的意图识别冷启动
随着深度学习和自然语言处理技术的发展,很多公司都在致力于发展人机对话系统,希望人和机器之间能够通过自然语言进行交互。笔者所在的阿里巴巴小蜜北京团队打造了一个智能对话开发平台——Dialog Studio,以赋能第 ...
NLP最新科研福利!MSRA开源学术界最全面语义分析数据集
NLP最新科研福利!MSRA开源学术界最全面语义分析数据集
微软亚洲研究院(MSRA),刚刚送出最新一批AI资源和福利。在“中国高校人工智能人才国际培养计划”2019国际人工智能专家论坛暨2019微软新一代人工智能开放科研教育平台合作论坛,MSRA面向高校提供最新的人工智能技术 ...
Bert时代的创新:Bert应用模式比较及其它
Bert时代的创新:Bert应用模式比较及其它
我们知道,ELMO/GPT/Bert这几个自然语言预训练模型给NLP带来了方向性的指引,一般在应用这些预训练模型的时候,采取两阶段策略:首先是利用通用语言模型任务,采用自监督学习方法,选择某个具体的特征抽取器来学习 ...
谷歌提出新型自动语音识别数据增强大法,直接对频谱图“动刀”,提升模型表现
谷歌提出新型自动语音识别数据增强大法,直接对频谱图“动刀”,提升模型表现
每次用语音输入完成“打字”过程,你的手机就经历了一次自动语音识别(ASR)。这种已经无处不在的音频转录成文本的技术,在缺乏足够大的数据集,模型过拟合严重。因此当前如何去扩增音频数据是个大问题。谷歌大脑在 ...
一起来看看词性标注
一起来看看词性标注
词性指以词的特点作为划分词类的根据。词类是一个语言学术语,是一种语言中词的语法分类,是以语法特征(包括句法功能和形态变化)为主要依据、兼顾词汇意义对词进行划分的结果。从组合和聚合关系来说,一个词类是指 ...
自然语言处理精品资料
自然语言处理精品资料
2018 年自然语言处理 (Natural Language Processing, NLP) 发展飞速,今年 OpenAI 的 GPT 2 编故事的能力已经让他们都不敢开源代码了,去年 BERT 也是打破多项纪录,再往前的 GPT 1, ELMO 和 Transformer 也都是 NLP ...
谷歌实习生新算法提速惊人!BERT训练从三天三夜,缩短到一个小时
谷歌实习生新算法提速惊人!BERT训练从三天三夜,缩短到一个小时
从头开始训练一遍当今最强的语言AI需要多久?现在,这个时间从三天三夜,一下缩短到一个多小时!带来这个进步的,是Google Brain实习生,尤洋。这位小哥来自中国河南,曾经的清华计算机硕士第一,目前在加州大学伯克 ...
NLP领域最优秀的8个预训练模型(附开源地址)
NLP领域最优秀的8个预训练模型(附开源地址)
如今,自然语言处理(Natural Language Processing,NLP)应用已经变得无处不在。我似乎总是不经意间发现一些网站和应用程序,以这样的或那样的形式利用了自然语言处理技术。简而言之,现在就是涉足自然语言处理领域 ...
分词那些事儿
分词那些事儿
简单的讲,中文分词就是让计算机系统在汉语文本中的词与词之间自动加上空格或其他边界标记。汉语分词是自然语言处理中一个重要的基础研究任务,其主要难点包括分词规范、歧义切分、未登录词识别等。分词规范:词这个 ...
基于预训练自然语言生成的文本摘要方法
基于预训练自然语言生成的文本摘要方法
在本文中,我们基于编码器-解码器框架提出了一种新颖的基于预训练的方法,该方法可以由给定输入序列以两阶段的方式生成输出序列。对于编码器,我们使用 BERT 将输入序列编码为上下文语义表示。对于解码器,在我们的 ...
如何理解自然语言处理中的注意力机制?
如何理解自然语言处理中的注意力机制?
近些年来,注意力机制一直频繁的出现在目之所及的文献或者博文中,可见在nlp中算得上是个相当流行的概念,事实也证明其在nlp领域散发出不小得作用。这几年的顶会paper就能看出这一点。本文深入浅出地介绍了近些年的 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2019-5-26 13:07 , Processed in 0.095058 second(s), 16 queries .