炼数成金 商业智能自然语言处理
订阅

自然语言处理

HFL技术分享 #10 | 选择型阅读理解技术简介及进展
HFL技术分享 #10 | 选择型阅读理解技术简介及进展
阅读理解任务是根据对文本的理解来回答与文本相关的问题。阅读理解任务不论对人还是对机器都是一个比较难的问题,不同的人与人之间的阅读理解水平也存在较大的差异。因此如何让机器具有阅读理解能力,或者说如何能够 ...
HFL技术分享 #9 | 不平衡数据下的机器学习(下)
HFL技术分享 #9 | 不平衡数据下的机器学习(下)
数据不平衡为机器学习任务带来了诸多挑战,针对这一问题,业界已经做了诸多研究,方向包括数据不平衡导致机器学习模型性能下降的原因、评估方法和解决方案等。针对数据不平衡问题的研究专题可以统称为不平衡学习(Im ...
HFL技术分享 #9 | 不平衡数据下的机器学习(上)
HFL技术分享 #9 | 不平衡数据下的机器学习(上)
数据不平衡是机器学习任务中的一个常见问题。真实世界中的分类任务中,各个类别的样本数量往往不是完全平衡的,某一或某些类别的样本数量远少于其他类别的情况经常发生,我们称这些样本数量较少的类别为少数类,与之 ...
HFL技术分享 #8 | 语言模型简介
HFL技术分享 #8 | 语言模型简介
统计语言模型(Statistical Language Model)是自然语言处理的基础,它是一种具有一定上下文相关特性的数学模型,本质上也是概率图模型的一种,并且广泛应用于机器翻译、语音识别、拼音输入、图像文字识别、拼写纠错、 ...
HFL技术分享 #6 | 基于深度学习的关系抽取
HFL技术分享 #6 | 基于深度学习的关系抽取
信息抽取旨在从大规模非结构或半结构的自然语言文本中抽取结构化信息,主要任务有实体抽取、关系抽取、事件抽取。其中,关系抽取(Relation Extraction,RE)研究的主要内容是从文本内容中挖掘出实体与实体之间的语 ...
NLP中的词向量对比
NLP中的词向量对比
文本是由每个单词构成的,而谈起词向量,one-hot是可认为是最为简单的词向量,但存在维度灾难和语义鸿沟等问题;通过构建共现矩阵并利用SVD求解构建词向量,则计算复杂度高;而早期词向量的研究通常来源于语言模型, ...
HFL技术分享 #5 | 强化学习基础(下)
HFL技术分享 #5 | 强化学习基础(下)
我们知道,对于使用而言,我们需要将公式以及思路转换成计算机所能够处理的形式,比如迭代形式。在这里我们就需要借鉴贝尔曼方程的思想,对强化学习的相关公式进行推导,使得它可以变换为计算机可处理的迭代形式。我 ...
HFL技术分享 #5 | 强化学习基础(上)
HFL技术分享 #5 | 强化学习基础(上)
强化学习是机器学习的一大分支,介于监督学习与无监督学习之间。与其他机器学习相比,有一些明显的特点,是一种序列决策过程。强化学习应用范围很广,比如西洋双陆战棋的胜利、直升飞机上的特技表演、金融中证券投资 ...
HFL技术分享 #4 | 基于深度学习的文本分类技术
HFL技术分享 #4 | 基于深度学习的文本分类技术
文本分类任务是自然语言处理(NLP)领域最基础和传统的任务之一,该任务又会根据领域类型的不同分成很多子任务,例如情感分类、主题分类和问题分类等。很多机器学习的新方法都会先尝试在文本分类任务上进行实验验证 ...
HFL技术分享 #3 | 神经机器翻译
HFL技术分享 #3 | 神经机器翻译
机器翻译是自然语言处理领域最经典,最重要的任务之一,不仅具有重要的科学研究价值,同时又具有重要的实用价值。随着经济全球化及互联网的飞速发展,机器翻译技术在促进政治、经济、文化交流等方面起到越来越重要的 ...
HFL技术分享 #2 | 生成对抗网络GAN简介
HFL技术分享 #2 | 生成对抗网络GAN简介
如果把人工智能划分为计算智能、感知智能和认知智能的三个阶段,那我们目前应该处于立足于感知智能,并且正在向认知智能逐步探索的阶段。我们目前在语音识别、图像识别等领域已经取得了实质性的突破,机器也基本达到 ...
HFL技术分享 #1 | 事件抽取概述
HFL技术分享 #1 | 事件抽取概述
随着互联网信息爆炸式的增长,从非结构化的信息中提取出有用的结构化信息显得越来越重要,信息抽取(Information Extraction)任务便应运而生。信息抽取任务的本质是从无结构的自然文本中识别出事件描述(包括:实体 ...
BERT时代与后时代的NLP
BERT时代与后时代的NLP
2018年是NLP的收获大年,模型预训练技术终于被批量成功应用于多项NLP任务。之前搞NLP的人一直羡慕搞CV的人,在ImageNet上训练好的模型,居然拿到各种任务里用都非常有效。现在情形有点逆转了。搞CV的人开始羡慕搞NLP ...
结巴中文分词原理分析3
结巴中文分词原理分析3
分词都是调用jieba.cut 这个函数,cut函数即是分词的入口,这个函数在文件jieba/__init__.py。其中参数sentence是需要分词的句子样本;cut_all是分词的模式,精确模式,全模式,默认使用HMM模型。
结巴中文分词原理分析2
结巴中文分词原理分析2
基于字符串匹配分词,机械分词算法。将待分的字符串与一个充分大的机器词典中的词条进行匹配。分为正向匹配和逆向匹配;最大长度匹配和最小长度匹配;单纯分词和分词与标注过程相结合的一体化方法。所以常用的有:正 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2019-7-20 02:38 , Processed in 0.169118 second(s), 16 queries .