炼数成金 商业智能自然语言处理
订阅

自然语言处理

计算语言学思想碰撞的浪潮:ACL 2016
计算语言学思想碰撞的浪潮:ACL 2016
在计算机自动解数学题这个任务上,之前的工作都是基于一些小规模而且多样性不足的数学题集,我们认为这样得出来的结论可能不太有代表性。因此我们使用半自动的方法搜集标注了多达1万8千道小学数学题,并在此基础上对 ...
使用机器学习进行语言翻译:神经网络和seq2seq为何效果非凡?
使用机器学习进行语言翻译:神经网络和seq2seq为何效果非凡?
我们都知道而且喜欢谷歌翻译(Google Translate),这个网站可以几乎实时地在 100 多种不同的人类语言之间互相翻译,就好像是一种魔法。我们还可以通过手机和智能手表使用谷歌翻译:谷歌翻译背后的技术被称为机器翻 ...
Facebook 开源文本分类工具,不用深度学习也可以又快又准
Facebook 开源文本分类工具,不用深度学习也可以又快又准
对于人工智能研究者来说,让机器理解人类所说的话或者在键盘上敲出的字,目前仍然最大技术难题之一。但这又是一个基本要素,是自动文本处理是每天与计算机进行交互的一个关键,从网页搜索到内容排名,再到垃圾邮件过 ...
运用深度学习教机器人理解自然语言
运用深度学习教机器人理解自然语言
在深度学习出现之前,文字所包含的意思是通过人为设计的符号和结构传达给计算机的。本文讨论了深度学习如何用向量来表示语义,如何更灵活地表示向量,如何用向量编码的语义去完成翻译,以及有待改进的地方。在深度学 ...
Google发布了能理解人类语言的云服务
Google发布了能理解人类语言的云服务
上周三,Google智能云开发工具加入了一种云端自然语言API。这项服务可以帮助开发者的应用理解人类语言。这对Google来说是重要的一步。现在共有云的领域中,提供商的平台对人工智能的支持是一个火热的竞争点。有了自 ...
使用SimHash进行海量文本去重
使用SimHash进行海量文本去重
传统的Hash算法只负责将原始内容尽量均匀随机地映射为一个签名值,原理上仅相当于伪随机数产生算法。传统的hash算法产生的两个签名,如果原始内容在一定概率下是相等的;如果不相等,除了说明原始内容不相等外,不再 ...
文本深度表示模型—word2vec&doc2vec词向量模型
文本深度表示模型—word2vec&doc2vec词向量模型
深度学习掀开了机器学习的新篇章,目前深度学习应用于图像和语音已经产生了突破性的研究进展。深度学习一直被人们推崇为一种类似于人脑结构的人工智能算法,那为什么深度学习在语义分析领域仍然没有实质性的进展呢? ...
让机器理解语言的魔法师——揭秘Facebook语言技术小组
让机器理解语言的魔法师——揭秘Facebook语言技术小组
Facebook 这个社交媒体巨头涉足人工智能很晚,但它有大约 50 人组成的「语言技术组(Language Tech Group)」,他们正计划革新我们使用 Facebook 的方式,并维护它作为世界上最大的社交网络的地位。上个月,在 Faceb ...
ICML等六大会议自然语言处理类论文统计分析:谁是领跑者?
ICML等六大会议自然语言处理类论文统计分析:谁是领跑者?
昨日,作者 Marek 发布文章,统计了自然语言处理领域,各大高校、科技公司在六大论文会议上发表相关论文的数据情况。对行业内各机构此方面的研究状况给出了一个直观的图形展示。最近,我好奇在我的行业里,有多少机 ...
文本深度表示模型—word2vec&doc2vec词向量模型
文本深度表示模型—word2vec&doc2vec词向量模型
深度学习掀开了机器学习的新篇章,目前深度学习应用于图像和语音已经产生了突破性的研究进展。深度学习一直被人们推崇为一种类似于人脑结构的人工智能算法,那为什么深度学习在语义分析领域仍然没有实质性的进展呢? ...
字词的向量表示
字词的向量表示
Word2vec是一种可以进行高效率词嵌套学习的预测模型。其两种变体分别为:连续词袋模型(CBOW)及Skip-Gram模型。从算法角度看,这两种方法非常相似,其区别为CBOW根据源词上下文词汇('the cat sits on the')来预测 ...
Facebook首次将29层深度卷积网络用于自然语言处理
Facebook首次将29层深度卷积网络用于自然语言处理
在许多自然语言处理任务中起到主导地位的方法是循环神经网络(RNN,尤其是长短时间记忆网络,LSTM)和卷积神经网络(ConvNets)。然而,相比于深度卷积网络在计算机视觉领域中取得的巨大成功,这些网络结构还是太过 ...
Bag of Words
Bag of Words
Bag of Words即词袋模型,是对样本数据的一种表示方法,主要应用在 NLP(自然语言处理)和 IR(信息检索)领域,近年也开始在 CV(计算机视觉)发挥作用。该模型在表示样本数据时,可以假设假设:一个文本或文档可以看作 ...
文本分类与SVM
文本分类与SVM
文本分类属于有监督的学习,所以需要整理样本。根据业务需求,确定样本标签与数目,其中样本标签多为整数。在svm中其中如果为二分类,样本标签一般会设定为-1和1,而在朴素贝叶斯方法中,一般为0和1,但不是固定的, ...
典型语料库介绍
典型语料库介绍
20世纪60s,Francis 和Kucera 在布朗(Brown)大学建立,是世界上第一个根据系统性原则采集样本的标准语料库,100万词规模。选自1961年美国人撰写出版的普通语体的文本,15种题材,共500个样本,每个样本不少于2000 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2018-5-28 09:06 , Processed in 0.100848 second(s), 16 queries .