炼数成金 商业智能自然语言处理
订阅

自然语言处理

TF-IDF与余弦相似性的应用(一):自动提取关键词
TF-IDF与余弦相似性的应用(一):自动提取关键词
这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到?这个问题涉及到数据挖 ...
原创翻译 | 用NLP识别“假新闻”
原创翻译 | 用NLP识别“假新闻”
我们的目标是寻找一种利用自然语言处理(NLP)来识别和分类假文章的方法。我们收集数据,对文本进行预处理,并将文章转换为用于监督和非监督模型的特性。我们从一开始就知道,把一篇文章归类为“假新闻”可能有点灰色 ...
自然语言处理领域公开数据集
自然语言处理领域公开数据集
网上公开的数据集很多,在这里整理了一份关于自然语言处理领域的公开数据集的清单,内容如下。1. Apache Software Foundation Public Mail Archives(公共邮件存档)大小:200GB内容:截至2011年7月11日所有公开可用 ...
大数据分析5万首《全唐诗》,发现了这些秘密
大数据分析5万首《全唐诗》,发现了这些秘密
近些年来,弘扬中华传统文化的现象级综艺节目不断涌现,如《中国汉字听写大会》、《中国成语大会》、《中国谜语大会》、《中国诗词大会》等,其背后的社会成因,在于人们对中国文化中最精致文字的膜拜心理,虽然浸淫 ...
和机器聊天就像一场糟糕的相亲
和机器聊天就像一场糟糕的相亲
一间普通的会议室里的桌子上,放着一个亚马逊的智能家居产品“Echo”(里面住着一名叫做Alexa的虚拟助手)。另一个会议室里,10个亚马逊员工坐成一排,观察着隔壁场景里的一举一动。第三间会议室里,3个人坐在用黑布 ...
基于Freebase的问答研究
基于Freebase的问答研究
在知识问答中,要把一个自然语言的问句映射到知识库 KB 中是很难的,目前的问答系统通常是将 NLP 问句转换成一个 SPARQL 查询语句去检索 KB。如何完成这一转换过程面临着很多问题,比如怎么在 KB 中找到和问句中匹配 ...
2018年聊天机器人状态报告
2018年聊天机器人状态报告
根据Drift、SurveyMonkey Audience、Salesforce和myclever的“2018年聊天机器人状态报告”,聊天机器人预计能够24小时为简单任务提供即时服务,但不是进行复杂查询的最佳渠道。聊天机器人尚未在消费者中找到广泛的吸 ...
微软机器翻译系统:中-英翻译水平可“与人类媲美”
微软机器翻译系统:中-英翻译水平可“与人类媲美”
机器翻译是科研人员攻坚了数十年的研究领域,曾经很多人都认为机器翻译根本不可能达到人类翻译的水平。虽然此次突破意义非凡,但研究人员也提醒大家,这并不代表人类已经完全解决了机器翻译的问题,只能说明我们离终 ...
机器翻译的前世今生
机器翻译的前世今生
机器翻译源于对自然语言的处理。1949 年,洛克菲勒基金会的科学家沃伦·韦弗提出了利用计算机实现不同语言的自动翻译的想法,并且得到了学术界和产业界的广泛支持。韦弗的观点也代表了当时学术界的主流意见,就是以 ...
AI将取代记者?路透社推出AI新闻助手 近期入驻全球新闻编辑室
AI将取代记者?路透社推出AI新闻助手 近期入驻全球新闻编辑室
路透社正致力于构建一款人工智能工具,以帮助新闻记者分析数、提出故事构想、甚至撰写一部分内容。其目的并不是取代记者,而是以电子数据科学家兼文案撰写助理的身份出现,旨在丰富新闻内容。自去年夏季推出以来,这 ...
给AI写台词是怎样一种体验?Siri创意总监现身说法
给AI写台词是怎样一种体验?Siri创意总监现身说法
一句过年好,能换来Siri花样百出的回应。这些有点冷、有点萌,又似乎在抖机灵的回复,都是哪来的?AI自动生成?目前技术还没那么先进。在这些智能助手背后,藏着一个神秘群体:AI的编剧。他们负责给智能助理写台词, ...
如何做好文本关键词提取?从三种算法说起
如何做好文本关键词提取?从三种算法说起
在自然语言处理领域,处理海量的文本文件最关键的是要把用户最关心的问题提取出来。而无论是对于长文本还是短文本,往往可以通过几个关键词窥探整个文本的主题思想。与此同时,不管是基于文本的推荐还是基于文本的搜 ...
密码学家百年无法辨认,500年前古怪手稿加密希伯来语被AI算法破译
密码学家百年无法辨认,500年前古怪手稿加密希伯来语被AI算法破译
几个世纪以来,伏尼契手稿(Voynich manuscript)一直是本人类无法理解的书,但现在我们终于可以读懂它了——这要归功于我们在手稿写成的500年后发明的机器智能。伏尼契手稿通常被称为“世界上最神秘的书籍”,它是 ...
用生成对抗网络解决NLP问题:谷歌大脑提出MaskGAN
用生成对抗网络解决NLP问题:谷歌大脑提出MaskGAN
循环神经网络(RNN)(Graves 等人, 2012)是序列型数据以及序列标记任务中最常见的生成模型。循环神经网络在语言模型(Mikolov 等人,2010)、机器翻译(Wu 等人,2016)和文本分类(Miyato 等人,2017)中显示出引人 ...
微软、阿里用阅读理解证明,文字的事儿人类已经不如 AI 了
微软、阿里用阅读理解证明,文字的事儿人类已经不如 AI 了
据CNN、CNET、彭博社等多家外媒报道,1月11日,微软和阿里巴巴开发的AI模型在斯坦福阅读测试中首次胜过人类。这是继国际象棋、桥牌等游戏之后,机器再次战胜人类。SQuAD比赛,是由斯坦福大学发起的机器阅读理解领域 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2018-9-25 00:59 , Processed in 0.110150 second(s), 16 queries .