炼数成金 商业智能自然语言处理
订阅

自然语言处理

Baidu分词算法分析III
Baidu分词算法分析III
百度拼写检查系统整体流程看起来很简单,但是还有一些遗留的小问题,比如是否将词表里面所有同音词都作为用户的提示信息呢?比如某个拼音有10个同音词,是否都输出呢?百度并没有将所有同音词都输出而是选择一定筛选 ...
Baidu分词算法分析II
Baidu分词算法分析II
我们再来看一个例子。提交查询“遥远古古巴比伦”,这个查询被百度切分为《遥远,古古,巴比伦》,说明词典里面有”巴比伦”,但是是否有”古巴比伦”这个词汇不确定,此时看不出是正向切分还是反向切分得出的结果, ...
Baidu分词算法分析I
Baidu分词算法分析I
随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为 普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引 ...
现代汉语词语切分研究
现代汉语词语切分研究
今天的内容选自北京大学计算语言学研究所常宝宝《计算语言学》讲义。本文讲述了中文分词的基本概念,并介绍了最大匹配法分词,今后我们还将会介绍其他分词方法。什么是汉语自动切分?通过计算机把组成汉语文本的字串 ...
从产业角度说说NLP这个行当
从产业角度说说NLP这个行当
前面一篇博文的本意,是想借题发挥,从工业运用的角度说说NLP(NaturalLanguage Processing:自然语言处理)这个行当。不好意思,我算是这个行当在工业界的老古董了(学界不算,学界有的是NLP师爷和大牛)。跟我同期 ...
从Google开源自然语言学习想到的一个阅读英文的方法
从Google开源自然语言学习想到的一个阅读英文的方法
我没有留过学,从来没有接受过任何英文教育,但我之前一直觉得自己的英文处在一个“还行”的状态:我觉得自己不是很怕听和说,尤其是四五年前去了两次美国后,自己的英文会话能力有了一定程度的加深。也有人评价过我 ...
无论神经网络深或浅,自然语言处理技术都在前进中
无论神经网络深或浅,自然语言处理技术都在前进中
这是一篇比较简短轻快的回顾词向量的引入对自然语言处理的推动的文章,适合对自然语言处理技术感兴趣的爱好者和初学者阅读。当前自然语言处理是机器学习领域的研究热点,在词向量的基础上,进行着很多新的探索,比如 ...
语义分析的一些方法
语义分析的一些方法
语义分析,本文指运用各种机器学习方法,挖掘与学习文本、图片等的深层次概念。、本文主要由以下四部分组成:文本基本处理,文本语义分析,图片语义分析,语义分析小结。先讲述文本处理的基本方法,这构成了语义分析 ...
谷歌开源最精确自然语言解析器SyntaxNet的深度解读
谷歌开源最精确自然语言解析器SyntaxNet的深度解读
自然语言理解研究中,如何处理语言歧义是个难题。 SyntaxNet 将神经网络和搜索技术结合起来,在解决歧义问题上取得显著进展:SyntaxNet 能像训练有素的语言学家一样分析简单句法。今天,谷歌开源了SyntaxNet,也发布 ...
用AIML写一个聊天机器人
用AIML写一个聊天机器人
AIML(Artificial Intelligence Mark-up Language,人工智能标记语言)是一种与XML兼容的语言,它很容易学习,能够从零开始在几分钟内创建一个智能机器人,详细介绍参考:http://www.pandorabots.com/pandora/pics/w ...
AI和自然语言处理该怎么做,才能和聊天机器人愉快的做朋友呢?
AI和自然语言处理该怎么做,才能和聊天机器人愉快的做朋友呢?
我们正站在新一波软件革命的开端。Chatbot 正在逐渐取代 App 成为新的标准。但就目前 Siri、小冰这样的聊天机器人来看,它们想要成为人类的朋友还有很长的路要走。关于机器人的讨论,是这几年才开始变得火热起来-- ...
2016年,文本分析、情感分析和社交分析的10大趋势
2016年,文本分析、情感分析和社交分析的10大趋势
文本分析、情感分析和社交分析帮助你在一定规模上转化成客户、病人、公众以及市场的“声音”。这项技术目前大量地应用于一系列的工业产品中,从医疗健康到金融、媒体、甚至客户市场。它们从线上、社交网络、企业数据 ...
人工智能继续进步的关键,自然语言处理概述
人工智能继续进步的关键,自然语言处理概述
从上世纪五十年代就已经出现的自然语言处理有着怎样广泛的应用?从语言学的角度来看,无处不在的自然语言处理又是如何理解文本的?符号和统计哪一个是最好的 NLP 方法?这篇文章对自然语言处理作出了概述性介绍。如 ...
特定领域的实体关系如何提取?
特定领域的实体关系如何提取?
从特定类型文本中提取实体关系。这些领域除了有很多结构化数据之外,还有跟多的文本数据,通俗意义上都叫做非结构化数据(这里不包括语音、图片、视频等)。在应用里面,结构化描述的数据是非常清楚的,对于文本来说 ...
标题怎么起?分析9100篇10万+文章后...
标题怎么起?分析9100篇10万+文章后...
在微信公众号每天推送的文章汪洋里,有哪些文章可以突破十万加,登上热门榜,从此走上文生巅峰呢?我们收集了近三个月的微信公众号原创内容榜单,包括每天阅读量最高的前100篇文章,共计9100篇微信热门文章这9100篇 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2018-5-28 09:09 , Processed in 0.100936 second(s), 16 queries .