炼数成金 商业智能自然语言处理
订阅

自然语言处理

写了个简单的爬人人网的小程序
写了个简单的爬人人网的小程序
无聊写的,请大家多多指教,这里有个编码问题,输出不了中文,周末竟玩了,没功夫研究,谁能帮我解答一下最好了 最终想法是输出我的好友关系网,但是现在只是简单的把所有好友的id姓名和访问人气输出了。。。。有空 ...
r语言实现文本分析实例
r语言实现文本分析实例
#1加载软件包:#1.1数据欲处理包:#Snowball(处理带空格的语句)#rJava(rmmseg4j的支持包)#rmmseg4j(处理中文的分词,把不带空格的分为带空格的。)#1.2文本分析包:#tm#数据处理##library (RODBC)excel_file - od ...
那些不靠谱的星座运程预测
那些不靠谱的星座运程预测
仔细瞧瞧十二星座运程预测里那些似是而非、模糊不清的话语吧,难道你不会偶尔觉得它们其实说得都是一回事吗?一个叫做information is beautiful的网站就将这种怀疑进行到底,搜集并分析预测里的高频词汇,试图用数据 ...
基于SNS的文本数据挖掘
基于SNS的文本数据挖掘
今年上半年,我在人人网实习了一段时间,期间得到了很多宝贵的数据,并做了一些还算有意义的事情,在这里和大家一块儿分享。感谢人人网提供的数据与工作环境,感谢赵继承博士、詹卫东老师的支持和建议。在这项工作中 ...
Twitter文本挖掘初步
Twitter文本挖掘初步
Twitter已经成为社交媒体领域重要的信息来源,也是数据挖掘和可视化的重点研究对象。据说华尔街的多家对冲基金公司已经在利用twitter数据挖掘来衡量人们的情绪,从而预测资本市场的运动方向。可见在未来数年,对twit ...
基于支持向量机的文本挖掘
基于支持向量机的文本挖掘
文本挖掘中很重要的一项任务就是对文本进行分类,基本步骤就是收集训练文本和已知对应的分类,通过分类器来学习训练集,然后利用建立的模型对未知的文本进行分类检验。#指定原始文本存放目录,然后生成文本集。本例中 ...
红楼梦文本折腾纪要
红楼梦文本折腾纪要
虽然对红学一无所知,也不敢说精于文本挖掘,但并不妨碍我们勇于折腾的生活方式。上周参加了第五届R会议,学到不少好东西,其中一个就是中文分词的工具。当然就找个对象来折腾一下啦。本次的黑手伸向了被人蹂躏无数次 ...
微博情感分析可用于异常或突发事件的监测
微博情感分析可用于异常或突发事件的监测
在线社交网络在近几年得到迅速发展,如国内的新浪微博在不到三年的时间已积累了近3亿用户,平均每秒有超过1000条的新微博产生。这些微博不仅反 应了一些事件信息,同时也附加了用户对事件的情感表达。基于此,北航软 ...
关于Jeremy Lin的Twitter词云
关于Jeremy Lin的Twitter词云
标签云或词云(word cloud)是关键词的视觉化描述,用于汇总用户生成的标签或一个网站的文字内容。word cloud实际上是将文档包含的词汇频率表进行了可视化。这些词汇的重要程度主要通过改变字体大小或颜色来表现。这项 ...
新浪微博数据抓取,顺手做了分词和词云
新浪微博数据抓取,顺手做了分词和词云
之前一直没有解决web微博的数据抓取问题,所以绕道走wap。但是这两天wap又要开始输验证码了。验证码对我来说实在是太难绕开的关口,于是索性又花了点时间了解前端的那堆脚本,终于能够比较顺利地提取新浪微博的微博数 ...
案例:文本挖掘在互连网关键词分析中的应用
案例:文本挖掘在互连网关键词分析中的应用
在数据分析技术中,文本分析的使用一直是一个较少被涉及的领域,特别是有关中文文字的文本挖掘。
搜索背后的奥秘——浅谈语义主题计算
搜索背后的奥秘——浅谈语义主题计算
两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。对语义关联的挖掘,可以让我们的搜索更加智能化。本文着重介绍了一个语义挖掘的利器:主题模型。主题模型是对文字隐含主题进行建模的 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2018-12-19 07:59 , Processed in 0.109045 second(s), 16 queries .