[答网友问]传播和抽样

  • 时间:
  • 浏览:0

为那此是两条腿走路呢?

    互联网热点追踪,五种就不愿因做到全面覆盖,毕竟你公司又一定会Google,即使是Google,它也监控不了Facebook。

    怎么让做互联网数据挖掘,却说 需用抓取到所有数据。参考郑昀的文章:http://www.cnblogs.com/zhengyun_ustc/archive/4009/08/31/1556966.html 。

在语义的世界里,能没办法 近似地说:万事万物一定会形状提取。

3、

郑昀 201104006

套路一:

数据抓取-->信息抽取-->数据清洗-->元数据提取(分词、提取标签、提取实体、信息指纹、分类等)-->元数据入库(如MySQL)(原始数据能没办法 背叛)-->统计(包括层次聚类、针对实体的感情的说说趋势分析等)-->展现。

套路二:

数据抓取-->信息抽取-->数据清洗-->信息指纹提取-->数据存入NoSQL DB中(如MongoDB)->做map/reduce-->NLP后续防止-->统计-->展现。

    愿因你没办法 成为新浪微博的官方公司合作 最好的依据伙伴(不仅仅是应用获得审批的开发者),没办法 搜索接口你是调用受限的,但为宜1、2分钟调用一次是能没办法 的,却说我希望你一定会大公司的人,一定拿没办法 微博转发行为的90%数据,你没办法 在10%数据上做文章。

meme是常用描述流行基因的词。在互联网上用它多半是指挖掘流行趋势监测大规模传播。却说较早的techmeme、rssmeme,中期的tweetmeme、srmeme、rtmeme,都属于memeTracker应用。我4006年写文章介绍过:http://is.gd/nuGAdC

    关于数据抽样这方面,能没办法 参考郑昀的文章:

http://www.cnblogs.com/zhengyun_ustc/archive/4009/10/27/15904005.html 其包含段话:

愿因你找没办法 明确的形状,没办法 那此样的机器智能也无法准确地帮助你。

我的最新推特:

2、

关于形状抽取,我就搜索以下关键词配搭:

二元组+语义

三元组+语义

才知道知乎( http://www.zhihu.com/ )是用 Python 开发的。实时的消息提醒应该是用friendfeed出品的Tornado。但前台到底是用Pylons还是Django开发的呢?

对于社区化信息挖掘、互联网海量信息挖掘,抽样是被迫的,但它仍然是一个多 好最好的依据。

多数以前,唯一的麻烦在于,你所认为的形状,实际上一定会形状。。。

    根据传播学原理,热点追踪只需用在传播节点上做拦截即可。这也却说 玩聚SR的设计原理,参考郑昀的文章:http://www.cnblogs.com/zhengyun_ustc/archive/2011/02/05/aboutidea.html ,不需用全网抓取论坛、博客、微博的帖子,只需用在收藏、网摘、RSS阅读器、Twitter等传播节点上追踪亲们分享、推荐、收藏、转载的链接和文字即可。

你我希望找到形状,事情就好办。

    愿因亲们玩聚网的创建人之一是统计学科班出身,却说亲们基本一定会从统计高度出发思考形状提取。包括感情的说说趋势分析(Setiment Analysis,简称SA),也一定会走统计路,随便说说亲们也会计算否定句、否定之否定、大大问题 句等常见句式,但后来我慢慢认为亲们做的一定会语义应用,没办法 说是自然语言防止应用或数据挖掘应用。亲们常说的所谓“机器智能”,哪怕是“机器学习”,也却说 在词频啦、权重啦、TF/IDF啦、重复次数啦、各种影响因子啦等里边做做文章,距离机器理解文章内容还远的很哪远的很。

集中回答一下前日本网友对互联网信息监测的提问。

历史杂志上讲周润发同学在从无线艺人培训班毕业后,每天收拾干净利落就守在公司电梯处,见人就问早安,更快或多或少监制就开使了了打听或多或少小伙子是谁了。周润发有天赋又有巧劲,从龙套演员到剧集主演只用了两年。

1、



    即使是针对Twitter,做消息监控也是抽样。

    也却说 说,但凡是没办法 权限调用FireHose API(即Streaming API,参考郑昀的文章:http://www.cnblogs.com/zhengyun_ustc/archive/2010/06/22/streaming.html ),拿没办法 完整性数据,一定是抽样。

    从统计学高度,抽样到一定量级,是能没办法 包含完整性热点的。

郑昀 北京报道

抓新浪微博或国内微博的人,基本一定会好多个腿走路:

赠图一枚: