• 谈谈马蜂窝采集数据事件
  • 发布于 1周前
  • 33 热度
    0 评论
  • 张馨予
  • 1 粉丝 19 篇博客
  •   
这几天马蜂窝这个网站火了,世界杯期间它是因为那个洗脑的广告火的,而这几天火是因为几个程序员捅了它。他们采集了马蜂窝的数据,他们用马蜂窝的数据跟携程、大众点评等网站的数据对比,发现了一个惊天的事实:

马蜂窝整个网站的自称21000000条的真实点评,实际上其中有85%的点评搬运自大众点评、携程、yelp;也就是说马蜂窝这个网站上的真实点评可能只有315万。

官方口径的2100万 
VS
实际上真实的315万

你特娘的也是个人才啊。其实咱们都知道在当今的互联网界,大家在冷启动的时候都喜欢这么干:把别人网站的成熟的资料抄袭过来。我们都熟知的Airbnb在冷启动的时候前1000个房源信息就是从Craigslist采集过来直接贴在网站上的。

同样来自携程、大众点评等网站的这些点评资料拿过来之后可以丰富马蜂窝网站的内容。冷启动的时候干情有可原。

但是马蜂窝错就错在
它不是冷启动的时候在做这件事情
他是一直在做这件事情
甚至在公司内部养着一个大型的团队在做这件事情
把抄袭、搬运做大了规模
做成了产业
这不是找死么?

过了冷启动期其实也可以干,你看国内的很多新闻网网站都是互相的采集对方的新闻信息进行伪装,今日头条也采集新浪微博的,悟空问答也采集知乎的。

但是这种采集都要有个限度、要小声的采集,你网站本身提供的独立价值要远远大于抄袭搬运带来的价值。

而马蜂窝就不一样,你默默的抄袭也就罢了,你默默的搬运也就罢了。你还生怕别人不知道,所以你还非要在各种地方重点宣布:来自网友2100万的真实点评,引以为傲。

你还把这2100万的真实点评数据放在投资人的面前,投资人眼花了,一转眼间给马蜂窝投成了独角兽,体积大了几千倍。虽然我知道国内很多投资人都是只看数据、不长记性的,但是这么造假玩骗钱就有点过了。我想问问马蜂窝「独角兽」

马蜂窝你们在用假数据宣传的时候就没有一点的脸红吗?
你们在用假数据向投资人骗钱的时候就没有一点心虚吗?

哦,我懂了,可能宣传久了,你们已经认为那2100万点评真的是你们自己的了。

按照马蜂窝这个逻辑,说实话,我一个程序员加上一个能吹牛的合伙人我们能复制出一百个独角兽出来。

我可以采集飞猪、去哪儿、携程所有酒店的资料和点评内容,做一个酒店预订网站,而且保证我的酒店信息和点评资料是全中国最全的、最大的,投资人你给钱吗?别问我为什么,因为我是汇总的。

我可以采集知乎、悟空问答、Quora等等所有问答内容做一个全球最大的问答网站。别问我为什么敢自称最大,因为爬虫所以自信。

我可以采集…

现在爬虫这个技术是有些泛滥了,会爬虫的人和公司也越来越多了。所以造假、搬运、抄袭的成本也越来越低了。

不奢望捅马蜂窝这事情能改变互联网大环境,但致少能给那些还在抄袭的大型互联网企业敲个钟吧!

用户评论