中文内容将成为全网垃圾之最,中文互联网信息的未来在何处?

笔者近来开始自已建站开博客,也在百家号上写写文章,就开始担忧原创被盗采的可能。

在自已写博客之前并未想到盗采现象,虽说也常常在百度上看到同一个问题在大量的网站上有着完全相同的内容,也是猜到有人在做这种无良的拷贝,也想到过可能有专门的软件来采集内容。

但今天想看看有没有什么防采办法来给自已用时,才发现真是道高一尺魔高一丈!为了防采集,人机验证一路加强,从简单的验证码到高级的12306式验证,到图像旋转,再到深层的访问行为控制等等,所有的目的只有一个:保护原创,捍卫创作权益!

因为工作原因我也常常在外网搜索资料,鲜有发现所搜到的内容存在大量雷同的情况。我不禁思索,是中文内容好采集好拷贝吗?不可能啊,不论任何语言的数字信息都以标准的字符集存在,软件当中设定好了完全不费脑啊。为何外网极少而中文网络中如此繁复呢?甚至还有大量的防采集技术讨论,以及更加无耻的公开广告采集器的行为,比如刚才看到了大量某爪鱼的广告软文,简直无良到极点!

另外还有一个现象是,本人常常在搜索国内企业信息或某产品信息时,有大量的所谓信息平台上列示着企业信息、产品信息和联系方式等,但绝大多数并非企业自发在平台上公开发布的,更像是使用采集软件使用关键字采集而来再格式化生成的企业信息,而当中又绝大多数并不具有实际的意义,比如无联系方式,或企业早已不存在,或联系方式早就过时。而搜索和查看的过程又浪费掉大量的时间和精力,更不要说服务器和访问者设备浪费的能源,以及宝贵的互联网带宽资源。

现在,我只能认为搜索引擎是此罪恶之源,而挑头者必百度莫属!在算法中加入保护原创并不难,分辨原创和盗用也不难,剔除侵权内容更不难。正是由于百度在中文搜索市场中的不作为,不顾中文互联网生态的有序发展需要,导至现今的中文互联网内容极其混乱和重复无序,从原创内容到工商业信息,无一幸免。只要搜索引擎失去精神和原则,采集器之类的什么玩意出现都毫不奇怪。

就以全世界使用人数最多的英文和中文互联网内容对比而言,我敢说英文的主要搜索引擎上呈现的是有序,高效的互联网实用真理,而由百度而起所有的中文搜索引擎呈现的则是世界上最垃圾的数字化信息!没有之一!

由于垃圾互联网信息造成的经济损失(浪费)有多少?

中文互联网内容发展的出路在哪里?

如果谷歌进入的话能破解这个问题吗?

Hmmmm,难说。