数字失忆:我们如何失去了中文互联网的历史(一)?
1
一个有意思的发现:
如果我们在百度上搜索“马云”这两个字,把时间设定在1998年到2005年,能搜出来的信息,大概有多少条呢?是1亿条,还是1000万条,还是100万条?我在几个群问过,大家普遍的猜想是,应该是百万或者千万的级别。毕竟,互联网信息如此浩如烟海。马云作为那个时代的风云企业家,在网上留下的痕迹肯定是非常多的。但实际上能搜出的全部结果如下:
用百度搜索,选定日期范围为“1998年1月1日到2005年12月31日”,含有马云的信息,总共是1条(2024年5月26日数据)。
而仅有的这一条信息,也是虚假的。点进去会发现,文章的发布时间其实是2021年,不属于上面限定的时间段,只是不知怎么回事,它被莫名其妙地搜索出来。
也就是说,如果我们想要了解那一段时间关于马云的经历、报道、人们对他的讨论、他的讲话、公司的发展史等等,我们能得到的有效的原始信息量,是零。
你可能会觉得,这是不是百度的问题啊?如果换必应或谷歌,会不会能搜出来?
我测试过,这两个网站搜出来的有效信息,和百度没有太大区别,比百度略多一些,但也只是个位数。更多的也都是时间紊乱的无效信息,只不过不知道是什么技术原因,被错误地抓取出来。
你可能还会觉得,是不是因为马云属于比较有争议的人,由于某种不可描述的原因,所以他的信息才无法搜到?
但实际上,不仅仅是马云的情况如此,我们去搜马化腾、雷军、任正非等,甚至是罗永浩和芙蓉姐姐这样在那个时候红极一时的网红,或周杰伦、李宇春那样曾经火遍全网的明星,结果也都一样的。如搜雷军的情况,结果是这样的:
在测试过不同网站、不同人名、不同时间段之后,我发现一个令人震惊的现象:
几乎所有在那个年代曾经红火过的中文网站,如网易、搜狐、校园BBS、西祠胡同、凯迪猫眼、天涯论坛、校内网(人人网)、新浪博客、百度贴吧、以及大量的个人网站等,在一定年份之前的信息都已经完全消失不见了,甚至大部分网站是所有年份的信息都消失了。唯一例外的是新浪网,还能找到一些十几年前的信息,但也是极少数的寥寥几条,其他9.9999%以上的内容,全都消失了。
大家都没有意识到一个严重的问题:中文互联网正在迅速崩塌,移动互联网出现之前的中文互联网内容,已经几乎消失殆尽。
我们原以为,互联网是有记忆的,但没有想到,这种记忆,原来是像金鱼一样的记忆。
(侵删)