搜索世界实时网络

作者:Doc Searls

编者按:以下是 Doc Searls 的 SuitWatch 新闻通讯 9 月 15 日刊的内容。注册成为这份双周通讯的订阅者。

9 月 15 日——昨天,当 Google 推出其新的博客搜索引擎时,实时网络搜索变得更加重要。Google 索引页面上目前还没有直接链接。现在,您可以在“更多”链接后面的服务列表中找到它。其中有 29 个,而博客搜索是最新的。

但这个消息仍然很重要。它以重要的方式使实时网络——尤其是博客——合法化。

据我所知,博客搜索类别诞生于 David Sifry 将一个名为 Technorati 的 hack 程序放在他地下室里的一台 Penguin Computing Linux 机器上,当时我和他正在为 “使用博客构建” 工作,这是 Linux Journal 2003 年 2 月刊的专题报道。Dave 需要研究博客,因此他为此创建了一个工具。截至今天,Technorati 的流量在 Alexa 上排名第 751 位,每天的页面浏览量接近 8000 万。(声明:我在 Technorati 的顾问委员会任职。)

其他实时网络搜索先驱包括 Bloglines、Blogpulse、Feedster、IceRocket 和 PubSub。它们产生的结果与您通过广域网搜索获得的结果以及彼此之间的结果截然不同。在大多数情况下,结果更新。它们也更可能来自个人和实时新闻服务,而不是来自拥有静态站点的公司。

假设您要搜索 Katrina 和 Interdictor。后者是 Michael Barnett 的网络日志,他帮助 DirectNIC 的数据中心在卡特里娜飓风及其随后的危机中保持运行。Interdictor 不仅仅是一个简单的博客,它还充当留言板、技术支持热线和零废话新闻服务。

您会在 Google 和 Yahoo 的主页上获得结果,但它们不会特别新。我是在 9 月 14 日写这篇文章的,Google 上的首要结果来自 9 月 3 日。您也无法通过时间维度来探究它们,凝视现在。

在 Blogpulse 上进行相同的搜索,您会得到按时间倒序列出的结果,最新的在顶部。您还可以观看相同搜索的趋势结果。您可以通过逐步添加搜索词来优化结果。并且您可以从一个 URL 的“种子”跟踪对话。在 Feedster 上搜索相同的内容,您会得到按相关性或日期列出的结果。

在 Icerocket 上进行相同的搜索,您会得到按日期分组的结果,从今天开始。您可以将搜索范围缩小到今天、过去一周、过去一个月或按日期范围。您还可以在这里跟踪趋势,并回顾您的搜索历史。

在 Technorati 上进行相同的搜索,您会得到从两小时到两天前的结果,最新的在顶部。该公司尝试在几分钟内索引所有内容。您还可以找到 5,680 篇标记为“katrina”的帖子和 5 篇标记为“interdictor”的帖子。

使用 Google 的博客搜索进行相同的搜索,您会得到 2,355 个结果。虽然总体外观与其广域网结果相似,但在这里您可以选择按相关性或日期排序。您还可以翻阅前 1,000 个结果中的 100 页,并订阅搜索的 feed。而且,正如您所期望的那样,它比所有其他搜索引擎都快得多。

您无法通过 PubSub 进行搜索,但您可以订阅关键字和关键字组合。这些搜索是联合发布的,因此您可以在自己的聚合器中接收它们。事实上,大多数实时网络引擎都为关键字、URL 或两者组合的搜索提供 feed。

在广域网引擎中,只有 A9 也使用 IceRocket 参与实时网络搜索的竞争。

顺便说一句,它们都运行在 Linux 上。这没什么新闻,但当然值得报道。

那么,广域网和实时网络之间有什么区别?很高兴你问了。

简单的区别是实时网络是联合发布的。这意味着每次发布或更新内容时,都会发出通知,告知全世界。最常见的联合发布方法是 RSS,它通常代表 Really Simple Syndication(真正简单的联合发布)。有许多不同的联合发布格式——Google 的 Blogger 使用 Atom——但作为一个类别,我们倾向于将它们都称为 RSS。那些熟悉的小橙色 XML 按钮是实时网络搜索 feed 的通用符号。

广域网搜索引擎派出网络蜘蛛来抓取网络上的每个站点。在 Google 上,大约有 82 亿页。实时网络搜索引擎仅抓取联合发布的页面,并且仅在收到来自这些页面的新鲜 feed 通知时才抓取。因此,虽然 Technorati 搜索了 1710 万个来源,但它仅索引发送新鲜联合发布 feed 的页面。

这是另一种看待它的方式:广域网索引是主动的,并且存档所有内容,而实时网络索引是被动的,并且仅存档新鲜内容。

当然,实时网络引擎可以在很长一段时间内存档更多内容。但通常最重要的是最新鲜的内容——或者既相关 新鲜的内容。

另一个区别在于技术、标准和实践的变化速度。这导致搜索体验高度多样化,并且必然会随着时间而变化。在过去的几个月中,用分类关键字“标记”帖子(或 Flickr 上的照片,或 Del.icio.us 上的书签)已被证明是发现和细读临时分组的一种便捷方式。Technorati 已经提供标签搜索以及标签方法已有几个月了,其他公司也必将效仿。与此同时,自从 Google 教会用户信任 PageRank 以来,广域网搜索一直保持着非常一致的体验。

自从 Google 的博客搜索出现以来的几个小时内,Blogosphere 中的许多帖子都在预测现有的实时网络引擎将会消亡。几分钟前,我与 Jason Goldman 进行了交谈,他负责 Google 的 Blogger 和博客搜索。他并没有预测实时网络领域的竞争对手会消亡,而是表示他预计它会变得更有活力并增长。他还赞赏 David Sifry 的博客文章,欢迎 Google 进入这个领域。

在其中,一位朋友给我发了一条消息,提醒我 Apple 也曾在 1982 年 IBM PC 推出时公开欢迎 IBM 进入个人计算领域。这意味着 IBM 击垮了 Apple。在某种程度上,这发生了。但值得注意的是,Apple 仍然存在,健康且是其行业(以及其他一些行业)的领导者。Jason 还提醒我,当 Google 收购 Blogger 时,也有许多关于竞争对手将会消亡的预测。相反,博客创建工具业务变得更大了。

每个行业都需要它的中流砥柱和先驱。实时网络现在两者兼备。如果他们都做自己最擅长的事情,这对每个人都会更好。

Doc Searls 是 Linux Journal 的高级编辑,他为该杂志撰写“Linux for Suits”专栏。他还主持 Doc Searls' IT Garage,该网站由 Linux Journal 的出版商 SSC 出版。

加载 Disqus 评论