仍在搜索
水,水,到处都是水,却找不到一滴水喝。 -- 塞缪尔·泰勒·柯勒律治

我渴望的大部分信息是具体且文本的;而且由于大多数具体的文本信息都包含不止一个连续的词,所以我通常在寻找字母数字字符串。有时,但不总是,这些字符串是单词。
换句话说,我希望搜索引擎为我 grep 全世界。
由于我确信这绝对是不可能实现的,我只是去找一句名言来表达我的沮丧。我通过 Google 找到了它。它来自多产的德米特里·基尔萨诺夫,他在《HTML Unleashed, Professional Reference Edition》的“高级”章节中写道,该书的全文在 http://www.webreference.com/dlab/books/html-pre/ 上在线公开。他写道:“习惯于 grep 风格正则表达式的人甚至无法梦想在搜索引擎中使用类似的东西。”
我们不打算深入探讨原因。但我们确实要问,是否真的有必要让这么多引擎在这方面表现如此糟糕。似乎每次我找到一个能完成工作的搜索引擎时,就会有人把它买下来,然后它就完蛋了。或者它先完蛋,然后有人把它买下来。无论顺序如何,坏消息总是迫在眉睫。而且,无一例外,它都以(那个可怕的词来了)……营销的形式出现。
营销似乎无法摆脱为了“覆盖范围”、“曝光度”、“目标定位”或一些旨在影响尽可能多人口的“战略”抽象概念而牺牲实用性的做法——忽略了今天常见的共同点不像过去那样低和宽泛的事实。尤其是在网络上。
不常见的共同点(又说回我们)也相当丰富。而且,营销也不是为了忽视鉴赏家而存在的。见证汽车制造商之间为了只有机械师和赛车手才能完全理解的操控特性而进行的战争。(我们有多少人会驾驶我们的雪佛兰 Tahoe 在黑钻坡道上疾驰,或者驾驶我们的讴歌在内华达州的两车道乡村公路上加速到轮胎融化的速度?)
但是,互联网营销是一个古怪的品种,它对消费者的渴望程度通常在宝洁公司 1958 年左右之后就再也没有出现过。正是这种对消费者如饥似渴的营销杀死了 Lycos(最初来自卡内基梅隆大学的那个),然后是 Infoseek,然后是 Hotbot(Inktomi 创建的那个),然后是 Altavista(DEC 创建的那个)。它们中的每一个都天生是为了满足求知欲而生的。其他的——Looksmart、AskJeeves、Go、Yahoo! 和 DirectHit 等等——除了对“收藏夹”、“门户”和诸如此类的愚蠢“消费者”搜索之外,几乎一无是处。
好吧,我会为 Yahoo! 例外,它一直使用人工来编目网络。现在它聘请了 Google 来做繁重的工作,这是一件好事。在对 Altavista 进行尸检之后,我们将更多地谈论 Google。
早在去年秋天,我就知道 Altavista 快不行了,当时它的“高级”搜索页面突然被吹嘘“改进”的页面取代了。“提示”消失了。搜索给定 URL 的入站链接的便捷方法也消失了。即使该功能仍然存在,在新鲜的营销垃圾中也找不到任何程序线索(至少我找不到)。
当然,还有一个调查。所以我填写了它。这封邮件回复了:
非常感谢您最近填写了 AltaVista 高级搜索页面的调查。您的建议和意见将帮助我们继续使 AltaVista 高级搜索成为在互联网上定位 [原文如此] 信息的最佳方式。
我们发现,一旦用户尝试高级搜索,他们就会意识到 AltaVista 提供的工具在使您的搜索更精确方面具有强大的功能。因此,我们一直在努力想出新的方法来鼓励普通搜索者尝试高级搜索。而且,这就是我们希望听取您的意见的地方。
您可能还记得,除了您的调查回复外,您还提交了这个电子邮件地址。因此,如果我们有任何后续问题,我们可以再次与您联系。现在,我们想听取您对我们希望使用的一些促销活动的意见,以说服用户尝试高级搜索。
这份六个问题的调查应该只需要几分钟。只需点击下面的超链接即可。如果您使用的是 AOL 或其他不支持超链接的电子邮件服务,请复制超链接并将其粘贴到浏览器窗口的地址框中。
该 URL 将我带到了一个愚蠢的世界,那里的神灵相信奖品可能会起到功能起不到的作用。我在输入框中写道:
我不需要奖品。如果你的搜索真的那么 “高级”(而且它怎么可能高级呢,既然你甚至没有提到那个只在 BASIC 中才起作用的奇妙的 “link:www.mysite.com -url:mysite.com” 功能,天哪!),我很乐意免费帮忙。如果你肯关注我,我就给你我的时间。我想要真正高级的搜索功能。那才是吸引我的东西。而不是奖品。
在第二页的底部,系统崩溃了,不让我进入第三页。我放弃了,没有再回去,只是想看看它与竞争对手相比如何。
但是,嘿,也许他们听进去了。“速查表” doc.altavista.com/adv_search/syntax.shtml 恢复了许多从原始高级页面丢失的良好建议。但可悲的事实是,Altavista 不如以前那么好用了。FAST、Google 甚至 MSN Search 都能产生更好的结果。如果你在寻找字符串。(更多信息,请参阅 UpFront 中的专题报道。)
我知道,因为我经常测试搜索引擎。我深入到我自己的域名 http://www.searls.com/ 中的某个文档,并抓取一段文本,这段文本既出现在我自己的网站上,也出现在许多其他网站上,例如文学作品中的引文。然后,我让一堆引擎通过测试。这就是我知道 Altavista 何时开始击败 Infoseek,Hotbot 何时开始击败 Altavista,以及 FAST 何时开始击败 Hotbot 的原因。
我上次保存结果是在 1999 年 12 月 3 日。当时,FAST,http://www.alltheweb.com/ 获胜。他们在某些测试中仍然获胜(见 UpFront),但在另一些测试中则失败——通常是输给 Google。
Google 有很多值得喜欢的地方。首先,他们的引擎在 Linux 上运行(如果您想知道,Google 是 Red Hat 的大客户)。其次,他们的用户界面非常简洁,除了它本身之外,没有任何炒作,而且炒作也很少。在设计方面,他们很好地利用了空白。第三,他们很好地整合了 DMOZ 开放目录项目的目录,这本质上是人民的 Yahoo!。但第四(也是最重要的一点),他们比任何其他搜索公司都更努力地允许同时进行对字符串和单词集合的可信搜索。
当 FAST 和 Hotbot 为您提供“短语”、“所有单词”和“任何单词”(或等效项)的弹出菜单选择时,Google 一次完成所有这些操作,默认首先进入短语模式。您可以使用引号来缩小结果范围,但差异通常很小。这意味着 Google 在提供尽可能大的窄搜索方面做得很好。事实上,用户想要的一个站点经常出现在首位,以至于 Google 自信地提供了一个“手气不错”按钮,该按钮只产生一个结果。
Google 确实有特殊的搜索功能,所有这些功能都得到了很好的解释。我希望他们能有更多,但没有它们我也能活下去。对我来说,Google 是迄今为止最有用和最可靠的搜索引擎——至少对于那些难以找到的单词字符串而言。
Google 有什么不好的地方?嗯,有专利问题。他们正在为他们的搜索方法申请专利(谁知道还有什么),这让他们在 Linux/开源社区中失去了良好的声誉。在今年年初的一次活动中,我与 Google 的联合创始人拉里·佩奇简短地讨论了专利问题。很明显,拉里对专利并不热衷。紧接着,我与约翰·多尔交谈。同样清楚的是,约翰对专利非常热衷——甚至到了他认为专利是“使美国伟大”的因素之一的程度。当然,约翰是一位风险投资家,他在 Kleiner Perkins 工作,该公司为 Google 提供了大量资金。
Google 还存在追求广告驱动的商业策略的风险。在当前的搜索中,广告以带注释的纯文本链接形式显示在搜索结果上方。这些当然比横幅广告要温和得多(也更难屏蔽)。但它们在几个月前悄悄地潜入了进来。下一步是什么?
我不知道。事实上,我刚刚尝试强制 Google 的引擎给我投放广告,但它没有做到——十次尝试都没有一次。所以我怀疑该公司正在保持谨慎。这是应该的。据我所知,Google 是唯一一个由那些为搜索而生,为生存而搜索的人创建和使用的搜索引擎。
我们需要更多这样的搜索引擎。我们需要我们拥有的那些搜索引擎记住我们如此喜欢它们的原因。