一个合格的SEO必须了解搜索引擎基本工作原理。很多看似令人迷惑的SEO原理及技巧,其实从搜索引擎原理出发,都是自然而然的事情。
目录
为什么要了解搜索引擎原理?
说到底,SEO是在保证用户体验的基础上尽量迎合搜索引擎。与研究用户界面及可用性不同的是,SEO既要从用户出发,也要站在搜索引擎的角度考虑问题,才能清晰地知道怎样优化网站。SEO人员必须知道:搜索引擎要解决什么问题,有哪些技术上的困难,有什么限制,搜索引擎又怎样取舍。
从某个角度来说,SEO人员优化网站就是尽量减少搜索引擎的工作量、降低搜索引擎的工作难度,使搜索引擎能更轻松、快速地收录网站页面,更准确地提取页面内容。不了解搜索引擎工作原理,也就无从替搜索引擎解决一些SEOer力所能及的技术问题。当搜索引擎面对一个网站,发现要处理的问题太多、难度太大时,搜索引擎可能就对这样的网站敬而远之了。
很多SEO技巧是基于对搜索引擎的理解。下面举几个例子。
我们都知道网站域名和页面权重非常重要,这是知其然,很多人不一定知其所以然。权重除了意味着权威度高、内容可靠,因而容易获得好排名外,获得一个最基本的权重,也是页面能参与相关性计算的最基本条件。一些权重太低的页面,就算有很高的相关性也很可能无法获得排名,因为根本没有机会参与排名。
再比如很多SEOer津津乐道的“伪原创”。首先,抄袭是不道德甚至违法的行为,把别人的文章拿来加一些“的、地、得”,段落换换顺序就当成自己的原创放在网站上,这是令人鄙视的抄袭行为。理解搜索引擎原理的话,就会知道这样的伪原创也不管用。搜索引擎并不会因为两篇文章差几个字、段落顺序不同,就真的把它们当成不同的内容。搜索引擎的权重算法要先进、准确得多。
再比如,对大型网站来说,最关键的问题是解决收录。只有收录充分,才能带动大量长尾关键词。就算是有人力、财力的大公司,当面对几百万几千万页面的网站时,也不容易处理好充分收录的问题。只有在深入了解搜索引擎蜘蛛爬行原理的基础上,才能尽量使蜘蛛抓得快而全面。
上面所举的几个例子,读者看完搜索引擎原理简介这一节后,会有更深入的认识。
搜索引擎与目录
早期的SEO资料经常把真正的搜索引擎与目录放在一起讨论,甚至把目录也称为搜索引擎的一种,这种讲法并不准确。
真正的搜索引擎指的是由蜘蛛程序沿着链接爬行和抓取网上的大量页面,存进数据库,经过预处理,用户在搜索框输入关键词后,搜索引擎排序程序从数据库中挑选出符合搜索关键词要求的页面。蜘蛛的爬行、页面的收录及排序都是自动处理。
网站目录则是一套人工编辑的分类目录,由编辑人员人工创建多个层次的分类,站长可以在不同分类里提交网站,目录编辑在后台审核所提交的网站,将网站放置于相应的分类页面。有的时候编辑也主动收录网站。典型的网站目录包括雅虎目录、开放目录、好123等。
目录并不是本书中所讨论的SEO所关注的真正的搜索引擎。虽然网站目录也常有一个搜索框,但目录的数据来源是人工编辑得到的。
搜索引擎和目录两者各有优劣。
搜索引擎收录的页面数远远高于目录能收录的页面数。但搜索引擎收录的页面质量参差不齐,对网站内容和关键词提取的准确性通常也没有目录高。
限于人力,目录能收录的通常只是网站首页,而且规模十分有限,不过收录的网站通常质量比较高。像雅虎、开放目录、hao123这些大型目录,收录标准非常高。目录收录网站时存储的页面标题、说明文字都是人工编辑的,比较准确。
搜索引擎数据更新快,而目录中收录的很多网站内容十分陈旧,甚至网站可能已经不再存在了。
雅虎目录、搜狐目录等曾经是用户在网上寻找信息的主流方式,给用户的感觉与真正的搜索引擎也相差不多。这也就是目录有时候被误称为“搜索引擎的一种”的原因。但随着Google等真正意义上的搜索引擎发展起来,目录的使用迅速减少,现在已经很少有人使用网站目录寻找信息了。现在的网站目录对SEO的最大意义是建设外部链接,像雅虎、开放目录、好123等都有很高的权重,可以给被收录的网站带来一个高质量的外部链接。
搜索引擎面对的挑战
搜索引擎系统是最复杂的计算系统之一,当今主流搜索引擎服务商都是有财力、人力的大公司。即使有技术、人力、财力的保证,搜索引擎还是面临很多技术挑战。搜索引擎诞生后的十多年中,技术已经得到了长足的进步。我们今天看到的搜索结果质量与10年前相比已经好得太多了。不过这还只是一个开始,搜索引擎必然还会有更多创新,提供更多、更准确的内容。
总体来说,搜索引擎主要会面对以下几方面的挑战。
1.页面抓取需要快而全面
互联网是一个动态的内容网络,每天有无数页面被更新、创建,无数用户在网站上发布内容、沟通联系。要返回最有用的内容,搜索引擎就要抓取最新的页面。但是由于页面数量巨大,搜索引擎蜘蛛更新一次数据库中的页面要花很长时间。搜索引擎刚诞生时,这个抓取周期往往以几个月计算。这也就是Google在2003年以前每个月有一次大更新的原因所在。
现在主流搜索引擎都已经能在几天之内更新重要页面,权重高的网站上的新文件几小时甚至几分钟之内就会被收录。不过,这种快速收录和更新也只能局限于高权重网站。很多页面几个月不被重新抓取和更新,也是非常常见的。
要返回最好的结果,搜索引擎也必须抓取尽量全面的页面,这就需要解决很多技术问题。一些网站并不利于搜索引擎蜘蛛爬行和抓取,诸如网站链接结构的缺陷、大量使用Flash、JavaScript脚本,或者把内容放在用户必须登录以后才能访问的部分,都增大了搜索引擎抓取内容的难度。
2.海量数据存储
一些大型网站单是一个网站就有百万千万个页面,可以想象网上所有网站的页面加起来是一个什么数据量。搜索引擎蜘蛛抓取页面后,还必须有效存储这些数据,数据结构必须合理,具备极高的扩展性,写入及访问速度要求也很高。
除了页面数据,搜索引擎还需要存储页面之间的链接关系及大量历史数据,这样的数据量是用户无法想象的。据说Google有几十个数据中心,上百万台服务器。这样大规模的数据存储和访问必然存在很多技术挑战。
我们经常在搜索结果中看到,排名会没有明显原因地上下波动,甚至可能刷新一下页面,就看到不同的排名,有的时候网站数据也可能丢失。这些都可能与大规模数据存储的技术难题有关。
3.索引处理快速有效,具可扩展性
搜索引擎将页面数据抓取和存储后,还要进行索引处理,包括链接关系的计算、正向索引、倒排索引等。由于数据库中页面数量大,进行PR之类的迭代计算也是耗时费力的。要想及时提供相关又及时的搜索
结果,仅仅抓取没有用,还必须进行大量索引计算。由于随时都有新数据、新页面加入,因此索引处理也要具备很好的扩展性。
4.查询处理快速准确
查询是普通用户唯一能看到的搜索引擎工作步骤。用户在搜索框输入关键词,单击“搜索”按钮后,通常不到一秒钟就会看到搜索结果。表面最简单的过程,实际上涉及非常复杂的后台处理。在最后的查询阶段,最重要的难题是怎样在不到一秒钟的时间内,快速从几十万、几百万,甚至几千万包含搜索词的页面中,找到最合理、最相关的1000个页面,并且按照相关性、权威性排列。
5.判断用户意图及人工智能
应该说前4个挑战现在的搜索引擎都已经能够比较好地解决,但判断用户意图还处在初级阶段。不同用户搜索相同的关键词,很可能是在寻找不同的东西。比如搜索“苹果”,用户到底是想了解苹果这个水果,还是苹果电脑?还是电影《苹果》的信息?没有上下文,没有对用户个人搜索习惯的了解,就完全无从判断。
搜索引擎目前正在致力于基于用户搜索习惯及历史数据的了解上,判断搜索意图,返回更相关的结果。今后搜索引擎是否能达到人工智能水平,真正了解用户搜索词的意义和目的,让我们拭目以待。
搜索结果显示格式
让我们先稍微深入地了解一下搜索结果的展现形式。
搜索结果页面
用户在搜索引擎搜索框中输入关键词,单击“搜索”按钮后,搜索引擎在很短时间内返回一个搜索结果页面。如下图所示是Google的搜索结果页面,也是比较典型的搜索结果页面排版格式。
页面主体有两部分最主要,一是广告,二是自然搜索结果。页面右侧8个结果及左侧最上面的一个结果,都标注为“赞助商链接”,这就是广告。绝大部分网民都比较清楚右侧显示的是广告,所以右侧赞助商链接没有加特殊底色。页面左侧上部的广告链接使用浅黄色底色,可以和下面的自然搜索结果清楚地分开。右侧广告最多有8个,上部广告可以多至3个。
搜索广告在网络营销行业经常称为PPC,由广告商针对关键词进行竞价,广告显示广告商无须付费,只有搜索用户点击广告后,广告商才按竞价价格支付广告费用。PPC是搜索营销的另一个主要内容。
搜索结果页面左侧广告下面,占据页面最大部分的就是自然搜索结果。通常每个页面会列出10个自然搜索结果。用户可以在账户设置中选择每页显示100个搜索结果。每个搜索结果的格式后面再做介绍。
页面最左上角是垂直搜索链接,用户点击后可以直接访问图片、视频、地图等搜索结果。
搜索框右下方显示满足搜索关键词的结果总数,19600000条结果。这个搜索结果数是研究竞争程度的依据之一。
自然搜索结果下面显示相关搜索。搜索引擎根据用户搜索数据,列出相关的其他搜索词。
页面最下面又是一个赞助商广告,与页面顶部的广告相同。页面左侧顶部及左侧底部的广告,并不是每次搜索有广告商竞价时都会出现,只有点击率和质量分数达到一定水平的广告才会出现在左侧顶部或底部。
SEOer最关注的是占据页面主体的自然搜索结果。统计数据显示,自然搜索结果总点击访问数要远远大于广告点击数。但是企业花费在SEO上的费用却远远低于花费在搜索广告上的费用。这既是SEO的尴尬,也是最大的机会。掌握了SEO流量,才能掌握最大搜索流量。我们再来看百度搜索结果页面,如图所示。
百度搜索结果页面与Google大致相同,区别在于广告部分的显示方法。右侧也是最多8个广告,不过并没有标注为赞助商链接或加其他提示文字。左侧最上面标注为“推广链接”的结果也是广告,这是百度启用凤巢系统后显示的广告。不过这几个广告只加了非常浅的灰色背景,不注意看几乎无法与下面的自然搜索结果区分开来。
有的关键词搜索没有触发凤巢系统广告,还会继续显示传统百度广告。
传统百度左侧广告既没有明确标注为推广链接,也没有使用任何背景颜色,与下面的自然搜索结果更不容易分辨。唯一能分辨出上面3个是广告的,是结果列表最后一行最右侧标有“推广”两个字。百度广告结果在背景颜色、文字标注上,都比较难以与自然结果区分。SEO人员当然很清楚这两者之间的区别,普通网民却难以察觉,尤其是百度传统左侧广告。这也是百度搜索结果常为人诟病的原因之一。
经典搜索结果列表
我们再来看看每一个搜索结果页面的展现格式。下图百度的搜索结果列表,主要分三部分
第一行是页面标题,通常取自页面HTML代码中的标题标签(Title Tag)。这是结果列表中最醒目的部分,用户点击标题就可以访问对应的网页。可见页面标题标签的写法,无论对排名还是对点击率都有重要意义。
第二行、第三行是页面说明。页面说明有的时候取自页面HTML中的说明标签(Description Tag),有的时候从页面可见文字中动态抓取相关内容。显示什么页面说明文字是用户查询时才决定的。
某些与日期有明确联系的页面,Google会在说明文字最前面显示日期,省略号后再显示页面说明。如博客帖子这类有明确发布日期的页面
第四行显示三个信息。最左侧是网址,用户可以看到页面来自哪个网站,以及目录、文件名信息。
中间是百度数据库中页面最后更新的日期。
然后是百度快照链接(已经下线),用户可以点击快照,查看存储在百度数据库中的页面内容。当页面被删除或者有其他技术问题导致不能打开网站时,用户至少还可以从快照中查看想要的内容。
用户所搜索的关键词在标题及说明部分都用红色高亮显示。用户可以非常快速地看到页面与自己搜索的关键词相关性如何。
Google结果列表与百度大致相同,几处小的区别如下:
搜索关键词在URL中出现时加粗显示,如SEO三个字母。
整合搜索结果
在前面的Google搜索结果页面抓图中,大家就能看到两个整合搜索结果:中间的资讯结果和页面底部的博客搜索结果。根据搜索关键词的不同,Google还经常把其他垂直搜索结果混合在正常网页搜索结果中,比如图片结果、视频结果。
百度也有类似的整合搜索结果。
缩进列表
缩进列表(Indented Listing)是指当搜索结果页面上应该出现两个来自同一网站的页面时,比如第一位和第八位,按照正常排名算法是来自同一网站的两个页面,Google不是把它们排在第一和第八位,而是把两个结果连在一起排在第一和第二位,第二位的结果向右侧缩进三个字的空间,这样的列表格式非常有助于提高点击率。
全站链接
对某些权重比较高的网站,当用户搜索一个关键词,这个网站的结果是最权威的内容来源时,Google除了正常结果列表外,还会显示最多四行、两列共8个内页链接,称为全站链接(Sitelinks)
迷你全站链接
权重高的网站在某些情况下还会显示迷你全站链接(Mini Sitelinks),不是4行8个,而是1行4个链接。显示的内页与上面说的全站链接是一样的,取其中前面4个。
One-box
某些关键词会触发Google One-box结果,直接在搜索结果页面上显示相关信息,用户不用点击到其他网站上查看。如搜索“北京银行”时显示的股价One-box。
富摘要
某些使用RDFa或Microdata格式标签的页面,Google可能还会在标题下面以灰色文字加一行富摘要(Rich Snippet),如图所示还显示了rating reviews数,等
这样的排版格式无疑也会提高关注度和点击率。在富摘要中显示合适的信息,有助于说服用户点击结果,比如显示产品价格、用户评分、用户评论数目等。
百度也有类似显示方式。
面包屑导航
Google最近又在结果列表中大规模使用面包屑导航。原本显示一个网址的地方,改为面包屑导航格式,其中的每一个分类链接都指向网站上相应的分类页面。
用户不仅可以点击标题访问产品页面,还可以直接从搜索列表的面包屑导航中点击上级分类链接访问分类页面。
说明文字中的链接
对一部分使用了页面内锚链接的页面,Google有时也尝试在说明文字中显示链接,用户可以跳到页内锚链接部分
这种显示方式目前还比较少见。
上面介绍的一些搜索列表变化形式有逐渐增多的趋势,不过它们的基本形式与经典搜索结果列表相差不大,最经典的结果列表还是最常见的。