1、密级: 学号: 本科生毕业设计(论文)网络营销中的搜索引擎优化研究学 院: 信息工程学院 专 业: 计算机网络技术 班 级: 学生姓名: 指导老师: 完成日期: 学士学位论文原创性申明本人郑重申明:所呈交的设计(论文)是本人在指导老师的指导下独立进行研究,所取得的研究成果。除了文中特别加以标注引用的内容外,本设计(论文)不包3含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究作出重要贡献的个人和集体,均已在文中以明确方式表明。本人完全意识到本申明的法律后果由本人承担。学位论文作者签名(手写): 签字日期: 年 月 日 学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论
2、文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权江西科技学院可以将本论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于保 密 , 在 年解密后适用本授权书。不保密 。(请在以上相应方框内打“” )学位论文作者签名(手写): 指导老师签名(手写): 签字日期: 年 月 日 签字日期: 年 月 日word文档 可自由复制编辑摘要随着互联网的普及,基础网络的发展,网络营销变得更加有效,对企业来说,企业网站的网络营销工作就变得越来越重要。为了能够让消费者在众多信息中第一时间搜索到自己企业
3、的网站,必须做好两方面的工作,一个是网络广告,一个是搜索引擎优化,通过后者同样可以达到推广的目的,使得搜索引擎收录自己的网站,并且在关键字排名中取得好的排名。本文中,作者研究了大量的网络营销案例,并且参考了很多搜索引擎优化方面的文献,对网络营销和搜索引擎进行了介绍,特别网络营销中的搜索引擎优化,从网站自身、空间、域名、链接、关键词、网页静态化六个方面对搜索引擎优化做了全面的阐述和分析,通过这些方法可以有效的提高网站在搜索结果中的排名,取得良好的优化结果,达到优秀的网络营销效果。关键字:网络营销;搜索引擎优化;网站优化;SEOAbstractWith the development of net
4、work, the Internet becomes more popularity and online marketing becomes more effective. The network markting business becomes more important. In order to allow consumers to search a lot of information about their onw business, the companies must be prepared to work in two aears, one is online advert
5、ising, one is search engine optimization. The latter can also help companies achieve the purpose of promoting. Besides, they can get a good ranking in keyword ranking.In this paper, the author studied a large number of case about online markting and read a lot of papers in the field of search engine
6、 optimization. The article introduce online markting and search engine optimization. Especially in the field of search engine optimization, the author introduce six aspects, including the site itself, space, domain names, links, keywords, site static. Through these methods, enterprises can achieve g
7、ood rankings and good results in the online markting.Key Words: Online marketing; Search engine optimization; Website Optimization; SEO目录第1章 引言11.1 研究背景11.2 研究内容和意义31.3 国内外发展现状41.3.1 国内外网络营销的发展现状41.3.2 国内外搜索引擎优化的发展现状61.4 本文的主要工作6第2章 网络营销82.1 网络营销的发展历史82.2 网络营销的基本特点92.3 网络营销的基本手段102.4 网络营销对企业发展的重要性11
8、2.5 网络营销的发展趋势12第3章 搜索引擎133.1 搜索引擎的发展历史133.2 搜索引擎的分类143.3 搜索引擎的工作原理153.4 搜索引擎的技术分析163.5 搜索引擎的性能指标173.6 网络营销与搜索引擎优化173.6.1 网络营销与搜索引擎优化的关系173.6.2 搜索引擎优化在网络营销中的重要性18第4章 搜索引擎优化204.1 搜索引擎优化概述204.1.1 搜索引擎优化原理204.1.2搜索引擎优化的一般思想214.2 搜索引擎优化的内容224.2.1 网站自身的优化224.2.2 空间优化224.2.3 域名优化224.2.4 链接优化234.2.5 关键词优化23
9、4.2.6 网页静态化优化244.3 网络营销中搜索引擎优化评价指标254.4 SEO案例264.4.1 客户背景与目标264.4.2 网站存在的问题及优化264.4.3 SEO效果26第5章 总结与展望28参考文献29致谢30word文档 可自由复制编辑第1章 引言1.1 研究背景随着互联网技术的飞速发展,整个世界经济都在朝着全球一体化的趋势发展,企业也在朝着数字化、商业化发展,面对这种快速发展的趋势,企业要想立于不败之地,必须做好营销工作,以客户需求为主导,积极响应市场变化。经济的快速发展、网络的快速普及使得营销有了新的内容,也就是网络营销。网络营销在当今企业的发展中至关重要,特别是刚起步
10、的中小型企业,通过网络营销可以快速的推广企业,可以让客户快速的了解该企业,这对企业早起的发展创造了有利条件。据统计,美国绝大多数中小型以上的企业都可以上网,并且把网络营销作为企业宣传和竞争的有力武器。相比来说,国内经济发展滞后,区域经济发展很不平衡,互联网技术的普及也刚好初具规模,这正好是网络营销发展的最佳时期, 在掌握先机方面显得尤为重要。根据中国互联网络信息中心(CNNIC)最新数据显示,截止2013年6月30日,我国网民数量达到5.91亿,手机网民数量达到4.64亿,网站数量达到294万,国际出口带宽更是达到2098150Mbps,IPv4地址拥有3.31亿,域名数达到1470万,和12
11、年同期相比,有大幅度的提升,具体数量如图1.1所示。其中各项数据的提升均显示了我国互联网的快速发展的现状,这也再次表明网络营销的发展空间是非常巨大的。图1.1 截止2013年6月30日我国网络发展基本信息随着互联网信息的指数增长,网民在海量信息中寻找需要信息将是上网的主要需求,搜索引擎也成为互联网不可或缺的工具,因此像百度、谷歌、雅虎等搜索引擎在用户生活中的地位越来越重要。目前搜索引擎在我国网民中的普及率已经非常高,和网络音乐、网络影视、即时通信、网络新闻一并成为五大网络应用。早在09年,根据中国互联网络信息中心(CNNIC)发布的2009年中国搜索引擎用户行为研究报告,中国搜索引擎用户已达到
12、2.35亿人,半年增长率达到15.6%。搜索引擎在全国网民中的使用率为69.4%,比2008年底增长了1.4个百分点。随着中国互联网的快速发展,网民对搜索引擎认知度有了一定的提升,在接受度方面也进一步提高,使用搜索引擎的网民人数也将保持快速增长势头。图1.2显示了2007年到2009年搜索引擎用户规模和使用率的变化情况。图1.3来自于CNNIC发布的第32次中国互联网络发展状况统计报告,其中数据显示了从2012年12月-2013年6月 搜索引擎网民数及使用率情况,从图中可以看出截至2013年6月底,我国搜索引擎网民规模达到4.70亿,和2012年底比较增长了1928万人,半年增长率为4.3%,
13、网民使用率为79.6%,与2012年底基本持平。而且,随着移动互联网的发展,网民的一些搜索行为已经从电脑端转向了移动端,移动搜索为企业带来了新的增长点。各大搜索引擎厂商也把目标指向了移动搜索领域,加大研发投入,加强市场营销,争取在移动领域取得先机。图1.2 2007年-2009年搜索引擎用户规模和使用率变化图图1.3 2012.12-2013.6中国搜索引擎网民数及使用率根据中国互联网络信息中心(CNNIC)在2011年发布的2011年中国搜索引擎市场研究报告,用户通过搜索引擎检索的前三大类内容分别是:新闻、视频和音乐,用户比例分别47.7%、45.2%、41.6%。大部分综合搜索引擎厂商都已
14、经提供了这三种内容的垂直搜索功能。小说等文学作品的用户搜索率为23.7%,用户量也已经达到9400万,这表明对于文学网站来说搜索引擎仍旧是重要流量导入口。由此可见。互联网的高速发展将会进一步刺激搜索引擎的大规模发展,从谷歌千亿美元的市值这点足以看出当今搜索市场之巨大。搜索引擎的快速发展也将会加速器衍生行业的发展,搜索引擎营销就是其中之一。搜索引擎营销主要以搜索服务网站为主要平台,以链接技术作为纽带,关键字广告作为基本手段,通过索引网络内容,成为了企业营销的新宠。因此,我们有理由相信,无论是从整个行业的角度还是宏观角度,搜索引擎营销都将成为依靠互联网来发展的广大企业的良好商机。从使用搜索引擎的经
15、验和资料可知,当用户使用特定的关键字进行搜索的时候,搜索引擎就会按照一定的排序算法对检索到的内容进行排序,并且以网页的形式显示出来,不同搜索引擎在排名算法方面是不相同的,目的都是返回最符合用户搜索内容的结果。而搜索引擎优化就是指通过研究搜索引擎的排名算法,了解其原理和基本特点,有针对性的做一些工作,以帮助企业在营销业绩方面取得新的成绩。基于这个技术,许多企业网站都获得了满意的推广效果,在企业推广和业务、产品宣传方面做出了新的贡献。由于国外互联网技术发展比较早,所以国外在搜索引擎优化这方面也走在了前列,而国内的刚刚起步,这也刚好借助于国外的成功经验。搜索引擎优化的基本原理是,使得企业网站各项指标
16、适合搜索引擎搜索要求,从让搜索引擎收录更多的网页,并且使得自己的网站在搜索结果列表中处于靠前的位置,达到最终的推广效果。搜索引擎优化最主要的是了解和分析搜索引擎抓取网页的原理、排名算法,然后有针对性的对网页内容优化,从而符合搜索引擎的搜索习惯,保证用户体验的前提下提高搜索排名,从而达到推广的目的。上面提到的有针对性的优化是指让搜索引擎更容易的检索网站。当然也有不少企业,为了提高访问量,不择手段,以损害用户利益手段来迎合搜索引擎,这对于一个企业的长期发展是有害的,应坚决抵制。1.2 研究内容和意义互联网的迅速发展和IT技术的不断普及,网络已经成为日常生活中重要的工具和媒介,进入二十世纪九十年代以
17、来,作为一只新的市场营销方式的网络营销广受关注。截至2013年6月底,我国网民数量达到5.91亿,和2012年底相比增加2656万人。互联网的普及率增长到44.1%,和2012年底相比提升2%。在新增名单中,手机上网的比例高达70.0%,远高于通过其他方式上网的比例。图1.4显示了网民数量和互联网普及率的变化图。加上近年来移动互联网的发展,人们上网的地点从电脑前移动到了任何地方,人们对信息获取的需求也更灵活,对响应时间的要求也越来越高,这些都为搜索引擎提出了新的挑战,也为搜索引擎的快速发展奠定了良好的基础。图1.4 2013年网民数量和互联网普及率变化图搜索引擎优化(Search Engine
18、 Optimization,SEO)是一种改善、提高搜索引擎结果列表中目标网站排名的方式,主要利用当前搜索引擎的匹配规则。很多网站希望通过提高排名来提高影响力,这主要是因为用户通常只会留意搜索结果中的前几个。搜索引擎优化本身涉及的因素很多,而且具有时效性,因此,要想在网站推广方面有所建树,SEO将成为重要的任务。随着当前搜索引擎技术的不断发展和搜索排名算法的不断改善,任何一次算法和设计上的改变都可能让某些网站瞬间没落,从而失去原来客观的访问量。因此,搜索引擎优化已经发展为一个越来越复杂的工作。1.3 国内外发展现状1.3.1 国内外网络营销的发展现状 美国作为网络营销的发源地,其最早的形式就是
19、网络广告,网络广告是指通过互联网这个载体,通过图片、文字等多媒体形式来发布能带来利润的内容,是在网络上通过一定的平台发布的有偿信息。当时,网络广告在逛逛市场所占的份额很少,但是随着网络的快速发展,网络广告在互联网比较发达的国家和地区的比重不断上升,特别是在美国、欧洲等地,这从谷歌千亿市值就可以看出来广告市场的巨大。在网络广告发展7年之后的07年,国内外开始寻找更好的广告模式,比如来点付费广告。后来,各个搜素引擎厂家又开始了搜索广告业务,这是到目前为止最赚钱的广告业务。作为世界上最大的发展中国家,中国在网络营销在经历前两个阶段之后,也获得了大的发展,截至2013年6月底,我国网民数量达到5.91
20、亿,网络购物用户年增长在50%左右,这预示着人们有更多的经济活动涉及到互联网。从CNNIC发布的第32次中国互联网络发展状况统计报告中的数据显示,截止到2013年6月底,我国网络购物人数已经达到2.71亿人,网络购物的使用比例已经提升到45.9%。具体数据如图1.5所示。图1.5 2012.12 -2013.6中国网络购物网民数及网民使用率 截止到2013年6月底,我国团购网民数达到1.01亿,使用率达到17.1%,与2012年底相比,提升2.3个百分点数据如图1.6所示。团购发展飞速的一个深层次原因便是网络营销的推广力度,以及搜索的方便程度。从这些数据都可以看出当年网络营销的市场巨大,而且对
21、企业发展至关重要。图1.6 2012.12 -2013.6中国团购网民数及网民使用率1.3.2 国内外搜索引擎优化的发展现状 搜索引擎优化方面的研究起源在美国,从1993年开始产生搜索引擎优化和提出SEO的概念,但是在中国,SEO起步相对较晚,知道2003年才算是真真接触到SEO的研究,这也和中国互联网发展时间相匹配。在中国,早起的SEO主要是搜索引擎的注册。虽然经过了多年的发展,但是目前一些企业还是缺少网络营销中的SEO意识,目前情况下在国内做SEO研究的企业也不多,但是面对发展的需求,越来越多的企业开始关注和研究SEO技术,从而使得整个市场变得很混乱,也不免出现一些欺诈行为,同时,随着互联
22、网信息指数增长,门户网站的地位和影响力逐渐淡去,与此相反,用户对搜索引擎的以来越来越强。在国内外搜索引擎中,全球来说谷歌独领风骚,在国内,百度远远领先,但是其后的360搜索等紧跟其后,整个市场还有进一步的分化,这对研究SEO来说也是一种不小的挑战。1.4 本文的主要工作本文主要是针对网络营销中的搜索引擎优化技术进行研究,希望能在SEO技术方面得到更完善的成果。主要是以理论研究和数据分析为主。全文的主要工作如下:一、讲述本课题的研究背景和意义,概述了网络营销和搜索引擎优化技术在国内外的发展情况,为课题的研究奠定基础。二、对网络营销做了介绍,包括发展历史、网络营销的基本手段、网络营销对企业发展的重
23、要性、网络营销的发展趋势等内容,为后面介绍搜索引擎优化提供参考。三、对搜索引擎进行了研究,包括其发展历史、分类、技术原理和性能指标,还分析了网络营销和搜索引擎优化的关系以及搜索引擎优化在网络营销中的重要性。四、对搜索引擎优化进行了分析研究,包括搜索引擎优化基本介绍,搜索引擎优化的主要内容,优化结果的评价等等,是本文的重点核心,旨在为企业网络营销在搜索引擎优化方面提供全面的指导。五、总结本文,并且对工作做一定的展望。第2章 网络营销2.1 网络营销的发展历史二十世纪九十年代,Internet的快速发展在全球掀起了互联网应用的热浪,世界上各大公司都积极的利用互联网开展业务和服务,并且按照互联网的特
24、点积极完善企业结构,探索新的营销策略和管理方法,至此,网络营销便诞生了。网络营销的英文是On-lineMarketing或Cybermarketing,其全称是网络直复营销,是直复营销的一种,是现代信息通信技术、计算机网络技术和企业营销实践相结合的产物,主要以信息技术作为基础,将计算机网络作为媒介和手段进行的各种销售推广活动的总称。相对于传统的市场营销,网络营销有更明显的优势,对营销观念来说是一场革命。网络营销的出现给企业带来了新的技术和手段,使企业更好的适应全球信息社会变革,使企业走向新世纪的营销。网络营销有狭义和广义之分,狭义上是指企业利用计算机网络进行的一切营销活动,而狭义上是指国际互联
25、网络营销,也就是指当今的互联网。云服务提供商Akamai Technologies, Inc.(NASDAQ:AKAM)发布了“2013年第二季互联网发展状况报告”,报告中显示截止2013年第二季度,互联网已覆盖全球242个国家或者地区,有超过7.52亿的IPv4地址接到Akamai Intelligent Platform,取得了2%的增长,比2012年第二季度增长了13%。全球独立IP地址连接至AkamaiIntelligent Platform的数目在此季度增长了接近1,900万。其中的连接有超过一半的连接的速度都在4Mbps以上。上述数据可以看出互联网不仅在覆盖率上基本覆盖全球,而且在
26、速度上指数增长,因此越来越多的企业认识到互联网在企业发展中的作用。目前,在美国超过40% 的企业使用互联网来开展业务;特别是北美、西欧、和日本,从1995年以来加入互联网的企业都在以每月翻一倍的速度增长;美国财富杂志统计显示,全球500强里面几乎每家都在网上开展业务进行营销。根据美国国际数据公司和国际电信联盟统计,全球互联网上 的总交易额从1996年的30亿已经增长到了2000年的2230亿美元,在2010年更是占到了全球贸易总额的42%。因此,网络隐藏市场无限,商机无限,网络营销会成为新世纪企业营销的主流。在我国,互联网起步较晚,因此,网络营销的发展也比较晚,总体来说,主要有三个阶段,分别是
27、传奇阶段、萌芽阶段和发展应用阶段。1997年之前,我国网络营销处于传奇阶段,当时国内对网络营销没有明确的概念和方法,鲜有企业将网络营销作为主要的手段。后来,随着亚马逊、雅虎等企业的诞生和发展,促进了网络营销的发展,但是这个阶段我国的网络营销和实际应用还有很大差距。1997年到2000年期间,是我国网络营销发展的萌芽阶段,这时逐渐出现了电子商务网站、网络广告、电子邮箱等各种营销方式。2001年以后,一直到今天,我国的网络营销开始了新阶段,也就是发展应用阶段,网络营销已经不是一个空头概念,而是在企业中得到了应用,并且取得了不错的绩效。随着逐步建立的网络营销市场,网站建设成了企业营销的重要基础,网上
28、销售也日益完善,网络广告和搜索引擎方面都得到了不断发展。根据iResearch 的调研数据显示我国网络营销产业发展速度,整个产业规模如图2.1所示。总体来说。到目前为止已经取得了很大的进步,绪论部分介绍了当前的现状。图2.1 2001-2010年中国网络营销产业规模2.2 网络营销的基本特点随着互网络的发展,上网成本的相对低廉,互联网企业、组织和个人跨时空的结合在一起,这也是市场营销中最主要的内容,即将企业组织与个人之见进行信息交换和传播,网络营销总的来说有以下特点:第一、公平性。在网络营销中,每个企业在开始时都站在同一起跑线,这里主要是指每个公司使用的都是相同的互联网竞争平台,都拥有平等的机
29、会,并不包括企业本身的财力物力。第二、虚拟性。互联网的发展使传统的一些空间概念产生了变化,产生了一些不同于实际的物理空间的虚拟社会和虚拟空间。第三、对称性。由于互联网技术发展,信息的非对称性越来越小,消费者可以很容易的从网上获取自己想要的知识,企业也可以获取消费者的一些信息。第四、模糊性和复杂性。互联网使人们生活中的边界开始变得模糊。最显著的就是企业边界的模糊、生产者消费者的模糊、产品和服务的模糊。而复杂性是由于网络营销本身的模糊性,这是得从事经济活动困难增加。第五、垄断性和全球性。垄断在网络营销中主要是由创造性破坏形成的,具有短期形成的特点,因此新技术的出现会不断的取代旧技术的垄断者。加之全
30、球互联网的发展,网络营销突破了地域限制,使得垄断性的变化更快。 第六、多重性。多重性主要是指,网络营销中的每一项交易都一般涉及多重买卖关系。第七、快捷性和正反馈性。这一点的主要体现是通过搜索引擎和网络新闻发布,可以快速的获取信息并且及时作出相应。这种快捷性,使得人们之间有频繁、迅速的交互活动,也导致了良好的反馈机制。2.3 网络营销的基本手段在互联网上业务和应用丰富多彩的今天,网络营销可以说有太多的方法,如图2.2中所示,方法与具体的网络应用相联系,形式丰富多彩。但是总体来说,主要的有三个基本手段。图2.2 网络营销方式第一种手段是博客、微博营销名人战略。在博客方面,有一种语不惊人死不休的效果
31、,通过一些知名人士的博客强大的访问量,可以以官方或者私人的性质对品牌做推广。当下更具魅力的就是微博了,像潘石屹这种微博大佬,上千万的粉丝,每天都在关注着他的每一句发言,他的名人效应就使得他有一定的话语权,特别是他从事的行业。所以,无论是从博客还是微博来说,通过名人和大众的交流,不管是骂名还是赞,都能博得眼球。第二种手段是论坛营销成也口碑,败也口碑。论坛是一个自由言论的场所,在里面,可以包罗万象,人们可以自由的发表各种不违法的内容,包括发泄情绪、交流信息、讨论问题等等,逛论坛已经成为网民上网生活中主要的一项内容。因此,在论坛中最具备口碑的传播性,所以,无论是好的口碑或者坏的口碑,都可以在论坛迅速
32、的传播和讨论,特别是权威性、专业性的论坛,作为营销者,必须把握好方向,做好一个口碑。第三种手段是搜索引擎营销获取流量。搜索引擎就是一个信息搜集工具,可以说是最大的web 3.0,其内容全来自于互联网。对于网民获取信息来说,搜索引擎是最佳选择,不管是从及时性还是信息的完整程度。在中国,绝大多数的网民都对搜索引擎使用比较熟悉,也就是通过搜索获取自己想要的信息,为了做网络营销,这就诞生了竞价排名和SEO技术,基于这个层面的搜索引擎营销方法就是为企业网站和信息吸引关注和流量,这也是本文研究的主要内容。2.4 网络营销对企业发展的重要性随着网络推广时代的来临,人们逐渐认识到网络营销对企业发展的重要性。网
33、络营销已经成为企业营销战略的一个重要组成部分,其目标是帮助企业经营,营造网上经营环境。目前,企业在进行网络营销的过程中遇到了不少问题与困难,花了很多人力物力,但是并未取得应有的效果。其本质原因是对网络营销的商业本质没有把握好,不能讲互联网和企业本身的市场相结合,最终使得网上业务和现实业务相脱节。从CNNIC发布的数据即可看出,当前人们在互联网上的活动越来越多,包括休闲娱乐、工作学习、生活购物、在线支付,这些都是传统业务在不断的向互联网上发展,从线下往线上移动,从Iresearch的研究数据显示(图2.3),企业网站直线上升,这一点也足以说明企业对于网络营销的重视程度。因此,对于一个企业来说,做
34、好互联网上的线上工作对企业的发展非常重要,这是整个时代发展的规律,对一些企业来说甚至关系到生死存亡。图2.3 2005-2011网民数量规模、中小企业数量规模和网站数量规模2.5 网络营销的发展趋势当前网络营销的发展已经取得了很好的成绩,并且在快速的发展,通过分析研究,本文觉得未来网络营销的趋势主要有以下四点:第一、网民数量继续增加,整体素质不断提高,为网络营销带来强大的基础和良好的环境。这一点从CNNIC每年发布的数据中可以明显的看到。第二、效果营销成为网络营销的新宠,搜索引擎发展迅速。随着网络的普及发展,广告投放者都感受到了互联网广告带来的好处,特别是搜索引擎广告,更是能有效的带来利润。第
35、三、网络营销创意将是其核心竞争力。根据艾瑞咨询集团的研究,工作人员发现网民的媒体选择具有多样,行为轨迹比较复杂,为了更好的传播信息给用户,企业的品牌营销方面必须注重多元化;另外,网络营销的在创意方面也应做到醒目、引人入胜、容易记忆,创意通常是网民查看广告的原动力。第四、多媒体整合营销是未来网络营销发展的趋势。从艾瑞长期数据来看,网民的选择不断多元化,对多媒体需求不断增加,因此整合营销是网络营销发展的必然趋势。而且媒体多样化发展,让营销变得更加复杂,为了达到广泛的营销目的必须进行整合。第3章 搜索引擎3.1 搜索引擎的发展历史在互联网发展的初期,网站很少,查找信息相对容易,但是随着互联网爆炸式的
36、发展,对于一般用户来说,在网上寻找资料犹如大海捞针,在这种情况下,便诞生了专业搜索网站来满足大众需求。人们常说的搜索引擎,是指现代意义上的搜索引擎,主要是指Archie,它是由1990年蒙特利尔大学的学生Alan Emtage发明的。当时还未出现万维网,但是文件在网络的传输已经很普遍,而且这些文件一般都是分散的存储在不同的FTP主机上,给信息查询带来不便 ,于是Alan Emtage便开发了一个查询系统,叫做Archie,以文件名来检索文件。Archie系统在工作原理方面和现在的非常接近,也是依靠脚本代码在网上检索文件,然后建立相应的索引,提供给使用者查询。受Archie的启发,位于美国内华达
37、的System Computing Services大学在1993年开发了类似的工具,但是增加了网页检索的功能。当时,在编程者中间流传着“机器人”一词,主要是指某个程序,能够以人们无法达到的速度自动的连续执行某个任务。信息检索系统正是类似的“机器人”,它像蜘蛛一样在网络上爬来爬去,于是人们搜索引擎程序就被人们称为蜘蛛爬虫程序。世界上第一个用来监测互联网规模的程序是World wide Web Wanderer,它由Matthew Gray开发,初期只是用来检索互联网上的服务器数量,后来可以检索域名。和Wanderer对应的是ALIWEB程序,它于1993年10月被Martin Koster创建
38、,是Archie的HTTP版本。但是ALIWEB并不主动搜索信息,而是由网站自己提交信息,类似于雅虎。随着网络规模指数级的增长,检索信息变得越来越难,因此,一些编程者将Matthew Gray的Wanderer进行改进,他们认为网页上都会有指向其他网站的链接,那么就可以从一个网站开始遍历到所有的网站。基于这个原理,1993年底已经产生了不少搜索引擎,有名的有The World Wide Web Worm、JumpStation和Repository-Based Software Engineering (RBSE) spider。但是WWW Worm和JumpStation知识把检索到的信息按
39、先后次序展现出来,毫无信息关联度,RBSE在这方面有所不同,加入了关键字关联度的概念。现在意义上最早的搜索引擎出现在1994年7月,Michael Mauldin将John Leavitt的蜘蛛程序加入到搜索程序中,创建了Lycos。同年4月,斯坦福大学的两个博士生,也就是美籍华人杨致远(Gerry Yang)和David Filo共同创办了Yahoo,并成功的使用搜索引擎的概念。从此搜索引擎便走上了快速发展的时期。如今互联网上存在的搜索引擎数量多达几百家,当中数Google最风光,其数据库中的内容多达30亿网页。随着互联网规模进一步膨胀,一家独立的搜索引擎公司光靠自己已经无法适应市场的发展,
40、由此变产生了一定的分工协作,出现了专业的搜索数据库服务和搜索引擎技术提供商。比如国外的Inktomi,它只提供搜索引擎技术,搜索服务却由Overture(原GoTo)、MSN、LookSmart、HotBot等公司来提供。在国内,百度属于同时提供技术和服务,而其技术是由新浪和搜狐使用的。总体来说,搜索引擎的发展经历了以下过程,首先是出现检索FTP上边的文件的搜索引擎,其次是开始收录网址的搜索引擎,接下来是开始收录标题,发展到今天,主要是以抓取网页为主,包括互联网上的所有可见资源。3.2 搜索引擎的分类按照工作方式,搜索引擎可以分为三类,分别是全文搜索引擎、目录索引搜索引擎和元搜索引擎。(1)全
41、文搜索引擎全文搜索引擎是真正意义上的搜索引擎,最具代表性的有Google和百度,它们都是从互联网上抓取信息,主要以文字为主,然后建立相应的数据库,并根据用户的检索关键字匹配相应的结果,并且按照一定的顺序返回结果。基于分工和需求原因,在结果来源方面可以将全文搜索引擎分为两类,一类是有自己检索程序,能够自建网页数据库的,搜索结果直接从自己的数据库获取,Google和百度就属于此类;还有一种是租用别人的搜索引擎网页数据库,然后把获取的结果按自己的标准和规则排序后返回给用户。(2)目录索引搜索引擎目录索引本身并不是严格意义上的搜索引擎,因为他只是按照目录分类来连接网页而已。用户可以按照提供的分类目录找
42、到需要的信息,而不是通过关键字查询实现。在目录索引方面Yahoo最具代表性,新浪的分类目录搜索也属于此类。(3)元搜索引擎元搜索引擎(META Search Engine)的特点是接受用户查询请求,然后同时在多个搜索引擎上进行搜索,再讲结果返回给用户,比较有名的InfoSpace、Vivisimo、Dogpile都是元搜索引擎,中文方面以搜星搜索引擎为代表。在搜索结果排序中,有些公司直接根据来源排列,如Dogpile,有些则是按照自定义的规则重新排序,比如Vivisimo。除此之外,还可以按照搜索范围,把搜索引擎分为垂直搜索引擎和通用搜索引擎。垂直搜索引擎主要是面向某一行业,是专业性强的搜索引
43、擎,通常情况是抽取网页中结构化信息,并将非结构化的信息整理,其应用范围也很广泛,比如人才搜索、论文检索等。而通用搜索引擎的搜索范围遍及整个互联网,主要特点是涉及范围广、内容全面;主要是对网页信息进行格式化处理,然后在对其进行索引排序。3.3 搜索引擎的工作原理现实中的搜索引擎都是有两部分程序,一个是负责从网页中爬取数据,然后产生索引和相应的内容存入数据库,另一个是接受用户的请求,然后在网页数据中检索相应的信息并返回给用户。因此原理方面大概可以分为三个步骤:(1)抓取网络上的网页蜘蛛爬虫程序自动型互联网上收集网页,由某个网站开始,然后逐渐遍历所有的网页,上述过程不断重复进行,一般都是定期的访问网
44、页,更新数据库。(2)建立索引数据库索引分析程序会对采集回来的页面进行分析,取得网页的基本信息,包括网页编码、URL、产生时间、页面内容、大小以及相关的关键字,还有重要的一点就是网页中的连接关系。通过这些连接关系来计算网页之间的相关性,最终把计算好的信息存入数据库。(3)从所有数据库搜索信息并排序搜索的一般过程是用户提交搜索关键字,搜索程序在所有数据库中检索关键字相关的信息,然后按照相关性排名算法把结果排序之后返回给用户,一般的情况是位置越靠前,说明相关性越高。图3.1展示了搜索引擎不同部分之间的相互依赖关系。图3.1 搜索引擎不同部分之间的相互依赖关系3.4 搜索引擎的技术分析在搜索引擎中,
45、用到的关键技术基本有三个方面,分别是中文分词技术、检索技术和索引技术。(1)中文分词技术汉语使我们的母语,我们都知道,中文中字是基本单位,词由字组成,句子再有词组成,但是对于一个汉语句子,对计算机来说却没有明显的标志表示某一段是一个词语,这个和英语有很大不同。所以中文分词技术是汉语搜索引擎中关键部分,对其解决的办法属于自然语言处理的范畴,目前主要用到的数学原理是统计和隐含马尔科夫链。对于自然语言的处理,最开始的研究者以研究程序语言的方法,采用分解句子成分的方法,这种技术在发展了好多年之后就遇到了瓶颈。后来,有学者突破性的尝试统计学的方法,取得了非常好的效果,该方法不需要切分词,基本的思想是按照
46、计算每个字、几个连续字出现的概率,按照概率大小来进行分词,依靠的是大量的语料数据库信息,准确性很高。(2)索引技术索引是指为了更方便的检索信息,对文档建立的一种数据信息,在他们之间建立映射关系。在数据量非常庞大的时候,而且数据修改率很低的时候,花费构建索引的成本来提高检索速度是非常划算的,对于大多数搜索引擎来说,其数据信息变化都比较小,所以均采用所有技术来提高效率。常见的所有方式有签名文件、后缀数组和倒排,使用最多的是倒排索引。(3)检索技术检索是搜索引擎环节中的最后一环,当用户提交搜索关键字之后,搜索引擎便通过检索技术来检索结构信息。根据查找信息的方式可以把信息检索模型分为向量空间模型、偶模糊逻辑模型、布尔逻辑模型和概率检索模型。实际工作中一般是结合使用向量空间模型和布尔逻辑模型。布尔逻辑模型主要特点是实现简单、速度快,适合海量信息的场景。3.5 搜索引擎的性能指标作为搜索引擎,其目的是给用户提供高质量的搜索服务。由于不同公司对搜索引擎的实现不同,主要是指采用的技术,因此,相同的搜索,使用不同的搜索引擎往往得到不同的结果,这就需要一定的指标来评价搜索引擎的优劣,主要有三个指标:(1)查找准确率:这个主要是指用户输入某一关键字