SEO优化:搜索引擎的工作流程的三个阶段
要想在搜索引擎中有好的排名表现,网站收录是基础。另一方面,页面收录的数量级也代表了网站的整体质量。在我看来,要想收录网站,首先要了解搜索引擎的工作原理,这样才能迎合搜索规则,让网站收录达到理想状态。搜索引擎的工作原理非常复杂,下面我们就来简单说一下搜索引擎如何收集并实现网页的排名。
一、搜索引擎工作过程大致可以分为三个阶段:
1.蜘蛛爬行和抓取:
搜索引擎蜘蛛通过跟踪链接来查找和访问网页,读取网页的Html代码,并将其存储在数据库中。
2.内容预处理:
索引程序对抓取的页面数据进行文本提取、中文分词、索引、倒排索引等处理,供排名程序调用。
3.关键词内容排名:
用户输入查询词后,排名程序调用索引数据库数据,计算相关性,然后按照一定格式生成搜索结果页面。
二、蜘蛛爬行方式
1、蜘蛛通道
相信大家都知道。当蜘蛛访问任何网站时,它都会首先访问网站根目录中的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件和目录,蜘蛛会遵守协议,不会抓取被禁止的URL。
2、跟踪链接
为了在互联网上抓取尽可能多的页面,搜索引擎蜘蛛会跟踪页面上的链接,并从一个页面爬到下一个页面。最简单的爬行策略分为两种:一种是深度优先,另一种是广度优先。深度意味着蜘蛛沿着发现的链接爬行,直到前面没有其他链接,然后返回靠前页,沿着另一个链接爬行。
是指当蜘蛛在一个页面上找到多个链接时,它不会一路跟随一个链接前进,而是一次爬完页面上所有的一级链接,然后沿着二级页面上找到的链接爬到三级页面。
3、引蜘蛛
如果SEO人员想被收录到百度网站上,就要尽量吸引蜘蛛来抓取,因为蜘蛛只能抓取有价值的页面。这里有五个影响因素:网站和页面权重、页面更新程度、导入链接、与首页的距离和URL结构。
4、地址库
为了避免反复抓取和爬取网站,搜索引擎会建立一个地址数据库,记录已经找到但没有爬取的页面,以及已经爬取的页面。蜘蛛在页面上找到链接后不会立即访问,而是将网址存储在地址库中,然后统一安排爬行。
5、地址库中有几个网址来源:
(1)手动输入种子网站;
(2)蜘蛛抓取页面后,从HTML中解析出新的链接URL,并与地址库中的数据进行比较。如果地址库中没有网站,将存储在地址库中进行访问;
(3)站长通过界面提交的网址;
(4)站长通过XML网站地图和站长平台提交的网址;
(5)文件存储。搜索引擎蜘蛛捕获的数据存储在原始页面数据库中。
(6)爬行时检测复制的内容。
三、内容预处理
"预处理"也被称为"索引",因为索引的主要内容是预处理:
1、提取文字
我们存储在原始页面数据库中的是HTML代码,其中不仅包含用户可以直接在页面上看到的文本内容,还包含JS、AJAX等搜索引擎无法用于排名的其他内容。首先要做的是从HTML文件中移除这些无法解决的内容,提取出可以排序的文本内容。
2、中文分词
分词是中文搜索引擎的一个独特步骤,在存储/处理页面/用户搜索时基于词。基本上有两种方法:一种是基于字典匹配,另一种是基于统计。
3、去停止词
无论是英文还是中文,页面上有一些词出现频率很高,对内容没有影响,比如:的、啊、哈等。这些单词叫停止词。搜索引擎将删除这些停止词,使数据主题更加突出,并减少不必要的计算。
4、去噪声词
大多数页面中有一些内容对页面的主题贡献不大。比如A页的内容是一篇关于百度网站的文章,关键词是百度网站。然而,除了解释这个内容的主要内容之外,还有页眉、页脚和广告等区域一起组成了这个页面。
出现在这些部分的单词可能与页面内容本身的关键词无关。搜索引擎的排序程序在对数据进行排序时无法参考这些有噪声的内容,因此需要在预处理阶段对这些噪声进行区分和消除。消除噪音的方法是根据HTML标签将页面分成块,如页眉标签和页脚标签等。删除这些区域后,剩下的就是页面的主要内容。
5、内容去重
也就是说,重复的网页被删除,同一篇文章经常在同一网站的不同网站/不同地址重复出现。为了用户的体验,重复数据删除是必要的,搜索引擎将识别并删除页面上的重复内容。这个过程也叫内容去重,也是影响百度网站收录的点之一。
6、正向索引
简称索引。经过以上步骤(提取、分词、消噪、去重),搜索引擎最终得到能够反映页面主要内容、以词为单位的较早内容。
接下来,搜索引擎的索引程序提取关键词,并根据由分词程序划分的单词将页面转换成由关键词组成的***。同时需要记录频率、频次、格式(如标题标签、黑体、H标签、锚文本等。)和每个关键词在页面上的位置(如页面的靠前段等)。).搜索引擎的索引程序会将页面和关键词构成的词库结构存储到索引数据库中。
7、倒排索引
远期指数不能直接用于排名。假设用户搜索关键字。如果只有正向索引,排名程序需要扫描索引数据库中的所有文件,找出包含关键字的文件,然后计算相关性。
这种计算无法满足实时返回排名结果的要求。搜索引擎会提前对所有关键词进行分类,将正向索引数据库重构为反向索引,将文件到关键词的映射转换为关键词到文件的映射。在倒排索引中,关键字是主键,每个关键字对应一系列文件。例如,显示在下面靠前行右侧的文件都是包含关键字1的文件。这样,当用户搜索关键词时,排序程序在倒排索引中定位该关键词,并且可以立即找出所有关键词的文件。
四、搜索结果排名
经过前面的蜘蛛抓取页面,对数据预处理和索引程序计算得到倒排索引后,搜索引擎就准备好可以随时处理用户搜索了。用户在搜索框输入想要查询的内容后,排名程序调用索引库的数据,计算排名后将内容展示在搜索结果页中。
1、搜索词处理
搜索引擎接收到用户输入的搜索词后,需要对搜索词做一些处理,然后才进入排名过程。搜索词处理过程包括:中文分词、去停止词、指令处理。
完成上面的步骤后,搜索引擎对剩下的内容的默认处理方式是在关键词之间使用"与"逻辑。
比如用户在搜索框中输入"减肥的方法",经过分词和去停止词后,剩下的关键词为"减肥"、"方法",搜索引擎排序时默认认为,用户想要查询的内容既包含"减肥",也包含"方法"。
2、文件匹配
搜索词经过上面的处理后,搜索引擎得到的是以词为单位的关键词***。进入的下一个阶段:文件匹配阶段,就是找出含有所有关键词的文件。在索引部分提到的倒排索引使得文件匹配能够快速完成,假设用户搜索"关键词1 关键词2",排名程序只要在倒排索引中找到"关键词1"和"关键词2"这两个词,就能找到分别含有这两个词的所有页面文件。
3、初始子集的选择
找到包含所有关键词的匹配文件后,还不能对这些文件进行相关性计算,因为在实际情况中,找到的文件经常会有几十、几百万,甚至上千万个。要对这么多文件实时进行相关性计算,需要的时间还是挺长的。百度搜索引擎,最多只会返回760条结果,所以只需要计算前760个结果的相关性,就能满足要求。
由于所有匹配文件都已经具备了最基本的相关性(这些文件都包含所有查询关键词),搜索引擎会先筛选出1000个页面权重较高的一个文件,通过对权重的筛选初始化一个子集,再对这个子集中的页面进行相关性计算。
4、相关性计算
用权重选出初始子集之后,就是对子集中的页面计算关键词相关性的步骤了。计算相关性是排名过程中最重要的一步,影响相关性的主要因素包括如下几个方面:
① 关键词常用程度
经过分词后的多个关键词,对整个搜索字符串的意义贡献并不相同。越常用的词对搜索词的意义贡献越小,越不常用的词对搜索词的意义贡献越大。所以搜索引擎对搜索词串中的关键词并不是一视同仁地处理,而是根据常用程度进行加权。不常用的词加权系数高,常用词加权系数低,排名算法对不常用的词给予更多关注。
② 词频及密度
一般认为在没有关键词堆积的情况下,搜索词在页面中出现的次数多,密度越高,说明页面与搜索词越相关。当然这只是一个大致规律,实际情况未必如此,所以相关性计算还有其他因素。出现频率及密度只是因素的一部分,而且重要程度越来越低。
③ 关键词位置及形式
就像在索引部分中提到的,页面关键词出现的格式和位置都被记录在索引库中。关键词出现在比较重要的位置,如标题标签、黑体、H1等,说明页面与关键词越相关,这一部分就是页面SEO所要解决的。
④ 关键词距离
切分后的关键词完整匹配的出现,说明与搜索词最相关。比如搜索"减肥方法"时,页面上连续完整出现"减肥方法"四个字是最相关的。如果"减肥"和"方法"两个词没有连续匹配出现,出现的距离近一些,也被搜索引擎认为相关性稍微大一些。
⑤ 链接分析及页面权重
除了页面本身的因素,页面之间的链接和权重关系也影响关键词的相关性,其中最重要的是锚文字。页面有越多以搜索词为锚文字的导入链接,说明页面的相关性越强。链接分析还包括了链接源页面本身的内容主题、锚文字周围的文字等。
小结:了解这些知识对于我们做百度网站收录有重要意义,比如标题要包含用户可能搜索的需求词,正文适量体现关键词或拆分词有助于判断内容与用户搜索词的相关性。
五、SEO搜索引擎营销推广
1、定位好网站推广的目标
一个网站在发展过程中有着不一样的目标,有可能会是寻找客户,增加流量等等,所以确定好合适的推广目标有助于选择一个好的关键词。
2、搜集信息,了解市场情况
市场信息千变万化,随时随地的了解市场的情况是非常有必要的,通过了解市场的基本情况,掌握信息动态达到选取关键词的目的。
靠前利用竞价方式提高网站名次,大部分用户不会看搜索引擎后3页的内容,只有排名靠前的信息才会得到用户的关注。通过竞价的方式来获取名次是许多中小网站常用的一种方法,这种方法能够快速提高网站名次,带来人气与流量,缺点就是要花钱,如果有需要选择这种方式也是可行的。
第二优化内部,找出适合搜索引擎搜索的法制。搜索引擎进行收录有一套基本的法则,如果你的网站顺应了搜索引擎的法则名次就能够得到很大的提高,相反网站与搜索引擎法则相违背的话,名次肯定不是很理想的。
3、选取人气比较旺的搜索引擎,如百度、搜狗、360搜索等。
4、要选取最恰当的关键词,因为只有选取了相关度高的关键词,才能让查找者方便找到。
5、要确保排名靠前,信息搜索者在搜索引擎上使用关键词搜索时,会查找到无数个登记注册的企业网站,然而,查找者往往只关注排在前十或二十位的企业网站。
六、那么如何符合搜索引擎的法则呢
1、网页设计中减少图片和FLASH文件,在网页中图片和FLASH过多会影响网站内部的速度,而且搜索引擎在识别有一些图片和FLASH的时候并不能够完全识别出来,搜索引擎就会认为是废的,这样的话网站的PR值分会得到降低。
2、可以利用单页设置关键词来提高名次,关键词在搜索引擎中占了很大一部分比重,提高关键词的设置也可以达到优化网站的目的。
3、友情链接要选好、用好。友情链接用好了能够给网站带来很大的流量,这都是网站站长需要做的实在的事情。
搜索引擎推广方法总结:
搜索引擎可以说是网民的超级百科全书,想要知道任何东西,都可以通过搜搜引擎来实现。据统计,网站四分之三以上的访问量都来自搜索引擎推荐,正因搜索引擎的存在,给企业推广产品和服务提供了良好的契机。当我们做好一个网站并发布了,那我们要怎么做才能让我们的网站被搜索引擎收录呢?
TAG:搜索引擎的工作流程是什么
SEO就是搜索引擎优化:让你的网站在搜索引擎(比如百度、谷歌)的排名更靠前,当用户通过关键词搜索时更容易搜到你的网站,从而实现企业品牌曝光、主动获客和营销推广的目标。为什么要做SEO?
提高网站访问量:SEO能让你的网站在搜索引擎结果中更靠前,吸引更多客户点击。
降低市场营销成本:相比于付费广告,SEO是一种更经济有效的营销方式。
提升品牌知名度:网站排名靠前,可以让更多用户看到你的品牌名称和信息,增强品牌影响力。
SEO优化有哪些优势?
成本低廉:主要成本是优化师的工资。
效果稳定:一旦网站排名上升,效果稳定持久,可持续获得展现机会。
不受地域限制:SEO的效果可以覆盖全球,不受时间和空间的限制。
什么样的公司更适合做SEO优化呢?大多数行业都可以从SEO中受益。特别是那些希望用户主动访问我们的网站、降低营销成本、提升品牌知名度的企业。通过SEO来优化自己的网站,可吸引更多潜在客户。
SEO是一种工人的有效的网络营销手段,可以帮助企业提升关键词排名,吸引更多用户,实现商业目标。SEO是一个长期且专业的技术,企业在进行SEO时,必须耐心优化,因为SEO涉及到的不止是网站结构、内容质量、用户体验、外部链接这几个方面;还有算法的更替、蜘蛛的引导、快照的更新、参与排序的权重等。
SEO策略
搜到你
让用户搜到你的网站是做SEO优化的目标,拥有精湛的SEO技术、丰富的经验技巧以及对SEO规则的深刻把握才有机会获得更好排名!
了解你
确保网站内容清晰、准确、易于理解,使用户能够轻松找到所需信息.使用简洁明了的标题和描述,帮助用户快速了解你的产品服务!
信任你
将企业的核心价值、差异化卖点、吸引眼球的宣传语等品牌词尽可能多的占位搜索前几页,增强用户印象,优化用户体验让访客信任你!
选择你
优化落地页引导用户咨询或预约留言,引用大型案例或权威报道彰显品牌实力,关注用户需求和反馈,不断优化产品服务让用户选择你!
关键词研究
品牌关键词
提升品牌知名度、塑造品牌形象,吸引对品牌感兴趣的用户,同时帮助监测品牌在搜索引擎中的表现。
核心关键词
是网站内容的主要焦点,能吸引大量目标受众,提高网站在相关搜索中的排名。搜索量大,竞争较激烈。
长尾关键词
更能够更精确地定位目标受众,提高转化率,竞争相对较小更容易获得排名,更符合用户的具体搜索意图。
区域关键词
针对特定地区进行优化,帮助本地企业吸引当地用户,提高本地市场的曝光度。适用于有地域性需求的企业。
竞品关键词
与竞争对手品牌或产品相关的词,通过分析这些关键词,可以了解竞争对手的优势和劣势。
产品关键词
直接针对产品进行优化,与具体产品或服务直接相关,如产品名称、型号、功能等描述性词汇。
搜索下拉词
反映用户的搜索习惯和需求,是搜索引擎根据用户输入自动推荐的词汇,与用户搜索意图高度相关。
相关搜索词
提供与主题相关的其他搜索词汇,帮助用户发现更多相关内容,同时扩展网站的优化范围。
站内SEO
TDK优化
力争一次性完成网站页面标题、描述、关键词的的合理部署
链接优化
包含LOGO链接、导航链接、文章链接及外部链接等SEO优化设置
HTML优化
HTML代码、标签等优化:H,alt,strong,title,span,title等标签
内容优化
固定内容与关键词SEO匹配、动态内容提升蜘蛛抓取率增强快照评级
站外SEO
1)降低文章内容在搜索结果的重合度。尤其是文章标题、段落主题、内容摘要等;
2)标题包含关键词(可包含部分或完整匹配)字数控制在24字内;
3)提炼的文章概要(100字内)必须与关键词有相关性才有意义;
4)新文章不要增加锚文本超链接,等文章快照有排名后再扩充锚文本链接;
5)文章内容与标题关键词相呼应,建立关联,也可根据关键词扩充有关的内容;
6)文章中的图片最好增加alt属性,图片不要失真和变形,宽度大于500px更优机会抢占搜索快照缩略图;
7)文章排版合理、段落分明、段落主题用H标签加强,段落内容用span或p标签区分;
8)发布文章后先引导收录。如提交搜索引擎登录、合理使用有排名快照的内部链接;
9)如果文章7天还没有收录,就要提升文章内容质量再发布;