摘要:这也是需要推广web标准的原因之一,按照web标准制作的网页更容易被搜索引擎检索和收录。1.1百度搜索引擎工作方式(3)你的网站所在服务器曾被搜索引擎惩罚,而不收录相同IP的内容;
目录
1. 基本概念
中文维基百科的解释:(互联网)搜索引擎是指自动从互联网上收集信息,经过一定排序后提供给用户查询的系统。
英文维基百科的解释:网络搜索引擎提供了一个在万维网上搜索信息的界面。 信息可能包括网页、图像和其他类型的文件。 (网络搜索引擎为用户提供在互联网上搜索信息内容的接口。这些信息内容包括网页、图片和其他类型的文档)
2. 分类
根据工作原理的不同,它们可以分为两个基本类别:全文搜索引擎(FullTextSearch Engine)和类别目录(Category Directory)。
分类目录由人工收集整理,形成网站信息数据库,如雅虎中国和国内搜狐、新浪、网易分类目录等。 另外,互联网上的一些导航网站也可以归为原来的类别,例如“网站首页”()。
全文搜索引擎自动分析网页上的超链接,依靠超链接和HTML代码分析来获取网页信息内容,并按照预先设计的规则进行分析和组织,形成索引供用户查询。
两者的区别可以用一句话来概括:分类用于手动索引网站,而全文搜索用于自动索引网页。 (有些人经常将搜索引擎与数据库检索进行比较,这实际上是错误的)。
3. 全文搜索的工作原理
全文搜索引擎一般由信息收集、索引和搜索三部分组成。 具体来说,它们可以由五个部分组成:搜索器、分析器、索引器、检索器和用户界面。
(1)信息收集(Webcrawling):信息收集的工作由搜索者和分析者完成。 搜索引擎使用称为网络爬虫、网络蜘蛛或网络机器人的自动搜索机器人程序。 查询网页上的超链接。
进一步解释一下:“机器人”实际上是一些基于Web的程序,它们通过请求网站上的HTML网页来收集HTML网页。 它们在指定范围内遍历整个网络空间,不断地从一个网页移动到另一个网页。 ,从一个站点移动到另一个站点,并将收集到的网页添加到网页数据库中。 每次“机器人”遇到新网页时,它都必须搜索其中的所有链接。 所以理论上来说,如果为“机器人”创建一个合适的初始网页集,从这个初始网页集开始,遍历所有的链接,“机器人”就能够采集整个Web空间的网页。
网上有很多开源的爬虫程序,在一些开源社区可以找到。
要点1:核心在于HTML分析,因此严谨、结构化、可读性强、错误少的HTML代码更容易被采集机器人分析和采集。 比如一个页面有这样的结尾,在网页上显示是没有问题的,但是很有可能会被拒绝收录。 例如../../***.htm之类的超链接也可能导致蜘蛛无法识别。 这也是网络标准需要推广的原因之一。 按照网络标准制作的网页更容易被搜索引擎检索和收录。
要点2:搜索机器人有专门的搜索链接库。 当搜索相同的超链接时百度收录 csdn,它会自动比较新旧网页的内容和大小。 如果一致,则不会被收集。 因此,有人担心修改后的网页能否收录,这是不必要的。
(2)索引:搜索引擎组织信息的过程称为“索引”。 搜索引擎不仅要保存收集到的信息,还要按照一定的规则进行组织。 索引可以使用一般的大型数据库,如ORACLE、Sybase等,也可以定义自己的文件格式进行存储。 索引是搜索中比较复杂的部分,涉及到网页结构分析、分词、排序等技术。 一个好的索引可以大大提高检索速度。
关键点1:虽然现在的搜索引擎支持增量索引,但是索引创建仍然需要很长的时间,而且搜索引擎会定期更新索引。 因此,即使爬虫来了,到我们能够在页面上进行搜索的时候,也会有一定的时间间隔。
关键点2:索引是区分搜索好坏的重要标志。
(3)搜索:用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回信息。 有的系统在返回结果之前对网页的相关性进行计算和评估,并根据相关性进行排序,将相关性较大的放在前面,将相关性较小的放在后面; 有些系统在用户查询之前就已经处理了结果。 计算每个网页的PageRank(PageRank将在后面介绍)。 返回查询结果时,排名较高的网页位于前面,排名较小的网页位于后面。
关键点1:不同的搜索引擎有不同的排序规则,所以当你在不同的搜索引擎中搜索相同的关键词时,排序是不同的。
1.1 百度搜索引擎的工作原理
我对百度搜索的了解:由于工作原因,小生有幸使用了百度最佳企业搜索引擎(这个部门现在已经被裁了百度收录 csdn,主要是百度的策略开始向Google靠拢,不再单独销售搜索引擎,并转向搜索引擎服务),据百度销售人员介绍,百斯顿的搜索核心与大搜索相同,只是版本可能稍低一些,所以我有理由相信搜索的工作原理大致相同。 以下是一些简单介绍和注意事项:
1、关于网站搜索的更新频率
百度搜索可以设置网站的更新频率和时间。 一般大型网站的更新频率都很快,会设置独立的爬虫进行跟踪。 不过百度比较勤快,中小型网站一般都会每天更新。 因此,如果你想让你的网站更新得更快,最好把你的链接放在一个大的分类目录中(比如网易雅虎),或者在百度自己的相关网站中,有一个指向你网站的超链接,或者你的网站在一些大型网站,比如大型网站的博客。
2.关于采集深度
百度搜索可以定义采集深度,这意味着百度可能无法检索到您网站的所有内容。 它可能只索引您网站主页的内容,特别是对于小型网站。
3.关于经常打不开的网站的收集
百度对于网站的连接度有专门的判断。 如果发现某个网站不可用,特别是一些中小型网站,百度会自动停止向这些网站发送爬虫。 因此,选择一个好的服务器并保持网站24小时开放是非常重要的。 。
4.关于更改IP网站
百度搜索可以基于域名或IP地址。 如果是域名,会自动解析为对应的IP地址。 因此,会出现两个问题。 第一个是,如果你的网站使用了与别人相同的IP地址,如果别人的网站被屏蔽了,如果百度惩罚你,你的网站就会受到牵连。 其次,如果你改变了IP地址,百度会发现你的域名与之前的IP地址不对应,会拒绝向你的网站发送爬虫。 因此,建议不要随意更改IP地址。 如果可能,请尝试独占使用该 IP。 维护网站的稳定性很重要。
5、关于静态和动态网站的采集
很多人担心像asp?id=这样的页面很难收集,而像html这样的页面很容易收集。 事实上,情况并没有想象中的那么糟糕。 目前大多数搜索引擎都支持动态网站的收录和收录。 搜索,包括需要登录的网站都可以检索,这样您就不必担心您的动态网站搜索引擎无法识别。 百度搜索中的动态支持可以定制。 但是,如果可能,请尝试生成静态页面。 同时,对于大多数搜索引擎来说,脚本跳转(JS)、框架、
Flash超链接和含有非法字符的动态页面都束手无策。
6.关于索引消失
如前所述,需要创建搜索索引。 一般来说,对于良好的搜索,索引是文本文件,而不是数据库。 因此,删除索引中的记录并不方便。 例如,百度需要使用专门的工具来手动删除索引记录。 据百度员工透露,百度有一个专门小组专门负责这件事情——接收投诉、删除记录、人工。 当然,你也可以直接删除某个规则下的所有索引,即可以删除某个网站下的所有索引。 还有一种机制(未验证),即过期网页和作弊网页(主要是网页标题、关键词和内容不匹配)也会在索引重建过程中被删除。
7. 关于重复数据删除
百度搜索的去重不如Google。 主要是确定文章的标题和来源地址。 只要它们不同,就不会自动去重。 因此,您不必担心收集的内容相似而很快受到搜索惩罚。 谷歌的则不同。 ,同时收录的同名作品并不多。
另外,不要认为搜索引擎那么聪明。 它们基本上遵循一定的规则和公式。 如果你不想受到搜索引擎的惩罚,就避免这些规则吧。
1.2 Google搜索排名技术
对于搜索来说,谷歌比百度强的主要原因是谷歌更加公平,而百度则有很多人为因素(这也符合我国国情)。 Google之所以公平,来自于它的排名技术PageRank。
很多人都知道PageRank是网站的质量水平。 它越小,网站就越好。 事实上,PageRank 是根据一个特殊的公式计算的。 当我们在Google上搜索关键字时,页面排名较小的网页排名会较高。 这个公式不需要人工干预,所以是公平的。
PageRank最初的想法来自于纸质档案的管理。 我们知道每篇论文的末尾都有参考文献。 如果一篇文章被不同的论文多次引用,那么它就可以被认为是一篇优秀的文章。
同样的道理,简单来说,PageRank可以对网页的重要性做出客观的评价。 PageRank 不计算直接链接的数量,而是将从页面 A 到页面 B 的链接解释为从页面 A 到页面 B 的投票。这样,PageRank 根据获得的投票数来评估页面 B 的重要性。 此外,PageRank还评估每个投票页面的重要性,因为某些页面的投票被认为具有更高的价值,因此它链接到的页面可以获得更高的价值。
这里省略了Page Rank的公式。 我们来谈谈影响Page Rank的主要因素。
1、指向您网站的超链接数量(您的网站被他人引用)。 数字越大,您的网站就越重要。 通俗地说,就是其他网站是否有到你网站的友好链接或者推荐链接;
2、网站超链接的重要性,也就是说一个质量好的网站有你网站的超链接,说明你的网站也是优秀的。
3、网页特定因素:包括网页的内容、标题和URL,即网页的关键词和位置。
1.3 新网站如何响应搜索?
对以上分析进行总结如下:
1. 为什么搜索引擎不收录您的网站? 有以下几种可能(不是绝对的,根据每种情况而定)
(1) 没有孤立的网页指向链接,也没有索引网站指向您的超链接,因此搜索引擎将无法找到您;
(2)网站中的网页性质和文件类型(如flash、JS跳转、部分动态网页、框架等)无法被搜索引擎识别;
(3)您网站所在的服务器已被搜索引擎惩罚,不收录相同IP的内容;
(4)服务器的IP地址最近发生了变化,搜索引擎需要一段时间才能重新收集;
(5)服务器不稳定、频繁宕机、或无法承受爬虫采集压力;
(6)网页代码质量差,搜索无法正确分析页面内容。 请至少了解 HTML 的基本语法。 推荐使用XHTML;
(7)网站使用robots(robots.txt)协议拒绝搜索引擎抓取的网页;
(8)使用关键词作弊的网页,网页关键词与内容严重不匹配,或者部分关键词密度过高;
(9) 含有违法内容的网页;
(十)同一网站上存在大量相同标题的网页,或者网页标题没有实际含义的;
2.如何正确建设新网站(仅供参考)
(1)与优秀网站交换链接;
(2)广泛访问各大网站的网站目录列表;
(3)多去高质量的论坛发言,演讲的质量一定要高。 最好不要回复,并在发言中留下您的网站地址;
(4)申请各大网站(新浪、网易、CSDN)博客,并在博客中推广自己的网站;
(5)使用好的建站程序,最好是能够生成静态页面、自动生成关键词的建站程序;
(6)注意每个网页的标题和区域,尽量将相关关键词放在这些容易被搜索和索引的位置,注意文章的开头,尽量使用摘要—— like 文章开头的功能(可以学习网易的文章风格)。
例如“基于开源jabber(XMPP)搭建内部即时通讯服务的解决方案”;
标题部分:基于开源jabber(XMPP)搭建内部即时通讯服务的解决方案 - 飞龙龙(消耗者)的专栏 - CSDNBlog
关键字部分:安装,">
文章描述:是一款知名的即时通讯服务服务器。 它是一个免费的开源软件,允许用户建立自己的即时消息服务器。 它可以应用在互联网上,也可以应用在局域网中。
XMPP(可扩展消息存在协议)是一种基于可扩展标记语言(XML)的协议,用于即时消息(IM)和在线状态探测。它促进服务器
准实时操作。 该协议最终可能允许互联网用户向互联网上的其他任何人发送即时消息,即使他们的操作系统和浏览器不同。 XMPP技术来源于
对于Jabber来说,它实际上是Jabber的核心协议,因此XMPP有时会被误称为Jabber协议。 Jabber是一款基于XMPP协议的IM应用程序。 除了 Jabber 之外,XMPP 还支持许多应用程序。
2 SEO优化要点
从业务角度来看,前端工程师SEO建议最重要的五个方面是:URL、移动友好性、性能、页面元素和内容呈现。
2.1 URL的三要素
URL是SEO工作的基础,也是一个容易被忽视的因素。 URL必须注意以下三个方面:
先说第一点,不同的内容使用不同的URL来承接。 我们的前端工程师在处理一些特殊主题的时候,经常会使用JS来呈现网页内容,而不是使用单独的URL来承担。 例如这个页面:
当用户点击某个类别时,前端工程师会用新获取的内容更新原来的页面,而不需要生成新的URL。 这会导致该频道只有一个 URL。
SEO放置的时候,其实是按照页面的纬度来放置的。 如果这个主题页面只有一个URL,即只能提供一个网页,而类别中的那些页面则因为没有生成单独的URL而无法提供服务(一般来说,放置的网页越多,产生的SEO流量就越多) )。
其次,URL的唯一性。 一般情况下,URL和网页是一一对应的。 一个网页只有一个URL,一个URL只能承载一个主题的网页。 (注:如果一个网页有多个URL,可以使用canonical来指定规范URL)。
最后,URL 应该简短且可读。 Google 将使用 URL 来确定整个网站中网页的级别,因此不要使用太长的 URL。 而且,简短易读的URL将为用户提供更好的体验,吸引用户点击(尤其是英文URL)。
注意:Google 不排除动态 URL。 例如,WordPress 的标准 URL (?p=) 是动态的。 但参数过多、参数顺序不一致的问题必须解决。
参考文档:《保持 URL 结构简单》
2.2 移动端不可忽视
有些前端朋友还是和以前一样的思维方式,认为只要制作一个好的PC网页就够了。 而且产品和老板都是用电脑浏览的,所以没有问题。 但事实上,在大多数国家和地区,移动端流量已经超过PC端流量。
据statcounter数据显示,2016年11月移动端流量已超过PC端流量。因此,移动端网页不容忽视。
Google推出了移动网页索引,以移动网页为主要页面(之前主要是PC)。
对于移动网页,Google 有三种配置方法:自适应设计、动态内容提供和单独的 URL。 另外Google还推出了AMP框架,可以缓存内容和静态文件,性能更快(国内的百度和搜狗也兼容)。
参考文档:
2.3 速度/性能直接影响SEO
有两个速度指标会对SEO产生直接影响,一是TTFB,二是网页打开时间。
TTFB直接影响爬虫的爬行。 首先,大多数爬虫仍然抓取网页的源代码,而不进行渲染; 其次,每个网站的抓取配额是有限的,爬虫更高效的访问会带来更多的收录,从而产生流量。 。
(注:爬虫技术也在发展,目前可以识别部分JS内容,但由于效率较低,这部分内容还比较少。)
网页的打开时间会影响用户的搜索体验,也是Google公开排名的因素之一。 页面打开速度越慢,用户跳出率越高,就会被视为Bad Click,从而降低排名。 以下是来自站长官方博客的一篇关于速度对排名影响的文章:
在PageSpeed之后,Google推出了Lighthouse项目来帮助网站管理员优化网页性能。 从我的实际测试来看,Lighthouse功能更强大,也更符合当前的Web技术,远远超越了之前的YSlow和PageSpeed。
参考文档:
2.4 页面元素分为三级
页面元素对SEO也有影响,根据重要性可以分为三个级别:
TDK是Title、Description、Keywords这三个标签的缩写。 Title和Description是最关键的,直接影响SEO搜索词和搜索结果显示(简称SERP)。 面包屑和结构化数据也直接影响 SERP。
H标签和ALT标签帮助搜索引擎理解网页的关键内容和图像。
参考文档:“在搜索结果中创建良好的标题和摘要”
2.5 重要内容最好同时显示
Google官方文档曾经说过:
大多数“蜘蛛”程序查看网站的方式与 Lynx 相同。 如果由于 JavaScript、cookie、会话 ID、DHTML 或 Macromedia Flash 等技术而导致整个网站在文本浏览器中不可见,则蜘蛛在爬行网站时也可能会遇到困难。
之前参加Google会议时了解到Googlebot已经可以抓取并解析简单的JS并通过CSS识别重要内容。 但从成本角度来看,解析识别 JS 和 CSS 的效率仍然较低(与仅仅抓取源代码相比)。 因此,谷歌仍然建议重要内容同步显示,而不是异步显示。
谷歌今年还推出了动态渲染技术作为临时解决方案。 下面是动态渲染技术的原型图:
参考文档:
3 网站代码优化实践 3.1 优化要点
1.标题:
标题要强调重点,重要关键词放在前面,不要重复,每个页面不要设置相同的标题;
2、关键词:
只列出几个关键词即可,不要过多;
3、网页说明:
在这里,您需要对网页内容进行高度概括。 不宜太长,并且每个页面的描述应该不同。
4、对于网页中的代码,一定要遵循语义化代码(html标签有自己特定的含义,合适的标签必须用在合适的地方,而且要让人们和搜索引擎程序都清楚)
如何实现语义化?
(1) h1~h6标签多用于标题
(2)ul标签多用于无序列表
(3)ol标签用于有序列表
(4) dl标签用于定义数据列表
(5) em,strong 表示强调
(6)span标签是HTML中语义最少的。
3.2 标签优化
1/标签:添加链接描述标题,指向其他网站的链接添加“rel=nofollow”,防止该链接被抓取。
2/Tag:网站的标题不仅要使用h还要使用它,因为它对于爬虫来说是最重要的。 如果样式太大,可以用css修改。 将其用于正文标题和副标题。 不要在其他不重要的地方滥用h标签。
3/
标签为