站长工具:http://tool.chinaz.com/

需要了解点:

1、域名解析: 47.104.92.218 山东省青岛市 阿里云

2、域名年龄:
5年12天(创建于2013年12月30日,过期时间为2021年12月30日)

3、SSL证书:https

4、预估流量:是站长工具监控的关键词,通过搜索量和排名情况,预估出来的流量。

5、关键词库:关键词排名的数量。(1-100名)

6、关键词指数:关键词的预估搜索量。

7、百度快照:百度通过爬虫抓取你网站,存储的数据展现样式。

8、HTTP状态码查询:查询某个页面返回的3位数字,来判断其网页状态。

9、友情链接检测:来判断对方的网站是否有放你的链接或其它代码不友好的操作

10、百度权重

百度权重:是站长工具推出的针对网站优化关键词排名预估给网站带来流量,划分为0-9十个等级。权重数值越大,说明网站自然流量越大,自然流量大,那么相对的关键词排名就靠前,权重、流量、关键词排名三者之间是相辅相成的。关键词数量越多,积累的权重也会越高,不过,这还要看关键词的流量,如果关键词的流量非常低,即便排名很靠前,权重也不会积累到很多,不过可以积少成多。

A)概念:

搜索引擎使用爬虫程序自动访问互联网上的网页并获取网页信息。爬虫在访问一个网站时,首先会检查该网站的根目录下是否有一个叫做robots.txt的纯文本文件,这个文件是用于指定爬虫在您网站上的抓取范围。

B)Robots文件就是一个协议

您可以在您的网站中创建一个robots.txt ,在文件中声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。

网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不可以抓取。

  1. 功能

Robots协议用来告知搜索引擎哪些页面能被抓取,哪些页面不能被抓取;可以屏蔽一些网站中比较大的文件,如:图片,音乐,视频等,节省服务器带宽;可以屏蔽站点的一些死链接。

用法举例:

  1. 禁止所有搜索引擎访问网站的任何部分

User-agent:*

Disallow: /

  • 允许所有的robot访问

User-agent:*

Allow: /

  • 仅禁止Baiduspider访问您的网站

User-agnet:Baiduspider

Disallow: /

  • 禁止spider访问特定目录

User-agent: *

Disallow:/cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

  • 使用“*”限制访问url(仅允许访问以”.html”为后缀的URL。)

User-agent:*

Disallow:/cgi-bin/*.htm

  • 禁止访问网站中所有的动态页面

User-agent: *

Disallow:/”?”

工具(百度站长平台)

百度站长平台-网站支持-数据监控-robots-检测并更新k

概念:

  1. 做搜索引擎优化的第一步就是让搜索引擎先知道你网站的存在
  2. 为了达到这个目的,向搜索引擎提交您的网站被认为是网站上线后要做的第一件事。
  3. 提交的地址就叫做搜索引擎提交入口

常用入口地址

  1. 我们做优化就是尽可能多地获取流量,而搜索引擎之间是相互独立运作的,我们想获取哪个搜索引擎的流量,就向其对应的搜索引擎入口进行提交我们的网站。
  2. 各搜索引擎提交入口地址

360网站提交入口:
http://zhanzhang.haosou.com/?m=PageInclude&a=index

百度网站提交入口:
http://zhanzhang.baidu.com/linksubmit/url

搜狗网站提交入口:
http://zhanzhang.sogou.com/index.php/urlSubmit/index 

定义:

网络爬虫(也叫网络蜘蛛),是一种自动获取网页内容的程序,爬虫抓取的网页将会被搜索引擎系统存储,进行一定的分析,过滤,并建立索引,以便之后的用户能够查询到这个页面。这个获取信息的程序就是爬虫。

爬虫与搜索引擎的关系

爬虫为搜索引擎收集内容,搜索引擎展示的内容大部分是爬虫收集的。

工作流程:

爬虫通过漫游的形式进行抓取,爬虫爬到一个页面后,看到一个链接,然后顺着那个链接又爬到另外一个页面。爬虫是不停的从一个页面跳到另一个页面的。它一边下载这个网页,一边在提取这个网页中的链接,那个页面上的所有的链接都放在一个公用的“待抓取列表”里而且爬虫有个特点,就是他在访问你网站之前,不去做判断你这个网页本身怎么样的,不对网页内容判断就抓取,但是会有优先级的划分,尽可能不抓重复的内容,尽量抓重要内容(比如网站的公共部分)。搜索引擎同时会派出多个爬虫进行多线程的抓取,所有被抓取的网页会被系统储存,进行一定的分析、过滤(去重),并建立索引后的查询和检索。

爬虫分类:

根据搜索引擎来进行分类

百度爬虫  Baiduspider

谷歌爬虫 Googlebot

Soso爬虫 sosospider

定义

我们访问任何一个页面,服务器都会生成网站的日志。在日志里面会有一个3位数字代码,这3位数字代码就记录了我们访问的动作。比如是“正常访问”“访问被拒绝”还是“无法打开该页面”等,这个3位数字代码就是http状态码。

http状态码是服务器和客户端之间交流信息的语言。

客户端包含:“用户”或“爬虫”

http常用形式

http协议状态码标识的意思分为以下几类:

2xx  请求已陈宫被服务器接收

200服务器成功处理了请求并提供了请求的网页。访问正常。

3xx  为完成请求客户需进一步细化请求(重定向)

301  请求的网页已永久移动到新位置

302请求的网页临时移动到新位置。

4xx   客户错误信息

403服务器拒绝请求

404 服务器找不到请求的网页。错误页面。

5xx  服务器错误

502 Bad Gateway:作为网关或者代理工作的服务器尝试执行请求时,从上游服务器接收到无效的响应。

504 Gateway Timeout:作为网关或者代理工作的服务器尝试执行请求时,未能及时从上游服务器(URI标识出的服务器,例如HTTP、FTP、LDAP)或者辅助服务器(例如DNS)收到响应。

查询http状态工具

http://tool.chinaz.com/pagestatus/?url=www.40tm.com

对SEO的意义

通过状态码可以查看搜索引擎爬虫在你网站的爬取情况。通过状态码可以查看我们网站出现了什么问题。比如:死链页面数量

当网页图片丢失或面路径错误的时候所显示的图片文字信息。 alt是替代图片告诉搜索引擎蜘蛛,这个图片描述的是一个什么东西

图片格式:


<img src=”图片地址” alt=”替代文本文字部分” />

对于SEO的作用:

搜索引擎无法识别图片的含义,然而会把alt属性的内容纳入到页面的文本分析中。灵活的在网页图片中插入alt属性(比如关键词),可以提高网页关键词密度。

添加方法:

网页插入图片的时候,添加替换文本

检查方法:

右击图片>点击审查元素;在代码当中会出现 <img>标签,在此标签中,查看是否包含ALT属性标签。

ALT用于如下几个地方:

  • 更好的让搜索引擎理解图片的内容,增强内容的相关性。
  • 当你的图片无法被加载的时候,ALT的文字依然会显示在页面上,最大程度的避免用户体验的降低。(用户依然知道,图片描述的是什么内容)
  • 便于自己的图片,参与Google的图片搜索。(Google 图片搜索的点击量还是非常可观的)

雷区:

大量堆砌关键词

抄袭图片,配上不相关的文字

Nofollow是一个HTML标签的属性值。这个标签的意义是告诉搜索引擎“不要追踪此网页上的链接”或不要追踪此特定链接。

Nofollow的添加方式:屏蔽整个页面中的所有链接;

在网页</head>之上添加以下代码:

<meta name =”robots” content=”nofollow”/>

  • 屏蔽特定链接;例如:

<a href=”/index.html”></a>

<a rel-”nofollow” href-”/index.html”></a>

Nofollow的作用:

是站长管理者和搜索引擎之间对待一个页面中的链接或特定链接的方式。

解读:比如A页面中有一个链接向B页面。如果我给这个链接加上nofollow这个属性,那么A页面的这个链接就不属于B页面的反向链接,并且也不会分散A页面的权重。

静态网页:服务器上真实存在的页面,不需要编译,用户就可以直接访问。页面为.html或者.htm

  • 优势:访问速度快、可以跨平台和服务器
  • 劣势:占用空间资源、页面多、难管理。

动态网页:通过执行asp,php,jsp,.net 等程序生成客户端网页代码的网页。

  • 优势:通过用户请求返回数据库页面,网站易于维护,可以实现用户注册、登录、在线调查等多种数据处理功能。
  • 劣势:页面不是真实存在,对搜索引擎不太友好。

伪静态:动态网页通过重写URL的方法实现去掉动态网页的参数

举例:动态变伪静态

http://youname.com/index.php?a=1&b=2

http://yourname/index-htm-1-2.htm

优势:

  • 首先是对搜索引擎友好,google的站长指南中有说,每个页面至少要有一个静态地址可以访问,伪静态URL可以当作URL来使,同样内容的页面,在搜索引擎来看,静态地址要比动态地址权重高,因为搜索引擎认为动态地址不稳定,
  • 动态链接容易陷入链接的死循环,而伪静态不会。

劣势:

使用伪静态将占用一定量的CPU占有率,大量使用将导致CPU超负荷,多重写一次URL

判断伪静态的方法:

https://www.cnblogs.com/webapi/p/8628472.html

 javascript:alert(document.lastModified)

我们今天可以从原理上再聊聊几个问题。这样做,一个方面既可以帮助老板正确认识SEO,及时调整企业的策略。第二个方面,也可以帮助SEO人员在一种正确的环境中扩展SEO的工作。

SEO脱离不了实际社会中的规则

SEO从早前的不理解到后来把SEO当成一种神话。SEO并不是一种神技,不存在大家现实社会中一夜暴富的虚幻。今天的SEO,早已是跟现实运行的社会规则一样一样。要想网站推起来,要么就是得勤劳运营网站和靠时间熬,要么就是得花钱砸进去。并没有太多其他的途径了。

搜索引擎算法发展趋势之一,就是得让合理的,正常的东西合理化和正常化。怎么理解。如果一个网站突然采集1亿数据导入网站,马上获得500万日UV;一个网站突然导入20万条链接,搜索一个关键词,马上获得第一。那这个游戏,还玩的下去吗。

SEO人员所有所做的工作调整,都需要等待搜索引擎算法的时间检验,之后才能见到反应变化。

早期搜索引擎算法不完善的时候,确实存在很多机会,但这些不足随着搜索引擎算法的完善,大都被秋后算账了。老话说:出来混,总是得还的。

老板首先要丢掉这个幻想。

SEO是PC时代最有价值的营销方式,移动互联网有所减弱

SEO也算是一种营销推广,但SEO跟那种创意营销不一样。创意营销可以瞬间引爆,一个创意好不好,不需要什么时间检验。市场在2天时间可以给这个创意一个反馈。

PC时代,搜索引擎拥有垄断地位的入口。SEO确实可以让网站在搜索引擎上获得排名和流量。从营销推广的渠道上来说,SEO是值得企业选择的一种市场营销推广方式。一个方面是网站培养起来了的话,营销比较可持续,有基础;第二个搜索引擎的效果精准性也高;第三个,搜索引擎上的潜在客户群体最多;第四个,信息一体化,找服务,找口碑等,都是通过搜索。

我们也见到过很多网站就是通过SEO的方式把项目做起来的。但是这背后的投入,少说从几十万到几百万的投入不等。

而且,搜索引擎的流量早已不是免费的流量。互联网流量的成本已经很贵了,各种隐性成本的投入,就算是SEO,也需要其他资源的投入才能把SEO做好。已经不是那种单纯靠SEO人员做一些站内调整,内容就能够获得流量的阶段了。

网站与搜索引擎关键词排名的逻辑关系

前面,我们说搜索引擎其实是在模拟或者借用现实社会中的一些规则。说到网站和搜索引擎排名的逻辑关系。

关键词有竞争等级,什么级别的网站在当前阶段,就只能做什么级别的词。

产品和服务型的业务网站很难跟资讯网站竞争。除了因为是资讯型网站的内容和规模更大更丰富外。也还需要考虑用户的需求,用户搜索一个行业词,更大可能性是想了解行业动态,而不是找行业里面的服务商家。除非你整个行业就是一个服务行业,没有资讯的。

排除掉百度官方的排名,理论上说要争第一,是有可能性的。所以问SEO人员能不能做到第一。应该是问投入,不是问技术。那你就加大投入。但考虑搜索引擎毕竟不是自己家的,所以,能第一页就很好了。能精确做到第几位,没人敢保证的。

最后给老板们一句建议:理解SEO不需要从技术角度去理解,跟SEO人员沟通就直接从资源投入角度沟通,就好。说到底,还是投入的问题。

给SEO人员的建议:SEO人员也不需要自视甚高,回归本源,SEO就是一个工种之一。SEO要不起高价,除非你能碰到好项目,好老板,敢孤注一掷在SEO。而正好,你有这个能力。

近期百度站长平台收到多个反馈,称网站从百度网页搜索消失,site查询发现连通率为0。

经追查发现这些网站都使用godaddy的DNS服务器 *.DOMAINCONTROL.COM,此系列DNS服务器存在稳定性问题,Baiduspider经常解析不到ip,在Baiduspider看来,网站是死站点。

此前我们也发现过多起小dns服务商屏蔽Baiduspider解析请求或者国外dns服务器不稳定的案例。

建议站长尽可能使用国内大型服务商提供的DNS服务,如dnspod等,以保证站点的稳定解析。