站点量异常q查文档

站点量异常q查文档
癑ֺ站长q_几乎每天都会(x)接到站长关于量的询问,很多站长发现站点量发生很大变化后,W一反应是认ؓ(f)自己被误判降权了(jin)Q情l激动者不l审核立卛_始在公开媒体声讨癑ֺ己造势。但l过癑ֺ站长q_q查Q大部分站点都不是真的被惩罚?jin),或者说q不是因为站点主观原因被惩罚。所以,Z(jin)解开站长关于站点量大幅下滑的谜团,更好地帮助站长查扑֎因,我们推出?jin)《站Ҏ(gu)量异常追查文档》,希望能给站长一些启C?/FONT>

什么是量异常 来自癑ֺ搜烦(ch)的流量突焉降了(jin)50%以上Q且是持l性的Q即已经q箋四至五天量没有明显涨幅变化。如下图所C:(x)
如果出现上述现象Q徏议大家从q维角度、页面特征,以及(qing)相关因素来判断原因?BR>
一Q运l篇
  1、CDN
  2、robots
  3、UA/IP
  4、安全问?理不善
    A、域名泛解析
    B、网站被?/FONT>
    C、网被挂马
    D、UGC站点被SPAMMER发

 

站点量异常原因之运l篇


 
1、CDN

 
  一些网站会(x)使用CDN加速服务,最q每周站长^台都?x)接C两个跟CDN加速问题有关的案例。CDNq里存在一个问题:(x)不同的CDN服务商在全国分布的节Ҏ(gu)不同Q站点在使用CDN服务Ӟ同一地区CDNl蜘蛛返回的IP地址要和l用L(fng)一致。那么现实情冉|Q部分CDN服务商出于成本考虑与资源用率的问题,?x)在不告知用L(fng)情况下变更IP地址以节U成本,q样导致蜘蛛在L的时候,?x)遇到新IP和老IP的问题,在站Ҏ(gu)有告知更换IP的情况下Q蜘蛛会(x)认ؓ(f)站点目前存在问题Q首先是减少抓取量,其次?x)判断是否把不可讉K的页面下掉,q时候就出现?jin)用戯问IP与蜘蛛抓取IP不一致的情况。所以徏议站点在选择CDN服务时要选择E_的CDN服务商,其次如果IP更换最好通过站长q_抓取诊断工具抓取试Q如果IP不正可以点M囄框“报错”提C给站长q_

 
 
2、Robots
  站长应该对robots都不陌生Q但Z么还要提呢?有这样一U情况:(x)站点需要更新robots文gQ对站内部分内容止或放开抓取。但׃操作后没有检查是否生效,站长?x)默认?f)已经生效。同时还有一个生效周期的问题Q那么站炚w要在癑ֺ站长q_提供的robots(g)工具中做一个抓取测试来验证是否生效?/FONT>
如果看到robots内容和你更改后的内容不一_(d)有几U可能:(x)W一U可能是|站没有全面布局Q因为有的站Ҏ(gu)务器可能在很多地方,你需要确认robots是否已全部推送;W二U可能是癑ֺ没有?qing)时做更斎ͼ可以通过robots(g)工具下方的更新按钮来告诉百度Robots有变化?BR>
 
 
3、UA/IP
  UA禁一般不?x)是站点主观错误操作Q往往是意外情况,站点在程序中qo(h)误操作UA禁Q而通常却不知道自己禁?jin)蜘蛛。只有在逐步的排查才?x)发现这U概率很的问题。所以在量异常中我们在q维中把这列q去Q让站点注意q些个细节?/FONT>
  那么当?zhn)的网站不希望Baiduspider讉KӞ才需要该讄Q如果?zhn)希望Baiduspider讉K(zhn)的|站Quseragent相关的设|中是否有Baiduspider UAQƈ?qing)时修改。禁止所有来自百度的抓取Q?User-agent: Baiduspider Disallow: /

 
  IP禁往往是遇到CCd的时候不知道哪些是真癑ֺ蜘蛛和仿冒百度蜘蛛而封了(jin)蜘蛛IPQ这里我们徏议通过DNS反查方式让站点了(jin)解哪些是真实蜘蛛Q根据^C同验证方法不同,如linux/windows/os三种q_下的验证Ҏ(gu)分别如下Q?/FONT>
  A、在linuxq_下,(zhn)可以用host ip命o(h)反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname?*.baidu.com ?*.baidu.jp 的格式命名,?*.baidu.com ?*.baidu.jp 即ؓ(f)冒充?/FONT>

 

 
  B、在windowsq_或者IBM OS/2q_下,(zhn)可以用nslookup ip命o(h)反解ip?判断是否来自Baiduspider的抓取。打开命o(h)处理?输入nslookup xxx.xxx.xxx.xxxQIP?址Q就能解析ipQ?来判断是否来自Baiduspider的抓取,Baiduspider的hostname?*.baidu.com ?*.baidu.jp 的格式命名,?*.baidu.com ?*.baidu.jp 即ؓ(f)冒充?/FONT>

 
  C、在mac osq_下,(zhn)可以用dig 命o(h)反解ip?判断是否来自Baiduspider的抓取。打开命o(h)处理?输入dig xxx.xxx.xxx.xxxQIP?址Q就能解析ipQ?来判断是否来自Baiduspider的抓取,Baiduspider的hostname?*.baidu.com ?*.baidu.jp 的格式命名,?*.baidu.com ?*.baidu.jp 即ؓ(f)冒充?/FONT>
更多内容误问:(x)http://zhanzhang.baidu.com/college/articleinfo?id=34

 
4、安?理不善
  安全问题在站长^台能观察到的l大多数属于理问题Q站点被黑客M(jin)漏洞而受C(jin)惩罚{,且惩|力度与站点漏洞的存在时间成正比?/FONT>
  A、域名泛解析
  q几个月域名泛解析是一个非常经典的案例Q很多网站由于安全意识薄弱、密码简单被黑客M(jin)I子Q解析出?jin)大量非本站内容的低质页面,D癑ֺ搜烦(ch)引擎Ҏ(gu)站采取了(jin)临时措施Q得站Ҏ(gu)量掉?jin)很多甚x零?/FONT>

 
  B、网站被?/FONT>
  |站被黑跟泛解析也有怼之处Q网站内有大量的垃圾面都是黑客创造出来的Q导致受到惩|,l站点带来致命的打击?/FONT>

 
  C、网被挂马
  其实q也是被黑的一U,但比被黑释放垃圾面更ؓ(f)隐蔽Q这cL例主要出现在企业|站或者是一些比较小的网站上Q黑客直接在面上放|展现广告代码,而且?x)判断来访者是普通用戯是蜘蛛,然后区别对待Q或者是仅给某一个地区的用户讉K挂马面Q给蜘蛛和其他大部分所在地展现正常面{,q些其实都是非常隐蔽的行为,没有用户举报站点也很隑֏玎ͼ但百度搜索引擎无法容忍这L(fng)面出现在搜索结果里Q自然这些站点会(x)受到惩罚?/FONT>

 
  D、UGC站点被SPAMMER发
  最后说UGC站点Q所有以用户贡献内容的站点在审核机制上一定要加强防范Q目前^台能够接到的不少案例都是UGC站点存在监管不利Q导致有大量的垃圑ֆ容在U上Q当垃圾内容与正常内容的比例辑ֈ一定阈|有可能整站被百度搜索引擎惩|?/FONT>

 
二,特征分?/FONT>
  1、分析流E图
  2、查扄征页?/FONT>
  3、分析异常特?/FONT>
    A、排名无Q流量无
    B、部分排名无Q流量损p?/FONT>
站点量异常原因之特征页分析

 
1、分析流E图
 

 
  程图会(x)按照三步来让站点认到底是正怸跌还是异怸跌,在此站长W一步首先要扑ֈ特征面

 
2、查扄征页?/FONT>
  首先说什么叫特征面Q即量下滑比较多的面Q这c页面又是结构化面Q内容不同页面所抢的关键词不同,但页面框架结构是l一的。比如关键词“北京旅游、上h游、天z旅游”对应Ac页面,那么在此cd键词消失后,q个Ac页面也没有量Q于是Ac页面就是我们说的特征页面,要看看Ac页面发生过哪些变化。首先找出昔日的量Ҏ(gu)Q过MD|间与现状的差距。其ơ回忆一下近期此c页面有怎样的改动,q些改动是否存在q维的问题Q那么观察几日后l出量损失范围?/FONT>

 
3、分析异常特?/FONT>
  从流量损p围大体可以判定两U情况:(x)
  A、排名无Q流量无
  上面所讲的关键词排名无Q网站流量无——很有可能是受到?jin)惩|,可能是局部惩|也可能是站Ҏ(gu)体被惩罚。具体原因可以参见之前推出的x法?qing)绿?.0法Q当然大量算法我们没有公布出来,各位可以参考《百度网|索质量白皮书》,观察站点是否存在此类问题。参考链接:(x)
 

 
  B、部分排名无Q流量损p?/FONT>
  例如Q特征页面A本对应多个关键词Q有些关键词下已找不到AQ而有些仍然可以找刎ͼ基本可以说明该页面ƈ不在惩罚范围内,可能是百度算法在做调整。而如果所有关键词下都难以扑ֈA面Q那极有可能是被惩罚?jin)?/FONT>

 
三,相关因素——外铄?/FONT>
  1、首c(din)频道页、重要页面被恶意投票
  2、用户创建页面、垃圾个人页、内定w被恶意投?/FONT>
  3、拼接搜索结果页漏洞
  4、如何预防生拼接搜索结果页
 

站点量异常原因之相兛_素:(x)外链爆增


 

 
  站长q_在接到很多案例中Q有很大一部分是因为外铑ּ常而流量受到较大媄(jing)响的Q在此先l大家说一下外铑ַhC数据来源及(qing)规则Q外铑ַhl计站点在一D|间内Q链接到(zhn)网站的URL、被链接|页URL、锚文本{内容,站长可以通过q些数据识别和判断哪些是W合预期的外链投、哪些是不符合预期的。那么如果发生外铄增时l大部分站点是不W合预期的增长,q里我们从三U情况出发来剖析和解xc问题?/FONT>

 
1、首c(din)频道页、重炚w面被恶意投票
  A、此cM件主要是在被链接URL被莫名的站点大量投票Q如果遇到此U现象一定要注意Q很有可能是恶意投票行ؓ(f)Q目的是通过大量垃圾站点对站点的投票Q降低站点在癑ֺ搜烦(ch)引擎中的评h(hun)?/FONT>
  B、此c问题的措施只能是站点加大拒l力度,从而屏蔽掉无意义的投票链接

 
2、用户创建页面,垃圾个h,内容?/FONT>
  A、UGC站点其要关注这点,之前谈过要加大审核及(qing)处理力度Q杜l让用户创徏垃圾内容、个人页面。不良分子ؓ(f)?jin)排名的效果更好Q会(x)再对q些垃圾进行投。这里特别要提醒的是Q如果站点审核力度及(qing)时就不会(x)发生此类事情Q只有站点内定w期处于无人管理的状态时才会(x)出现如此问题?/FONT>
  B、此c问题的措施只能是站点加大审核力度,关闭垃圾面Q同时拒l这些垃圾投的域名?qing)站?/FONT>

 
3、拼接搜索结果页漏洞
  拼接搜烦(ch)l果|通过地址栏参数变化而动态创建出的页面,例如下图q些面QTITLE中往往包含?jin)过多的垃圾词,提交l搜索引擎后Qؓ(f)?jin)排名效果再对这些页面进行投而生了(jin)q量的外链投?/FONT>
 
  

 
 
  此类面不良分子是M(jin)拼接搜烦(ch)l果늚title、description可以昄拼接代码中的垃圾内容。理Z癑ֺ搜烦(ch)引擎?x)拒l收录这L(fng)面Q但毕竟站点数量巨大q会(x)出现遗漏。所以如果想解决此类问题Q可以在癑ֺ站长q_反馈中心反馈下述内容Q?/FONT>
  1QD例已收录被链接页?/FONT>
  2Q给出搜索此c页面关键词的链?/FONT>
  3Q描q页面收录量?qing)外NQ给出外铑ֈ析中的数据)(j)

 
4、如何预防生拼接搜索结果页
  上面也说?jin),拼接搜?ch)l果|不良分子M(jin)可以控制面的title、description内容而制造了(jin)大量的页面,从而进行投的行ؓ(f)。那么如果在拼接搜烦(ch)l果中止q些无效参数展示在Title和Description中自然就没有q个漏洞Q下图以携程ZQ拼接页面中的title和description都是固定内容Q无论页面参数怎么变化q些都不?x)改变?/FONT>
 
 
  具体内容可以参考之前^台发布的相关文章《防止网站内部搜索被他h恶意利用?/FONT>