最近在狂补linux知识,也曾得到过阿Q大叔的指点,现在基本上算是摸索前进。
用vm搭建了个debian6,装了个lnmp0.8,然后ping www.baidu.com,就出现了怪异的问题
ping www.baidu.com
神马情况?www.a.shifen.com,这个是啥?
于是查询shifen.com的whois信息
Registrant:
Xinpu Wang
Baidu Online Network Technology Co.Ltd
3F Baidu Campus No.10 Shangdi 10th Street Haidian District
Beijing Beijing 100085
CN
domainmaster@baidu.com +86.1059926607 Fax: +86.1059920061
Domain Name: shifen.com
Registrar Nam...
2012, linux, 百度阅读全文
百度爬虫在进行抓取和处理时,是根据http协议规范来设置相应的逻辑的,所以请站长们也尽量参考http协议中关于返回码的含义的定义来进行设置。
百度spider对常用的http返回码的处理逻辑是这样的:
1、404
404返回码的含义是“NOT
FOUND”,百度会认为网页已经失效,那么通常会从搜索结果中删除,并且短期内spider再次发现这条url也不会抓取。
2、503
503返回码的含义是“Service
Unavailable”,百度会认为该网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。对于网页返回503,百度spider不会把这条url...
http, spider, 百度阅读全文
最近,百度推出了“seo建议”,很多企业都有受影响,因为seo在透明化,百度想干掉seo行业
百度的这个行为是双面性的,可能到最后,会挂掉的就是那些单纯的白菜,百度推出的seo建议,仅仅包含
URL长度:百度建议url的最长长度不超过255byte
静态页参数:在静态页面上使用动态参数,会造成spider多次和重复抓取
Meta信息完善程度:缺少keywords和description的meta标签,这可能会对您网页的展现和排序产生一定影响
图片Alt信息:存在没有alt信息的img标签,加入这项信息可使您网页上的图片更容易被用户检索到
Frame信...
ppc, 企业, 关键词, 百度, 竞价阅读全文




最新评论
嗯博客不错,做Seo的很好哦
沙发……
嗨,这是一条评论。