在网站的统计数据中有对网站流量来路的统计,这些数据到底是怎么来的呢?这就要从浏览器如何访问一个网址说起了,简单点来说,当我们通过输入网址或者其他途径(点击网页中链接、地址收藏栏等)访问某个网址的时候,浏览器会向网页所在的web服务器发送http请求,web服务器在接受到请求后做相应的处理,并返回处理结果给客户端浏览器,如果一切正常的话,客户端(浏览器)就可以看到最终的网页效果了。
在客户端(浏览器)向web服务器发送请求(HTTP Request)的过程中会发送一些信息,这些信息叫做HTTP Header,web服务器会对HTTP Request做出回应,回应的消息叫做Response Header。流量统计中的网站来路和HTTP Header有关,在HTTP Header中可以包含HTTP Referer,在向服务器请求网页数据的时候服务器通过Referer就知道当前是从哪个网页过来的了,用PHP和ASP我们也可以很容易的获取到Referer信息。
接下来我们通过wireshark抓取下数据包来验证一下,下面是直接在浏览器中输入知蚁博客的url地址进行访问的时候发送给web服务器的HTTP Header,这里没有Referer信息,因此也就无法进行来路的判断。
GET / HTTP/1.1
Host: www.letuknowit.com
User-Agent: Mozilla/5.0 (Windows NT 5.1; rv:2.0) Gecko/20100101 Firefox/4.0
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: zh-cn,zh;q=0.5
Accept-Encoding: gzip, deflate
Accept-Charset: GB2312,utf-8;q=0.7,*;q=0.7
Keep-Alive: 115
Connection: keep-alive
Cookie: AJSTAT_ok_times=19;
这个是在卢松松的留言板中打开知蚁博客的时候发送给web服务器的HTTP Header,下面的红色部分就是Referer了,根据这个信息流量统计代码就能够知道这个流量是来自于卢松松的留言板,也就可以进行来路的评定了。
GET / HTTP/1.1
Host: www.letuknowit.com
User-Agent: Mozilla/5.0 (Windows NT 5.1; rv:2.0) Gecko/20100101 Firefox/4.0
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: zh-cn,zh;q=0.5
Accept-Encoding: gzip, deflate
Accept-Charset: GB2312,utf-8;q=0.7,*;q=0.7
Keep-Alive: 115
Connection: keep-alive
Referer: http://www.lusongsong.com/guestbook/
Cookie:AJSTAT_ok_times=19;
来路统计并不一定准确,完全可以通过程序进行来路的伪造,不知道大家有没有被别人刷站的经历,知蚁博客在刚刚建立不久就经历过一次,当时查看访问数据的时候小高兴了一把,访问量飙升啊,但是仔细看看来路后我郁闷了,全部是来自于sogou的关于【xx宝】关键字的,相当的恶心啊!
这是一个很典型的伪造来路的例子,打开来路地址,其中根本就没我们的网站链接。遇到这种情况,封IP基本上是搞不定的,因为每个流量的来路虽然一样,但是IP地址都不一样,其实知道了原理之后这个问题也好解决,对所有来路进行检测,当检测到特定来路的时候直接返回或者跳转到其他地址。
不过,这样做只能是让其无法打开我们的网页而已,实际其和web服务器的交互已经全部完成,并且从web服务器返回了网页html代码,我们只是在网页显示之前进行处理,其实就是相当于在网页开头写上一句重定向的代码,这样统计数据中就不会有这些来路了。最好的办法还是在web服务器端进行配置来限制特定的来路。
原创文章请注明转载于知蚁博客,本文地址:http://www.letuknowit.com/archives/79
竟然有沙发坐,太意外了,哈哈
欢迎来坐沙发,O(∩_∩)O~
这个跟流量统计有区别吗
关于来路的统计还是有必要的,可以知道哪些网站给我们带来流量了
流量宝那个的确很恶心 我也被刷过
好文章~~~不错。。一直在学习中!!!
这个很深奥呀
流量宝是太可恶,不知它意欲何为
技术能人啊
好文章~~~不错。。
呃、这个我遇到过的。
指向一个 刷流量的网站。。
沙发
第一次过来了啊.HHH
流量统计,直接用站长统计,哈哈
站长统计目前还没用过,以前用过百度的,现在同时在用51啦和Google Analytics
没用过你说的这个工具
我也只是偶尔用用,这个东西玩tcp协议的应该会经常用
刚装了插件,以后我回复评论你能收到邮件提醒了,欢迎常来愚乐园
也被刷过
我来顶顶。
嘿嘿,我认识你!
流量统计不是很多网站有代码么
原来可以这样统计的,学习了
看看
刚刚看到一篇差不多的文章
在哪里,发过来看下,也好做个对比,丰富下文章内容
楼房实在太高了
呵呵,还可以吧,欢迎来访
置顶
我的爱好之一就是看博客,每天基本上要看100篇博客,一般是不怎么回复的,可是看到博主的文章我不得不回,我只想说一句话:“博主你的文章是我见过写的最好的了!
这评论好眼熟,呵呵
支持技术党。
这个嘛,是要支持滴,3q
流量宝是个什么情况?
能带来流量,IP地址各不相同,但是来路全部一样,点击来路后会到一个搜索引擎页面,其中关键词是xxx
我一般都是用百度自家的产品监控 访问来源还是很重要的 特别是对于商业性质的网站 分析这个有利于加强建设
博客很强大哦
多谢支持!
技术人才啊
过奖了,多谢支持
沙发占的很舒服吧,呵呵
嘿嘿,我以后也多留点沙发给你
牛人呀,!!厉害!