1、程序人生 http:/syb.org 程序人生论坛 http:/syb.org 飞翔网 http:/ 程序人生 http:/syb.org 程序人生论坛 http:/syb.org 飞翔网 http:/ 以下内容是从日志合并拆分一直到导入 excel,然后进行百度抓取 url 去重的全过程,因此用到了不少知识,为了更多初入门的朋友明白,请参考以下几个贴子。 我是用 Ubuntu 下的 linux 进行日志拆分的,所以有兴趣的朋友请点击 Ubuntu和 lynx 安装指南(图文攻略) 日志分析的方法是采用 zhiping 版主的 Linux 下使用 grep 命令分析网站日志 虚拟机上文件与 w
2、in主机共享的方法 wmware下 ubuntu共享文件夹之手把手教程。(日志分析必备) 一,进入终端,输入 cd /mnt/hgfs 进入 共享文件夹 ,我的共享文件目录是gnbase,所以我接着输入 cd gnbase 注: ls 是查看文件及目录命令。 二,合并和拆分相关日志 ( Linux 下使用 grep 命令分析网站日志 ) 输入 cat *.log 3.log (把所有的 log 日志合并为 3.log) 输入 grep “Baiduspider+“ 3.log baiduspider.log (拆分 3.log 中的百度蜘蛛日志 ) 程序人生 http:/syb.org 程序人
3、生论坛 http:/syb.org 飞翔网 http:/ 程序人生 http:/syb.org 程序人生论坛 http:/syb.org 飞翔网 http:/ 三,退出虚拟机,进入我们的 XP 主机上,可以看到我们刚刚的操作记录 四,此时我们就要把 log 或 txt 文件导入到 excel 中了。 新建一个 excel 文档,点击 文件 -打开 ,然后找到我们刚刚的文件baiduspider.log 程序人生 http:/syb.org 程序人生论坛 http:/syb.org 飞翔网 http:/ 程序人生 http:/syb.org 程序人生论坛 http:/syb.org 飞翔网 ht
4、tp:/ 五,然后就是相关选项的选择 程序人生 http:/syb.org 程序人生论坛 http:/syb.org 飞翔网 http:/ 程序人生 http:/syb.org 程序人生论坛 http:/syb.org 飞翔网 http:/ 程序人生 http:/syb.org 程序人生论坛 http:/syb.org 飞翔网 http:/ 程序人生 http:/syb.org 程序人生论坛 http:/syb.org 飞翔网 http:/ 通过以上操作, log 日志就成功导入到 excel 文档中了。如下图 第二部分, url 去重。 有兴趣的同学可以同时参考波菜的 如何查询唯一不重复抓取
5、量 ,和 zhiping 版主的在火狐浏览器下 将光年日志分析系统结果转到 Excel 分析 。 1,进入虚拟机,进入共享目录后,输入命令 grep Baiduspider+ 3.log | awk print $6 url.txt 火这样就把 3.log 中的百度抓取的 url 提取到了url.txt,然后我们把 url.txt 导入到 excel 文档,如下图 程序人生 http:/syb.org 程序人生论坛 http:/syb.org 飞翔网 http:/ 程序人生 http:/syb.org 程序人生论坛 http:/syb.org 飞翔网 http:/ 看来蜘蛛抓取我的首页量很大呀
6、,呵呵 2.点击 数据 -筛选 -高级筛选,然后出现选项,勾选 “选择不重复的记录 “,然后点程序人生 http:/syb.org 程序人生论坛 http:/syb.org 飞翔网 http:/ 程序人生 http:/syb.org 程序人生论坛 http:/syb.org 飞翔网 http:/ 确定,就得到如下结果。 去重后,总共 186 个的百度抓取记录,现在只有 22 条,而且从里面可以看出很程序人生 http:/syb.org 程序人生论坛 http:/syb.org 飞翔网 http:/ 程序人生 http:/syb.org 程序人生论坛 http:/syb.org 飞翔网 http:/ 多是我已经 robots 掉的,依然在不停的抓取! 最近以来,尝试用国平讲的用数据分析 SEO,所以 不可避免的用到 excel,而我本人对技术是比较陌生的,所以往往一些简 单的方法我要从 0 学起,因此能体会到大部分的入门者的辛苦,更愿意把一些基础性的的 SEO 数据分析方法和大家分享。希望大家都乐于分享,让光年论坛成为 SEO 数据化,可控化的知识源泉。