如何把日志导入到excel文档图文教程(含url去重).docx

资源描述

1、程序人生 http:/syb.org 程序人生论坛 http:/syb.org 飞翔网 http:/ 程序人生 http:/syb.org 程序人生论坛 http:/syb.org 飞翔网 http:/ 以下内容是从日志合并拆分一直到导入 excel，然后进行百度抓取 url 去重的全过程，因此用到了不少知识，为了更多初入门的朋友明白，请参考以下几个贴子。我是用 Ubuntu 下的 linux 进行日志拆分的，所以有兴趣的朋友请点击 Ubuntu和 lynx 安装指南（图文攻略）日志分析的方法是采用 zhiping 版主的 Linux 下使用 grep 命令分析网站日志虚拟机上文件与 w

2、in主机共享的方法 wmware下 ubuntu共享文件夹之手把手教程。（日志分析必备）一，进入终端，输入 cd /mnt/hgfs 进入共享文件夹，我的共享文件目录是gnbase，所以我接着输入 cd gnbase 注： ls 是查看文件及目录命令。二，合并和拆分相关日志（ Linux 下使用 grep 命令分析网站日志）输入 cat *.log 3.log (把所有的 log 日志合并为 3.log）输入 grep “Baiduspider+“ 3.log baiduspider.log (拆分 3.log 中的百度蜘蛛日志 ) 程序人生 http:/syb.org 程序人

3、生论坛 http:/syb.org 飞翔网 http:/ 程序人生 http:/syb.org 程序人生论坛 http:/syb.org 飞翔网 http:/ 三，退出虚拟机，进入我们的 XP 主机上，可以看到我们刚刚的操作记录四，此时我们就要把 log 或 txt 文件导入到 excel 中了。新建一个 excel 文档，点击文件 -打开，然后找到我们刚刚的文件baiduspider.log 程序人生 http:/syb.org 程序人生论坛 http:/syb.org 飞翔网 http:/ 程序人生 http:/syb.org 程序人生论坛 http:/syb.org 飞翔网 ht

4、tp:/ 五，然后就是相关选项的选择程序人生 http:/syb.org 程序人生论坛 http:/syb.org 飞翔网 http:/ 程序人生 http:/syb.org 程序人生论坛 http:/syb.org 飞翔网 http:/ 程序人生 http:/syb.org 程序人生论坛 http:/syb.org 飞翔网 http:/ 程序人生 http:/syb.org 程序人生论坛 http:/syb.org 飞翔网 http:/ 通过以上操作， log 日志就成功导入到 excel 文档中了。如下图第二部分， url 去重。有兴趣的同学可以同时参考波菜的如何查询唯一不重复抓取

5、量，和 zhiping 版主的在火狐浏览器下将光年日志分析系统结果转到 Excel 分析。 1，进入虚拟机，进入共享目录后，输入命令 grep Baiduspider+ 3.log | awk print $6 url.txt 火这样就把 3.log 中的百度抓取的 url 提取到了url.txt,然后我们把 url.txt 导入到 excel 文档，如下图程序人生 http:/syb.org 程序人生论坛 http:/syb.org 飞翔网 http:/ 程序人生 http:/syb.org 程序人生论坛 http:/syb.org 飞翔网 http:/ 看来蜘蛛抓取我的首页量很大呀

6、，呵呵 2.点击数据 -筛选 -高级筛选，然后出现选项，勾选 “选择不重复的记录 “,然后点程序人生 http:/syb.org 程序人生论坛 http:/syb.org 飞翔网 http:/ 程序人生 http:/syb.org 程序人生论坛 http:/syb.org 飞翔网 http:/ 确定，就得到如下结果。去重后，总共 186 个的百度抓取记录，现在只有 22 条，而且从里面可以看出很程序人生 http:/syb.org 程序人生论坛 http:/syb.org 飞翔网 http:/ 程序人生 http:/syb.org 程序人生论坛 http:/syb.org 飞翔网 http:/ 多是我已经 robots 掉的，依然在不停的抓取！最近以来，尝试用国平讲的用数据分析 SEO，所以不可避免的用到 excel,而我本人对技术是比较陌生的，所以往往一些简单的方法我要从 0 学起，因此能体会到大部分的入门者的辛苦，更愿意把一些基础性的的 SEO 数据分析方法和大家分享。希望大家都乐于分享，让光年论坛成为 SEO 数据化，可控化的知识源泉。

展开阅读全文