Nginx宝塔wnmp访问日志分析语句

2021年2月4日11:52:40 评论 15

最近不知怎么回事网站贼慢。自学日志分析,发现原来是度娘的蜘蛛爬的太勤了。这个好解决,管理员工具降低抓取频率,robot为其指路。希望以后会好些。

日志分析原来也不难,会这些语句来回折腾就能应付基本的需求。某个时间段哪些ip访问多,他们都访问了哪些页面,这些ip都是什么有什么特征,他们从哪里来?日志分析和网站分析思路都差不多的。

只不过日志处理没有顺手的工具而已。还要这些语句大神们分享的比较多,修修改改就可以用了。代码如下。留着以后再出问题直接使用。

某段时间某个ip访问的内容,例子
awk '{print $4,$1}' testlog.log 能用
awk '{split($4,array,"["); if(array[2]>="28/Jan/2021:09:09:48" && array[2]<="28/Jan/2021:09:50:07") print $1,$4}' log_file ,某个时间段的日志,可用。
awk '{split($4,array,"["); if(array[2]>="28/Jan/2021:09:09:48" && array[2]<="28/Jan/2021:09:50:07") print $0}' testlog.log | grep 218.67.235.68 | awk '{print $1,$4,$6,$9,$7}' 某个ip,某个时间段的日志,指定输出内容

awk '{split($4,array,"["); if(array[2]>="27/Jan/2021:09:09:48" && array[2]<="31/Jan/2021:09:50:07") print $0}' log_file | grep 182.92.213.86 | awk '{print $1,$4,$6,$9,$7}' 某个ip,某个时间段的日志

awk '{split($4,array,"["); if(array[2]>="27/Jan/2021:09:09:48" && array[2]<="31/Jan/2021:09:50:07") print $0}' log_file | grep 182.92.213.86 | awk '{print $1,$4,$6,$9,$7}' > /目录/logfenxi

awk '{split($4,array,"["); if(array[2]>="31/Jan/2021:00:00:00" && array[2]<="31/Jan/2021:24:00:00" && $7=="/anime/deca-dence/") print $0}' log_file | awk '{print $0}' > /目录/logfenxi

awk '{split($4,array,"["); if(array[2]>="31/Jan/2021:00:00:00" && array[2]<="31/Jan/2021:24:00:00" && $1=="220.181.108.76") print $0}' log_file | awk '{print $0}' > /目录/logfenxi2
66.249.64.177

awk '{split($4,array,"["); if(array[2]>="31/Jan/2021:00:00:00" && array[2]<="31/Jan/2021:24:00:00") print $0}' log_file | grep 220.181 | awk '{print $1,$4,$6,$9,$7}' > /目录/logfenxi3

sed -e 4a\newLine testlog.log

时间段 -n是从小到大,-nr是从大到小
sed -n '/28\/Jan\/2021:09:09:48/,/28\/Jan\/2021:09:50:07/p' /目录/testlog.log
可以跨天和时间段
sed -n '/30\/Jan\/2021:09:01*/,/31\/Jan\/2021:09:35*/p' log_file > /目录/fengxi.log
sed -n '/27\/Jan\/2021:09:01*/,/31\/Jan\/2021:09:35*/p' log_file | awk '{if($7=="/anime/deca-dence/") print $0}'
某个时间端按ip累计排序
sed -n '/27\/Jan\/2021:09:01*/,/31\/Jan\/2021:09:35*/p' log_file | awk '{print $1}' | sort | uniq -c | sort -n
某个时间段某个ip段的访问记录
sed -n '/27\/Jan\/2021:09:01*/,/31\/Jan\/2021:09:35*/p' log_file | grep ^111.* | awk '{print $1,$4,$6,$9,$7}' > /目录/fengxi.log


下面这些留着备用,没测试过

1、查看当天有多少个IP访问awk '{print $1}' log_file|sort|uniq|wc –l

2、查看某一个页面被访问的次数
grep "/index.php" log_file | wc –l

3、查看每一个IP访问了多少个页面
awk '{++S[$1]} END {for (a in S) print a,S[a]}' log_file

4、将每个IP访问的页面数进行从小到大排序
awk '{++S[$1]} END {for (a in S) print S[a],a}' log_file | sort –n

5、查看某一个IP访问了哪些页面
grep ^111.111.111.111 log_file| awk '{print $1,$7}'

6、去掉搜索引擎统计当天的页面
awk '{print $12,$1}' log_file | grep ^\"Mozilla | awk '{print $2}' |sort | uniq | wc –l

7、查看2009年6月21日14时这一个小时内有多少IP访问:
awk '{print $4,$1}' log_file | grep 21/Jun/2009:14 | awk '{print $2}'| sort | uniq | wc –l

8.查看访问前十个ip地址
awk '{print $1}' |sort|uniq -c|sort -nr |head -10 log_file

9.访问次数最多的文件或页面
cat log_file |awk '{print $11}'|sort|uniq -c|sort -nr
cat 92ylq.com.log |awk '{print $11}'|sort|uniq -c|sort -nr (目录下能用,但不是这个功能,日志顺序不一样,统计的字段也不一样)

10.通过子域名访问次数,依据referer来计算,稍有不准
cat log_file | awk '{print $11}' | sed -e ' s/http:\/\///' -e ' s/\/.*//' | sort | uniq -c | sort -rn | head -20

11. 列出传输大小最大的几个文件
cat log_file |awk '($7~/\.php/){print $10 " " $1 " " $4 " " $7}'|sort -nr|head -100

12. 列出输出大于200000byte(约200kb)的页面以及对应页面发生次数
cat log_file |awk '($10 > 200000 && $7~/\.php/){print $7}'|sort -n|uniq -c|sort -nr|head -100

13. 如果日志最后一列记录的是页面文件传输时间,则有列出到客户端最耗时的页面
cat log_file |awk '($7~/\.php/){print $NF " " $1 " " $4 " " $7}'|sort -nr|head -100

14. 列出最最耗时的页面(超过60秒的)的以及对应页面发生次数
cat log_file |awk '($NF > 60 && $7~/\.php/){print $7}'|sort -n|uniq -c|sort -nr|head -100

15. 列出传输时间超过 30 秒的文件
cat log_file |awk '($NF > 30){print $7}'|sort -n|uniq -c|sort -nr|head -20

16. 列出当前服务器每一进程运行的数量,倒序排
ps -ef | awk -F ' ' '{print $8 " " $9}' |sort | uniq -c |sort -nr |head -20

17. 当前WEB服务器中联接次数最多的ip地址
netstat -ntu |awk '{print $5}' |sort | uniq -c| sort -nr

18. 查看日志中出现100次以上的IP
cat log_file |cut -d ' ' -f 1 |sort |uniq -c | awk '{if ($1 > 100) print $0}'|sort -nr |less

19. 查看最近访问量最高的文件
cat log_file |tail -10000|awk '{print $7}'|sort|uniq -c|sort -nr|less

20. 查看日志中访问超过100次的页面
cat log_file | cut -d ' ' -f 7 | sort |uniq -c | awk '{if ($1 > 100) print $0}' | less

21. 统计某url,一天的访问次数
cat log_file | grep '12/Aug/2009'|grep '/images/index/e1.gif'|wc|awk '{print $1}'

22. 前五天的访问次数最多的网页
cat log_file | awk '{print $7}'|uniq -c |sort -n -r|head -20

23. 从日志里查看该ip在干嘛
cat log_file | grep 219.239.157.240 | awk '{print $1"\t"$7}' | sort | uniq -c | sort -nr | less

24. 列出最最耗时的页面(超过60秒的)
#cat log_file |awk '($NF > 60 && $7~/\.php/){print $7}' |sort -n|uniq -c|sort -nr|head -100

25. 网站一天的点击量
cat log_file |grep '12/Nov/2011' | grep "******.jsp"|wc|awk '{print $1}'|uniq

26. 访问网站的独立IP有多少
cat log_file |grep '12/Aug/2011' |grep "******"|wc|awk '{print $1}'|uniq

通过日志查看当天ip连接数,过滤重复
cat log_file | grep "20/Oct/2008" | awk '{print $2}' | sort | uniq -c | sort –nr

27. 用tcpdump嗅探80端口的访问看看谁最高
tcpdump -i eth0 -tnn dst port 80 -c 1000 | awk -F"." '{print $1"."$2"."$3"."$4}' | sort | uniq -c | sort –nr

28. 查看某一时间段的ip连接数
grep "2006:0[7-8]" log_file | awk '{print $2}' | sort | uniq -c| sort -nr | wc -l
  • 君子仁爱:取之有道。刷新有惊喜,看头像。
  • 原创不易,转载注明出处和链接:https://acg.92ylq.com/anime/nginx-logs/
正则匹配空行实例,去掉各种各样的空行 自留地

正则匹配空行实例,去掉各种各样的空行

学而时习之,文本处理时发现个问题,把采集来的html代码用正则匹配去掉标签后会留下各式各样空行换行。 去网上找解决方案,看到这位大神写的还是很靠谱的。遇到的问题基本都能解决。 正则表达式去空行,废话不...
Uibot 学习笔记 自留地

Uibot 学习笔记

1、Uibot教程里那些坑 adodb插件 32位的用不了 domtools插件,正则替换,64位版的uibot用不了 来回折腾很费劲。 2、 Chrome调试正则字符串时用到的语法 var tem1...
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: