tcpdump统计http请求并导出URL文本

tcpdump

tcpdump是一个用于截取网络分组，并输出分组内容的工具。凭借强大的功能和灵活的截取策略，使其成为类UNIX系统下用于网络分析和问题排查的首选工具
tcpdump 支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息

语法

tcpdump [ -DenNqvX ] [ -c count ] [ -F file ] [ -i interface ] [ -r file ]
        [ -s snaplen ] [ -w file ] [ expression ]

strings

strings命令 在对象文件或二进制文件中查找可打印的字符串。字符串是4个或更多可打印字符的任意序列，以换行符或空字符结束。 strings命令对识别随机对象文件很有用。

语法

strings [ -a ] [ - ] [ -o ] [ -t Format ] [ -n Number ] [ -Number ]  [file ... ]

选项

-a --all：扫描整个文件而不是只扫描目标文件初始化和装载段
-f –print-file-name：在显示字符串前先显示文件名
-n –bytes=[number]：找到并且输出所有NUL终止符序列
- ：设置显示的最少的字符数，默认是4个字符
-t --radix={o,d,x} ：输出字符的位置，基于八进制，十进制或者十六进制
-o ：类似--radix=o
-T --target= ：指定二进制文件格式
-e --encoding={s,S,b,l,B,L} ：选择字符大小和排列顺序:s = 7-bit, S = 8-bit, {b,l} = 16-bit, {B,L} = 32-bit
@ ：读取中选项

awk

awk是linux中处理文本的强大工具，或者说是一种专门处理字符串的语言，它有自己的编码格式。awk的强大之处还在于能生成强大的格式化报告。
语法
常用命令
1. -F参数：指定分隔符，可指定一个或多个
2. print; : 打印命令, 后面可字符串的拼接
3. 数据字段变量
  - $0表示整行文本
  - $1表示文本行中第一个数据字段
  - $2表示文本行中第二个数据字段
  - $n表示文本行中第n个数据字段
4. getline; : 常用方法是读取下一行数据 , 也有其他用法

导出方法

tcpdump抓取数据包
```
tcpdump -i eth0 tcp[20:2]=0x4745 or tcp[20:2]=0x504f -w /tmp/tcp.cap -s 512 2>&1
```
- 按Ctrl+C即可结束抓取 , 也可直接设置定时结束 , 如下定时30s后结束抓取:
```
tcpdump -i eth0 tcp[20:2]=0x4745 or tcp[20:2]=0x504f -w /tmp/tcp.cap -s 512 2>&1 &sleep 30
```
- 命令解释
  1. -i 即interface：指定tcpdump需要监听的网卡。默认会抓取第一个网卡 . eth0即指定的网卡名称 , 可通过ifconfig命令获取网卡信息
  2. tcp[20:2]=0x4745 or tcp[20:2]=0x504f : 过滤表达式 , 意思是过滤数据包中tcp数据段的21-22字节字符为GET或者POST的数据包 , 即过滤HTTP GET/POST请求的数据包
    - 该表达式与wireshark表达式一致 , 可用https://www.wireshark.org/tools/string-cf.html生成
  3. -w /tmp/tcp.cap : 指定tcpdump将抓包数据输出到文件 /tmp/tcp.cap 中而不是标准输出
  4. -s 512 即-s len：设置tcpdump的数据包抓取长度为512，如果不设置默认将会是65535字节。对于要抓取的数据包较大时，长度设置不够可能会产生包截断
  5. 2>&1 : 将标准错误输出重定向到标准输出 , Linux中1为标准输出(stdout) , 2为标准错误输出(stderr)
  6. &sleep 30 : 命令保持30s
通过strings命令来找出GET/POST的url以及Host
```
strings /tmp/tcp.cap | grep -E "GET /|POST /|Host:" | grep --no-group-separator -B 1 -E "Host:" | grep --no-group-separator -A 1 -E "GET /|POST /" | awk '{url=$2;getline;host=$2;printf ("%s\n",host""url)}' > /tmp/url.txt
```
- 命令解释
  1. strings /tmp/tcp.cap : 将tcpdump生成的文件指定为查询字符串的源文件
  2. grep -E "GET /|POST /|Host:" | grep --no-group-separator -B 1 -E "Host:" | grep --no-group-separator -A 1 -E "GET /|POST /" :
    1. grep -E "GET /|POST /|Host:" : 查找以"GET /、POST /和Host:开头的字符串
    2. grep --no-group-separator -B 1 -E "Host:" | grep --no-group-separator -A 1 -E "GET /|POST /": 保证查询的字符串标准输出均为一行Host:紧接着一行GET /或POST /
      - 此处将多出的几行/biling登录的url都给去除了 , 做到一一对应
      - --no-group-separator : 当使用'-A', '-B' or '-C'时，不输出任何组分隔符，而是将不同组相邻输出
    3. 输出样式示例如下
  3. awk '{url=$2;getline;host=$2;printf ("%s\n",host""url)}' > /tmp/url.txt :
    1. url=$2;先将上述得到的标准输出文本的第一行Host: 字符串的第二段字符串赋值给url(以空格分段) , 如: tgateway.changyou.com
    2. getline;读取下一行GET /或POST /的内容 , ;host=$2;再将该行的第二段字符串赋值给host , 如:/phonesdk/login/openid
    3. printf ("%s\n",host""url)}' > /tmp/url.txt : 将得到的两个变量以host""url的格式打印至tmp/url.txt中(""为空字符串 , 主要用于表达式中分割两个变量)

其他可实现的需求

计算服务器QPS

wc -l /tmp/url.txt | cut -d' ' -f 1得到一个数字 , 该数字除以统计的秒数即是QPS
排除静态文件统计前10访问url:

grep -v -i -E "\.(gif|png|jpg|jpeg|ico|js|swf|css)" /tmp/url.txt | sort | uniq -c | sort -nr | head -n 10

参考资料

tcpdump: https://www.jianshu.com/p/d9162722f189
strings: http://ipcmen.com/strings
awk: https://blog.csdn.net/u010502101/article/details/81839519
grep:
导出文章: http://linux.it.net.cn/e/shell/2014/0706/2390.html

Linux学习相关 Linux tcpdump awk strings grep http URL Uri

tcpdump统计http请求并导出URL文本

tcpdump统计http请求并导出URL文本

tcpdump

strings

awk

导出方法

其他可实现的需求

参考资料

相关

linux环境开机自启动nginx

Linux获取栈空间大小

Xlib Linux判断程序窗口是否为最小化

http改成https请求

linux下如何添加一个用户并且让用户获得root权限

.NetCore简单封装基于IHttpClientFactory的HttpClient请求

Django url路由分配

curl 度量时间

linux 恢复mysql 误删除数据

linux 用时统计

网络编程中URL的encode和decode

Linux磁盘操作：分区、格式化、挂载【转】

标签