BPF:BCC(BPF Compiler Collection)工具集认知

不必太纠结于当下,也不必太忧虑未来,当你经历过一些事情的时候,眼前的风景已经和从前不一样了。——村上春树

写在前面


  • 博文内容为 《BPF Performance Tools》 读书笔记整理
  • 内容涉及 BCC 工具整体介绍
  • 理解不足小伙伴帮忙指正 :),生活加油

不必太纠结于当下,也不必太忧虑未来,当你经历过一些事情的时候,眼前的风景已经和从前不一样了。——村上春树


简单介绍

BCC(BPF Compiler Collection)是一个开源项目,全称为BPF编译器集合,主要用于构建BPF(Berkeley Packet Filter,特别是eBPF,即扩展BPF)软件。允许开发者使用C、Python、Lua等语言编写高效且安全的内核追踪和操作程序,支持kprobes、uprobes等动态跟踪技术,并提供了静态跟踪、性能分析、网络流量控制等多种功能,是Linux内核编程和性能调优的强大工具集。

使用场景

  • 网络性能调优:通过 eBPF 触发和监控网络事件,如分析网络包的流经路径、计算网络延迟等。
  • 内存性能分析:使用 BCC 工具集中的内存相关工具,如 memleak、memcache 等,监控进程的内存分配和释放情况。
  • 文件系统性能优化:通过 BCC 工具集中的 ftrace、ext4slower 等工具,监控文件系统的读写操作。
  • 调试和故障排查:利用 BCC 和 BPF 技术进行调试和故障排查。

BCC 的组件

开源项目地址:https://github.com/iovisor/bcc

1
git clone https://github.com/iovisor/bcc.git

目录结构

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
liruilonger@cloudshell:~/bcc$ tree -L 1
.
├── cmake
├── CMakeLists.txt
├── CODEOWNERS
├── CONTRIBUTING-SCRIPTS.md
├── debian
├── docker
├── docs
├── examples
├── FAQ.txt
├── images
├── INSTALL.md
├── introspection
├── libbpf-tools
├── LICENSE.txt
├── LINKS.md
├── man
├── QUICKSTART.md
├── README.md
├── scripts
├── snap
├── SPECS
├── src
├── tests
└── tools

15 directories, 9 files
liruilonger@cloudshell:~/bcc$

tools 主要为工具和example

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
liruilonger@cloudshell:~/bcc/tools$ ls
argdist_example.txt filegone_example.txt oomkill.py swapin_example.txt
argdist.py filegone.py opensnoop_example.txt swapin.py
bashreadline_example.txt filelife_example.txt opensnoop.py syncsnoop_example.txt
bashreadline.py filelife.py perlcalls_example.txt syncsnoop.py
bindsnoop_example.txt fileslower_example.txt perlcalls.sh syscount_example.txt
bindsnoop.py fileslower.py perlflow_example.txt syscount.py
biolatency_example.txt filetop_example.txt perlflow.sh tclcalls_example.txt
biolatency.py filetop.py perlstat_example.txt tclcalls.sh
biolatpcts_example.txt funccount_example.txt perlstat.sh tclflow_example.txt
biolatpcts.py funccount.py phpcalls_example.txt tclflow.sh
biopattern_example.txt funcinterval_example.txt phpcalls.sh tclobjnew_example.txt
biopattern.py funcinterval.py phpflow_example.txt tclobjnew.sh
biosnoop_example.txt funclatency_example.txt phpflow.sh tclstat_example.txt
biosnoop.lua funclatency.py phpstat_example.txt tclstat.sh
biosnoop.py funcslower_example.txt phpstat.sh tcpaccept_example.txt
biotop_example.txt funcslower.py pidpersec_example.txt tcpaccept.py
biotop.py gethostlatency_example.txt pidpersec.py tcpcong_example.txt

man 主要为帮助文档

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
liruilonger@cloudshell:~/bcc/man$ tree -L 1
.
├── CMakeLists.txt
└── man8

1 directory, 1 file
liruilonger@cloudshell:~/bcc/man$ cd man8/
liruilonger@cloudshell:~/bcc/man/man8$ tree .
.
├── argdist.8
├── bashreadline.8
├── bindsnoop.8
├── biolatency.8
├── biolatpcts.8
├── biopattern.8
├── biosnoop.8
├── biotop.8
├── bitesize.8

doc 为参考指南以及教程

1
2
3
4
5
6
7
8
9
10
11
liruilonger@cloudshell:~/bcc/docs$ tree .
.
├── kernel_config.md
├── kernel-versions.md
├── reference_guide.md
├── special_filtering.md
├── tutorial_bcc_python_developer.md
└── tutorial.md

0 directories, 6 files
liruilonger@cloudshell:~/bcc/docs$

src 为源代码

1
2
3
4
5
6
7
8
9
10
liruilonger@cloudshell:~/bcc$ cd src/
liruilonger@cloudshell:~/bcc/src$ tree -L 1
.
├── cc
├── CMakeLists.txt
├── lua
└── python

3 directories, 1 file
liruilonger@cloudshell:~/bcc/src$

查看安装目录

1
liruilonger@cloudshell:~$ dpkg -L bpfcc-tools

BCC 的特性

CC 的内核态特性

BCC 会使用不少内核态的特性,比如BPF、kprobes、uprobes等。下面这个清单的括号中的内容包含了一些实现细节

  • 动态插桩,内核态(kprobes 的 BPF 支持)
  • 动态插桩,用户态(uprobes 的 BPF 支持)
  • 静态跟踪,内核态(跟踪点的 BPF 支持)
  • 时间采样事件(BPF,使用 perf_event_open())
  • PMC 事件(BPF,使用 perf_event_open())
  • 过滤(使用 BPF 程序)
  • 调试打印输出(使用 bpf_trace_printk())
  • 基于每个事件的输出(使用 bpfperf_event_open())
  • 基础变量(全局和每线程专属变量,通过 BPF 映射表实现)
  • 关联数组(associative array,通过 BPF 映射表实现)
  • 频率统计(通过 BPF 映射表实现)
  • 直方图(支持以 2 的幂为区间,或线性以及自定义区间,通过 BPF 映射表实现)
  • 时间戳和时间差(通过 bpf_ktime_get_ns()和 BPF 程序实现)
  • 调用栈信息,内核态(通过 BPF stackmap 实现)
  • 调用栈信息,用户态(通过 BPF stackmap 实现)
  • 可覆盖的环形缓冲区(通过 perfe_vent_attr.write_backward 实现)
  • 低成本开销的插桩支持(BPFJIT,以及在 BPF 映射表中进行统计)
  • 生产环境安全性(BPF 验证器)

用户态特性

BCC 用户态前端和 BCC 代码仓库中提供了以下用户态的特性。

  • 静态跟踪,用户态(通过 uprobes 实现的 SystemTap 风格的 USDT 探针)
  • 调试打印输出(通过 Python 使用 BPF.trace_pipe()BPF.trace_felds())
  • 基于每个事件的输出(BPFPERFOUTPUT 宏BPF.open_perfbufer())
  • 周期性输出(BPF.get_table()table.clear())
  • 直方图打印(table.print_log2_hist())
  • C 结构体成员访问,内核态(将 BCC 重写器映射到 bpfproberead() 结果上)
  • 内核态的符号解析(ksym()ksymaddr())
  • 用户态的符号解析(usymaddr())
  • 调试信息符号的解析支持
  • BPF 跟踪点支持(TRACEPOINTPROBE)
  • BPF 调用栈回溯支持(BPFSTACK_TRACE)
  • 各种其他辅助宏和函数
  • 示例(在/examples 目录下)
  • 许多工具(在/tools 目录下)
  • 新手指引(在/docs/tutorial*.md 中)
  • 参考手册(在/docs/reference_guide.md 中)

安装 BCC

内核要求

主要的内核 BPF 组件是在内核 4.1 到 4.9 版本之间发布的,推荐使用Linux4.9(发布于2016年12月)或更新的内核版本。

需要开启以下内核配置选项:CONFIG_BPF=y、CONFIG_BPF_SYSCALL=y、CONFIG_BPF_EVENTS=y、CONFIG_ BPF_JIT=y,还有CONFIG_HAVE_EBPF_JIT=y.现在这些选项在很多 Linux 发行版中是默认开启的,所以一般不需要你进行变更。

Ubuntu

包的名字叫作 bpfcc-tools

1
liruilonger@cloudshell:~$ sudo apt install bpfcc-tools
1
liruilonger@cloudshell:~$ dpkg -L bpfcc-tools
1
2
3
4
5
6
7
8
9
10
11
12
13
14
liruilonger@cloudshell:/usr/sbin$ ls | grep  bpfcc
argdist-bpfcc
bashreadline-bpfcc
bindsnoop-bpfcc
biolatency-bpfcc
biolatpcts-bpfcc
biosnoop-bpfcc
biotop-bpfcc
bitesize-bpfcc
bpflist-bpfcc
btrfsdist-bpfcc
btrfsslower-bpfcc
cachestat-bpfcc
cachetop-bpfcc

RHEL

1
sudo yum -u install bcc-tools

其他发行版 可以参考 install.md 文件的中的内容

1
2
┌──[root@liruilongs.github.io]-[~/bcc] 
└─$cat INSTALL.md

BCC 的工具

在这里插入图片描述

重点工具

  • 调试/多用途: trace(跟踪系统调用或函数执行)argdist(跟踪并统计函数参数的分布情况)funccount(统计函数被调用的次数)stackcount(统计函数调用栈的频次)opensnoop(跟踪进程打开文件)
  • CPU 相关execsnoop(执行新程序的行为)、runglat(测量进程的运行延迟)、runglen(测量进程的运行长度)、 cpudist、profle、ofcputime、syscount、softirq、hardirq
  • 内存相关: memleak(检测内存泄漏)
  • 文件系统相关:opensnoop(跟踪文件打开操作)、flelife(跟踪文件生命周期)、vfsstatt(收集虚拟文件系统统计信息)、fleslower(检测文件系统慢操作)、cachestat/writeback/dcstat(与文件系统缓存和写入操作相关的统计工具)、xfsslower/xfsdist/ext4dist(针对特定文件系统(如XFS、Ext4)的性能分析工具)
  • 磁盘 IO 相关: biolatency(跟踪块I/O操作的延迟)、biosnoop/biotop(跟踪和显示块I/O操作的详细信息)、 bitesize(分析块I/O的大小分布)
  • 网络相关tcpconnect/tcpaccept(跟踪TCP连接和接受事件)、tcplife(跟踪TCP套接字的生命周期)、tcpretrans(分析TCP重传事件)
  • 安全相关capable(检查进程是否具有特定的Linux功能(capabilities))
  • 编程语言相关javastat,javacalls、javathreads、javafow、javagc 针对Java应用程序的性能和调用分析
  • 应用程序相关: mysqld_qslower(针对MySQL数据库的慢查询分析)、signals/killsnoop(跟踪进程信号接收和杀死事件)
  • 内核相关:wakeuptime/offwaketime (分析内核唤醒事件和延迟)

工具的特点

BCC 工具拥有以下共同特点:

  • 它们中的每一个都解决了实际的观测性问题,有其创建的必要性
  • 它们设计为在生产环境中由root用户来使用。
  • 每个工具都有一个对应的man帮助文档(在 man/man8 下)。
  • 每个工具都配备了示例文件,其中有示例输出以及对输出的解释(在 tools/*example.txt 文件中)。
  • 许多工具都接受启动选项和参数,大部分工具在使用-h选项时会打印帮助信息
  • 工具源代码以一段注释作为开始。
  • 工具源代码遵循统一的风格(使用 pep8 工具进行统一检查)。

尽管 BCC 支持不同的语言前端,但 BCC 工具中

  • 用户态组件主要使用 Python 语言完成
  • 内核态 BPF 程序则主要使用 C 语言完成

这些使用 Python/C 语言的工具会得到来自 BCC 项目开发者更多的关注和维护,因此本书也主要介绍它们。

单一用途工具

UNIX的哲学是专注做一件事情,并把它做好(do one thing and do it well)。

换一种说法是:创建小的高质量的工具,使用管道(pipe)将其连接起来以完成更复杂的任务这一传统带来了一批小巧而功能单一的工具并流传至今,比如grep(1)、cut(1)和 sed(1)等。

BCC 包含许多类似的单一功能工具,包括 opensnoop(8)、execsnoop(8)和biolatency(8)。opensnoop(8)是一个很好的例子。参看下面的例子,思考一下对于跟踪 open(2)系列系统调用的这个单一任务来讲,这些选项和输出可以如何自由组合:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
liruilonger@cloudshell:~$ sudo opensnoop-bpfcc -h
usage: opensnoop-bpfcc [-h] [-T] [-U] [-x] [-p PID] [-t TID] [--cgroupmap CGROUPMAP] [--mntnsmap MNTNSMAP] [-u UID]
[-d DURATION] [-n NAME] [-e] [-f FLAG_FILTER]

Trace open() syscalls

optional arguments:
-h, --help show this help message and exit
-T, --timestamp include timestamp on output
-U, --print-uid print UID column
-x, --failed only show failed opens
-p PID, --pid PID trace this PID only
-t TID, --tid TID trace this TID only
--cgroupmap CGROUPMAP
trace cgroups in this BPF map only
--mntnsmap MNTNSMAP trace mount namespaces in this BPF map only
-u UID, --uid UID trace this UID only
-d DURATION, --duration DURATION
total duration of trace in seconds
-n NAME, --name NAME only print process names containing this name
-e, --extended_fields
show extended fields
-f FLAG_FILTER, --flag_filter FLAG_FILTER
filter on flags argument (e.g., O_WRONLY)

examples:
./opensnoop # trace all open() syscalls
./opensnoop -T # include timestamps
./opensnoop -U # include UID
./opensnoop -x # only show failed opens
./opensnoop -p 181 # only trace PID 181
./opensnoop -t 123 # only trace TID 123
./opensnoop -u 1000 # only trace UID 1000
./opensnoop -d 10 # trace for 10 seconds only
./opensnoop -n main # only print process names containing "main"
./opensnoop -e # show extended fields
./opensnoop -f O_WRONLY -f O_RDWR # only print calls for writing
./opensnoop --cgroupmap mappath # only trace cgroups in this BPF map
./opensnoop --mntnsmap mappath # only trace mount namespaces in the map
liruilonger@cloudshell:~$ sudo opensnoop-bpfcc
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
PID    COMM               FD ERR PATH
10923 entrypoint.sh 3 0 /dev/null
10923 ps 3 0 /etc/ld.so.cache
10923 ps 3 0 /lib/x86_64-linux-gnu/libprocps.so.8
10923 ps 3 0 /lib/x86_64-linux-gnu/libdl.so.2
10923 ps 3 0 /lib/x86_64-linux-gnu/libc.so.6
10923 ps 3 0 /usr/lib/x86_64-linux-gnu/libsystemd.so.0
10923 ps 3 0 /lib/x86_64-linux-gnu/librt.so.1
10923 ps 3 0 /lib/x86_64-linux-gnu/liblzma.so.5
10923 ps 3 0 /usr/lib/x86_64-linux-gnu/libzstd.so.1
10923 ps 3 0 /usr/lib/x86_64-linux-gnu/liblz4.so.1
10923 ps 3 0 /usr/lib/x86_64-linux-gnu/libgcrypt.so.20
10923 ps 3 0 /lib/x86_64-linux-gnu/libpthread.so.0
10923 ps 3 0 /lib/x86_64-linux-gnu/libgpg-error.so.0
10923 ps 3 0 /proc/self/auxv
10923 ps 3 0 /proc/sys/kernel/osrelease
10923 ps 3 0 /sys/devices/system/cpu/online
10923 ps 3 0 /proc/self/auxv
10923 ps 3 0 /proc/self/stat
10923 ps -1 6 /dev/tty
10923 ps 3 0 /proc/uptime
10923 ps 4 0 /proc/sys/kernel/pid_max
10923 ps 4 0 /proc/sys/kernel/osrelease
10923 ps 4 0 /proc/meminfo
10923 ps 5 0 /proc
10923 ps 6 0 /proc/1/stat

多用途工具

BCC中,最强大的多用途工具是funccount(8)、stackcount(8)、trace(8)以及argdist(8),接下来的部分会对它们进行介绍。这些多用途工具通常需要用户来决定跟踪哪些事件。

不过为了能够享受这种灵活性,用户需要知道使用哪些kprobes、uprobes 以及其他事件等细节–包括如何使用它们。在后续关于特定主题的章节中,还是会回到使用单一用途工具上。

  • funccount: 对事件进行计数,包括函数调用
  • stackcount:对引发某事件的函数调用栈进行计数
  • trace: 定制化打印每个事件的细节信息
  • argdist : 对事件的参数分布进行统计

博文内容整理

© 文中涉及参考链接内容版权归原作者所有,如有侵权请告知 :)


《BPF Performance Tools》


© 2018-至今 liruilonger@gmail.com, All rights reserved. 保持署名-非商用-相同方式共享(CC BY-NC-SA 4.0)

发布于

2024-06-09

更新于

2024-11-22

许可协议

评论
Your browser is out-of-date!

Update your browser to view this website correctly.&npsb;Update my browser now

×