在日常的软件开发过程中,我们无可避免地会遇到程序崩溃的问题。在开发和调试阶段,我们可以利用如 GDB
或 GDB Server
这样的工具来重现问题并进行栈回溯,从而轻松定位并解决问题。
然而,对于在线产品中的偶发性崩溃问题,处理起来就显得较为困难。尽管我们可以通过 Linux 的 backtrace 功能,捕捉 SIGSEGV 信号,并在信号回调中调用 backtrace 和 backtrace_symbols 接口来进行栈回溯,但遗憾的是,许多工具链已经裁剪了这一功能,因此在大多数情况下,backtrace 功能无法使用。
本文将提供两种方法,以解决线上产品中偶尔出现的 crash 问题。
Core Dump
核心转储(Core Dump)是指在程序异常终止时,将程序在内存中的数据和状态以文件的形式保存下来,它包含了程序崩溃时的内存快照,可用于后续调试和分析。
开启 Core Dump
通常情况下,Linux 系统是把 coredump 关闭的,需要我们手动打开。
开启 coredump 功能,并且调整 coredump 文件的大小为无限制:
Code: Select all
$ ulimit -c
$ ulimit -c unlimited
注意,我们可以更加硬件资源调整 coredump 文件的大小限制。
默认情况下,coredump 文件的存放路径为当前目录,我们可以修改 coredump 的存放路径:
Code: Select all
echo "/data/core_%e_%p" > /proc/sys/kernel/core_pattern
其中 %e,%p 的解释如下:
Code: Select all
%p - insert pid into filename 添加pid
%u - insert current uid into filename 添加当前uid
%g - insert current gid into filename 添加当前gid
%s - insert signal that caused the coredump into the filename 添加导致产生core的信号
%t - insert UNIX time that the coredump occurred into filename 添加core文件生成时的unix时间
%h - insert hostname where the coredump happened into filename 添加主机名
%e - insert coredumping executable name into filename 添加命令名
分析 Core Dump
一旦 coredump 文件生成,我们就可以用 gdb
工具来分析。
Code: Select all
$ arm-linux-gnueabihf-gdb /path/to/executable /path/to/coredump
注意,程序编译时需要添加 -g
选项,保留符号表。
在 gdb
中,可以使用 bt
命令查看堆栈回溯信息,确定程序崩溃的位置。
Code: Select all
(gdb) bt
Crash Dump
Crash Dump 是 TuyaOS 网关开发框架提供的轻量级的 Core Dump 功能,可以作为 Core Dump 的代替方案。
实现原理
TuyaOS 网关开发框架通过捕捉 SIGSEGV 信号,在信号回调中把当前的栈内存对齐后保存到文件中,该文件仅占几 KB 的存储空间。
栈回溯就是遍历所有地址,先检查该地址是否在程序运行时的地址空间,在运行时的地址空间则通过 addr2line
工具把地址转成文件和函数名。
如何使用
在网关初始化之后,调用 tuya_gw_app_debug_start
接口开启 Crash Dump 功能。示例:
Code: Select all
int main(int argc, char **argv)
{
OPERATE_RET rt = OPRT_OK;
TUYA_CALL_ERR_RETURN(tuya_iot_init("./"));
TUYA_CALL_ERR_RETURN(tuya_iot_set_gw_prod_info(&prod_info));
TUYA_CALL_ERR_RETURN(tuya_iot_sdk_pre_init(TRUE));
TUYA_CALL_ERR_RETURN(tuya_iot_wr_wf_sdk_init(IOT_GW_NET_WIRED_WIFI, GWCM_OLD, WF_START_AP_ONLY, M_PID, M_SW_VERSION, NULL, 0));
TUYA_CALL_ERR_RETURN(tuya_iot_sdk_start());
tuya_gw_app_debug_start("./log_dir/");
while (1) {
tuya_hal_system_sleep(10*1000);
}
return OPRT_OK;
}
如何解析
当程序出现段错误时,把保存的栈信息文件和编译时加上 -g
选项的程序放到同一路径下,接着,新建一个名为 coredump.py
文件,把以下的脚本内容拷贝到文件中。最后,执行命令进行解析:
Code: Select all
python3 coredump.py -d <dump文件>
注意,上面的程序名称要与设备运行的程序保持一致。
coredump.py
脚本:
Code: Select all
import argparse
import os
parser = argparse.ArgumentParser(description='SDK Coredump Analyzer')
parser.add_argument(
'-d', '--dump_file', required=True, type=str, help='crash dump file')
args = parser.parse_args()
sys_so = ["libc.so", "libc-", "libpthread-", "libpthread.so", "ld-", "ld.so", "stdc++", "uClibc", "libgcc"]
'''
crash dump file format:
stack dump:
00000c00 00000001 7fd10000 00000001
stack dump End
dump text section
00400000-00897000 r-xp 00000000 00:08 237597 /var/tmp/tyZ3Gw
'''
def parse_dump_file(filename):
is_stack = False
is_text = False
stack = []
text = {}
if not os.path.isfile(filename):
return stack, text
with open(filename, 'r') as f:
for line in f:
if line.find("stack dump:") != -1:
is_stack = True
continue
if line.find("stack dump End") != -1:
is_stack = False
continue
if line.find("dump text section") != -1:
is_text = True
if is_stack:
stack.extend(line.split())
if is_text and line.find("r-xp") != -1:
text_content = line.split()
if len(text_content) != 6:
print("parse text section error")
continue
addr = text_content[0]
path = text_content[-1]
filename = os.path.basename(path)
# Filter system so
is_omit = False
for so_name in sys_so:
if filename.find(so_name) != -1:
is_omit = True
break
if is_omit:
continue
addr_range = addr.split('-')
if len(addr_range) != 2:
continue
text[filename] = addr_range
return stack, text
def dump_addr2line(stack, text):
for addr in stack:
addr = int(addr, 16)
for name in text:
addr_start = int(text[name][0], 16)
addr_end = int(text[name][1], 16)
if addr >= addr_start and addr <= addr_end:
# Shared object need to offset
if name.find(".so") != -1:
addr = addr - addr_start
addr = str(hex(addr))
if not os.path.exists(name):
print("{} is not found".format(name))
break
os.system('addr2line {} -e {} -f'.format(addr, name))
break
def main():
dump_file = args.dump_file
print("crash dump file: {}".format(dump_file))
stack, text = parse_dump_file(dump_file)
dump_addr2line(stack, text)
if __name__ == '__main__':
main()
示例
Code: Select all
kyson@LAPTOP-ORFJBPHU:~/workspace/tuya/tools/crash_dump$ python3 coredump.py -d 959_user_iot_1645100484
crash dump file: 959_user_iot_1645100484
__start
??:?
sig_proc
/root/workspace_temp/EmbedSDKs/ty_gw_zigbee_ext_sdk/ty_gw_zigbee_ext_sdk/sdk/svc_linux_crash_dump/src/crash_dump.c:287
??
??:0
emberAfSendDefaultResponseWithCallback
/root/workspace_temp/EmbedSDKs/ty_gw_zigbee_ext_sdk/ty_gw_zigbee_ext_sdk/sdk/zigbee_host/slabs/v2.2/protocol/zigbee/app/framework/util/util.c:764
__start
??:?
...
栈回溯分析会把程序异常时入栈的函数都打印出来,我们主要看栈顶的函数。从以上的输出可以看出,程序段错误发生在 emberAfSendDefaultResponseWithCallback
函数中。