通用技术浅析 “代码可视化” | 京东云技术团队

京东云开发者 · 2023年10月19日 · 10364 次阅读

1.什么是代码可视化？

Code visualization is the process of creating graphical representations of source code to help understand and analyze it. 代码可视化是创建源代码的图形表示以帮助理解和分析它的过程。

个人理解：通过使用图形化手段（架构图、依赖图、分布式追踪、类图、火焰图、CallGraph 等）使代码在某些特征上变得可观测，用于辅助开发人员理解分析项目或建设一些自动化工具。

2.为什么需要代码可视化？

场景 1：代码逻辑理解困难

项目代码量很大且需求迭代快，每次梳理的文档很快就过时了。新同学入手困难苦不堪言，老手也很难对项目整体的业务逻辑有一个全面的认知，常常需要重新梳理逻辑。

场景 2：改动影响面难以评估

需求的诉求是修改 A 页面的逻辑，但由于后端代码很多公用逻辑且调用层级很深，上线才后发现影响了 B 页面的逻辑，造成了线上事故。

场景 3：项目重构缺少抓手

老旧项目经过长时间迭代和多次更换团队，导致内部代码逻辑十分混乱且没人能完全讲明白所有逻辑。但新的业务迭代需求源源不断，在原有项目上修改成本越来越高，亟需重构以获得更高地研发效率。

其他场景：自动化 case 回归常常覆盖不到新增逻辑；线上问题排查困难，难以快速定位到出错代码......

3.怎么实现代码可视化？

Call Graph 是程序中不同函数调用之间关系的图形表示。它显示了程序中的函数如何相互作用，使开发人员能够理解程序的流程并识别潜在的性能问题。

以下讲解代码可视化的一种方式 Call Graph 的生成方案，可以分为静态和动态分析：

3.1 静态程序分析

1）基于源码生成

在讲解使用源码生成 CallGraph 的流程前我们先复习一下编译原理的相关知识。

其中编译器前端部分主要是与源语言相关，主要包含：

词法分析：也叫扫描（scanning），他的主要任务是从左向右逐行扫描源程序的字符，识别出各个单词，确定单词的类型，将识别出的单词转换成统一的机内表示—— 词法单元 (token) 形式。可以类比英语字母合成单词的过程。

语法分析：也叫解析（parsing）。语法分析器 (parser) 从词法分析器输出的 token 序列中识别出各类短语，从而构造语法分析树 (syntax tree)，并判断源程序在结构上是否正确。可以类比为英语单词组合成句子。

语义分析：使用语法树和符号表中的信息来检查源程序是否和语言定义的语义一致，如：类型检查、上下文相关分析等。可以类比为检查英语句子是否有意义（如：Dog is cat，这种句子语法上没问题但语义上是不对的）。它同时也收集标识符的属性信息，并把这些信息存放在语法树或符号表中，以便在后面中间代码生成过程中使用。

中间代码：一种中间表示方式，所含信息可以推导出有关程序的全部事实。同一种中间代码可以复用优化器逻辑，并直接使用相关的编译器后端功能，使得各环节更独立更利于扩展。从结构上有图 IR、线性 IR 和混合 IR。

编译器后端部分主要是与目标语言相关，包含代码优化器和目标代码生成器，这部分和生成 CG 关系不大不作更多原理阐述，有兴趣的同学可以了解一下LLVM、Graalvm。