网站首页 > 开源技术正文

AI驱动漏洞挖掘!利用智能体发现57个安卓APP未知漏洞

wxchong 2025-09-12 04:26:34 开源技术 13 ℃ 0 评论

A2智能体框架通过模仿人工分析过程，来识别安卓应用中的漏洞，并对其进行验证；
A2的主要创新在于通过验证器消除了绝大多数误报，将代码检测范式从扫描告警转向证据验证，让防守者聚焦真正的风险。

安全内参9月8日消息，来自南京大学和悉尼大学的两位研究人员开发出一个AI研究框架，用于在安卓应用中发现并验证漏洞。

该系统名为A2，它通过先对应用安全性进行推理，再尝试利用潜在缺陷进行验证，从而模拟人类专家的分析与验证过程。

在“智能体漏洞发现”阶段，系统结合语义代码理解与传统安全工具，生成关于漏洞的假设。下一阶段“智能体漏洞验证”则包括漏洞利用的规划、执行和验证，以确认假设是否成立。

作为研究的一部分，研究人员考虑了可能的威胁行为者，包括能够对安卓应用APK进行逆向工程、观察运行时行为，并通过安卓交互通道注入输入的攻击者。

他们在论文中指出：“这些攻击者并不掌控安卓平台、内核或硬件。需要root设备、定制固件或硬件侧信道的攻击均不在研究范围内。相反，对手会聚焦于开发者引入的应用层漏洞或不安全的库使用。”

A2漏洞挖掘智能体流程

当输入一个APK时，A2会借助大模型分析代码并推测潜在漏洞，同时结合静态应用安全测试（SAST）工具的警告，做出更多推测，并通过聚合器统一整合所有推测。

在下一阶段，每项推测都会交由概念验证（PoC）规划器，生成相应任务及预期结果。任务随后被执行，并由验证器检查结果进行迭代优化，直到漏洞成功验证或达到重试上限为止。

在分析环节，A2会对APK进行反编译，剔除第三方库并提取清单信息，然后对代码与清单数据进行处理。如果集成了第三方工具，还会将不同输出结果标准化，以便后续聚合。

接着，PoC规划器会基于漏洞特征制定验证计划并剔除误报，再将任务分配给执行器。研究人员解释称，执行器会在“代码执行、设备控制、文件系统、静态分析、界面交互、日志分析、APK生成以及Web服务器管理”等环节执行验证步骤。

最后，验证器会独立审查每个PoC结果，不会直接采信执行器报告的成功结论，而是依靠自身观察确认预期结果是否真正发生。

如果执行失败，或验证器否定了成功声明，反馈会返回PoC规划器，由其调整策略并重试。若所有任务均通过验证，整个流程即告完成。

发现57个APP漏洞，

中位数成本不足10美元

研究人员利用Gemini生成了82个潜在漏洞，其中19个被排除。在剩余的63个中，有56个被成功验证为真实漏洞，并生成了完整的PoC代码。

在考察A2在O3、Gemini和ChatGPT上的计算成本与效率时，研究人员估算：漏洞检测阶段，每个APK的成本不到1美元；而完整验证流程在Gemini上，每个漏洞的最高成本可达26.85美元（中位数为8.94美元）。

研究人员在包含160个APK的真实数据集上测试了该框架。在检测阶段报告的136个潜在漏洞，60个被验证为可利用的安全缺陷，29个被确认是误报，同时还识别出一些超出验证范围的缺陷。

人工复核结果显示，在最终确认的60个漏洞中，仅3个属于误报。其余57个问题涉及加密、访问控制及输入验证缺陷，并已被负责任地披露。

研究人员表示，A2是迈向安卓自动化安全分析的重要一步，它实现了比现有工具更高的覆盖率，但仍受到范围、大模型推理可靠性以及上下文相关性等多方面的限制。

参考资料：securityweek.com