编程开源技术交流,分享技术与知识

网站首页 > 开源技术 正文

阿里推出全新升级的DocOwl2文档理解LLM,性能飞跃提升

wxchong 2024-09-10 22:44:41 开源技术 8 ℃ 0 评论

1. mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding

多模型大型语言模型(MLLMs)通过提升对文档图像的支持分辨率,实现了无需OCR的文档理解性能。然而,这带来了为单个文档图像生成数千个视觉令牌的代价,导致GPU内存消耗过多和推理时间过长,尤其是在多页文档理解中。在本工作中,为解决这些挑战,我们提出了一个高分辨率DocCompressor模块,将每个高分辨率文档图像压缩为324个令牌,同时受到低分辨率全局视觉特征的指导。通过这个压缩模块,为了加强多页文档理解能力并平衡令牌效率和问题回答性能,我们开发了DocOwl2,采用了三阶段训练框架:单图像预训练、多图像继续预训练和多任务微调。DocOwl2在多页文档理解基准测试中设立了新的最佳水平,并将首个令牌延迟减少了超过50%,展示了多页提问回答、带有证据页面的解释以及跨页结构理解的高级能力。此外,与在相似数据上训练的单图像MLLMs相比,我们的DocOwl2在单页理解性能上达到了可比水平,但视觉令牌的数量减少了不到20%。我们的代码、模型和数据在公开平台上可获取,地址为:https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2。

论文: https://arxiv.org/pdf/2409.03420

2. Guide-and-Rescale: Self-Guidance Mechanism for Effective Tuning-Free Real Image Editing

尽管在文本到图像生成模型领域取得了近期进展,使用这些模型对真实图像进行操作仍然是一个具有挑战性的问题。现有编辑方法的主要局限在于,它们要么在各种图像编辑场景下的质量一致性上出现问题,要么需要耗时的超参数调整或对扩散模型进行微调,以保留输入图像的特定外观。我们提出了一种新颖的方法,它是基于修改后的扩散采样过程并通过指导机制构建的。

在本工作中,我们探索了自我指导技术来保留输入图像的整体结构及其局部区域的外观,这些区域不应被编辑。特别是,我们明确引入了用于保存布局的能量函数,旨在保存源图像的局部和全局结构。此外,我们提出了一个噪声缩放机制,允许在生成过程中通过调整,平衡分类器自由指导和我们提出的指导者之间的噪声分布,以保留噪声分布。这种指导方法不需要对扩散模型进行微调和精确反转过程。因此,所提出的方法提供了一种快速且高质量的编辑机制。在我们的实验中,通过人类评估和定量分析,我们展示了所提出的方法能够产生更受人类偏好的编辑结果,并且在编辑质量和原始图像的保留之间取得了更好的平衡。我们的代码可以在https://github.com/FusionBrainLab/Guide-and-Rescale上下载。

论文: https://arxiv.org/pdf/2409.01322

3. Attention Heads of Large Language Models: A Survey

自从ChatGPT的问世以来,大语言模型(LLMs)在各种任务中表现出色,但仍然主要作为黑箱系统存在。因此,它们的发展严重依赖于数据驱动的方法,限制了通过改变内部结构和推理路径来提升性能的可能性。因此,许多研究者开始探索LLMs的内部机制潜力,旨在识别推理瓶颈的本质,其中大多数研究集中在注意力头部。我们的调查旨在通过关注注意力头部的可解释性和内在机制,照亮LLMs的内部推理过程。我们首先将人类的思考过程提炼为四个阶段框架:知识回忆、情境识别、潜意识推理和表达准备。利用这个框架,我们系统地回顾现有研究,识别并分类特定注意力头部的功能。此外,我们总结了发现这些特殊头部的实验方法,分为两类:无模型方法和有模型方法。我们还概述了相关评估方法和基准。最后,我们讨论了当前研究的局限性,并提出了几个潜在的未来方向。我们的参考列表在https://github.com/IAAR-Shanghai/Awesome-Attention-Heads上开源。

论文: https://arxiv.org/pdf/2409.03752

4. FuzzCoder: Byte-level Fuzzing Test via Large Language Model

模糊测试是一种重要的动态程序分析技术,旨在发现复杂软件中的漏洞。模糊测试涉及向目标程序呈现精心设计的恶意输入,以引发崩溃、缓冲区溢出、内存错误和异常。以有效的方式构建恶意输入是一个困难的开放性问题,最好的方法通常是对现有的有效输入应用均匀随机变异。在本工作中,我们提出采用精细调整的大规模语言模型(FuzzCoder)来学习成功攻击中的输入文件模式,以指导未来的模糊测试探索。

具体来说,我们开发了一个框架,利用代码模型(Model)来指导模糊测试中的输入变异过程。变异过程被表述为序列到序列建模,其中模型接收一系列字节,然后输出变异的字节序列。FuzzCoder在创建的指令数据集(Fuzz-Instruct数据集)上进行精细调整,收集了从启发式模糊测试工具收集的成功模糊测试历史。FuzzCoder可以预测输入文件中的变异位置和策略位置,以触发程序的异常行为。实验结果表明,基于AFL的FuzzCoder在各种输入格式(包括ELF、JPG、MP3和XML)中,变异的有效比例(EPM)和崩溃次数(NC)方面取得了显著的改进。

因此,我们通过FuzzCoder的引入,能够更有效地发现复杂软件中的漏洞,提升模糊测试的效率和效果。

论文: https://arxiv.org/pdf/2409.01944

5. CDM: A Reliable Metric for Fair and Accurate Formula Recognition Evaluation

由于数学表达式的复杂结构和多变的表示方式, 公式识别面临显著挑战。尽管公式识别模型的持续进步,用于这些模型的评估指标,如BLEU和编辑距离,仍然存在明显的局限性。它们忽略了同一个公式有多种表示形式,且对训练数据分布的高度敏感性,从而导致公式识别评估的不公平性。为此,我们提出了一种字符检测匹配(CDM)指标,通过设计基于图像级别的评分,而不是LaTeX级别的评分,确保评估的客观性。具体来说,CDM将模型预测的LaTeX和真实LaTeX公式转换为图像格式的公式,然后采用视觉特征提取和定位技术进行精确的字符级别匹配,整合空间位置信息。这种方法在空间感知和字符匹配方面提供了一个比依赖于基于文本的字符匹配的BLEU和编辑距离指标更准确、更公平的评估。实验中,我们使用CDM、BLEU和ExpRate指标对各种公式识别模型进行了评估。结果显示,CDM更接近于人类评估标准,并通过消除由不同公式表示形式引起的不一致性,为不同模型提供了更公平的比较。

论文: https://arxiv.org/pdf/2409.03643

6. WildVis: Open Source Visualizer for Million-Scale Chat Logs in the Wild

现实世界对话数据的日益丰富为研究人员提供了研究用户与聊天机器人交互的激动人心的机会。然而,这种数据的大量使得逐一检查每个对话变得不切实际。为克服这一挑战,我们引入了WildVis,这是一个交互式工具,能够实现快速、灵活和大规模的对话分析。

为了处理百万级别的数据集,我们实现了优化,包括构建搜索索引、预计算嵌入并进行压缩以及缓存,以确保在几秒内提供响应式的用户交互。我们通过三个案例研究证明了WildVis的实用性:促进聊天机器人误用研究、可视化和比较数据集中的主题分布、以及描述用户特定的对话模式。WildVis是开源的,并且设计为可扩展的,支持额外的数据集和自定义搜索和可视化功能。

论文: https://arxiv.org/pdf/2409.03753

7. From MOOC to MAIC: Reshaping Online Teaching and Learning through LLM-driven Agents

自从最早的在线教育,课程被上传到可访问和共享的在线平台以来,这种传播人类知识以触及更广泛受众的方式,引发了广泛的讨论和广泛采用。认识到个性化学习仍然具有巨大的改进潜力,新的AI技术不断被整合到这种学习模式中,导致了诸如教育推荐和智能辅导等教育AI应用的多样化。大型语言模型(LLMs)智能的出现允许在统一的基础模型上构建这些教育增强功能,从而实现更深层次的整合。在此背景下,我们提出MAIC(大规模AI赋能课程),这是一种新的在线教育形式,利用由LLMs驱动的多智能体系统构建一个AI增强的教室,平衡了规模和适应性。除了探索概念框架和技术创新,我们在清华大学进行了初步实验,从超过10万条超过500名学生的学习记录中,我们获得了一系列有价值的观点和初步分析。这个项目将继续发展,最终旨在建立一个全面的开放平台,支持和统一研究、技术、和应用在探索大模型AI时代在线教育的可能性。我们设想这个平台是一个协作中心,将教育者、研究人员和创新者聚集在一起,共同探索AI驱动的在线教育的未来。

论文: https://arxiv.org/pdf/2409.03512

8. Geometry Image Diffusion: Fast and Data-Efficient Text-to-3D with Image-Based Surface Representation


从文本描述生成高质量的三维对象仍然是一个具有挑战性的问题,原因包括计算成本高昂、三维数据稀缺以及复杂三维表示的难题。我们引入了一种名为几何图像扩散(GIMDiffusion)的新型文本到三维模型,它利用几何图像来有效地使用二维图像表示三维形状,从而避免了需要复杂三维意识架构的需求。通过整合协作控制机制,我们利用了现有文本到图像模型如稳定扩散丰富的二维先验知识。这使得即使在有限的三维训练数据的情况下也能实现强大的泛化能力(允许我们仅使用高质量的训练数据),同时保留了与指导技术如IPAdapter兼容性。简而言之,GIMDiffusion使得生成的三维资产的速度与当前的文本到图像模型相当。生成的对象由语义上有意义的独立部分组成,并包括内部结构,从而提高了可用性和灵活性。

论文: https://arxiv.org/pdf/2409.03718

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表