DeepSeek再放大招Janus
DeepSeek再放大招Janus-Pro-7B 开源,这是最新的视觉多模型态模型,其在 GenEval 和 DPG-Bench 基准测试中击败了 Stable Diffusion 和 OpenAI 的 DALL-E 3。下面大家来详细了解下这则消息吧!
GitHub:点此前往
HuggingFace:点此前往
官方对该模型的说明大意如下:
Janus-Pro 是一种创造的自回归框架,实现多模态信息的统一领会和生成。和以往的方式不同,Janus-Pro 通过将视觉编码经过拆分为多个独立的途径 ,化解了以往框架中的一些局限性,同时仍采用单一的统一变换器架构进行处理。
这一解耦方法不仅有效缓解了视觉编码器在领会和生成经过中也许出现的冲突,还提高了框架的灵活性。
Janus 的表现超越了传统的统一模型,而且在和任务特定模型的相对中也同样表现出色。凭借其简洁、高灵活性和高效性的特征,Janus-Pro 成为下一代统一多模态模型的有力竞争者。
简介的大意如下:
Janus-Pro 一个统一的多模态大语言模型(MLLM),通过将视觉编码经过从多模态领会和生成中解耦来实现更高效的处理。Janus-Pro 是基于 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 模型构建的。
在多模态领会任务中,Janus-Pro 采用 SigLIP-L 作为视觉编码器,支持 384 x 384 像素的图像输入 。而在图像生成任务中,Janus-Pro 运用壹个来自特定来源的分词器,降采样率为 16。
Janus-Pro 是先前职业 Janus 的进阶版本。具体来说,Janus-Pro 整合了优化的训练策略、扩展的训练数据,以及更大模型规模的扩展。通过这些改进,Janus-Pro 在多模态领会和文本到图像指令遵循能力方面取得了显著进展,同时还增强了文本到图像生成的稳定性。
据官方说明,JanusFlow 引入了一种极简架构,它将自回归语言模型和校正流 (一种最先进的生成模型方式)相集成。研究发现,校正流可以直接在大型语言模型框架内进行训练,无需复杂的架构调整。大量实验表明,JanusFlow 在各自领域内取得了和专用模型等于甚至更好 的性能,同时在标准基准测试中显著优于现有的统一方式。这项职业代表着朝着更高效、更通用的视觉语言模型迈进了一步。