欢迎小主! 162导航

#多模态#

  • 爱可可-爱生活 95天前 北京

    【Mini-LLaVA:一款轻量级的多模态大语言模型,能处理图像、文本和视频输入,实现高效且灵活的多模态数据处理】'Mini-LLaVA - A minimal implementation of LLaVA-style VLM with interleaved image & text & video processing ability.' GitHub: github.com/fangyuan-ksgk/Mini-LLaVA #多模态# ...全文

  • 微软亚洲研究院 100天前 北京

    #AI论文分享# #科研上新# 第15期更新啦 本期,我们为大家精心挑选了4篇AI领域的前沿论文 第一篇文章中,研究员们提出了 BABEL 框架,使用模态对齐的方法来进一步推进#多模态# 感知, 一起来看看吧 ! 《通过扩展式模态,对齐推动多模态感知》 感知(sensing)技术如今已被广泛地应用 ...全文

  • S

    Simon的白日梦 585天前 

    听说你也想要AI看图说话,但是没有GPT4,又跑不起动辄十几G显存的大模型? 之前清华开源的“最小的”60亿参数模型推出了多模态图像版!VisualGLM-6B ! 结合模型量化技术,用户可以在消费级的显卡上进行本地部署,INT4精度下|最低“只”需8.7G显存。但是支持中文,能写诗( ...全文

  • 爱可可-爱生活 106天前 北京

    【Qwen2-VL-Finetune:开源实现,用于微调Qwen2-VL-2B和Qwen2-VL-7B模型,支持多图像和视频训练,优化了Liger-Kernel的训练过程】'An open-source implementaion for fine-tuning Qwen2-VL-2B and Qwen2-VL-7B.' GitHub: 2U1/Qwen2-VL-Finetune #微调# #多模态# #视觉语言模型# #开源项目#

  • 爱可可-爱生活 2天前 北京

    【AI越狱攻防:聚焦多模态生成模型的安全漏洞研究,提供越狱攻击与防御策略的全面概览,旨在提升AI模型的安全性和鲁棒性】'A Survey on Jailbreak Attacks and Defenses against Multimodal Generative Models' GitHub: github.com/liuxuannan/Awesome-Multimodal-Jailbreak #AI安全# #多模态# ...全文

  • A

    AMiner学术头条 20天前 西安

    TokenFlow: Unified Image Tokenizer for Multimodal Understanding and Generation🔗 本文介绍了一种名为TokenFlow的新型统一图像编码器,旨在弥合多模态理解和生成之间的长期差距。该研究指出,理解和生成任务需要不同粒度的视觉信息,传统的单一重建目标向量量化编码器在处理这两 ...全文

  • 量子位 93天前 北京

    多模态大模型在B端场景中,有哪些应用场景和空间?若视频到视频这一终极场景实现,行业会有哪些颠覆性改变?数字人、虚拟人等人物视频以后的技术路线是什么样子的? 今晚7点锁定 @量子位 微博,关注 #AI问爱答# 为您解答AI热点问题。评论区留下您的问题,将有机会由AI专家亲自答~ #AI问爱答# ...全文

  • 杨玲 212天前 北京

    前几年还很小众的AI大模型,是怎么火起来的?#人工智能# #大模型# #多模态# #科技创新# 杨玲的🎞︎微博视频

  • A

    AIGCLINK 126天前 运城

    一个可以原生理解语音和文本输入的多模态模型:Llama3-s v0.2,能够同时处理音频和文本信息 特点: 1、语音理解能力提升: Llama3-s v0.2 在多个语音理解基准测试中表现出色,能够理解人类语音并用文本进行回应 2、模型架构改进: 该项目采用了早期融合的架构,使用语义标记来提高模型的效率和泛化能力 ...全文

  • 绝影智能SenseAuto 125天前 上海

    8月23日-25日,第十届中国(大湾区)车联网大会暨粤港澳大湾区(广州)智慧交通博览会盛大召开。@绝影智能SenseAuto 受邀参加颁奖盛典,从众多企业中脱颖而出,揽获2023-2024年度“车路云”一体化新锐企业奖! 商汤绝影的“车路云”一体化方案能够提供云控平台、路侧基础设施全息感知 ...全文

  • 数治网 16天前 上海

    6000字全览新发布的《人工智能发展报告(2024年)》(附下载) 🔗 报告立足产业新发展、新变化、新需求,聚焦新形势下全球人工智能发展重点,总结梳理人工智能技术创新方向、产业升级重点、行业落地趋势和安全治理进展,展望人工智能发展机遇。 人工智能 #具身智能# #可持续 ...全文

  • A

    AI人工智能咨询 22天前 邯郸

    AI大模型的应用场景有哪些呢? AI大模型,尤其是大规模预训练模型,如GPT-3、BERT、T5等,因其强大的语言理解、生成和知识存储能力,被广泛应用于多个领域。以下是一些AI大模型的主要应用场景: 1. 自然语言处理(NLP): 机器翻译:实现不同语言之间的自动翻译。 文本摘要:自动生成文章或报告的摘 ...全文

  • A

    AI论文热榜 53天前 北京

    3D和4D生成;超越CLIP的无限模态对比学习!今日AI论文推荐海报。 #多模态# #人工智能# #计算机视觉# ChatGPT人工智能#数字人#

  • 翻译技术点津 73天前 西安

    A股不能预测但是大语言模型趋势可以! 英语#翻译技术点津# 翻译技术#翻译# #多模态# #大语言模型# 翻译 翻译技术点津的🎞︎微博视频

  • 每天都拉屎的漂亮宝贝在摸鱼 94天前 

    ELAN一会儿蓝屏一会儿声画不同步一会只有声音画面静止,有的时候声音也没有,有没有大神知道是为什么啊#一会儿一会儿造句# #ELAN多模态分析# #多模态# #多模态交互#

  • 尧舜禹主任司马启 94天前 潮州

    #meta# #多模态# 财经 Meta Platforms发布了多模态LLAMA3.2人工智能模型,能够同时理解图像和文本。 一、模型概述 名称:多模态LLAMA 3.2人工智能模型 发布方:Meta Platforms 核心功能:能够同时处理和理解图像与文本数据,实现跨模态的信息交互与理解。 二、技术特点 多模态融 ...全文

丨话题榜