爱可可-爱生活 30天前 佛山
【从零开始构建大语言模型的开源教程。亮点:1. 不依赖外部库,仅用Python和PyTorch即可实现;2. 详细讲解从基础到进阶的LLM构建过程;3. 包含训练、微调代码,助力快速上手】 'All you need to know about LLM: a LLM tutorial' GitHub: github.com/KaihuaTang/All-you-need-to-know-about-LLM ...全文
爱可可-爱生活 30天前 佛山
【从零开始构建大语言模型的开源教程。亮点:1. 不依赖外部库,仅用Python和PyTorch即可实现;2. 详细讲解从基础到进阶的LLM构建过程;3. 包含训练、微调代码,助力快速上手】 'All you need to know about LLM: a LLM tutorial' GitHub: github.com/KaihuaTang/All-you-need-to-know-about-LLM ...全文
零重力瓦力 7天前 上海
大语言模型领域迎来一个重大突破!Inception Labs 推出了首个生产级【扩散型大语言模型】(Diffusion Large Language Model):Mercury。这一创新打破了传统大语言模型顺序生成文本的局限,将扩散模型的优势引入文本生成领域,实现了惊人的性能提升:推理速度提高 10 倍,成本降低 10 倍。 传统大语言 ...全文
麻省理工科技评论 1天前 北京
【比传统语言模型快10倍,首个商业规模的扩散语言模型,究竟是什么来头?】 前不久,硅谷的一家初创公司 #Inception Labs# 正式从隐身模式中浮出水面,推出了 Mercury,这是全球首个基于扩散模型(Diffusion Model)的#商业级语言模型# 。 与传统的自回归#大语言模型# 不同,Mercury 采用了一种全新 ...全文
硅谷陈源博士 22天前
大力出奇迹,马斯克的xAI用10万张英伟达GPU卡炼出来的最新大模型Grok-3在评估中ELO得分超过1400,在所有知名大模型中排名第一 (积分和排名见图1)。什么是大模型的ELO评分? ELO分数和排名系统由物理学家Arpad Elo提出,并以他的名字命名。一开始是用来计算国际象棋选手的等级分。这个方法根据两名选 ...全文
OneFlow 71天前 北京
《900页免费“生成式AI与大模型”电子书|OneFlow年货》 2024年,OneFlow发布了80篇优质文章,一如既往记录和探讨了诸多生成式AI与大模型领域的变化。年末,我们从中精选60多篇文章,并制作成一份900页的“年货”赠予每一位读者朋友,希望帮助你了解大模型的构建过程,行业现状与趋势。这份合集分为八 ...全文
agentzh 83天前
Google 的 Gemini 大模型的 API 设计得既复杂又恶心。比如它的流式输出的 API 就很恶心,而批处理的 API 也很复杂(但却连请求粒度的自定义的关联 ID 都没有)。批处理接口居然会在结果里再重复一遍完整的请求数据,不知道是怎么想的…… 相比之下,Anthropic 的 Claude 模型的 API 是设计得最干净最合 ...全文
AMiner学术头条 108天前 北京
Qwen-Audio: Advancing Universal Audio Understanding Via Unified Large-Scale Audio-Language Models🔗 这篇论文介绍了一种名为Qwen-Audio的统一大规模音频语言模型,旨在通过扩大音频语言预训练范围,涵盖超过30个任务和各种音频类型,如人类语音、自然声音、音乐和歌曲,以实现 ...全文
迪拜中阿卫视 8小时前 北京
人工智能预计阿联酋官员下周在访问白宫期间将讨论加强经济伙伴关系、投资和人工智能和高性能微芯片相关事项,此次访问“以双边为重点。近年来,阿联酋--阿拉伯世界的第二大经济体--一直在寻求成为人工智能领域的领导者,因为它持续推动其经济多元化。2019年,早在许多人想到人工智能之前,阿联 ...全文
遇见舒伯特 20小时前 深圳
大模型用久了,觉得自己的语言组织能力越发退步了,完任务似的赶出来的东西发表后,回头再读,总觉得差强人意。 其中一个明显的退步表现是:说话啰里吧嗦、用词重复、不够凝炼。一句话十几个字,不必要的定语和副词却能占去二分之一。 作为文章组成器官的一句句话跟刚切好的水豆腐似的排在一起。打外 ...全文
计算机科学技术学报JCST 2天前 北京
【JCST重点推荐】JCST于2025年第1期出版一篇关于关系抽取的研究论文。该论文提出了混合语言关系抽取任务,构建了首个人工标注的混合语言关系抽取数据集,并探索了现有的关系抽取模型在混合语言环境中的有效性。同时该论文研究了如何将大语言模型的能力适配到混合语言场景下的关系抽取任务中。 ...全文
陈言Linkc-Chen 2天前 北京
Google发布 Gemma 3。提供 1B(10 亿参数) 到 27B(270 亿参数) 四种版本。小模型适合手机等低功耗设备,大模型则能应对更复杂的任务。LM Studio距离真正使用又进一步。 模型特点: - 小参数规模高性能:即使是最大的 27B 模型,也能在单个 GPU 或 TPU 上运行,不需要昂贵的多 GPU 配置。它的性能甚 ...全文
浙江科普 4天前 杭州
【接入DeepSeek,绍兴科技馆开启智慧服务新模式】当科技馆遇见人工智能,会碰撞出怎样的火花?即日起,绍兴科技馆正式接入DeepSeek,以“AI+科普”为引擎,将大语言模型、数字人交互、智能生成等尖端技术融入科技馆展品,打造高效、便捷的智慧服务体系。从“微信公众号智能问答”到“科学家精神展区数 ...全文
爱可可-爱生活 6天前 北京
【大语言模型推理能力的现状与前沿进展。亮点:1. 汇总了2025年推理模型的最新研究成果;2. 详细解读了推理时计算扩展方法;3. 涵盖了12篇关键论文,涵盖从简单到复杂的推理优化技术】 'The State of LLM Reasoning Models: Exploring recent advancements in reasoning-optimized LLMs with a focus ...全文