爱可可-爱生活 5天前 北京
【DeepSeek-R1图解:深度解析DeepSeek-R1模型,带你领略推理型大语言模型的魅力。亮点:1. 600,000条长推理链路数据,稀缺且昂贵,却为模型训练提供了坚实基础;2. 无需大量标注数据,通过大规模强化学习训练出的R1-Zero模型,推理能力与OpenAI O1相当;3. 结合监督微调和强化学习,让模型在推理与非推 ...全文
爱可可-爱生活 5天前 北京
【DeepSeek-R1图解:深度解析DeepSeek-R1模型,带你领略推理型大语言模型的魅力。亮点:1. 600,000条长推理链路数据,稀缺且昂贵,却为模型训练提供了坚实基础;2. 无需大量标注数据,通过大规模强化学习训练出的R1-Zero模型,推理能力与OpenAI O1相当;3. 结合监督微调和强化学习,让模型在推理与非推 ...全文
零重力瓦力 13天前 上海
在构建大语言模型(LLM)应用时,记忆系统是提升对话上下文管理、长期信息存储以及语义理解能力的关键技术之一。一个高效的记忆系统可以帮助模型在长时间对话中保持一致性,提取关键信息,甚至具备检索历史对话的能力,从而实现更智能、更人性化的交互体验。以下是实现 LLM 记忆系统的五种方式! 1. ...全文
agentzh 42天前
Google 的 Gemini 大模型的 API 设计得既复杂又恶心。比如它的流式输出的 API 就很恶心,而批处理的 API 也很复杂(但却连请求粒度的自定义的关联 ID 都没有)。批处理接口居然会在结果里再重复一遍完整的请求数据,不知道是怎么想的…… 相比之下,Anthropic 的 Claude 模型的 API 是设计得最干净最合 ...全文
OneFlow 30天前 北京
《900页免费“生成式AI与大模型”电子书|OneFlow年货》 2024年,OneFlow发布了80篇优质文章,一如既往记录和探讨了诸多生成式AI与大模型领域的变化。年末,我们从中精选60多篇文章,并制作成一份900页的“年货”赠予每一位读者朋友,希望帮助你了解大模型的构建过程,行业现状与趋势。这份合集分为八 ...全文
AMiner学术头条 67天前 北京
Qwen-Audio: Advancing Universal Audio Understanding Via Unified Large-Scale Audio-Language Models🔗 这篇论文介绍了一种名为Qwen-Audio的统一大规模音频语言模型,旨在通过扩大音频语言预训练范围,涵盖超过30个任务和各种音频类型,如人类语音、自然声音、音乐和歌曲,以实现 ...全文
Serena_pancakes 136天前
糟心的投稿经历后今天终于有些舒心的事情🥹 我们的工作被EMNLP接受为Finding啦 “When Raw Data Prevails: Are Large Language Model Embeddings Effective in Numerical Data Representation for Medical Machine Learning Applications?” 我们全面检查了大语言模型对表格数据生成embedding的质量 ...全文
贝瑞德RalfBrandstaetter 181天前 上海
听说最近#city不city# 很火?让我来问问#ID. 与众# 的AI智能伙伴!😎 #ID. 与众# 搭载新一代认知智能#大语言模型# ,赋予了AI智能伙伴跨领域知识和自然语言理解能力,带来人机交互新体验! #智臻至美,与众不同# @大众汽车 @大众汽车ID与众 贝瑞德RalfBrandstaetter的🎞︎微博视频
硅谷陈源博士 323天前
Yann LeCun一直批评大语言模型,认为不会推理。另外,他并不同意人类的思考和推理一定需要语言。他举了个例子,我的理解是他想说明解决类似问题,需要的是视觉和空间模型。 支持他的人说婴儿没有语言能力时,也会思考了。反对的人说,表达这个问题本身就需要语言。这个我不懂,不发表意见。 我更感兴 ...全文
爱可可-爱生活 3天前 北京
【[547星]smolGPT:从零开始训练自己的迷你大语言模型,轻松搞定小规模文本生成任务。亮点:1. 纯PyTorch实现,代码简洁无冗余;2. 高效训练,支持混合精度和梯度累积;3. 预训练模型仅需18.5小时,快速上手】 'SmolGPT: A minimal PyTorch implementation for training your own small LLM from scr ...全文
安徽科协 4天前
所有人都在讨论的“DeepSeek”,究竟是啥?#DeepSeek是啥# #大语言模型# 🔗
张安宝06 5天前 镇江
枯竭了,分别让GPT4o、Kimi、DeepSeek生成一些拜年短信备用,还可以挑挑选选#大语言模型#
吕蕴华 9天前 杭州
【LLM技术报告】《Kimi k1.5:基于LLM的强化学习扩展研究》——Kimi k1.5技术报告(全文) - 来自知乎专栏「吕阿华的AIGC学习手册」,作者:吕阿华,🔗 #大语言模型# #国产大模型# #月之暗面发布新一代数学推理模型#