欢迎小主! 162导航

#大语言模型#

  • 爱可可-爱生活 5天前 北京

    【DeepSeek-R1图解:深度解析DeepSeek-R1模型,带你领略推理型大语言模型的魅力。亮点:1. 600,000条长推理链路数据,稀缺且昂贵,却为模型训练提供了坚实基础;2. 无需大量标注数据,通过大规模强化学习训练出的R1-Zero模型,推理能力与OpenAI O1相当;3. 结合监督微调和强化学习,让模型在推理与非推 ...全文

  • 麻省理工科技评论 6天前 开封

    【北航团队提出专家协同框架,小尺寸大模型协同效果或优于“巨无霸”大模型】 目前,以工业界为主导的大模型研究,主要通过拼算力、拼数据的方式,训练出一系列“巨无霸”大模型,并在各个评测榜单上争夺“头把交椅”,以此增强在#大模型# 领域的影响力。 然而,这种以竞争内卷为主的“个人英雄主义 ...全文

  • 零重力瓦力 13天前 上海

    在构建大语言模型(LLM)应用时,记忆系统是提升对话上下文管理、长期信息存储以及语义理解能力的关键技术之一。一个高效的记忆系统可以帮助模型在长时间对话中保持一致性,提取关键信息,甚至具备检索历史对话的能力,从而实现更智能、更人性化的交互体验。以下是实现 LLM 记忆系统的五种方式! 1. ...全文

  • a

    agentzh 42天前 

    Google 的 Gemini 大模型的 API 设计得既复杂又恶心。比如它的流式输出的 API 就很恶心,而批处理的 API 也很复杂(但却连请求粒度的自定义的关联 ID 都没有)。批处理接口居然会在结果里再重复一遍完整的请求数据,不知道是怎么想的…… 相比之下,Anthropic 的 Claude 模型的 API 是设计得最干净最合 ...全文

  • 林间竹音 75天前 上海

    发布了头条文章:《AI不能解开的迷》 #AI# #逻辑推理# #大语言模型# #智力游戏# #GPT-4# AI不能解开的迷

  • 学长阿宋 23天前 信阳

    怎样用AI高效学习? 你真的会用AI吗?手把手教你用人工智能高效学习!学会提问,学会利用AI,打造自己的“第二大脑”省掉各种报班的钱! #人工智能# #ai人工智能# #人工智能机器人# #大数据# #大语言模型#

  • O

    OneFlow 30天前 北京

    《900页免费“生成式AI与大模型”电子书|OneFlow年货》 2024年,OneFlow发布了80篇优质文章,一如既往记录和探讨了诸多生成式AI与大模型领域的变化。年末,我们从中精选60多篇文章,并制作成一份900页的“年货”赠予每一位读者朋友,希望帮助你了解大模型的构建过程,行业现状与趋势。这份合集分为八 ...全文

  • A

    AINLP 144天前 南京

    LLM大语言模型是如何工作的 #LLM # 大模型 #大语言模型 # NLP #深度学习 # 自然语言处理How Large Language Models Work AINLP的🎞︎微博视频

  • A

    AMiner学术头条 67天前 北京

    Qwen-Audio: Advancing Universal Audio Understanding Via Unified Large-Scale Audio-Language Models🔗 这篇论文介绍了一种名为Qwen-Audio的统一大规模音频语言模型,旨在通过扩大音频语言预训练范围,涵盖超过30个任务和各种音频类型,如人类语音、自然声音、音乐和歌曲,以实现 ...全文

  • 微软亚洲研究院 173天前 北京

    #AI论文分享# #科研上新# 更新啦 本期,我们为大家精选了微软亚洲研究院入选 #自然语言处理# 领域的国际顶级学术会议#ACL2024# 的6篇文章。最后一篇文章聚焦于#大语言模型# 的文本嵌入,一起来看看吧: 《E5-Mistral:大语言模型增强的文本嵌入》 文本嵌入模型将一段连续的文本映射成低维的稠 ...全文

  • S

    Serena_pancakes 136天前 

    糟心的投稿经历后今天终于有些舒心的事情🥹 我们的工作被EMNLP接受为Finding啦 “When Raw Data Prevails: Are Large Language Model Embeddings Effective in Numerical Data Representation for Medical Machine Learning Applications?” 我们全面检查了大语言模型对表格数据生成embedding的质量 ...全文

  • 贝瑞德RalfBrandstaetter 181天前 上海

    听说最近#city不city# 很火?让我来问问#ID. 与众# 的AI智能伙伴!😎 #ID. 与众# 搭载新一代认知智能#大语言模型# ,赋予了AI智能伙伴跨领域知识和自然语言理解能力,带来人机交互新体验! #智臻至美,与众不同# @大众汽车 @大众汽车ID与众 贝瑞德RalfBrandstaetter的🎞︎微博视频

  • 硅谷陈源博士 323天前 

    Yann LeCun一直批评大语言模型,认为不会推理。另外,他并不同意人类的思考和推理一定需要语言。他举了个例子,我的理解是他想说明解决类似问题,需要的是视觉和空间模型。 支持他的人说婴儿没有语言能力时,也会思考了。反对的人说,表达这个问题本身就需要语言。这个我不懂,不发表意见。 我更感兴 ...全文

  • 爱可可-爱生活 3天前 北京

    【[547星]smolGPT:从零开始训练自己的迷你大语言模型,轻松搞定小规模文本生成任务。亮点:1. 纯PyTorch实现,代码简洁无冗余;2. 高效训练,支持混合精度和梯度累积;3. 预训练模型仅需18.5小时,快速上手】 'SmolGPT: A minimal PyTorch implementation for training your own small LLM from scr ...全文

  • 安徽科协 4天前 

    所有人都在讨论的“DeepSeek”,究竟是啥?#DeepSeek是啥# #大语言模型# 🔗

  • 张安宝06 5天前 镇江

    枯竭了,分别让GPT4o、Kimi、DeepSeek生成一些拜年短信备用,还可以挑挑选选#大语言模型#

  • 吕蕴华 9天前 杭州

    【LLM技术报告】《Kimi k1.5:基于LLM的强化学习扩展研究》——Kimi k1.5技术报告(全文) - 来自知乎专栏「吕阿华的AIGC学习手册」,作者:吕阿华,🔗 #大语言模型# #国产大模型# #月之暗面发布新一代数学推理模型#

  • 子健-演创策划设计 12天前 上海

    通义千问在国内大语言模型中性能第一无可厚非。 豆包有庞大的用户基数,假如有一天它的模型性能超过了千问,那最该感谢的就是这么多用户给出的互动反馈和行为数据。 #大模型# #AI人工智能# #大语言模型# #人工智能发展# #AI工具#

  • 有氧理论 13天前 北京

    关于垂直领域#大语言模型# 应用的思考:七、 垂直领域大模型训练服务:医药和健康领域最广阔 当然一切行业都是需要在通用大语言模型基础上针对行业数据进行规模化训练以提供专业服务,降本增效。大语言模型专业行业知识再训练有个最大特点是集业内众多专家知识于一身,比如电信行业,有通讯专家、计算 ...全文

  • 一菲AIGC_AAIA 14天前 上海

    AI教母李飞飞谈世界模型(LWM) 和大语言模型(LLM)的本质区别~ #人工智能# AI #AI教母 # 李飞飞 #世界模型 # 大模型 #大语言模型# LWM #LLM# AGI#科技 一菲AIGC_AAIA的🎞︎微博视频

丨话题榜