DeepSeek“蒸馏模型”是否超越原创

阅读 686213　话题 2945

DeepSeek的“蒸馏模型”超越原创？美国要对“蒸馏技术”下手
中国人工智能初创公司DeepSeek在过去一周成为硅谷热议的对象，并触发了本周一美国科技股“崩盘”。1月29日，OpenAI最新称，它发现有证据表明中国人工智能初创公司DeepSeek使用其专有模型来训练自己的开源模型，并暗示这可能违反了OpenAI的服务条款。
第一财经　49733 阅读　475 评论　2025-01-30 13:39
DeepSeek的蒸馏技术
馬世研　10940 播放　1 评论　2025-01-29 21:02
关于DeePseek自己看待OpenAI蒸馏问题 #deepseek #人工智能
过客般旅行　121 播放　0 评论　2025-01-30 21:10
..+中国人工智能Deepseek（的普CK)小模型的崛起，必将带动边缘算力的的增长和应用落地。首先是带动智能玩具产业的快速增长。后面就是消费升级的增长，智能眼镜，智能家居产品的升级换代，必如智能电饭锅，智能空调，智能烧水壶，智能电暖气…………等行业的发展。以后我烧水也不用跑过去按按钮了，只需说一声，水壶把水给我烧开，水壶就自动开始烧水了。如果再有一个小机器人：小机器人，给我把茶泡好……给我把饭做好……这个估计的十几万元吧，就不想了。
刚刚的投资日记　11801 阅读　3 评论　42 点赞　2025-01-29 10:41
..+跟春节一起火爆的是DeepSeek的发布，也同时带火了“蒸馏（distillation）”一词。在机器学习领域，“蒸馏”是指“小模型（学生模型）”向“大模型（教师模型）”学习的过程。通常情况下，首先利用传统训练算法让大模型Mt学习特定数据集，特定数据集由{(样本，标签)}组成；而小模型Ms学习的数据集则是由{(样本，Mt(样本)}组成的。打个比方，大模型相当于老师，小模型相当于学生。大模型通过自学习题集来获取知识，而小模型则是通过教师对习题的讲解，即Mt(样本)，来学习的。“讲解的内容”包含了教师对习题的理解、浓缩和升华，也就是“蒸馏”。
老顽童　3864 阅读　1 评论　1 点赞　2025-01-30 18:56
..+就在1月29号那天，OpenAI嚷嚷着说发现了点儿迹象，觉得中国那个叫DeepSeek的人工智能初创公司好像用了自家的专有模型去训练它自己的开源模型，这可能违反了OpenAI的服务条款呢，不过吧，它也没拿出啥确切证据来。要知道，OpenAI的服务条款可是规定了用户不能“复制”服务，也不能利用人家的输出去开发竞争模型。咱再说说数据蒸馏这事儿啊，它就是一种挺常见的技术手段。怎么说呢，就好比是用一些算法策略去对那些原始的复杂数据进行各种操作，像去噪啦、降维啦、提炼啥的，最后弄出精炼又有用的数据来。说白了，就是想把复杂模型里的知识提炼到简单模型里去。你看，DeepSeek - V3的技术文档里就说，这个模型用数据蒸馏技术生成了高质量的数据来提高训练效率，它是通过已有的高质量模型合成少量高质量数据，然后拿这些数据去训练新模型，据说能达到跟用原始数据训练差不多的效果呢。以前大模型训练就跟搞题海战术似的，而蒸馏呢，就好比是让那些优秀的大模型给新模型当老师，帮忙筛选出有效题目再去训练。不过之前有学者觉得蒸馏技术有个“隐性天花板”，虽然能提高模型训练效率吧，但是开发出来的模型没办法超越基础模型的能力。比如说在拓展到新领域或者应对新挑战的时候，这种限制就会很明显地凸显出来，而且在多模态数据方面效果也不咋地。可这DeepSeek呢，发布了最新的视觉模型Janus - Pro，它在多模态理解以及文生图指令遵从能力方面那可是显著提升啊，都超越了DALL - E 3和Stable Diffusion。我觉得蒸馏跟Llama开源模型那种类似的做法还是挺合理的，它能加快大模型的迭代速度，也能避免浪费资源。你看全球那么多AI初创公司，好多都在运用多种大模型蒸馏融合技术弄出那种“多专家模型”，说不定就能超越原始模型呢。为啥这么说？因为这种“多专家模型”泛化能力更强，信息也更丰富，性能就能提升嘛，就好比一个团队里不同的“专家”去处理不同难度的任务。有个家伙分析说，关键问题不在于DeepSeek蒸馏了其他大模型，而是为啥它能脱颖而出呢？它怎么就能以低成本达到高性能呢？可不是所有公司投入资源都能做到这样的。因为它把多专家模型、训练时长这些事儿完美地平衡好了，所以投入产出特别高效。但也有AI研究人员指出，要是过度依赖蒸馏技术这种“捷径”，可能会导致研发人员都放弃对基础模型的探索了。
Glaze的晶彩　3183 阅读　3 评论　0 点赞　2025-01-30 15:58
..+#DeepSeek冲击结束了吗# 说了好几天都没把“大模型”与“知识蒸馏”说透！ ①盲人=现在的大模型→一个中国式“盲人摸象”的全球化现在版！所有数据描述的本来是一头大象，也就是10个瞎子(大摸型)用无穷n个因子实际描述成了象腿、象肚、象尾、象鼻…… 美其名曰: 专业名词叫最优解≈最优概率，老百姓叫大其概=差不多=几乎，实质也可以叫中位数(或平均数)， ②知识蒸馏=高考试题泄密=也有叫知识套壳=你也可以叫抄=偷=窃，反正提前知道答案，并且答案还是差等生的！抄也没抄明白[大笑] ③炒了这几天都没炒明白实质: 瞎子抄瞎子作业=瞎子偷瞎子的答案=差等生抄了差等生的作业； 1号瞎子说我的性能强、因子多、因为用的图形芯片多，2号瞎子抄了说我的成本低、性能更高、还不用高价芯片； 1号气坏了说2号偷，忽然又出来个3号说大伙都在偷，要不你把兜底翻过来让大伙看一下？实质目的都是换了个概念→讲课、卖货，还卖了个“水货”！关键这些数据所有权是老百姓的！老百姓同意了吗？你给老百姓交钱了吗？？你拿了中国老百姓历朝历代的数据，说“我是科学家”！这是中国的文化产权你凭嘛白使唤，使完还能了个“水货”再忽悠卖、卖、卖…… “我”有知识产权！
蓝海人性科技　1580 阅读　0 评论　1 点赞　2025-01-31 00:18
2025年将寻找更多融合Deepseek与直播技术的机会。 2025年将寻找更多融合Deepseek与直播技术的机会。开发更多实用功能。
AI赋能直播创业　28 播放　0 评论　2025-01-30 13:43
..+美国佬又创造了个新词“蒸馏”，来忽悠笨蛋，放汽车行业这就好比你买竞品汽车回去，然后拆开它的发动机进行研究，并提取精华进自己的产品一样，这种事哪个行业都在做，这应该属于公开知识的一部分。OpenAI自己的训练素材也都是搬运的其他行业的公开知识。
好一个清流　2135 阅读　0 评论　1 点赞　2025-01-30 21:46
..+【知道分子】-109 美国科技界在消化了两天后，基本上了解DeepSeek的“低成本”是怎么一回事了。就是怎么算的问题。你算这个成本的时候不能把别人前期研究花费投入的都排除在外。
看图说话　273 阅读　0 评论　0 点赞　2025-01-30 22:10
..+DeepSeek模型的技术强在哪里。以开会为例来比喻。其他大模型：为解决一个问题，一群公司专家开会商讨，然后总结分析，找出答案。 ds模型：为解决一个问题，全世界精英（其他大模型）开会商讨，然后他总结分析，找出答案。
强者荣耀　2795 阅读　0 评论　1 点赞　2025-01-30 10:52
openai是闭源？你从哪儿来的信息？用数据训练模型是抄袭模型，这是多少年的老年痴呆了[捂脸][捂脸][捂脸] openai最多说用了他们的数据，但是否合法不好说，当然老美会制定新法律。
内蒙小包总3M3I　2025-01-29 17:27
openAI与deepseek抄袭争议。#人工智能 #商业思维 #巴以冲突
众沙行键盘侠　272 阅读181818　0 评论　2025-01-30 10:18
..+让DeepSeek模仿过秦论，写了篇过日本论，看完后觉得还真有那么回事。这AI写文章，速度真是绝了，10秒钟搞定，比我码字快多了！以前说“下笔如有神”，现在看来，AI才是真神，妥妥的降维打击！这DeepSeek模仿的“过日本论”，核心意思就是说日本现在这发展路子有点悬，有点像当年的秦国，看着强大，其实危机四伏。它列举了一堆问题，比如老龄化严重、经济停滞、年轻人躺平、政治僵化等等，感觉还挺有道理的。这篇文章细想一下，还真有点意思。日本现在确实面临不少挑战，经济上创新乏力，人口老龄化又加剧了社会负担，年轻人压力山大，看不到希望，干脆躺平了。政治上也比较保守，改革阻力很大。这些问题叠加在一起，确实让人对日本的未来捏把汗。不过，这AI写的东西，咱也不能全信。它只是根据现有数据和信息进行分析，缺乏对复杂社会现实的深入理解。日本毕竟也是个发达国家，底子厚，韧性强，说不定哪天就找到突破口了。最后，还是想感叹一下，这AI发展速度真是吓人，以后写文章说不定都得靠它了。就是不知道这AI写的东西，以后谁来负责？要是AI写的东西出了问题，这锅谁来背？这还真是个值得思考的问题！
素锦流年　541 阅读　0 评论　1 点赞　2025-01-30 16:20

更多 #DeepSeek“蒸馏模型”是否超越原创# 热榜请移步今日头条 >>

162

DeepSeek“蒸馏模型”是否超越原创

DeepSeek的“蒸馏模型”超越原创？美国要对“蒸馏技术”下手

丨头条热榜