DeepSeek大模型强在哪

阅读 37901186　话题 162666

不仅开源还便宜好用，硅谷员工直呼“火烧屁股”的DeepSeek大模型强在哪
国产大模型公司深度求索（DeepSeek）发布的最新AI（人工智能）大模型在海外引起开发者和投资者的热议。1月20日，量化巨头幻方量化旗下大模型公司DeepSeek正式发布推理大模型DeepSeek-R1。
澎湃新闻　19877 阅读　128 评论　2025-01-26 15:24
美媒紧盯DeepSeek：美国人还能保住AI领先地位吗，巨额投入是否值得？
【文/观察者网刘程辉】这些天，中国人工智能公司深度求索（DeepSeek）开发的AI模型犹如一枚重磅炸弹，给西方业界造成的冲击久久未能平息。各大西方媒体乃至AI团队和投资者都想知道：在没有顶尖芯片的情况下，中国人是如何用更低的成本，创造出足以匹敌美国顶尖AI模型的产品的？
观察者网　49840 阅读　269 评论　2025-01-26 23:38
DeepSeek朝硅谷“开了一枪”
《科创板日报》1月27日讯（记者张洋洋）几乎是一夜之间，“来自东方的神秘力量”又一次击中海外人士心脏。近两日，国产AI黑马DeepSeek（深度求索）在全球科技界刷屏。新模型发布后的访问量激增，一度让DeepSeek闪崩，但问题在数分钟内得到解决。
财联社　4232 阅读　9 评论　2025-01-27 07:57
"DeepSeek闪耀AI舞台，开源创新引美国科技圈瞩目"
了然说事　32 播放　0 评论　2025-01-27 20:02
中国AI—deepseek震惊硅谷
沙漠海3456789　1956 播放　1 评论　2025-01-27 05:06
中国公司掀起大模型风暴#创作者伙伴计划
东方国际　15 播放　0 评论　2025-01-27 22:03
Deepseek横空出世AI巨头全跪了，全美恐慌！#deepseek #Deepseek横空出世
山丘娱记　22 播放　0 评论　2025-01-27 23:54
..+和DeepSeek一样牛的AI软件，我国还有6款。一、智谱清言。这款软件是清华大学参与研发的。它用起来特别方便，学习能力强，功能也多。你不光能用它查信息，像管理日程、看天气预报、听新闻播报这些，它都能帮你搞定，就像个贴心的生活小帮手。二、豆包。这是字节跳动公司开发的。它可牛了，属于多模态大模型，不光能处理文字，像图片、音频、视频这些不同类型的数据，它也能理解和生成。像平常咱们要识别个图片，或者按文字描述生成图片，甚至跟它语音聊天，它都能行。通过多种方式跟咱互动，帮咱解决生活、学习还有工作里碰到的各种难题。三、文心一言。这是百度研发的。它在知识增强和多模态生成方面有一手，特别是写文学作品、商业文案，做数理逻辑题，还有对中文的理解上，优势特别明显。要是你想写点东西，或者研究研究数理问题，找它就对了。四、通义千问。这是阿里云推出的。它规模超大，能跟你多轮互动，还能理解多种模态。它特别擅长写代码、翻译语言、逻辑推理还有创作文案这些事儿。而且它有个智能体，能按照你要创建的角色，自动设置一些条件和技能，很智能。五、讯飞星火。这是科大讯飞的产品，最大的特色就是语音交互能力强。从发布到现在，已经更新好几个版本了，最新的讯飞星火V4.0直接对标GPT - 4turbo 。除了基本的生成文本、回答问题，它在语音识别和跟人互动这块表现特别亮眼，好多方言和外语它都能识别。六、Kimi。这是月之暗面科技开发的。它处理超长文本和检索信息的能力很突出，要是你需要写长篇大论的文章，或者整理信息、获取知识，用Kimi就很合适。虽然AI在外国起步比较早，但在我国技术人员的努力下，不但迈大步追上了他们，甚至有了要超越他们的势头。年轻人们太真是棒了。不知道大家还知不知道，其他更好用的国产AI软件？评论区说说吧！
财务主管小雪　1333 阅读　0 评论　0 点赞　2025-01-27 23:32
..+#ChatGPT回应被DeepSeek超越# DeepSeek超越ChatGPT的消息引发了广泛关注，尤其是在人工智能领域。作为一个AI模型，我可以从几个角度来分析这一现象。 1. 技术进步与竞争人工智能技术的发展是一个快速且动态变化的过程。任何一项技术的突破，尤其是深度学习和自然语言处理领域的创新，都会引发行业的变革。DeepSeek的超越意味着它可能在某些技术或应用上做出了重要的突破，比如更高效的模型架构、更精准的语言理解、或者在某些特定任务上表现更佳。这样的竞争与进步推动了整个行业向前发展。从技术发展的角度来看，AI模型和工具的竞争是不可避免的。不同的公司和研究团队可能会在不同的方向上取得突破，推动整体的技术进步。即便是领先的技术，如ChatGPT，也会被不断创新的后续技术所挑战。这种竞争会加速AI技术的进化，并且提升应用的多样性和性能。 2. ChatGPT的优势与局限 ChatGPT作为OpenAI的一个代表性模型，具有强大的自然语言处理能力，能够进行多样化的对话、文本生成、语言理解等任务。但它也有一定的局限性，例如在某些专业领域的知识深度或推理能力方面，可能没有特定定制模型那样精细。此外，ChatGPT有时在一些特定问题上可能表现不如专门训练的模型。随着DeepSeek等其他AI的崛起，我们看到不同的AI有各自的优势和特点。DeepSeek可能在某些领域或任务上取得了技术性突破，挑战现有的主流AI模型。 3. AI发展趋势：多样性和合作超越并不意味着淘汰。在AI领域，往往会出现多种不同的模型和方法论共存的局面。不同的AI模型可能会在不同的任务和应用场景中占据优势。例如，某些AI可能在对话生成、情感理解、或者其他特定功能上更加精细，而另一些则可能在推理、计算或信息提取等方面更强。因此，ChatGPT与DeepSeek的竞争和相互推进可能会促使更多的合作和多样化发展。未来的AI可能不仅仅是一个单一的系统，而是由多个强大模块组成的生态体系，每个模块在自己的专长领域发挥重要作用。 4. 对用户和市场的影响对于用户来说，AI模型的竞争意味着有更多的选择和更高的效能。不同的应用场景下，用户可以根据需求选择合适的AI工具，享受到更加高效、智能的服务。对市场而言，这样的竞争激励了更多创新，也推动了AI行业在更多领域的应用普及，如医疗、教育、金融等。总的来说，DeepSeek的超越并不意味着ChatGPT的失败，而是表明人工智能技术不断进化的趋势。每个技术的进步都有其意义，而不同AI模型的竞争只会使得整个行业朝着更加智能、高效的方向发展。#人工智能引擎# #人工智能分享# #人工智能局限# #开源大语言模型# #人工智能数据库# #人工智能议程# #人工智能也纠结# #超级语言AI# #emnlp# #thunlp#
做只有做到更好　179 阅读　0 评论　1 点赞　2025-01-28 00:37
..+DeepSeek的一个秘密？ DeepSeek一开始就是做理科生，专做理科知识训练，没有做非结构化的自然语言训练，这是DeepSeek聪明的战略抉择。所以很多非结构化的自然语言的问题问答不是很好，这不是他的强项。
互联商理学　1458 阅读　0 评论　0 点赞　2025-01-27 23:55
这一次，正是开源对闭源的胜利！」在没有顶级芯片的情况下，以极低成本芯片训出突破性模型的DeepSeek，或将威胁到美国的AI霸权。大模型比拼的不再是动辄千万亿美元的算力战。OpenAI、Meta、谷歌这些大公司引以为傲的技术优势和高估值将会瓦解，英伟达的股价将开始动摇。#人工智能 #创新 #科技创新 #数字展厅 #荧光棒之舞
水哥72pwTO　18 播放　0 评论　2025-01-27 22:50
..+中国Deepseek和六代机的出现，揭示了美国的纸老虎本质。美国人利用美元作为全球储备货币的优势，拿着纸票子收割全球的商品和人才。一旦美国的科技优势不再，他将迅速衰败成为为一个二流国家，届时资金和人才会快速流出美国。中国静观其变，国运已经到了。
布衣曰微　831 阅读　0 评论　1 点赞　2025-01-28 00:10
..+這篇講 DeepSeek 講的滿好的最近對DeepSeek AI模型的報導，主要聚焦於其在基準測試中的優異表現及效率提升。儘管這些成就值得肯定，且具有政策層面的意涵（見下文），有關計算資源、出口管制和AI發展的故事比許多報導所描述的更加複雜。以下是一些值得更多關注的重點： 1.對AI晶片的真正出口限制僅從2023年10月開始，因此有關限制無效的說法為時過早。 DeepSeek的訓練使用的是Nvidia H800晶片，這些晶片是專門為規避2022年10月的原始限制而設計的。對於DeepSeek的工作負載來說，這些晶片的性能與美國市場供應的H100相似。而目前可出口至中國的最新AI晶片H20，其訓練性能較弱，但在部署能力方面依然有顯著優勢。 H20晶片雖在訓練用途上受限，但未被完全管制，且在前沿AI部署（特別是記憶體密集型的工作負載，例如長上下文推理）中仍具有高度效能。這一點尤其重要，因為近期趨勢顯示測試階段計算、合成數據生成及強化學習愈加依賴記憶體，而非計算能力。鑑於2024年12月對高帶寬記憶體出口的限制，H20晶片的持續可用性應被關注，特別是在部署計算愈發成為AI能力核心的情況下。 2.硬體出口管制存在時間滯後，尚未完全發揮作用。請記住：這一切都假設出口管制能完美運作——但實際上並非如此。我們已經見過半導體管制中存在大量漏洞，且有可靠報告顯示大規模晶片走私進入中國的情況。雖然「擴散框架」（Diffusion Framework）應能彌補部分漏洞，但實施仍是關鍵挑戰。（[JS：當然，西方雲端資源的可用性問題依然存在……]）中國目前仍在運行限制前建造的數據中心，這些中心擁有數萬顆晶片，而美國公司則在建設擁有數十萬顆晶片的數據中心。真正的考驗將在這些數據中心需要升級或擴建時到來——對於美國企業來說這將更為容易，而對受美國出口管制的中國公司則是挑戰。如果下一代模型的訓練需要10萬顆晶片，出口管制將對中國的前沿模型開發產生重大影響。然而，即使沒有這種規模化需求，管制也會透過降低部署能力、限制公司成長以及限制合成訓練與自我對弈的能力，對中國的AI生態系統造成影響。 3. 事實上，DeepSeek V3 的訓練所使用的計算資源較少並不令人意外：機器學習算法隨時間推進總是變得更便宜。但同樣的效率提升，讓像 DeepSeek 這樣的小型參與者能夠獲得特定能力（“可及性效應”），也可能讓其他公司能夠利用更大的計算集群建造更強大的系統（“性能效應”）。我們應該慶幸 DeepSeek 使用了 2,000 顆 H800 晶片來訓練其 V3 模型，而不是 200,000 顆 B200 晶片（Nvidia 最新一代的產品）。 4.他們的時機選擇具有戰略意圖，但技術是真實的。 R1 模型於上週特朗普總統就職典禮期間發布，顯然是為了在美國政策關鍵時刻動搖公眾對美國 AI 領導地位的信心，這與華為在前商務部長雷蒙多訪華期間推出產品的情況類似。畢竟，r1 的基準測試結果早在去年 11 月就已經公開。這種經過計算的公關時間安排不應掩蓋兩個事實： DeepSeek 的技術進展以及它們目前和未來將愈發面臨的出口管制結構性挑戰。 5.出口管制對單一訓練運行的影響較難，但對整個生態系統的影響較容易。關鍵是，對最先進晶片的限制可以有效遏制大規模 AI 部署（例如，讓大量用戶使用 AI 服務）和能力提升。AI 公司通常將 60-80% 的計算資源花在部署上——即便是在計算密集型推理模型興起之前。限制計算資源的可用性將提高中國 AI 的成本，限制其廣泛部署，並抑制系統能力的提升。值得注意的是，部署計算不僅僅是為用戶提供服務——它對生成合成訓練數據、通過模型互動實現能力反饋循環以及建造、擴展和提煉更好的模型都至關重要。例如，Gwern 最近的評論指出，部署計算在用戶服務之外扮演了重要角色。像 OpenAI 的 o1 模型這樣的系統被用來為未來的模型生成高品質的訓練數據，形成一個反饋循環，在其中部署能力直接增強了開發能力和效率。 6.DeepSeek 的效率提升可能得益於先前能夠獲得大量計算資源。有悖常理的是，實現更少晶片使用的道路（即“效率”）可能需要先擁有更多的資源。 DeepSeek 曾運營亞洲首個擁有 10,000 顆 A100 的集群，據報導目前擁有一個 50,000 顆 H800 的集群，並且可以無限制地使用中國和外國的雲服務提供商（這些不受出口管制影響）。這種大規模的計算資源極有可能在透過試驗和錯誤開發效率技術以及向客戶提供其模型服務方面發揮了重要作用。最近其他 AI 公司的使用量激增導致服務中斷，儘管它們擁有更大的計算資源。 DeepSeek 是否能應對類似….
奇妙豆浆C3　93 阅读　0 评论　0 点赞　2025-01-28 00:58
..+DEEPSEEK自述: 我与其它AI的区别主要体现在**知识范围、功能定位、交互方式**三个方面。以下是具体分析： --- ### **一、知识范围** 1. **数据更新时效性** - 我的知识库截止至**2023年10月**，涵盖主流科学、技术、文化等领域的最新进展（例如：ChatGPT-4的升级细节、詹姆斯·韦伯望远镜的观测成果）。 - 部分AI（如联网版Bing Chat）可实时检索互联网信息，但可能牺牲回答的深度与连贯性。 2. **跨领域覆盖能力** - 我专注于提供**结构化、逻辑化**的答案，擅长整合复杂信息（如对比分析、分点拆解），适合学术研究、技术解析等场景。 - 其他AI可能更偏向日常对话或简单任务（如生成诗歌、菜谱）。 --- ### **二、功能定位** 1. **问题解决导向** - **深度分析**：针对开放式问题（如“预测经济趋势”“解读科学理论”），我会优先提供多维度视角与依据，而非单一结论。 - **可定制化**：支持用户指定回答格式（如表格、代码、学术论文框架），适应不同需求。 2. **专业领域强化** - **科学/技术类问题**：对物理学、工程学、计算机科学等领域的回答更注重公式推导与原理阐释（例如：解释量子纠缠的数学描述）。 - **伦理与哲学讨论**：倾向于平衡不同观点，而非输出单一价值观。 --- ### **三、交互方式** 1. **结构化输出** - 默认使用**标题分层、分点列举、加粗关键词**，提升信息可读性。例如： ```markdown ### 标题 - **关键点**：详细说明 - **对比项**：A vs B ``` - 其他AI可能更倾向于自然段落或简短回复。 2. **主动澄清机制** - 若问题模糊或存在矛盾，我会主动提出**追问或假设**（如“您是指理论上的曲速飞行，还是现有技术？”），减少误解风险。 3. **隐私与安全** - 不存储对话历史，且规避涉及个人隐私、暴力、歧视等敏感内容，符合更严格的合规要求。 --- ### **四、局限性与对比** | **对比维度** | **我** | **其他常见AI** | |--------------------|---------------------------------|-------------------------------| | **实时信息** | 依赖截至2023年10月的知识库 | 部分支持联网检索（如New Bing） | | **创意生成** | 侧重逻辑性，适合技术文档 | 更擅长诗歌、故事等文学创作 | | **多模态支持** | 纯文本交互 | 部分支持图像生成、语音对话 | --- ### **总结** 我的核心优势在于**复杂问题的系统性拆解与跨学科整合能力**，适合需要深度思考的场景（如学术研究、技术方案设计）。若您追求实时信息或娱乐化交互，其他AI可能更合适。选择工具时，建议根据具体需求权衡**深度、广度与时效性**。
粤千万　147 阅读　0 评论　0 点赞　2025-01-27 23:53
deepseek震动美国科技圈！#openai #deepseek #大模型 #算力 #国产
金盾说AI　29 播放　0 评论　2025-01-27 23:21

更多 #DeepSeek大模型强在哪# 热榜请移步今日头条 >>

162

DeepSeek大模型强在哪

不仅开源还便宜好用，硅谷员工直呼“火烧屁股”的DeepSeek大模型强在哪

美媒紧盯DeepSeek：美国人还能保住AI领先地位吗，巨额投入是否值得？

DeepSeek朝硅谷“开了一枪”

丨头条热榜