Afleveringen

  • 「我们的测试是,通过 MaaS 获得收入,代价太高了」
    上周六,DeepSeek 发布开源周收官之作:概述了 DeepSeek 的推理优化思路,并放出了 2 月 27 日前后一个 24 小时时段内的线上时机测试。
    据 DeepSeek 官方数据,这 24 小时里,他们处理的 Token 输入总量是 608B(6080 亿);输出的 token 量是 168B(1680 亿)。每秒每节点(一节点有 8 张 H800)的吞吐量达到了输入 73.7k Tokens,输出 14.8k Tokens。
    https://cdn.z.wiki/autoupload/20250306/rk6W/884X858/%E6%88%AA%E5%B1%8F2025-03-06_20.14.24.png
    做到这么大的吞吐量,他们平均只用了 226.75 个节点,每个节点是 8 张英伟达 H800,加起来是 1814 张卡。而这支撑了 DeepSeek 高达 2000万-3000 万的日活。
    由此 DeepSeek 也根据 GPU 的市场价格,和自己的 API 定价,算了一个成本利润率,即这几天被广泛传播和讨论的 545%,换算成毛利是 84.5%。
    这也让前段时间算过另一笔账,且结果大相径庭的的潞晨科技创始人尤洋的言论被推到了风口浪尖。
    尤洋曾说,通过自己的实测,他发现中小云平台现在部署 DeepSeek,再售卖 API 给其它应用方,是巨亏的生意,月亏可达 4 亿。
    亏损的核心是,尤洋自己测的吞吐量与 DeepSeek 公布的数据相差巨大(每节点每秒输出位 300 Tokens 左右)。由于 GPU 的价格在一定时间内是固定的,吞吐量,就决定了 API 服务能否赚钱。
    在“被打脸”的争议中,尤洋接受了「晚点聊」的访谈。我们聊的时间是 3 月 1 日,尤洋没有特别提及 DeepSeek 的具体推理优化,他称自己不方便评价。
    他更多聊了,为什么他认为中小云平台做 MaaS 服务不赚钱,也解释了他眼中的 MaaS 商业模式。他认为单纯卖 API 的 MaaS 可能更合适大型云厂商和自己开发独家模型,并能做相应深度优化的公司。
    3 月 1 日,潞晨科技也宣布停止即将包括 DeepSeek API 在内的 MaaS 服务。
    如果听友想更详细的了解,考虑到运维、折旧等成本的 DeepSeek 实际利润率怎么测算,可以看 Shownotes “附录”里贴的几篇相关链接,有非常详细的解读,并搭配了公式和图表。
    本期嘉宾:
    尤洋,潞晨科技创始人
    时间线跳转:
    00:04 DeepSeek 官方实测数据,惊人的吞吐量带来惊人利润率
    03:10 尤洋此前的测算引发争议与讨论:亏损 4 亿 vs 毛利 85%
    09:25 一个合格 to B MaaS 服务,冗余资源到底该备需求的几倍?
    12:26 潞晨科技已不再做 MaaS 服务,MaaS 买的是 GPU 时间,卖的是 Token 调用,承担了链条上的最多亏损
    17:57 专注给大小公司部署私有模型
    22:15 强模型公司(如 OpenAI)和大型云厂商自己做 MaaS 更合理
    26:22 高额利润才能带来创新投入,价格战会导致大家都没资源投入研发
    28:20 实际服务中,输入、输出序列的波动,用户请求的多样化,会导致线上服务效率下降
    34:28 云计算也是高弹性,AI 云平台不会成为新的云计算吗?
    38:17 潞晨想做 AI 版 Databricks,而 Databricks 自己也在做这件事;创业公司的空间在哪儿?
    43:00 新方向是自己训练视频生成模型,在热潮前的 2021 年 9 月开始创业的方向选择
    46:37 技术和商业问题可以广开讨论,不打算再回应其他争议
    相关链接:
    再次深度拆解:Deepseek利润率高达85%,推理效率领先一个数量级,彻底颠覆认知!(老罗的暗中观察) (https://mp.weixin.qq.com/s/AxzY9QQ2Ea49CazUfNwT2A)
    回应争议:Deepseek真实利润率是多少?到底需要多少算力? (https://mp.weixin.qq.com/s/rpuTnottr6x49NY7o76AkA)
    光年之外联创再出发,与袁进辉聊 AI Infra 到底做什么? (https://www.xiaoyuzhoufm.com/episode/65b19c9bc2bedd4be809a48a)
    剪辑制作:甜食
    本期主播:小红书 @曼祺_火柴Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token=YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw-EfCtqmFTkCIM2o=&xsec_source=app_share&xhsshare=CopyLink&appuid=5dfa9e92000000000100626f&apptime=1736682459&share_id=331aecb9ca7941f498d81fb9c32ea810),即刻 @曼祺_火柴Q (https://okjk.co/FBoH1Q)
    https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/%E6%92%AD%E5%AE%A2-%E7%BB%93%E5%B0%BE%E4%BD%9C%E8%80%85%E7%AD%BE%E5%90%8D.png
    ☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆
    欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。
    这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。
    请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。
    https://cdn.z.wiki/autoupload/20250114/en02/1991X754/%E6%88%AA%E5%B1%8F2025-01-14_15.34.07.png
    关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章:
    https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/%E6%92%AD%E5%AE%A2%E7%BB%93%E5%B0%BE%E6%88%AA%E5%9B%BE.png

  • 「继续来聊“注意力”,不止技术,也有研发故事。」
    (本期因录音 bug,音质有波动;不时出现“变声期”,请见谅。)
    上期,我们与清华的两位博士生,肖朝军和傅天予,聊了稀疏注意力机制的改进,也以注意力为线索,串起了大模型的优化史 (https://www.xiaoyuzhoufm.com/episode/67bf356952a6af799c558399?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D)。上期主要聊了稀疏注意力。
    这期,我们来聊注意力机制的另一大改进方向:线性注意力。
    MiniMax 在今年 1 月发布了参数为 4560 亿的开源大模型 MiniMax-01,01 就用到了他们开发的线性注意力机制,lightning attention。
    本期,我邀请了这个项目的负责人,MiniMax 高级研究总监,负责 01 模型网络架构的钟怡然,来与我们一起聊研究线性注意力的研发过程。
    钟怡然曾担任上海人工智能实验室青年科学家,是新架构探索组的 PI,也就是项目负责人;他在澳洲国立大学获得博士学位,师从李宏东教授和 Richard Hartley 院士。
    在 2021 年,线性注意力还是一个“看起来很美好的泡泡”,怡然和团队就开始探索线性架构的实现。
    当 2024 年年中,MiniMax 开始用大量算力资源训练线性架构的 4560 亿参数的新一代模型 01 时,线性架构能在大规模模型上 work 是非共识。但闫俊杰最后拍板,投了公司超过 80% 的研发资源。
    当然,训练模型不是戏剧性的梭哈。在训 01 前,MiniMax 团队通过 3700 次预训练测试,去预测这种新架构在更大参数的模型是否也有好的表现。(这其中不少都是小规模实验。)这期节目,我们完整聊了这个过程。
    在效率上线上,从计算方法推导,当序列非常长,线性注意力在计算效率上的的优势会越来越大于稀疏注意力。但从效果上,也就是线性注意力的模型,能否和 Transformer 模型一样聪明,甚至更聪明。现在还没有谁能给出有绝对说服力的答案。
    这也是之后 MiniMax 的技术进展,可能会揭晓的悬念。
    本期嘉宾:
    钟怡然,MiniMax 高级研发总监
    时间线跳转:
    - MiniMax 开源:为什么第一个模型选了 01
    05:46 开源是为了展示架构创新,吸引更多人才
    08:20 开源后社区反馈集中在推理效率与多模态支持,MiniMax 把推理优化贡献到了开源框架 vLLM 中
    10:20 开源要有影响力需要更多工作,MiniMax-01 当前开源版本参数过大,个人开发者确实参与受限
    - MiniMax-01 中的线性注意力改进:7 混 1 结构,100 万 Token 序列长度下提速 2700 倍
    13:11 线性注意力的核心思想是通过调整QKV矩阵计算顺序,将复杂度从二次降至线性
    15:26 稀疏注意力(如NSA、Mobile)在小模型表现尚可,但线性注意力在参数规模扩大后优势显著
    20:23 纯线性注意力在召回能力(如“大海捞针”任务)上存在缺陷,团队通过混合架构(每 7 层线性注意力加入 1 层 Softmax 注意力)优化
    27:31 混合架构在 100 万 Token 序列长度下实现 2700 倍加速,同时模型效果优于纯 Transformer
    28:27 3700 次小模型实验验证架构可扩展性,扩大规模前要做充分验证
    - 21 年开始的线性架构研发之旅:从“美好的泡泡”到 4560 亿参数大模型
    30:24 2021 年开始做线性注意力研发时,它还是一个“美好的泡泡”
    35:19 “我们是最懂线性注意力的人”,为什么这个模型不诞生在我们手上?
    41:20 50% 的把握,投 80% 的资源
    42:46 上规模后,发现了召回缺陷;一张大表,3700 个预训练任务
    50:46 一个测试例子:MiniMax-01、DeepSeek-R1 表现不及 Kimi-k1.5,可能和数据构造有关
    52:52 线性架构也许是更适合推理模型的架构
    01:00:51 线性架构能 work,仍是非共识
    - “道心”之争
    01:02:00 钟怡然坚信线性注意力是“无损优化”,混合架构效果甚至优于传统Transformer
    01:11:23 MiniMax计划4月发布深度推理多模态模型,整合线性架构、原生多模态与强化学习
    01:22:18 AGI愿景 vs 竞争驱动:DeepSeek 爆火后,但不改变产品是技术最大的证明
    相关链接:
    103:用 Attention 串起大模型优化史,详解DeepSeek、Kimi最新注意力机制改进 (https://www.xiaoyuzhoufm.com/episode/67bf356952a6af799c558399?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D)
    99:MiniMax创始人闫俊杰:做大模型,千万别套用移动互联网的逻辑 (https://www.xiaoyuzhoufm.com/episode/678daf93cabd7f95693c8d6c?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D)
    71:“如果相信只靠 Scailng Laws 就能实现 AGI,你该改行了”,与香港大学马毅聊智能 (https://www.xiaoyuzhoufm.com/episode/6668d95ebb0f9563f6302495?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D)
    101:与王小川聊AIX医疗:通向“生命科学的数学原理” (https://www.xiaoyuzhoufm.com/episode/67aaefa541b8e4a63c93c03d?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D)
    103 期晚点聊图文版:《大模型 “注意力简史”:与两位 AI 研究者从 DeepSeek、Kimi 最新改进聊起》 (https://mp.weixin.qq.com/s/cByoldudiAuyUBaVhzrG3g)
    附录:
    QKV 计算:Query-Key-Value计算,注意力机制中用于生成上下文感知向量的核心步骤。
    Mamba:由卡内基梅隆大学在2023年提出的基于状态空间模型的高效长序列建模架构。
    Jamba:由 AI21 Labs 在 2024 年提出的结合 Mamba 与 Transformer 的混合架构模型。
    vLLM:由加州大学伯克利分校在 2023 年提出的开源大模型推理加速框架。
    有损优化:以牺牲部分模型性能为代价换取计算效率或资源节省的优化方法。
    无损优化:在不影响模型性能的前提下提升计算效率或资源利用率的优化策略。
    (另,更多关于线性注意力机制的术语也可见上期注释)
    剪辑制作:Nick
    本期主播:小红书 @曼祺_火柴Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token=YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw-EfCtqmFTkCIM2o=&xsec_source=app_share&xhsshare=CopyLink&appuid=5dfa9e92000000000100626f&apptime=1736682459&share_id=331aecb9ca7941f498d81fb9c32ea810),即刻 @曼祺_火柴Q (https://okjk.co/FBoH1Q)
    https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/%E6%92%AD%E5%AE%A2-%E7%BB%93%E5%B0%BE%E4%BD%9C%E8%80%85%E7%AD%BE%E5%90%8D.png
    ☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆
    欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。
    这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。
    请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。
    https://cdn.z.wiki/autoupload/20250114/en02/1991X754/%E6%88%AA%E5%B1%8F2025-01-14_15.34.07.png
    关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章:
    https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/%E6%92%AD%E5%AE%A2%E7%BB%93%E5%B0%BE%E6%88%AA%E5%9B%BE.png

  • Zijn er afleveringen die ontbreken?

    Klik hier om de feed te vernieuwen.

  • 「与 InfLLM 与 MoA 的两位作者一起聊注意力。注意“注意力”是为了可预见的长长长……文本。」
    (题图:levelsio.com 上售卖的 Attention 鸭舌帽。)
    本期图文版:《大模型 “注意力简史”:与两位 AI 研究者从 DeepSeek、Kimi 最新改进聊起》 (https://mp.weixin.qq.com/s/cByoldudiAuyUBaVhzrG3g)
    上周,DeepSeek、Kimi 都放出了新的大模型架构改进和优化成果,分别是 NSA、MoBA(GitHub) (https://github.com/MoonshotAI/MoBA)。他们都聚焦到了对大模型中的“注意力机制”的改进。
    注意力机制是大语言模型(LLM)的核心机制。回到 2017 年 6 月那篇开启大语言模型革命的 Transformer 八子论文,标题就是:Attention Is All You Need(注意力就是你所需要的一切)。
    而优化 Attention 的计算效率和效果,又能帮助解决,AI 学界和业界,都非常关心的一个问题,就是长文本,long context——不管是要一次输入一整本书,让模型能帮我们提炼、理解;还是在现在用强化学习来提升推理能力的范式转型后,需要生成长思维链;又或者是,我们未来希望模型有越来越长的“记忆”,这都需要长文本能力的支持。
    这期节目,我们邀请了两位也做过 Attention 机制改进的 AI 研究者,一起聊 attention 它是什么,过去的瓶颈在哪儿,以及最新的 NSA、MoBA 这些成果带来了哪些启发;和未来注意力机制及更广泛的长文本能力提升上,有哪些趋势和方向。
    本期嘉宾:
    * 清华自然语言处理实验室的博士肖朝军,他是 InfLLM(GitHub) (https://github.com/thunlp/InfLLM)注意力机制改进的一作,导师是清华计算机系的刘知远。(Email:[email protected]
    * 清华 NICS-EFC 实验室的博士傅天予,他是 MoA(GitHub) (https://github.com/thu-nics/MoA)注意力机制改进的共同一作,导师是清华电子工程系的主任汪玉。汪老师的实验室也做了很多与硬件层结合的优化工作。(Email:[email protected])
    NICS-EFC 实验室最近也开源了一个与多模态注意力机制改进相关的成果 FrameFusion(GitHub) (https://github.com/thu-nics/FrameFusion)。
    他们之前的成果都和 NSA、MoBA 一样属于“稀疏注意力”改进的范畴。
    注意力机制是一个会涉及较多技术细节的话题。我在 shownotes 的末尾贴了一些术语和过往注意力优化成果的简单解释,希望可以帮大家更好得理解。
    如果你虽然不是一个 AI 从业者,但又因为兴趣、好奇或工作需要,非常希望由浅入深得了解更具体的技术机制和进展。欢迎多听我们的节目,这次我也在 shownotes 里贴了一些 AI 大神用相对通俗方式讲解 AI 的视频节目的地址。
    让我们一起学习起来!
    不是每个人都需要或有精力去了解 AI 底层技术,但很多人都会被 AI 影响,都需要“智能思维”。
    时间线跳转
    - 注意力机制是什么 & 工作原理?
    00:05 注意力机制是大语言模型的核心,优化注意力机制计算效率与效果对长文本处理至关重要
    06:00 注意力机制本质是建立词与上下文的动态关联,解决传统 RNN 的遗忘问题
    10:08 Transformer 原本的 Full Attention 通过存储所有词向量解决长文本遗忘,但面临存储与计算复杂度瓶颈
    12:24 注意力机制 N 方复杂度导致显存与时间开销爆炸,稀疏化成为改进选择
    15:25 稀疏注意力与线性注意力(RNN 思路)是注意力机制两大改进方向,各有优劣
    16:27 之前稀疏注意力更主流,但 Mamba 之后,线性注意力也比较火
    18:27 算法、系统、硬件三层优化共同提升效率,如 MoE 与生成范式革新也能帮助处理长文本
    详解 NSA 与 MoBA:都是把稀疏注意力引入了训练阶段
    21:06 动态稀疏效果更好但计算效率低,静态稀疏(如滑动窗口)更高效但效果受限
    24:06 NSA 与 MoBA 聚焦预训练阶段稀疏化,解决训练与推理的机制差异
    30:27 NSA 与 MoBA 均采用动态与静态混合策略,块状稀疏设计适配硬件特性
    24:55 稀疏训练突破性能上限质疑,NSA 论文证明效果可超越稠密注意力
    27:23 长思维链(CoT)与 RL 需求推动稀疏注意力落地训练阶段
    36:50 块状稀疏设计(Block-Level)优化 GPU 并行与内存访问效率
    42:06 NSA 实测推理加速显著,MoBA 强调保留关键注意力头提升长程关联
    48:21 实验关注训练曲线稳定性与长 CoT 生成能力,而非传统 Benchmark
    ---两篇paper 中的训练曲线(Training Curve)的图示:
    https://hv.z.wiki/autoupload/20250226/dn16/1006X608/MoBA_figure3.png
    上图:MoBA 论文中的 Figure3
    https://cdn.z.wiki/autoupload/20250226/3Plc/1594X1050/NSA_Figure4.png
    上图:NSA 论文中的 Figure4
    未来方向与 AGI 的终极想象
    55:32 存储压缩与多模态长序列处理是下一阶段关键挑战
    57:55 记忆架构需突破全存与固定存储的极端,探索类人动态决策机制
    01:02:04 长文本能力支撑多模态推理(视频、科研)、情感记忆与知识服务
    01:16:28 AGI 需具备科研能力突破知识边界,记忆与效率优化是底层支撑
    01:22:03 自组织 AGI 可能颠覆人类对智能的定义,动机与伦理仍是未知领域
    总结与预告
    01:26:38 稀疏注意力解决存储与计算瓶颈,训练阶段改进适配 RL 与多模态需求
    01:27:21 线性注意力(如 MiniMax 01)是另一重要方向,下期节目将深入探讨
    相关链接
    AI 视频科普视频推荐:1hr Talk Intro to Large Language Models (Andrej Karpathy) (https://www.youtube.com/watch?v=zjkBMFhNj_g)
    月之暗面 MoBA 核心作者自述:一个 “新晋大模型训练师” 的三入思过崖 (https://mp.weixin.qq.com/s/mYVFIE61q4Hzv_d5iCw7PA)
    晚点聊 102: DeepSeek 启动开源周,大模型开源到底在开什么? (https://www.xiaoyuzhoufm.com/episode/67bd286dfd2cbe6cd771675d?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D)
    附录
    (基本按本期播客中的出场顺序)
    稀疏注意力:仅关注输入序列中部分关键位置的注意力机制,降低计算复杂度。
    稠密 VS 稀疏:稠密指数据/计算全连接;稀疏指仅部分连接,效率更高。
    稀疏计算:仅处理非零数据的计算方式,显存和算力需求更低。
    稠密计算:处理所有数据的计算方式,计算量较大但精度高。
    128k、1M 等:是在描述文本的长度,128k 就是 12.8 万。
    显存:显卡存储空间,用于存放模型参数和计算中间结果。
    算子:基础计算单元(如矩阵乘法),硬件加速优化的核心对象。
    Sequence 序列:有序数据集合(如文本、语音),模型处理的基本单位。
    RNN 循环神经网络:通过时序传递状态处理序列数据的神经网络架构。
    梯度消失、梯度爆炸:反向传播中梯度指数级减小或增大,导致模型无法训练。
    Token:文本的最小语义单元(如词、子词),模型输入的基本元素。
    长文本:模型支持处理的超长输入序列(如数万token)。
    BERT:由Google在2018年提出的基于双向Transformer的预训练语言模型。
    Full Attention:标准注意力机制,计算所有位置间关系,复杂度O(N²)。
    N方复杂度:计算量随序列长度N呈平方增长(如O(N²))。
    Softmax:归一化函数,将向量映射为概率分布。
    Softmax Attention:标准注意力实现,含Softmax计算相似度权重。
    Attention Score:注意力权重,表示输入位置间相关性强度。
    Mamba:由卡内基梅隆大学在2023年提出的基于状态空间模型的高效长序列建模架构。
    线性注意力:通过核函数近似实现线性复杂度的注意力机制。
    Tri Dao、Albert Gu:两位 AI 研究者,其中 Tri Dao 是 FlashAttention 的作者,两位也都是 Mamba 的作者。
    FlashAttention:由斯坦福大学在2022年提出的显存高效注意力算法,通过分块计算减少IO开销。
    MoE 混合专家系统:动态路由至不同子模型提升容量的架构。
    MLA:多层注意力机制,增强模型复杂模式捕获能力。
    Mooncake:Kimi 和清华大学联合开发的大规模稀疏训练框架。
    GitHub 库:代码托管平台,开源项目协作与版本管理工具。
    预印本平台(arXiv):学术论文预发布平台,加速研究成果传播。
    长思维链:扩展版思维链提示,通过长推理步骤提升模型表现。
    Block:计算或数据的基本分块单位(如Transformer块)。
    Triton:由OpenAI开发的GPU编程语言与编译器,支持高效自定义算子开发。
    Decoding 阶段加速:减少生成式模型逐token输出的推理延迟。
    Query:注意力机制中用于匹配Key的向量。
    Training Curve:训练过程中指标(如损失)随迭代的变化曲线。
    消融实验:逐步移除模型组件以验证其贡献的实验方法。
    KV Compression:压缩注意力中的Key-Value缓存以节省显存
    KV Eviction:淘汰不重要Key-Value,维持长上下文效率。(以上两个项目是在描述对多模态的注意力机制优化的以往相关成果时提及)
    FrameFusion:视频多帧融合技术,提升时序建模效果。(讨论多模态注意力优化时,天予提到的清华 NICS-EFC 实验室最近开源的一个成果)
    剪辑制作:甜食
    本期主播:小红书 @曼祺_火柴Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token=YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw-EfCtqmFTkCIM2o=&xsec_source=app_share&xhsshare=CopyLink&appuid=5dfa9e92000000000100626f&apptime=1736682459&share_id=331aecb9ca7941f498d81fb9c32ea810),即刻 @曼祺_火柴Q (https://okjk.co/FBoH1Q)
    https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/%E6%92%AD%E5%AE%A2-%E7%BB%93%E5%B0%BE%E4%BD%9C%E8%80%85%E7%AD%BE%E5%90%8D.png
    ☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆
    欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。
    这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。
    请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。
    https://cdn.z.wiki/autoupload/20250114/en02/1991X754/%E6%88%AA%E5%B1%8F2025-01-14_15.34.07.png
    关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章:
    https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/%E6%92%AD%E5%AE%A2%E7%BB%93%E5%B0%BE%E6%88%AA%E5%9B%BE.png

  • 「与西北大学(NU) MLL Lab 博士生王子涵“逛”开源。」
    (题图:开源大模型推理框架 vLLM 的 GitHub 页面截图,该项目已有 800 多社区贡献者。)
    上周五,DeepSeek 在官方 twitter 上预告了下一周会连续 5 天开源 5 个代码库,进入 open-source week,开源周。
    我们录制节目的这天是周一,DeepSeek 也正式放出了开源周的第一个开源项目 FlashMLA。
    https://cdn.z.wiki/autoupload/20250225/6cwf/892X1260/%E6%88%AA%E5%B1%8F2025-02-25_01.15.27.png
    我一直很想和人好好聊一下,大模型开源是在开什么,怎么开。比如相比闭源模型,开源要额外做一些什么工作,才能让社区比较好地理解到这个开源成果,以及能更充分地把开源用起来。
    正好在 DeepSeek 这个开源周,我邀请到了正在美国西北大学 MLL lab 攻读博士学位的王子涵。
    子涵今年刚博一,之前毕业于人大,大四时,也就是 2024 年,他曾在 DeepSeek 实习半年,今年暑假即将前往一家美国 AI Agent 从创业公司,Yutori 实习。
    随着 DeepSeek 在春节的爆火出圈,开源也正成为一种趋势:之前一直模型闭源的一些公司,如 MiniMax、阶跃星辰,从 1 月到现在都陆续发布了自己的第一批开源模型。
    之前选择保留自己最强模型闭源,开源较小版本模型的公司,可能也会在 DeepSeek 的冲击波里有新选择。
    这期我和子涵聊到了开源模型不同的层级,主要有技术报告,模型权重,推理框架,训练框架,还有数据集。现在我们说一个模型是开源的,一般指的是有技术报告也开放了模型权重。再往下更深入的开源,是推理框架和训练框架。而现在只有极少数的机构,比如 Allen AI 研究所,他们也开放过预训练的数据集。
    我们也在一起围观 DeepSeek 开源周的过程中,回顾了他们之前开源模型的一些重点优化思路,以及他们为了让社区充分理解和使用开源成果,而专门花费心力去规范代码,写详细的技术报告。这背后是一个组织对优先级的选择。
    而在本期最后,子涵也分享了一个自己成为开源模型滥用“受害者”的亲身经历。开源在加速技术进化,如 DeepSeek 开源周 twitter 预告里所写:acclerates the journey;也带来一些隐患,需要整个领域一边开源,一边探索解决。
    马斯克曾经说:“有人问我是不是想死在火星上,我说当然,但不是死于(登陆器降落时的)撞击。”
    登场人物:
    嘉宾:王子涵,西北大学 MLL Lab 博士生 (个人主页 https://zihanwang314.github.io)
    主播:程曼祺,《晚点 LatePost》科技报道负责人
    剪辑制作:甜食
    本期节目中提及的一些开源项目的 GitHub 页面:
    DeepSeek:https://github.com/deepseek-ai
    DeepSeek/Open-Infra-Indes:https://github.com/deepseek-ai/open-infra-index
    DeepSeek/FlashMLA:https://github.com/deepseek-ai/FlashMLA
    vLLM:https://github.com/vllm-project/vllm
    SGLang:https://github.com/sgl-project/sglang
    字节跳动/Verl:https://github.com/volcengine/verl
    DeepSeek/ESFT:https://github.com/deepseek-ai/ESFT
    本期节目涉及一些AI 项目、机构,见 shownotes 末尾附录。
    时间线跳转:
    -DeepSeek 开源周指向 Infra,已放出第一个库 FlashMLA
    02:20 过往实习、工作中的开源项目
    03:18 王子涵分享自己开源工作,包括在数研时做的 agent 相关 benchmark,以及参与 DPCVR 研发和关于 DPCRY 加 agent 的开源报告。
    05:17 DeepSeek 开源周预告,强调 Small but sincere;第一个库已发布:FlashMLA;未来开源方向推测
    09:30 FlashMLA,一个用 C++ 语言写到算子层的推理框架优化;像 DeepSeek 这样做大量更底层算子优化的努力比较难
    17:14 FlashMLA GitHub 反馈(issues)速览:有人想要 FP8,有人问何时支持 NPU?
    -一起来逛 GitHub 库,大模型开源是在开什么
    19:23 一起逛 GitHub 仓库(Repo),在开源项目里该看什么?
    ·看 license(开源协议),DeepSeek 惯常使用的 MIT 协议,开放、简洁、免责
    ·看 readme,树状学习库的基本信息,需要的环境、如何部署
    ·子涵更喜欢看 issues,而不是 star,issue 反映多少人在深度玩这个库;PR(Pull Requests)是更深度的代码贡献。
    31:30 大模型开源到底在开什么:技术报告、模型权重、推理框架、训练框架、数据集。一般一个开源模型都有技术报告和权重,但推理和训练框架的代码和数据集则不一定,尤其是数据集。
    35:23 vLLM、SGLang,两个活跃的开源推理库;模型权重的下载途径;字节其实开源过一般较少开源的训练框架 (Verl)
    41:25 数据开源几乎没有,主要是出于信息敏感性和安全性考虑。
    42:38 除了数据集,DeepSeek 已开源过上述各部分,其中子涵参与的 ESFT 工作就也开源了训练框架。
    44:16 从闭源到开源,需要 another layer of hard work:如规范代码、适配开源推理或训练框架。
    -不同的开源策略:开源最强模型 VS 有所保留
    49:14 不同开源策略主要和盈利模式与诉求有关。不靠 API 赚钱或期望推动更大格局变化(如形成标准)可能选择开源最强模型;另外,一些非盈利机构也会“非常开”,如 Allen AI 和 EleutherAI,罕见地开源了数据集。
    51:29 是否会看到 OpenAI 开源最强模型?不确定。Sam Altman 在 twitter 发起投票的两个开源选项(o3-mini 和 phone-sized model)都值得期待。
    52:36 子涵分享一个大模型滥用案例:自己推特账号被黑经历,“受害者”现身说法。
    53:32 Ilya:“if you value intelligence above all other human qualities, you’re gonna have a bad time.”
    附录:
    Allen AI(Allen Institute for AI):已故微软联合创始人、慈善家保罗・艾伦于 2014 年创立的非盈利研究机构
    Eleuther:一个草根、非盈利 AI 研究机构
    FlashAttention:基于分块计算的注意力优化技术,减少内存占用并提升效率
    MLA:多头潜在注意力机制,优化长序列处理效率
    vLLM:大语言模型推理框架,优化显存管理和吞吐量
    SGLang:结构化生成框架,支持灵活域特定语言控制
    ESFT(Expert Specialized Fine-Tuning):专家特化微调技术
    NPU:神经网络处理器(一种 AI 芯片),专为深度学习计算优化能效
    FP8:混合精度计算格式,平衡性能与数值稳定性
    ☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆
    欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。
    这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。
    请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。
    https://cdn.z.wiki/autoupload/20250114/en02/1991X754/%E6%88%AA%E5%B1%8F2025-01-14_15.34.07.png
    相关链接
    光年之外联创再出发,与袁进辉聊 AI Infra 到底做什么? (https://www.xiaoyuzhoufm.com/episode/65b19c9bc2bedd4be809a48a)
    DeepSeek Inside:彻底的技术开放,成就的商业奇观 (https://mp.weixin.qq.com/s/6m5V3qG1LHILH_Y4YvouJQ)
    本期主播:小红书 @曼祺_火柴Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token=YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw-EfCtqmFTkCIM2o=&xsec_source=app_share&xhsshare=CopyLink&appuid=5dfa9e92000000000100626f&apptime=1736682459&share_id=331aecb9ca7941f498d81fb9c32ea810),即刻 @曼祺_火柴Q (https://okjk.co/FBoH1Q)
    https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/%E6%92%AD%E5%AE%A2-%E7%BB%93%E5%B0%BE%E4%BD%9C%E8%80%85%E7%AD%BE%E5%90%8D.png
    关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章:
    https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/%E6%92%AD%E5%AE%A2%E7%BB%93%E5%B0%BE%E6%88%AA%E5%9B%BE.png

  • 「从把物理变数学,到把语言变数学,再到把生命变数学」
    将近 8 个月没有更新大的模型版本后,百川在春节前发布了推理模型 Baichuan-M1-Preview。在一批头部大模型公司中,百川在 24 年年中明确做出了选择:聚焦医疗。
    这是王小川长久的关注,他说:2000 年,他研究生的毕业论文就是做基因测序的拼接算法,当时他就想知道,生命的数学原理是什么?因为发现数学、物理等科学体系不足以解释生命了,他还去研究了中医,也投资过中医公司。他认为中医是一种哲学。
    在 2023 年成立的百川上,王小川统一了他对生命科学的长久关注与追求 AGI。这让成立之初,讲通用模型和应用的百川看起来 “变了” 、 “慢了”,也走到了焦点之外。去年,百川既不参与模型 API 价格战,也没有跟进投流大战。
    社交媒体上出现不看好百川的声音。也有投资人告诉我:“百川其实是最稳的大模型独角兽之一”——累计融资超 50 亿元,却没怎么烧钱。
    在百川发布新模型 M1 后,我们访谈了王小川,聊了百川做医疗的源起,王小川理解的 AGI 与医疗和生命科学的关系,以及百川已经发生的落地实践——2025 年一季度,每个海淀居民就可能有一个 AI 医生助理。
    多数人认为做医疗是转向垂直领域,王小川的逻辑则是:医疗不是垂直场景,因为任何一个 AI 技术在医疗上都有用武之地,它不会被今天的 AI 淹没掉。
    当更多同行与科技大公司在同一个战壕里厮杀时,强调创业要“走出大厂射程之外”的王小川看到了什么?以下是他的阶段性回答。
    登场人物:
    嘉宾:王小川,百川智能创始人兼 CEO
    主播:程曼祺,《晚点 LatePost》科技报道负责人。
    时间线跳转:
    - 中国公司快速做出推理模型
    03:28 内蒙古脑梗患者案例,百川 M1 给出的诊断方向与协和医院会诊高度吻合
    03:41 走向开源是既定计划,方便医疗行业上手调优
    06:09 快速追 o1:蒸馏不是秘密
    07:35 DeepSeek “技术慢半步”超出预期
    - 造医生等于 AGI,医疗不是垂直领域
    12:53 成立百川时就想做医疗,2016 AlphaGo 和魏则西事件带来的思考
    14:48 2000 年就做基因测序拼接算法,好奇生命的数学原理,研究中医
    17:21 ChatGPT 带来的判断:语言是中轴,AI 不是第四次工业革命
    20:36 为什么成立时未特别强调医疗?
    21:20 为何医疗不是垂直? & 团队反馈
    - 落地应用:北京儿童医院、海淀区
    26:47 与北京儿童医院合作,为什么从儿科开始
    30:52 今年一季度,每个海淀居民会有 AI 医生助理
    31:57 三种付费方式:政府、医院和商保等;另一个机会是出海
    36:53 做大模型后“见过的省长和市委书记比过去都多”
    38:45 招投标过程分享
    - 医疗,怎么继续超级模型+超级应用?
    40:37 训练医疗超级模型成本更高,但有相应价值。
    42:47 中国一年就诊人次超 84 亿
    45:24 医疗行业不会被通用智能吃掉,因数据、场景特殊性
    - 语言是主轴,直接用图像、视频训练是走偏了
    47:56 M1 有多模态,主要是为了交互,多模态不能开辟技术赛道
    48:21 o1 验证了语言是智能主轴
    51:18 下一个范式迁移是 AI 自己造工具
    52:57 怎么看“Yann LeCunt 认为只靠语言无法让 AI 理解真实世界规律”?
    56:19 更远的未来:义体化、攻壳机动队、AI 延续“人类文明”
    - 从搜狗到百川58:30 两次创业比较
    01:02:02 需要更多年轻人
    01:05:13 去年一年,创造了什么?健康、快乐吗?
    01:06:57 室温超导带来“蒙圈”,参与 AI 浪潮的幸运
    01:14:05 99.99% 的人低估了变化,大模型有望让世界更平
    01:15:53 2025 年的两个期待
    ☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆
    欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。
    这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。
    请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。
    https://cdn.z.wiki/autoupload/20250114/en02/1991X754/%E6%88%AA%E5%B1%8F2025-01-14_15.34.07.png
    本期访谈图文版:
    晚点对话王小川|不是文本创作、不是物理模型,AGI 的尽头是生命科学 (https://mp.weixin.qq.com/s/o7wg-YavNVPm-KJxFpJ9uA)
    往期 AI 大模型播客
    MiniMax 创始人闫俊杰:做大模型,千万别套用移动互联网的逻辑 (https://www.xiaoyuzhoufm.com/episode/678daf93cabd7f95693c8d6c?s=eyJ1IjogIjYwZDg0ZWU1ZTBmNWU3MjNiYjc3YjhmMCJ9)
    李开复聊零一部分团队并入阿里:只有大厂能追逐超大模型 (https://www.xiaoyuzhoufm.com/episode/678618621bea9ab60c4dfefc?s=eyJ1IjogIjYwZDg0ZWU1ZTBmNWU3MjNiYjc3YjhmMCJ9)
    硅谷怎么看 DeepSeek?与 Fusion Fund 张璐聊开源、Agent 和“除了AI” (https://www.xiaoyuzhoufm.com/episode/6799dea77c3a804d89fd93f2?s=eyJ1IjogIjYwZDg0ZWU1ZTBmNWU3MjNiYjc3YjhmMCJ9)
    剪辑制作:甜食
    本期主播:小红书 @曼祺_火柴Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token=YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw-EfCtqmFTkCIM2o=&xsec_source=app_share&xhsshare=CopyLink&appuid=5dfa9e92000000000100626f&apptime=1736682459&share_id=331aecb9ca7941f498d81fb9c32ea810),即刻 @曼祺_火柴Q (https://okjk.co/FBoH1Q)
    https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/%E6%92%AD%E5%AE%A2-%E7%BB%93%E5%B0%BE%E4%BD%9C%E8%80%85%E7%AD%BE%E5%90%8D.png
    关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章:
    https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/%E6%92%AD%E5%AE%A2%E7%BB%93%E5%B0%BE%E6%88%AA%E5%9B%BE.png

  • 「技术的力量,开源的力量,初创生态的力量」
    2025 年 1 月,农历春节也没有让模型竞赛丝毫减速。DeepSeek 发布开源推理模型 R1,以相对低的成本,在一些 Benchmark 上比肩 ,甚至超越了 o1 的表现,在全球掀起了广泛讨论。
    这期节目,我们邀请了 2015 年,在硅谷创立了 FusionFund 的投资人张璐,来和我们一起聊一聊,当前美国科技圈和硅谷语境中,对 DeepSeek 等模型的讨论。
    我们也延展聊了 DeepSeek-R1 和 o1 等推理模型打开的 Agent(智能体)应用空间;以及在美国的科技投资视野中,除了 AI ,大家还在关注什么。
    FusionFund 曾投资 SpaceX、AI 音频公司 Otter.ai 还有 AI 与医疗结合的公司 Subtle Medical 等。在 AI 领域,Fusion Fund 重点投资美国本土的 to B AI 公司,关注 AI 与医疗、太空科技等领域的结合。
    张璐认为,DeepSeek 能有如此出圈的影响力,重要原因之一是开源生态的胜利,而开源的繁荣更有利于初创企业。
    张璐也谈了她对“DeepSeek”利空英伟达和 GPU 算力需求,以及 Meta 等美国科技大公司感到的压力。
    她的观察是,长线看,DeepSeek 这类大幅降低 AI 模型训练、部署和使用成本的开源成果,会促进更多公司把 AI 大模型带到各行各业,这会提升 AI 用量和算力需求,对算力并不是一个利空。
    对 Meta 这样大力投入开源的大型科技公司,张璐认为,它们的一些贡献和整个开源社区的进展,本身是 R1 这类成果出现的条件之一,同时 Meta 作为美国 AI 开源生态的主要玩家之一,也会长期受益于开源的繁荣。
    我们聊这期节目时,是 2025 年 1 月 27 日上午,当天晚上,英伟达股价大跌超 17%,市值蒸发超 5000 亿美元。
    这次波动幅度超出一些人的预期,但也许并不影响长期的趋势判断。1 月 28 日,英伟达又反弹 8%,股价从前一天最低约 116 美元回升至 129 美元。你“抄底”了吗?
    登场人物:
    嘉宾:张璐,Fusion Fund 创始合伙人
    主播:程曼祺,《晚点 LatePost》科技报道负责人。
    时间线跳转:
    - DeepSeek“冲击”,开源生态的胜利
    02:51 张璐达沃斯峰会期间,各路商业领袖讨论 DeepSeek
    04:13 去年年中,Anthropic 和 OpenAI 的朋友就提及过 DeepSeek
    04:59 R1 的“惊喜”来自:1.开源 2.跳过监督学习的强化学习 3.成本优势
    08:03 这对 Scaling Law 是好消息:可免除大量标注数据,结合更多合成数据,让模型自我“反思”
    12:27 一直相信开源的力量,开源更利好初创生态
    15:30 DeepSeek 改变大家对中国模型的印象:工程优化外,底层架构也有创新。
    16:46 AMD 宣布与 DeepSeek 合作,但这也不是利空英伟达,因为DeepSeek 等成果会降低更多行业使用大模型的成本门槛
    19:55 Meta 短期有公关舆论压力,长期受益开源繁荣
    23:06 DeepSeek V3 557 万美元训练费用,只算了 GPU hours
    25:29 OpenAI 的秘密武器?是否低估了开源与闭源的差距?
    28:09 X.ai 的特别优势:有 3D 产业数据(Tesla、SpaceX 的生产、产线数据等)
    30:32 DeepSeek 的“诗意输出” :模型有不同“性格”,不同语言也可能带来不同“思维方式”
    33:12 2025 年 AI 升级方向:垂直小模型、AI 进入边缘设备、架构创新
    - 推理模型带来的 Agent 机会
    40:08 试用 OpenAI Operator,目前还很慢,会编造信息,但前景美好;Salesforce、微软等大公司在布局行业 Agent。
    43:50 Sam Altman 称很快会让 ChatGPT Plus 会员(20 美元/月订阅)用上 Operator,这话得“打折”听。
    45:25 美国 B 端客户对准确性和专业度要求高,对当前 Operator 的形态接受度低,更希望获得专业、精准产品。
    46:50 Operator 与传统 RPA(流程自动化)的区别:交互革新。
    49:36 医疗、金融、保险、太空科技领域都有 Agent 应用机会。
    53:33 Agent 隐私问题——一个实例:人们更喜欢向机器/AI倾诉疾病困扰。
    56:15 AI Native 的一代:一出生就和 AI 玩具聊天的孩子们
    56:33 美国基于开源基座模型+第三方 infra 服务+应用,生态活跃;而国内投资人有时担忧只做一个环节的公司太轻,易被巨头挤压。
    01:03:04 硅谷创投圈的热闹,每周有新东西,幸福感高,竞争压力也大。
    - 除了 AI
    01:06:23 科技和生命科学结合(Bio Tech)& 太空科技(Space Tech)
    01:10:15 美国创新核心在硅谷,波士顿、纽约、奥斯汀、洛杉矶也在崛起,如洛杉矶形成了 Space Tech 聚集地。
    01:13:40 2025 年充满变数,期待更好保护创新生态,防止技术和资源被大企业垄断。
    ☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆
    欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。
    这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。
    请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。
    https://cdn.z.wiki/autoupload/20250114/en02/1991X754/%E6%88%AA%E5%B1%8F2025-01-14_15.34.07.png
    相关链接:
    OpenAI 来了!与硅基袁进辉聊 o1 新范式和开发者生态 (https://www.xiaoyuzhoufm.com/episode/66e8c476c1c200f20dbcfac8)
    DeepSeek 爆火引发系列连锁反应,Meta 建立 4 个小组研究 DeepSeek (https://mp.weixin.qq.com/s/q5nQDxu4RVHrYJOfiHtq5A)
    剪辑制作:阿鲸Hval
    本期主播:小红书 @曼祺_火柴Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token=YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw-EfCtqmFTkCIM2o=&xsec_source=app_share&xhsshare=CopyLink&appuid=5dfa9e92000000000100626f&apptime=1736682459&share_id=331aecb9ca7941f498d81fb9c32ea810),即刻 @曼祺_火柴Q (https://okjk.co/FBoH1Q)
    https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/%E6%92%AD%E5%AE%A2-%E7%BB%93%E5%B0%BE%E4%BD%9C%E8%80%85%E7%AD%BE%E5%90%8D.png
    关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章:
    https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/%E6%92%AD%E5%AE%A2%E7%BB%93%E5%B0%BE%E6%88%AA%E5%9B%BE.png
    封面:AI 生成的数字巨鲸。

  • 更好的模型可以导向更好的应用,但更好的应用和更多用户并不会导向更好的模型。
    头图是 Dota 2019 国际邀请赛决赛(TI9)中,OG 战队的 Ana 使用 IO(小精灵,图中球形发光体)的经典作战,OG 在 TI9 中夺冠。为什么用这个图,播客里有答案~
    经过 “一切在加速” 的 2024 年,围绕中国大模型创业的讨论,从 “谁又融资了?” 变成 “谁会第一个倒下?”
    行业分化时刻,我们访谈了中国大模型六小龙之一,估值已超 30 亿美元的 MiniMax 创始人兼 CEO 闫俊杰,聊了 MiniMax 的新技术目标,他们刚刚发布的首个开源模型系列 MiniMax-01 ,去年一年公司的变化和人员调整,以及闫俊杰作为一个“练习时长 3 年”的“新人 CEO”的自我复盘。
    10 个月前,我们就访谈过一次闫俊杰。那次他提了很多字节;这次再聊,明显感到他主动提字节少了,提 Anthropic 多了。这与行业风向形成微妙的反差。
    在他更在意字节的 2024 年 3 月,大模型创业最是烈火烹油。而现在,越来越多人开始讨论大厂对创业的压力,MiniMax 本来是看起来相对 “安全”:它的 AI 社区产品 Talkie 的最新月活用户数已超过 Character.ai,成为同类产品全球第一;其在中国的 AI 社区产品 “星野”,用户数、使用时长和留存率也都是第一,高于字节旗下的同类产品。
    闫俊杰却自己推翻了这些优势,在他现在的认知里,用户数等指标并非 AI 竞争的核心,他说:
    - 千万别套用移动互联网的逻辑来做 AI。
    移动互联网的逻辑是:用户越多,反馈越多,推荐算法越聪明。而闫俊杰认为,AI 大模型和产品的真实关系是:
    - “更好的模型可以导向更好的应用,但更好的应用和更多用户并不会导向更好的模型。”
    在这个认知更加明确后,闫俊杰说他做出了取舍,现在 MiniMax 最重要的目标不是增长,也不是收入,是 “加速技术迭代”。
    不到一年的两次访谈,我们从聊移动互联网到聊跳出移动互联网的逻辑,从讲 2024 年的目标到闫俊杰复盘当时定目标的逻辑就不太对——AI 行业和其中的人都在快速变化与迭代。
    时间线跳转:
    ·聊 MiniMax-01 新模型系列:为什么开源?
    02:12 为什么开源——加速技术迭代 & 加强技术品牌
    08:22 行业误区:认为更好的智能水平要依赖更多的用户;其实不然
    13:01 想清楚这个逻辑后:模型要追求不断提高上限,而产品就是产品
    15:11 明确 MiniMax 是一家技术驱动的公司
    ·聊对技术的态度:“一年前最喜欢说信仰的人,信仰都兑现了吗?”
    18:01 “随热点而动?”这是对我们的误解
    20:13 现在没人能定义什么是 AGI,只能定义智能水平会不断进步
    22:00 作为创业者,不是说 Scaling Law 撞墙了我就放弃了,而是努力找方法延续它
    23:59 一年前最喜欢说信仰的人,信仰都兑现了吗?
    ·聊 Agent:long-context 很重要,探索 coding 之外的 Agent 场景
    25:31 Agent 能处理复杂任务,复杂任务指在专业领域达到专业人士水平
    27:51 Agent 需要模型架构和能力的提升;MiniMax-01 做到了第一点
    29:08 01 改传统 Transformer 里的非线性注意机制为线性注意力机制,提升了处理 long-context 的能力,这对单 Agent 交互质量,和多 Agent 通讯都很重要
    35:07 为什么没发 o1 方向模型?
    39:40 多模态能力在 OpenAI L1-L5 的 AGI 路线图里很重要
    41:04 AI 编程助手 Cursor 的成功并不基于 o 方向的模型
    41:51 蒸馏 o1 数据复现 o1,没那么难
    44:09 编程之外另一 Agent 落地场景:信息的获取
    51:09 中美模型的一个区别,前者缺少内部 benchmark
    55:19 MiniMax 的技术团队特点:模型、Infra 和工程的综合能力强;客观、扁平、灵活
    ·聊模应一体:市场不是有 A,就不能有 B
    01:01:38 模型、应用一起做,还有必要吗?
    01:03:59 即使更晚创业,也不会做只做应用的公司,因为想做基于未来技术的产品
    01:04:44 海螺文本的失利——没有坚持技术驱动
    01:06:48 Talkie、星野的暂时领先——因为更懂用户
    01:07:34 做技术的人大部分觉得自己很牛,但我不是这么认知世界的
    ·聊竞争:不要区分大厂和创业公司
    01:07:56 不用把创业公司单独当一类公司
    01:09:22 DeepSeek 也很纯粹;智谱第一个有 AI 路线图
    01:09:59 MiniMax 的路线图?——逃出生天,下一步最重要
    01:11:19 一年来大模型竞争最大的变化:更多人意识到这和移动互联网是两件事
    01:12:29 没和字节谈过被收购,从来没想过把公司卖一个什么价钱
    01:15:02 24 年没完成年初目标,定目标的逻辑就不太对
    01:16:28 大厂投入和竞争激烈程度都在预料之内
    01:18:46 AI 产品该看什么指标?
    01:20:25 大公司之外,更大的“危险”还是来自自己的认知
    ·聊团队和自己:放下 ego,深度思考
    01:22:49 不要假定团队没有流失,流失才是正常的
    01:23:24 MiniMax 需要的两种人
    01:25:48 确定研发优先级需要做取舍,不见得每个取舍都对,纠错很重要
    01:26:56 CEO 决策什么不决策什么不重要,重要的是组织有共同决策标准
    01:29:48 让所有人都觉得公司被管得很好,这不是一个目标
    01:30:28 打造 AI 组织的难点:持续吸引更好的人
    01:31:17 半年多前焦虑,现在不了,因为已做出取舍,以技术迭代为最大目标
    01:32:08 去年反思最多的问题——认知能力为何不能提升得更快?
    01:32:16 放下自我,思考得更深入
    01:34:29 为什么一直被叫 IO?
    01:36:38 25 年对自己的期待:不断提高技术水平
    相关链接:
    《晚点对话 MiniMax 闫俊杰:创业没有天选之子》2025 年 1 月 (https://mp.weixin.qq.com/s/VBnm3KCsYd4fuXcBpDgiaA)
    《对话 MiniMax 闫俊杰:AGI 不是大杀器,是普通人每天用的产品》2024 年 3 月 (https://mp.weixin.qq.com/s/OXunu2wnNQv66rZIZLnW7g)
    MiniMax-01 开源系列模型技术博客 (https://www.minimaxi.com/news/minimax-01-%E7%B3%BB%E5%88%97)
    登场人物:
    嘉宾:闫俊杰,MiniMax 创始人兼 CEO
    主播:程曼祺,《晚点 LatePost》科技组负责人。小红书 @曼祺_火柴Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token=YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw-EfCtqmFTkCIM2o=&xsec_source=app_share&xhsshare=CopyLink&appuid=5dfa9e92000000000100626f&apptime=1736682459&share_id=331aecb9ca7941f498d81fb9c32ea810) 即刻 @曼祺_火柴Q (https://okjk.co/FBoH1Q)
    剪辑:甜食
    https://cdn.z.wiki/autoupload/20250114/HozC/1428X298/%E6%88%AA%E5%B1%8F2025-01-14_14.18.52.png
    ☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆
    欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。
    这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。
    请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。
    https://cdn.z.wiki/autoupload/20250114/en02/1991X754/%E6%88%AA%E5%B1%8F2025-01-14_15.34.07.png
    关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章
    https://hv.z.wiki/autoupload/20250114/3bhk/1452X514/%E6%88%AA%E5%B1%8F2025-01-14_14.18.17.png

  • 「不再追求 AGI,他第一个讲了出来」
    上周初开始,市场陆续出现有关零一万物的新调整传闻,关键词包括:“放弃预训练,资金链紧张、被阿里收购……”传闻出现的第二天,我们在零一万物办公地,中关村鼎好大厦,采访了李开复。
    他解释了实际发生的变化:零一万物已经和阿里云成立了 “产业大模型联合实验室”,零一万物的大部分训练和 AI Infra 团队会加入这个实验室,成为阿里的员工,侧重超大模型研发。零一自己接下来会聚焦做更快、更便宜、更小,更能支持普惠应用的模型,同时自己做应用。
    在李开复的描述里,超大模型和更快、更便宜、更小的模型的关系类似于“老师和学生”,超大模型可以通过标注结果和生成更多合成数据的方式帮更小的模型提升性能。
    去年 5 月,我们也访谈过一次李开复,当时的话题是从中国“最年长的 AI 大模型创业者”开始的,在 2023 年创立零一万物时,李开复已经 62 岁。
    和他行业地位还有人生阶段相似的人,更多会选择支持一个公司,而李开复这次是自己当 CEO,自己跳入了这场大模型的混战。
    关于零一的新选择,有人认为是理性、务实,有人认为是收缩乃至“认输”。不管如何,在最新传闻后,李开复快速对外说明事实和阐释想法的姿态,展现了 CEO 的责任。当公司出现调整,CEO 是需要对内对外说明情况的人。
    这次我又问了去年问过李开复的一个问题:功成名就时再来创业,会不会有心理包袱?
    他的回答还是和上次相似。1983 年,李开复开始在卡耐基梅隆读计算机博士,当时他在研究计划里写:“AI 是人类认识并理解自己的最后一里路,我希望加入到这个全新绽放、充满前景的未来科学领域。”
    李开复认为,这是他等了四十多年终于等到的 AI 时代,如果自己没有试一把,才是一个终身遗憾。
    我们访谈李开复的两篇文字报道,我也贴在了 shownotes 的“相关链接”部分,感兴趣的听友可以阅读。
    时间线跳转:
    回应零一万物调整:“不会停止预训练,但不再追逐超大模型”
    02:30 零一与阿里云成立“产业大模型联合实验室”,零一部分团队并入阿里
    06:01 当开源追上闭源,任何公司没必要执着于自己预训练,但这件事现在还没发生
    08:16 零一没有寻求过被收购
    Scaling Law 在变慢;商业化灵魂拷问时刻已经到来
    12:08 2024 年 5 月后,零一就做出抉择:聚焦更快、更便宜的模型;想做最大、最棒、最牛的模型,代价非常高,绝对不是一个初创公司可以做的事。
    16:57 超大模型的作用是当 Teacher Model,提升较小模型的能力,Anthropic 和 OpenAI 都有类似实践
    22:22 大模型时代,从技术竞争到商业落地拷问,一切在加快
    25:13 不打打不赢的仗,不做看不到回报的大量投入
    27:25 3 种 ToB 订单可以做:帮客户赚钱的;与行业客户紧密合作的;方案可复制性高的
    “2025 年零一会有数亿收入”,怎么来?
    33:32 2024 年获得超 1 亿元人民币实际收入
    35:03 2025 年会和适合大模型的行业公司建合资公司,结合行业数据、Know-how 和零一的技术
    中国大模型创业公司会全军覆没吗?——“没有任何概率”
    38:26 谈团队变化:有人禁不住诱惑,有人想追寻超大模型
    40:19 中国大模型创业公司全军覆没有多大概率?——“没有任何概率”,因为 AI-first 的应用会足够颠覆
    44:01 AI-first 应用的特性:自然语言交互;有通用推理、理解能力;无 AI 不成立
    45:11 中国大模型创业公司在应用和落地上会有更多优势,这是互联网和移动互联网验证过的逻辑。
    “等了 40 多年,不试才是遗憾”
    47:28 不后悔自己当 CEO,一线创业
    49:43 2025 年,应用会爆发,零一会在垂直细分行业找到有大价值的 PMF
    51:19 工作是工业革命留下的魔咒,如果有了 Super Agent,我会花更多时间和爱的人在一起,这是 AI 取代不了的。
    52:45 “每一位都是勇士,我们应该彼此鼓励”
    53:32 2025 年的新年愿望
    相关链接:
    《晚点对话李开复丨他第一个讲了出来,不再追求 AGI》(25.01) (https://mp.weixin.qq.com/s/D85OpN92ovxaPLzM4Uk1WQ)
    《对话李开复:这次大模型创业,我十年都不会变现》(24.05) (https://mp.weixin.qq.com/s/tA8puGmIi2v1v6CTMPnksg)
    登场人物:
    嘉宾:李开复,零一万物创始人兼 CEO。
    主播:程曼祺,《晚点 LatePost》科技组负责人。小红书 @曼祺_火柴Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token=YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw-EfCtqmFTkCIM2o=&xsec_source=app_share&xhsshare=CopyLink&appuid=5dfa9e92000000000100626f&apptime=1736682459&share_id=331aecb9ca7941f498d81fb9c32ea810) 即刻 @曼祺_火柴Q (https://okjk.co/FBoH1Q)
    剪辑:甜食
    https://cdn.z.wiki/autoupload/20250114/HozC/1428X298/%E6%88%AA%E5%B1%8F2025-01-14_14.18.52.png
    ☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆
    欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。
    这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。
    请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。
    https://cdn.z.wiki/autoupload/20250114/en02/1991X754/%E6%88%AA%E5%B1%8F2025-01-14_15.34.07.png
    关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章
    https://hv.z.wiki/autoupload/20250114/3bhk/1452X514/%E6%88%AA%E5%B1%8F2025-01-14_14.18.17.png

  • 中国产品出海正在进入一个新时代:从卷低价、卷规格,到建品牌,讲故事。泡泡玛特希望在全球讲的是 IP 界的唱片公司的故事;名创优品希望借助每个大火的 IP,让自己的产品提供更多功用性之外的价值;喜茶则继续用联名,在全球范围内扩大自己的品牌影响力。
    以往中国商品靠精益生产、快速周转,赚的是薄利多销的钱,今天新一代工厂管理者接手后,他们希望能从头搭建品牌故事、建立品牌影响力,利润空间更高、更具品牌忠诚度的海外市场就是他们心中的应许之地。但如何在海外从 0 到 1 搭建起一个品牌?
    我请来了一位国际日化集团的社交电商负责人 Eric,这一集团下不少化妆品品牌女生们都耳熟能详, Eric 过去 10 年都在集团内负责整个亚太区域的电商业务,做过运营、投放、数据分析,Eric 很清楚一个品牌如何从头搭建、长大。
    过去一年他开始转向出海,负责东南亚、日本、美国三个市场的 TikTok 电商渠道,中间踩了不少坑,也积累了不少经验,在本期播客中,我们将能够听到他的真诚分享。
    东南亚市场
    06:54 在东南亚,如何从0到1搭建一个海外品牌?
    23:08 在东南亚做了一年 TikTok 电商,我踩了哪些坑
    31:53 东南亚几个电商渠道,如何分配预算?
    39:26 东南亚绝对不会出现李佳琦,因为没人会那么努力
    日本市场
    49:02 一个商品详情页要改两周,日本电商市场太慢
    53:36 面对低效,破局的点是找到搭配默契的中国人团队
    北美市场
    01:00:46 品牌要在 TikTok 北美做起来,可能会面临哪些挑战?
    01:06:43 雅诗兰黛等全球知名品牌是怎么做 TikTok 的?
    01:08:12 为什么美国的 TikTok 很难像中国的抖音一样快速成长起来?
    01:14:03 外资进入中国,有什么经验可借鉴?
    01:18:41 出海过来人想说,你得考虑这三个问题
    剪辑:甜食
    登场人物
    Eric,知名国际日化集团全球社交电商负责人,即刻 ID:艾瑞克丁 Eric
    陈晶 《晚点 LatePost》记者,关注出海(Wechat:tiema233)
    封面图:Eric 从印尼飞往越南的路上

  • 「没进展的 5 年,也是内部技术变革的 5 年。」
    两年多前,我们在 Robotaxi(无人出租车)的信心冰点报道过小马智行。那时的标题是:“市场不相信自动驾驶了,但他们还信”。
    转眼到 2024 年:百度萝卜快跑 4 月在武汉引起热潮,Waymo 无人车队 8 月在旧金山的日均总单量超过了当地出租车(未计算网约车);年底,又有文远知行、小马智行两家中国头部 Robotaxi 公司先后登录美股。
    在特斯拉和 Waymo 的路线对比中,强弱之势也正微妙变化。10 月,马斯克的 Robotaxi 发布会后,Uber 股价大涨 10%;而 1 个月后,当 Waymo 传出进入迈阿密,Uber 股价则跳水 10%。
    谁更有希望代表 L4 真的改变人类司机出行网络?华尔街在用钱表态。
    这个时刻,我们再次访谈了刚刚完成 IPO 的小马智行 CTO 楼天城。
    他完整描述了小马过去 5 年 L4 技术变革:从 Learning by Watching 到 Learning by Practicing。
    前者是学习人类驾驶行为的模仿学习,是如今 L2+ 普遍选择的路;后者的关键则是构造一个训练车端模型的虚拟环境,让系统可以自己进化,楼天城称之为“世界模型”。
    楼天城分享了与之相关的多个技术洞察:
    ·世界模型本质不是一个模型,世界模型是车端模型的 factory(工厂),自动驾驶技术的真正差别在于 factory 的精度,而非车载模型的能力。
    ·Learning by Watching 最多是像人,但像人永远无法做到 L4。
    ·越是优秀的人类司机,学起来越是反向优化。
    ·MPI 为 1000 公里的产品不存在,因为它反人性。
    过去 5 年,外界看不到 L4 公司的明显进展:MPCI(接管里程)仍在提升,但只要无人化车辆没有大量上路,人们就没有直观感受,技术指标只是冰冷的数字。
    但在楼天城的叙述里,外界见不到进展的 5 年,也正是关术变革发生的关键时期。
    这些变化,使 Robotaxi 今年得以启动百台至千台级别的规模化运营,也给行业带来了高开低走,又逐渐反弹的波折命运。这不仅考验从业者的理性技术判断,更考验感性的决心,和说服团队一起相信的能力。
    “我一直说,大部分人不能坚持不是因为太苦,而是因为受到了诱惑。”楼天城说,过去 8 年,他没有遇到过能和自动驾驶相提并论的诱惑,大模型也不算。
    时间线跳转:
    ·5 年前:瓶颈 →绝望→寻找新路
    02:53 2019 年后,L4 的进展难再被感知,规模化无人运营带来了市场水温变化。
    11:13 这 5 年:从 Learning by Watching 到 Learning by Practicing
    12:30 前者是模仿学习,没法学习驾驶员怎么想
    14:27 世界上不存在一个 MPI 为 1000 公里的 L2 产品,因为反人性
    16:13 模仿学习的另一个问题是人的双标,AI 司机所以像人依然不满足需求。
    19:07 学习优秀司机也不行,甚至是反优化
    19:45 这本质是因为模仿学习是开环训练,“我绝望了,才发现闭环是出路”
    ·搭建“世界模型”
    22:03 Learning by Practicing 的闭环训练,是强化学习思路
    23:46 学了棋谱再强化(AlphaGo),甚至不如直接从 0 开始强化(AlphaZero)
    24:28 感性上的挑战:之前的路线做了 3 年还不错,换路线后前两年追得痛苦
    26:19 5 年前开始转向以生成数据为重,这也是世界模型的任务之一
    30:36 在虚拟环境里学习,本质是“向未来的自己学习”
    32:21 世界模型是车端模型的工厂,自动驾驶进化的关键是工厂的精度,而不是车端模型本身
    34:43 Learning by Watching,数据和算力是关键;Learning by Practicing,世界模型的精度是关键
    ·认为 L2 会覆盖 L4,是还没有越过分界点
    35:03 没有谁做了错误选择,L2+和 L4的优化方向不同
    36:18 L2 使用 Learning by Watching 没问题,也符合 L2+的规模效应特性
    38:51 L2 不能覆盖 L4,L4 也不能取代 L2,真正越过分界点后会发现这是两件事
    42:20 小马世界模型的构成:1.数据生成器 2.驾驶评估体系 3.高真实性的仿真 4.数据挖掘引擎
    45:39 魔鬼在细节,世界模型的细粒度指标是核心竞争力
    53:04 世界模型的终极状态:车不再因错误发生事故
    54:48 千台 Robotaxi 开始有毛利,净利和扩张则是策略上的 trade off
    56:15 不会因为它是特斯拉,Learning by Watching 就能 work
    01:03:11 车辆运营维护与合作伙伴一起做;远程遥控人员的比例未来可到 1 比 30
    ·大部分是因为结果的正确,倒推方法的正确
    01:10:20 大部分人不能坚持,不是因为苦,而是因为受到了其它诱惑
    01:11:08 大模型现在很 fancy,一旦走到应用阶段,会经历自动驾驶经历的所有事
    01:11:35 MiniMax 的产品是 L4,CoPilot 是 L2
    01:14:09 度过行业起伏:外界看不到进展时,内部也要有合理且可感的里程碑
    01:17:30 越来越相信,世界是模拟的
    01:19:40 大部分人是因为结果正确,倒推成功者方法正确,但正因如此,不该盲目套用别人的方法
    01:24:00 过早追求商业化,和一定要追求最有价值的商业化,都是极端。“创业前我没想过二者的平衡,创业中我肯定偏执过。”
    01:25:57 下一步的关键是合理成本下,扩大车队规模
    相关链接:
    《市场不相信自动驾驶了,但他们还信》 (https://mp.weixin.qq.com/s/Rlnk6nzddScL9Czo4AF5pA)
    剪辑:甜食
    登场人物:
    楼天城,小马智行联合创始人兼 CTO。
    程曼祺,《晚点 LatePost》科技报道负责人。

  • 汉洋和工业设计师志斌一起聊了聊到底啥是工业设计?并且随机点评了一些当下比较火的产品。
    本期节目我们聊到了:
    * 简单一句话 20 来个字概括工业设计
    * 工业设计这门课本科都在学啥
    * 哪个最不起眼的东西实际有很高的工业设计含金量?
    * 工业设计和其他设计的区别和联系
    * 工业设计师是一个工业产品的产品经理么
    * 工业设计在一个产品线中所处的环节是什么?
    * 工资最高和最少的工业设计师分别在设计什么(或者说在解决什么问题)
    * 比如说你看到一台新发布的手机,你会关注什么?
    * 顺着聊聊,如何看待 iPhone 的设计?
    * 不同产品之间你关注的设计点一样吗?比如车和手机
    * 聊聊理想 Mega
    * 那些细节是你一看就难的,但普通人都感觉习以为常的?
    * 反过来呢?大家认为难但实际上很简单的呢?
    * 没做过工业生产的老板,会在设计上踩什么坑?
    * 我们拿到一台新设备,该怎么看他的设计好坏?
    相关链接:
    志斌的播客《荒野楼阁 WildloG》(苹果) (https://podcasts.apple.com/my/podcast/%E8%8D%92%E9%87%8E%E6%A5%BC%E9%98%81-wildlog/id1743245581)
    《荒野楼阁 WildloG》(小宇宙) (https://www.xiaoyuzhoufm.com/podcast/662a8aa68a089719b7d4b5d9)
    预言在应验:五年前所讨论的未来人机交互的新范式_6.ylo (https://podcasts.apple.com/my/podcast/%E9%A2%84%E8%A8%80%E5%9C%A8%E5%BA%94%E9%AA%8C-%E4%BA%94%E5%B9%B4%E5%89%8D%E6%89%80%E8%AE%A8%E8%AE%BA%E7%9A%84%E6%9C%AA%E6%9D%A5%E4%BA%BA%E6%9C%BA%E4%BA%A4%E4%BA%92%E7%9A%84%E6%96%B0%E8%8C%83%E5%BC%8F-6-ylog/id1743245581?i=1000659173854)
    志斌的 blog (https://suithink.me/)
    柳宗悦 (https://zh.wikipedia.org/zh-hans/%E6%9F%B3%E5%AE%97%E6%82%85)
    登场人物:
    志斌:一个家里有动物园的设计师奶爸
    汉洋:设计溜达动线中
    后期:甜食
    封面:志斌在拍照

  • 「稿件操作幕后,文字之外的更多想法和碎碎念。」
    本期的主播是曼祺,很高兴和「十字路口 Crossing」 (https://www.xiaoyuzhoufm.com/podcast/60502e253c92d4f62c2a9577)串台,一起来聊《晚点》11 月底发布的一篇文章《中国大模型生存战:巨头围剿,创业难熬》的操作故事和感受,这刚好也是一次大模型创业的年底“非系统”复盘。
    这段时间,我感受了非常不同的 AI 面向:先是参加了十字路口和 Abotify 一起组织的一场 AI 创业和开发线下活动(1000 天后的 AI 世界),本来 150 人的活动,有 700 多人报名,最后我目测现场涌入了 200 多人;热火朝天和甚至“乱哄哄”的现场交流与碰撞,是如今的 AI 拼图之一。
    而这前后,我们为准备大模型稿件做采访、数据整理和撰文时,又看到了拼图的另一面:字节等大公司来势汹汹,后来居上,它的大模型进展在 23 年下半年还被群嘲,如今已不可小觑——“中国的大象真的会跳舞”。最头部的一批创业公司,尤其是既做模型,又做应用的六小龙无不感受到这只“大象”的压力。
    所以我们后来在年底的大模型创业生态稿件中,选择了这样一个主线:“巨头围剿,创业难熬”。本期就是和 「十字路口」一起聊聊这篇稿件的操作,以及更多报道之外的言外之意和“前排感受”。
    「十字路口」的两位主播带来了和不同的视角:Koji (杨远骋),联合创办了街旁、新世相和躺岛,他自己现在也在做 AI 应用,是一位活跃的 AI 开发者,对各模型性能区别和 AI 应用的快速变化有一手观察;Ronghui,目前在一家专注科技投资的风险投资机构工作,之前是第一财经周刊驻硅谷的记者,她所在的机构也在积极投资 AI 项目。
    时间线传送:
    Part 1 大模型创业变局:核心变量仍是技术进化的方向与速度
    02:33 市场的核心分歧:技术进化的方向与速度?
    04:35 if 进化快:也许有创业者能有一定的认知优势 & 模应一体也会更合理
    08:16 if 进化慢:产品能力变得更重要 & 大模型头部公司融资不顺
    10:00 神奇的 DeepSeek:不是大厂,但资源够多
    11:55 不管进化快慢,开源对闭源都有压力
    14:44 三种反馈:共鸣、中外关注差异、具体数据讨论
    20:23 马云训话阿里投资部的段子背后
    21:31 不是创业公司不顺利,是大厂衬托下显得不顺利
    23:49 六小龙现状:Kimi 专注做 Kimi,零一不是没产品,智谱 AutoGLM 与手机合作
    31:15 Kimi VS MiniMax:前者重注生产力,后者推出更多适应性产品;生产力是大公司的必争之地,MiniMax 星野、Talkie 在细分市场暂时比大厂产品更强
    35:50 闫俊杰说追求 Intelligence with everyone;杨植麟说追求智能极限
    44:34 大模型创业,一年花费到底多少?投资人的算法 VS OpenAI 花费
    47:33 大模型创业公司不是面临一个挑战,而是一组纠缠的挑战
    48:40 今日头条上线 1 年多时,就有 1000 万日活
    Part 2 字节如何后来居上:招人才、定策略、建组织
    52:13 字节在大模型上不如中国其它大公司,百度才是最早的
    56:41 去年到今年,直接的变化:一号位亲自招人,确定自己做、不再对外投资,Flow 的成立
    01:01:15 字节做 AI 的外部变量:海外的地缘压力
    01:02:19 阿里的新战略:AI 驱动、公共云优先;未来的新看点:阿里云 VS 火山云
    01:07:02 腾讯,可以后发制人
    01:08:40 百度的组织张力,萝卜快跑反而成了百度今年的 AI 亮点
    Part 3 应用在蓬勃生长,创业者没空悲观
    01:11:45 十字路口xAbotify 线下活动,100 多名额,700 多人报名
    01:12:44 超级个人+小团队的蓬勃发展
    01:15:28 应用没有爆发?还是预期太高?
    01:16:20 好用 AI 应用的例子:Recraft、Cursor
    01:20:00 创始人没空悲观,他们一定在寻找出路
    01:21:24 “战争不是由拼搏组成的,而是由等待和煎熬组成的。”
    相关链接:
    我们办了一场全程高能量的 AI 创业者聚会 (https://mp.weixin.qq.com/s/MGkzNM2Gnw75GtQOax5hsw)
    中国大模型生存战:巨头围剿,创业难熬 (https://mp.weixin.qq.com/s/f4ZAkuLsAHcOnD9-DeDeSQ)
    大厂大模型:久违的一把手工程 (https://mp.weixin.qq.com/s/D_xvKGFDZFZdbUODc_tQDg)
    晚点独家丨月之暗面探索 o1,跟字节抢来华为刘征瀛 (https://mp.weixin.qq.com/s/kMDzeolalHpSWmdXxXUwbg)
    晚点独家丨大模型六小龙第一起分拆:零一万物计划独立 AI 游戏公司 (https://mp.weixin.qq.com/s/0pZLHwIA_mQV3buCvzYCgw)
    晚点独家丨月之暗面收缩出海,相关产品负责人离职创业 (https://mp.weixin.qq.com/s/llnZi1lRDvx4P_Pt5JCIgg)
    登场人物:
    Koji 街旁、新世相、躺岛联创,@即刻 杨远骋Koji (https://okjk.co/fmJ9LZ)
    Ronghui 美元 VC,前《一财》硅谷记者,@即刻 Ronghui (https://okjk.co/Tje6xf)
    程曼祺 晚点科技报道负责人,@即刻:曼祺_火柴Q (https://okjk.co/rNd1sA)
    剪辑:十字路口团队
    播客封面:《星球大战外传:侠盗一号》
    关注《晚点 LatePost》公众号,阅读更多商业、科技文章:
    https://hv.z.wiki/autoupload/20241208/TLrV/1050X1164/%E6%99%9A%E7%82%B9%E4%BA%8C%E7%BB%B4%E7%A0%81.jpeg

  • 和更多出海创业者、投资人交流后,我有个直接的感受,“不出海、就出局”这种言论是在给创业者们制造焦虑。
    很多创始人没有足够认真地思考过,自己的产品是否适合卖到海外、努力投入几年后可能还不如做好国内市场、自己应该加强哪些方面的能力,以及,如果你还需要融资的话,投资人真正关心什么。
    这期节目,我们邀请了云时资本创始人彭创,来聊聊从投资人视角看,什么样的出海项目更值得投资,出海创业者们身上有哪些优势和局限。
    彭创在创立云时之前,是洪泰基金的管理合伙人、高瓴资本投资副总裁、高瓴旗下清流资本合伙人,投资过 51 信用卡、有赞等项目,现在云时主要看出海,覆盖材料/零部件、软件、智能硬件、自动化/装备、互联网五个方向。
    创始人决定是否出海前,应该思考哪些问题?一起来听一听投资人视角的看法。
    出海创业者们的优势、局限和纠结
    00:01:44 以前投有赞、51 信用卡等互联网项目,我是如何从互联网到非洲,再到出海?
    00:07:16 从无人问津到所有人都在谈论,投资人看出海的视角有什么变化?
    00:11:41 从投资人视角看,中国出海创业者局限在哪里?怎么补足能力?
    00:19:32 想要做品牌的出海创业者,应该向安克学习什么?
    00:24:20 出海创业者们的犹豫、纠结,很大程度来自全球局势的不明朗
    00:26:58 “不出海,就出局”是在制造焦虑,怎么判断自己的业务到底适不适合出海?
    作为一家主要投出海的基金,如何构建自己的投资逻辑
    00:36:54 投资人能投的出海方向,选择已经不多了
    00:39:08 什么样的出海创业公司,投资人会更感兴趣?
    00:49:10 从零到一,如何搭建起来一个双币基金?
    00:51:29 募资越来越难了,但本质上是因为曾经的资源错配了
    00:55:42 给还在一级市场,迷茫的年轻人们一些建议
    登场人物:
    彭创 云时资本合伙人
    陈晶 《晚点 LatePost》记者,关注出海(Wechat:tiema233)
    剪辑:甜食

  • 「原子化的现代人个体,很难去体会他人的苦。导致佛教真正去强调助人利他的一面始终浮现不出来。」——成庆
    佛学火了,但它为什么会火?本期节目来自于汉洋研究佛学与佛教后的一系列问题,他与上海大学历史系副教授成庆聊了聊佛学与佛教。成庆老师目前关注明清禅宗思想史,以及汉传佛教的现代化转型问题。同时他也在看理想 App 主持了《人生解忧:佛学入门 40 讲》并且基于该节目出版了新书《人生解忧》。
    汉洋的问题很简单:佛学在今天多大程度上被当成了一种心灵疗愈的精神止痛药,成为了身心灵的一种?青年人在消费佛教,到底是在消费什么?学佛,到底要学什么?
    佛教,是帮助我们成为更好的自己,还是消除对自己的执念?佛陀是已经觉悟的众生,众生是尚未觉悟的佛陀——今天我们还相信自己也可以取得和佛陀一样的知见吗?
    本来自由人。
    相关链接:
    人生解忧:佛学入门40讲 (https://www.vistopia.com.cn/detail/317)
    成庆老师的新书《人生解忧》 (https://book.douban.com/subject/37103197/)
    永福普贤讲习社 (https://mp.weixin.qq.com/s/jNm5f6i5-IhCWEKmbmWurA)
    新展|虚堂雨滴声:近代佛教的转型与重生 (https://mp.weixin.qq.com/s/COHpkUNuGePUaaJWPyVC4w)
    登场人物:
    成庆:非典型大学老師,一切事物的好奇探索者
    汉洋:大法应化,随缘盛衰。盛衰在迹,理恒湛然。
    后期:甜食
    封面:汉洋拍摄成庆老师于《虚堂雨滴声》展览

  • 「不安、野心、机会,与过度投资的风险。」
    上周三,黄仁勋和孙正义,相拥于日本东京英伟达 AI 峰会(本期封面)。
    这两人除了商业互吹和共叙往事,也提到了一个合作计划:软银正在使用英伟达的新一代 Blackwell GPU 平台,构建日本最强大的 AI 超级计算机。
    差不多一周前,日本政府还承诺,未来十年会为日本半导体和 AI 行业,提供超过 650 亿美元的支持。
    不光日本,从去年到今年,全球多个政府,包括欧盟、新加坡、沙特、印度、甚至肯尼亚都提出了数十亿美元到 1000 亿美元不等的 AI 投资计划。
    他们指向同一个目标——“主权 AI”。
    在今年 2 月的“世界政府峰会”上,黄仁勋如此描述主权 AI 的必要性。他说:“每个国家都要占有自己的智力生产,它包含了你的文化、社会智慧、常识和历史,因此你必须拿到和完善这些数据,并拥有自己的国家情报,你不能容许其他人这么做。”
    这期节目,我们邀请了长期投资基础软件和 AI 的云启资本合伙人陈昱,和我们一起聊主权AI。
    陈昱是约翰霍普金斯大学计算机硕士,芝加哥大学布斯商学院 MBA。与毛丞宇、黄榆镔一起成立云启资本之前,陈昱自己完整经历过创业到退出。
    他也是 MiniMax、元戎启行、Zilliz 等知名 AI 公司的首轮投资人。
    当每个国家都想有自己的大模型和 AI 基础设施,这带来了哪些机会,又可能有哪些潜在风险?
    时间线传送:
    ·主权 AI,一个有需求的 to G 市场
    02:47 国家想自己掌握 AI 基础设施:从中国到沙特到日本
    05:35 英伟达 Q1 电话说,其主权 AI 相关收入今年会从 0 增长到 100 亿美元
    07:05 为什么过去不讲“主权互联网”,现在讲“主权 AI”?——AI 有价值观,也直接关系生产力
    09:03 即使没有地缘政治变化,主权 AI 的需求依然成立
    ·全球 AI 基建潮的机会:芯片、算力中心与 Infra
    09:53 直接的机会在算力层,中国公司缺产能
    10:54 AI Infra 也是机会,云启投资了壁仞联创徐凌杰的新项目
    13:36 每个国家都想要大模型,肯尼亚都在做斯瓦西里语大模型
    14:47 中国模型的人才出海也是机会
    16:03 李开复在中东人脉深;不少海外政府也会和阿里、字节等大厂合作
    18:11 中国芯片层出海暂时没条件,但未来可能对外输出
    22:06 智算基建也有技术机会,如液冷和互联互通 Infra
    23:38 支持民间公司 or 政府主导?各国政府有不同选择
    25:05 到 2024 年 5 月底,中国大陆建成/在建智算中心已有 280 多座
    26:27 大厦里的智算中心,就在晚点三里屯办公室旁
    26:49 地方政府招商需求带来智算中心建设竞争
    29:56 GPU 更新很快,建设可能跟不上换代
    30:26 283 个项目,4300 亿+投资额,36.93 万 P 算力,够训好多大模型
    ·更好的政务服务?更无处不在的管理?
    32:50 多少政府能实现目标?
    33:59 政府怎么算收益?
    35:57 重点 to G 的应用公司也在拥抱大模型
    36:18 讯飞用不了英伟达,和华为昇腾有更好适配
    37:42 “如果连 7 年耐心都没有,那就不应该投 AI”
    38:17 主权 AI 打开新蛋糕,也带来新竞争,英伟达市占率已到顶点
    41:54 国内 to G 账期长是个突出问题
    44:45 普通人如何被影响?——更好的政务服务 or 更无处不在的管理
    相关链接:
    主权AI,对于英伟达成立吗? (https://mp.weixin.qq.com/s/Ma8-tIDnLPXFgfh9frh3HQ)
    283座智算中心布局及东西部差异分析 (https://mp.weixin.qq.com/s/Vn0qUnKv_OmSw0FjbbeQLg)
    登场人物:
    陈昱 云启资本合伙人
    程曼祺 《晚点 LatePost》科技报道负责人(即刻:曼祺 _ 火柴Q)
    剪辑:甜食

  • 移动互联网降低分享门槛,生成式 AI 降低创作门槛。
    本期《晚点聊》,关注当技术遇上艺术,聊一聊计算机技术和正蓬勃发展的 AI 技术,如何与 M&E,也就是 Media and Entertainment 媒体娱乐产业相互影响、相互塑造。
    围绕这个话题,我们邀请了两位嘉宾一起对谈:一位是 NVIDIA 中国区高级技术市场经理施澄秋(Searching),另一位是新片场的董事长兼 CEO 尹兴良(Ethan)。
    他们刚好站在技术塑造内容这个链条的两头:NVIDIA 是人工智能计算领导者,同时 NVIDIA 也会开发大量的软件去帮整个生态更好的使用 GPU。NVIDIA 起家就是依靠计算机图形技术,最初也主要是用在游戏和影视行业。
    成立于 2012 年的新片场,则是中国最大的高质量短片和视频素材分享平台,此后也进入制片业务,制作了大热 IP 剧集《鬼吹灯》(怒晴湘西、精绝古城、南海归墟等)系列。
    内容创作或者说讲故事,是人类文明最早的活动之一。在 AI 技术之前,这个行业已是一个有长链条的技术工业体系。本期节目中,我们回顾了 AI 之前,计算机图形等技术对内容制作的影响与渗透,进一步展开了生成式 AI 浪潮带来的新变化。
    如果说移动互联网大大降低了分享内容的门槛,生成式 AI 的发展则将进一步缩短从创意到表达的距离,让更多人有表达自己的方便工具,未来还可能进一步衍生出新的社区与平台。
    影视和内容行业是一个万亿级的全球大市场,AI 带来的新一轮变化才刚开始。
    时间线传送:
    · AI 之前,影视内容工业已高度技术化
    02:07 《南海归墟》怎么制作?重特效剧集的基本生产流程
    03:45 从前期概念图到特效拍摄、后期制作,计算机技术已在影视多环节降本增效
    04:57 LED 拍摄从昂贵到普及,新版《狮子王》重映,GPU 让光影毛发的更精细渲染成为可能
    11:16 从千禧年到现在:拍摄、制作的技术变革
    · 移动互联网降低了分享门槛,生成式 AI 将降低创作门槛
    22:04 打开视频软件,也许你已经看到过大量 AI 生产的短剧海报
    28:09 一个实用案例:NVIDIA Omniverse,数字资产在线协作平台如何提高影视拍摄的效率
    32:41 制作方视角:不怕技术新,怕找不到熟练使用的人
    35:51 生成式对抗网络(GAN)、NeRF (神经辐射场)、ACE 数字人,前沿技术渗透影视行业
    39:48 2021 年 NVIDIA GTC 大会中,黄仁勋“数字分身”的台前幕后
    48:45 新片场与国内 AI 厂商有多元合作:即提供训练素材,也在测试、使用各家的模型
    50:40 渲染器领域的国产替代机会,D5 已被很多中国团队使用
    52:55 Maxine 软件,在网络会议场景实现的眼神聚焦和画面校准功能,使得远程交流更加自然流畅
    54:22 大型网络会议、户外直播等复杂场景如何实现高质量流程
    57:10 NVIDIA 有两个不直接“带货”,却被黄仁勋视为核心的团队:“开发者关系”和“开发者技术”
    59:29 Ethan 的 NVIDIA 总部参访感受
    · 工具与灵魂:“内心的想法是一切的根源”
    01:02:34 AI 的魅力在于降低创作门槛,普通人也能通过科技工具更好表达创意
    01:05:25 NVIDIA Omniverse 的创作者比赛,已涌现出许多优秀的非专业创作者
    01:06:21 AI 创作需要数字围栏,人类的意图表达更为重要
    01:07:46 教育端已出现学科调整,AI 会催生更多新岗位
    01:08:48 普通人拥抱 AI 创作,创作热情和想法仍然是最重要的
    01:10:06 AI 可以打动人类,但是不会被打动,人类情感仍然是推动内容创作的本源动力
    相关链接:
    一位 AI 画家的成长历程丨TECH TUESDAY (https://mp.weixin.qq.com/s/3-ohroApUiMZbSR2MnsNJQ)
    争夺 AI 入场券:中国大公司竞逐 GPU (https://mp.weixin.qq.com/s/wGTysc-dTxFfiDk4yHytMg)
    附录:本期播客里提及的技术与产品等
    M&E
    Media and Entertainment 的缩写,指的是媒体与娱乐产业。
    特效回插
    在影视剧的生产链条中,特效镜头常常由协力公司单独制作,后期制作阶段会将这些特效镜头插入到影片中相应的位置。
    CG
    计算机图形学(Computer Graphics,简称CG)是一种使用数学算法将二维或三维图形转化为计算机显示器的栅格形式的科学。
    Diffusion 模型
    这是一种生成式模型,主要用于生成高质量的图像、文本和其他类型的数据。
    B-roll
    是指在影视制作中用来补充主镜头(A-roll)的辅助视频或图像素材。通常,A-roll 包含主要的叙事内容,比如采访、对话等直接涉及故事主线的画面。而 B-roll 则是用来丰富视觉效果、提供背景信息或增强情感氛围的额外镜头。
    NVIDIA Omniverse™
    是一个提供 API、SDK 和服务的平台。借助此平台,开发者可以轻松地将通用场景描述 (OpenUSD)和 RTX 渲染技术集成到现有软件工具和仿真工作流中,以构建 AI 系统。
    NVIDIA ACE
    即 Avatar Cloud Engine,是一套可帮助开发者利用生成式 AI 创建栩栩如生的虚拟数字人物的技术。
    SIGGRAPH
    是由 ACM SIGGRAPH(美国计算机协会计算机图形专业组)组织的计算机图形学顶级年度会议。
    RAG
    即检索增强生成(Retrieval-augmented Generation),简称 RAG。检索增强生成是一种使用从外部来源获取的事实,来提高生成式 AI 模型准确性和可靠性的技术。
    登场人物:
    施澄秋 Searching,NVIDIA 中国区高级技术市场经理
    尹兴良 Ethan,新片场的董事长兼 CEO
    程曼祺,《晚点 LatePost》科技报道负责人(即刻:曼祺_火柴Q)
    剪辑:阿鲸Hval
    封面:NVIDIA 创始人兼CEO黄仁勋的“数字分身”Toy Jensen。现在,新的生成式 AI 技术可以让数字人的生成过程更简单、低成本、高效。
    图片来源:NVIDIA

  • “为什么要太空旅行?” “因为很酷呀!”
    由马斯克创立的 SpaceX 在前 10 月 13 日完成了星舰(Starship)的第五次试验发射。马上又会在 11 月 18 日进行第六飞。
    我们邀请了中国某家商业航天公司的前总体设计师陈亮,来与我们一起聊一聊取得重大进展的“星舰第五飞”。陈亮是北京航空航天大学航空宇航推进理论与工程博士,主要研究液体火箭动力系统的流动传热问题,曾参与多项新型飞行器热防护技术攻关和相关国家级预研项目,曾任可重复使用商业运载火箭总体副总师。
    https://cdn.z.wiki/autoupload/20241107/NSl4/1280X1648/-128596214-spaceship-and-docking-towerv2-2-nc.png.webp
    (图片来源:BBC)
    我们也会就此展开 SpaceX 的研发逻辑,它作为商业公司给航天领域带来的变化,以及中国近年来商业航天领域的一些实践。
    陈亮提到,他和很多同行其实没有预料到,星舰这次正式回收 Super heavy ,能如此完美地成功,如此干脆利落,好比在 100 公里时速下,精准倒车入库。Super heavy 就是星舰的推进器部分,星舰第五次实验发射的最大进展,就是成功地用像筷子一样的发射架塔臂稳稳夹住了掉头回到地面的 Super heavy 推进器。
    星舰的全部模块可回收,意味着将进一步大幅降低发射成本,包括制造成本和发射时间成本。
    https://cdn.z.wiki/autoupload/20241107/rDIy/975X1280/1280X1280_%281%29.PNG
    低成本,也是 SpaceX 高频发射、快速迭代的前提。低成本和高频次相辅相成,打破了航天业过去奉行的“像飞行那样去测试,像测试那样去飞行的原则”。
    SpaceX 的逻辑不一定谁都合适模仿,但这个搅局者已带来实实在在的改变。
    时间线传送:
    ·星舰第五次发射: “即便成功,也没想到是如此完美的成功”
    03:02 星舰的整体任务要求:一子级(推进器 Superheavy)回收到发射场,二子级(Starship)部分海上溅落
    04:14 一般火箭的组成;星舰其实已超出传统火箭的范畴:介于火箭和航天飞机之间
    06:32 火箭从准备到点火、发射、着落的几道关卡
    09:06 看直播:超出预料;“即便成功,也没想到是以这种方式成功”
    12:08 Starship 的软着陆:第四次跌宕起伏,第五次热防护做得更好
    15:18 SpaceX 的逻辑:低成本+高频次发射=快速迭代;传统航天业则是:像飞行一样测试,像测试一样飞行
    17:42 不建议初创公司模仿 SpaceX,猎鹰的失败当年也差点拖垮公司
    19:56 蓝色起源的标志是乌龟,它相信快就是慢
    21:40 NASA 新火箭项目 SLS,从项目上不成功,但它是满足美国载人登月时间表的唯一火箭
    24:15 马斯克也许很疯狂,但 Space Age 时更疯狂:二战末期人类还开着螺旋桨飞机开战,69 年就登上了月球
    27:58 科学狂人的激进:FAA(联邦航空管理局)一度推迟星舰发射,马斯克试图在特朗普上台后主持技术发展提效部门
    32:07 在 SpaceX 做研发,得文武双全、不恐高
    ·SpaceX 的航天矩阵:猎鹰、星舰、龙飞船、星链
    33:00 猎鹰+龙飞船的组合:为空间站送货、送人
    34:20 美国一度不能送人到空间站,要靠俄罗斯
    35:08 美国两位宇航员仍滞留空间站;SpaceX 没去接,因为 NASA 没钱接
    36:30 星舰和猎鹰的区别:星舰是为了去火星;目前方案需要在近地轨道 5 次加注燃料
    38:20 火星不一定有经济价值,但太空旅行很酷
    39:33 人类去火星,马斯克说 5 年,悲观看 10 年,NASA 的设想是 2050 年
    41:46 星舰降成本的法宝:回收+使用民用部件+培养多面手
    45:40 SpaceX 一个结构工程师,可以既做火箭结构也做卫星结构
    47:51 全球火箭发射竞争格局:中美最强,欧洲最近扶持力度增大
    ·中国的商业航天实践
    50:51 2010 年到 2020 年,中国航天陆续启动重要项目
    51:52 北航的“宇航学院”每年招生在 150-160 左右,近年 60%-70% 毕业生进入航天业
    53:03 中国空间站发射、嫦娥五号探月工程、天问火星探测器,近年中国航天成果密集
    55:18 商业航天公司能让个人更快速、全面成长,但整体人力资源有限
    58:30 中国商业航天和 SpaceX 的差距——中国公司取得 Milestone 的时间更短;政策支持+航天基础+人才储备是只能怪过的优势
    01:00:54 但 SpaceX 也在指数级发展,星舰出世开启新一轮追赶
    01:01:41 从 SpaceX 身上学到的:回收模式+工程实现的启发
    01:02:02 SpaceX 并未公开任何图纸,它的开放在于不会追究学他的人
    01:03:09 从 SpaceX 获得启发的例子--猎鹰回收时的辅助支撑腿
    01:05:12 中国商业航天发展需要的更多支持——资金+更多容忍失败;国内管理部门现在已经有很多支持
    01:07:40 平民进入太空会成为趋势
    相关链接:
    星舰成功发射,SpaceX 如何在美国打败航天旧体系 (https://mp.weixin.qq.com/s/H7yUUmIJQb1uiT9cdhJrGg)
    登场人物:
    陈亮,中国商业航天公司前总体设计师
    程曼祺,晚点 LatePost 科技报道负责人(即刻:曼祺_火柴Q)
    剪辑:甜食

  • 扫帚、吸尘器、扫地机器人,为什么还不够?
    近年来,消费电子市场不断出现一些新品类,骨传导耳机、洗地机、vlog 相机、智能眼镜等等,这些新品开始在市场上找到了自己的位置,也带动消费电子市场复苏。
    每年都会有新品出现,但最终能被市场接受的不多。一个新的消费电子产品品类是如何出现的?它要满足哪些条件才能在市场上立足?
    本期《晚点聊 LateTalk》由云鲸智能赞助,我们邀请了云鲸洗地机产品线负责人庄彬来分享一款新消费电子品从 0 到 1 的诞生过程。
    庄彬是消费电子行业资深从业者,曾领导扫地机器人、智能洗地机、消费无人机、云台、激光雷达等多款、多品类的产品研发工作。2021 年加入云鲸,孵化了云鲸洗地机品类线。2023 年 5 月,云鲸正式发布第一代洗地机 S1,今年 9 月又正式发布第二代洗地机 S2 Island 光辉版。在整个中国洗地机市场,云鲸今年 9 月的市占率首次跻身前三。
    洗地机在吸尘器、传统清洁工具和扫地机器人的夹缝里生长,它的市场规模从 2019 年的 0.9 亿快速增长到了 2022 年的 100 亿。
    我们与庄彬聊了他近几年印象最深的消费电子新品,为什么行业不断有新的消费电子产品出现,他们满足了怎样的需求,一家消费电子公司是如何调研需求、拆解需求、立项并把产品做出来,以及云鲸的产品理念是如何在洗地机这款产品上落地的。
    消费电子行业一直以来最核心的理念就是 PMF 产品与市场的匹配,云鲸作为一家年轻的公司,成立几年时间就就切入扫地机器人主流市场。他们的经历与思考对于行业可能是一个参考。
    时间线传送:
    ·新的消费电子品类如何产生
    01:48 印象最深的几款新的消费电子品类
    03:58 消费级无人机为什么能成功
    07:01 成功的消费电子品类满足什么条件
    07:49 不成功的案例,创新没有匹配需求
    ·调研→立项→研发全流程
    09:45 立项前最重要的几个问题
    11:32 产品经理如何分辨真伪需求,如何给需求的重要性排序
    13:12 要去挖掘用户表面需求背后真正的底层需求是什么
    15:23 云鲸怎么解决洗地机毛发缠绕的问题
    ·洗地机为什么会出现,解决了什么需求
    18:17 洗地机是一个舶来品,最早是清洁海外用户的毛毯地面
    20:56 疫情期间智能清洁产品火爆
    23:44 洗地机是取代吸尘器,和扫地机器人不冲突
    29:00 云鲸为什么做洗地机比较晚
    ·个人经历与转型,从研发转型产品的经历与思考
    32:51 为什么从研发转型为产品经理
    35:52 最初怎样规划这款新的洗地机产品
    ·清洁产品的未来
    45:27 智能清洁产品共同面对的问题
    47:43 最终会有一个终极的清洁产品出现,类似通用机器人
    51:59 给产品新人的三点建议
    相关链接:
    新新访谈|云鲸张峻彬:只有创始人走出低谷,公司才能走出来 (https://mp.weixin.qq.com/s/glpKVrNBs5gdQnRlR578Hg)
    本期人物:
    庄彬,云鲸洗地机产品线负责人
    张家豪,晚点科技报道作者,即刻:Erlade
    剪辑:
    甜食
    https://image-qiniu.jellow.site/FiLbAz0YzedVJ-l1v7MzB7Z6MI-Q.jpeg

  • “人类最大的科学幻想之一,怎么一点点变得现实。”
    今天的节目还是和特斯拉近期的 We,Robot 发布会有关,主角从与侯晓迪那期(见《晚点聊》ep84 (https://www.xiaoyuzhoufm.com/episode/670eeed1b5509a9cfb6319d2))聊的自动驾驶来到另一个全场焦点:特斯拉人形机器人 Optimus。
    我们邀请了清华大学交叉信息研究院助理教授、同时是清华叉院具身智能实验室负责人许华哲来与我们分享他的观察和实践。去年开始,许华哲也参与创立了一家具身通用机器人公司——星海图。
    许华哲本科毕业于清华大学电子工程系,在伯克利 AI Research Lab(BAIR)获得博士学位,后在斯坦福做博士后,2022 年回国加入清华大学交叉信息学院。博一做过自动驾驶后,他在博二开始关注机器人领域,伯克利也是较早尝试把强化学习和机器人结合的重镇之一。
    这期节目里,我们从 We,Robot 发布会出发,解释了有争议的“遥操”到底是什么,现在有什么用;许华哲也详细介绍了这次具身智能变革的一些关键技术推动因素,如强化学习、模仿学习、多模态大模型、世界模型等等;他还分享了 BAIR 的教授与博士生的工作方式。
    通用智能机器人是一个交叉学科,也是人类最大的科学幻想之一。AI 知名学者 Marvin Minskey(马文·明斯基)曾预测, 3-8 年后,我们就会看到通用智能体,不过他说这话时是 1970 年。新一轮 AI 热潮为何会不同?最前线的人提供了他们看到的可能。
    时间线传送:
    ·许华哲的求学经历
    01:04 从清华电子系到伯克利 AI Research 博士,再到斯坦福博后
    02:10 三在多伦多大学交换,机缘巧合下开始接触 AI 研究。
    ·WeRobot 上的 Optimus,到底怎么理解遥操?
    04:50 很马斯克风格的发布会
    05:40 丝滑遥操作也有实用价值:远程劳动力转移;同时能帮助获得更多数据,使系统进化。
    06:46 判断机器人好不好的两个小 trick:机器人走路时,周围人越少越好;机器人操作使,周围人离机器人越近越好
    07:51 遥操目前有三种常见方式:从视频映射、人带着 VR 设备遥操、用与机器人同构的专用遥操设备遥操,斯坦福 Aloha 就使用了第三种
    10:01 从遥操到机器人自己动需要:更多的数据,更好的模型
    12:47 马斯克拉高大众对机器人的期待,整体是好事,但专业人士也许有时生气——2017 年的一个活动中,马斯克大谈明年实现自动驾驶,Andrej Karpathy(特斯拉自动驾驶前负责人,后回到 OpenAI,今年自己创业了)“脸都绿了”
    ·通用具身机器人照进现实,变化并不始于 Optimus
    -强化学习、模仿学习和多模态大模型
    14:56 伯克利 AI Research:较早关注强化学习;这里鼓励一起合作,不同老师和博士间自由组合,很适合机器人交叉领域
    20:28 斯坦福、伯克利、MIT 机器人谁最强?美国高校的人才的轮动机制
    21:41 一个标志性工作:ETH(苏黎世联邦理工)让机器狗在仿真环境里学会爬山,这是是强化学习在机器人中的应用
    23:37 许华哲自己的项目:机器狗学会在软垫上走,通过改进一个强化学习算法,让机器人不是在仿真里学,是在真实环境里学
    25:20 算法和模型架构是两个概念,同一个算法可用不同架构的神经网络实现;强化学习两个最典型的算法范式:基于值的学习(Q学习)和基于策略的学习。
    28:51 接下来谁能做出非常有效果的“具身大模型”,会是一个进展
    29:23 除了强化学习,其它重要进展:模仿学习、多模态大模型 & 三者的不同作用
    32:54 目前具身智能公司,自己做强化学习、模仿学习多,多模态大模型一般使用外部的,如 GPT 等。
    -世界模型
    34:11 目前是个笼统概念——根据目前状态能推断未来状态,都可以是世界模型
    35:24 为什么 Sora 不是世界模型,而 YX (也是一个视频模型)是一个世界模型?
    36:52 机器人包饺子的例子:当时用到的“世界模型”就是一个神经网络,不过是一个很局限的版本。
    38:04 实现通用机器人,世界模型一定是组成部分,但其实现在大家并不完全知道怎么做世界模型;目前 AI 界提出的几种主要思路
    -触觉(感知里被忽略的一个部分)
    39:14 触觉是个被忽略的模态,而人最大的器官是皮肤;触觉缺失的患者很难抓东西
    41:00 触觉和力控传感的区别
    -本体
    42:29 机器人本体形态目前五花八门,为什么星海图觉得当前操作(双臂)更重要
    45:28 关于灵巧手:在清华有各种尝试,但并不适合现在就放在公司里做,要做好灵巧手,难度不亚于做好一个完整人形机器人
    47:53 目前星海图“力出一孔”要做好的事:移动操作的本体、遥操作和智能。
    ·从机器人的现在到未来
    48:19 明斯基 1970 年的乐观,3-8 年后就会有通用智能体
    49:26 清华姚班本科生关于 AGI 的预期小调查:今年比去年悲观
    52:03 从现在到未来的瓶颈:数据;目前行业里还没有清晰的数据采集成本,因为采集方法也没有定型;星海图自己获得数据的 3 种方式
    55:30 未来机器人上的模型,是一个端到端大模型,还是在不同层次用不同模型来组合?——许华哲相信类似 VLA 的端到端模型是未来趋势,但不一定最适合现在来落地。
    58:14 目前大模型范式有缺陷,但可以一边先用,一边改进
    59:07 UBI(无条件免费发钱)计划不一定能解决未来的社会危机
    59:51 要警惕人类不经意间丧失权利,你有可能失去“在健康日吃炸鸡的权利”
    01:02:17 一致性与对齐:机器以会实现我们设定的目标,但可能以我们想不到的方式,使我们付出想不到的代价
    相关链接:
    特斯拉 Optimus 机器人进展:已经生产数百台、还拧不好螺丝 (https://mp.weixin.qq.com/s/jVxopXkmFYzU5MDk_qqcJw)
    到底什么时候AI才能帮我把麻烦事都做了啊啊啊啊?|许华哲 一席第1037位讲者 (https://mp.weixin.qq.com/s/DmHHn8pfrNIqgsoiBzLvfQ)
    晚点聊 LateTalk-84:与侯晓迪聊特斯拉 We,Robot:烟雾与现实 (https://www.xiaoyuzhoufm.com/episode/670eeed1b5509a9cfb6319d2)
    附录:播客中提及的一些 AI 领域人物(按提及顺序)
    Andrej Karpathy,AI 研究者,曾任特斯拉自动驾驶负责人,今年创立了人工智能教育公司 Eureka Labs。
    Trevor Darrell,Berkely AI Research Lab(以下简称 BAIR)教授,Caffee 的搭建者之一,许华哲的博导。
    Sergey Levine,BAIR 副教授兼谷歌 DeepMind 研究员,今年参与创立研发机器人大脑的 PI。
    Pieter Abbeel,BAIR 教授,智能协作机器人 Covariant 的创始人之一,2021 年 ACM 计算奖获得者,Amazon 后收购了 Covariant 的部分团队。
    Anca Dragan,BAIR 副教授,运营 Interact 实验室。
    Jitendra Malik,BAIR 教授,其团队在机器人视觉触觉结合等方面有突破。
    Alexei Efros,BAIR 教授,计算机视觉专家,在图像合成、风格迁移等方面成果突出。
    Chelsea Finn,斯坦福助理教授,研究智能体学习交互能力,曾在谷歌大脑工作。
    Yann LeCun,图灵奖获得者,Meta FAIR(the Foudamental AI Research)负责人。
    David Ha,AI 研究者,2018 年 3 月曾发布论文“World Models” (https://arxiv.org/abs/1803.10122)
    Marvin Minskey,麻省理工教授,“人工智能之父”,推动 AI 早期发展的重要学者。
    Dieter Fox,华盛顿大学教授,研究机器人感知规划学习等,对复杂环境应用有贡献。
    登场人物:
    许华哲,星海图联创、清华交叉信息学院助理教授
    程曼祺,晚点科技报道负责人。即刻:程曼祺_火柴Q
    剪辑:甜食
    封面:Screenshot from Robert Scoble on X