Afleveringen

  • 大家好,欢迎收听今天的'Hugging Face 每日AI论文速递'。今天是2024年9月5日,我们将带您快速浏览8篇热门AI论文。本期内容涵盖了多模态大语言模型的扩展、音频驱动的人像化身、长上下文问答中的引用生成、多学科多模态理解基准的提升,以及代码预训练中的数据解密等多个前沿领域。现在,让我们立即进入今天的论文速递。

    [00:31] 📊 LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture(LongLLaVA:通过混合架构高效扩展多模态大语言模型至1000张图像)

    [01:13] 🎙 Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency(Loopy: 驯服音频驱动的人像化身与长期运动依赖)

    [01:48] 📚 LongCite: Enabling LLMs to Generate Fine-grained Citations in Long-context QA(LongCite: 在长上下文问答中使LLMs生成细粒度引用的方法)

    [02:29] 📊 MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark(MMMU-Pro:一个更强大的多学科多模态理解基准)

    [03:02] 🧩 Arctic-SnowCoder: Demystifying High-Quality Data in Code Pretraining(北极雪编码器:解密代码预训练中的高质量数据)

    [03:39] 🗳 Political DEBATE: Efficient Zero-shot and Few-shot Classifiers for Political Text(政治辩论:高效的零样本和少样本政治文本分类器)

    [04:15] ⚡ FastVoiceGrad: One-step Diffusion-Based Voice Conversion with Adversarial Conditional Diffusion Distillation(FastVoiceGrad:一步扩散基于对抗条件扩散蒸馏的语音转换)

    [04:48] 🤖 Affordance-based Robot Manipulation with Flow Matching(基于流匹配的机器人操作框架)

    【关注我们】

    您还可以在以下平台找到我们,获得播客内容以外更多信息

    小红书: AI速递

  • 大家好,欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年9月04日,我们将带您快速浏览16篇热门AI论文,涵盖数据集、语言模型、视频生成等多个领域。现在,让我们立即进入今天的论文速递。

    [00:22] 📊 Kvasir-VQA: A Text-Image Pair GI Tract Dataset(Kvasir-VQA:一个带有文本图像对的胃肠道数据集)

    [00:58] 📚 LongRecipe: Recipe for Efficient Long Context Generalization in Large Languge Models(LongRecipe:大型语言模型中高效长上下文泛化的训练策略)

    [01:43] 🧠 OLMoE: Open Mixture-of-Experts Language Models(OLMoE:开放式混合专家语言模型)

    [02:23] 🎶 FLUX that Plays Music(能播放音乐的FLUX)

    [03:00] 📹 DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos(DepthCrafter:为开放世界视频生成一致的长深度序列)

    [03:41] 🎥 VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges(VideoLLaMB:利用循环记忆桥进行长上下文视频理解)

    [04:24] 🎥 Compositional 3D-aware Video Generation with LLM Director(基于LLM导演的组合式3D感知视频生成)

    [05:02] 🤖 Diffusion Policy Policy Optimization(扩散策略优化)

    [05:37] 🚀 LinFusion: 1 GPU, 1 Minute, 16K Image(LinFusion:1 GPU,1分钟,16K图像)

    [06:28] 🔍 ContextCite: Attributing Model Generation to Context(ContextCite:将模型生成归因于上下文)

    [07:05] 📺 OD-VAE: An Omni-dimensional Video Compressor for Improving Latent Video Diffusion Model(OD-VAE:一种用于改进潜在视频扩散模型的全方位视频压缩器)

    [07:44] 📉 Accurate Compression of Text-to-Image Diffusion Models via Vector Quantization(通过向量量化实现文本到图像扩散模型的精确压缩)

    [08:21] 🎥 Follow-Your-Canvas: Higher-Resolution Video Outpainting with Extensive Content Generation(Follow-Your-Canvas:高分辨率视频外绘与广泛内容生成)

    [08:58] 🧠 Density Adaptive Attention-based Speech Network: Enhancing Feature Understanding for Mental Health Disorders(密度自适应注意力语音网络:增强心理健康障碍的特征理解)

    [09:35] 📚 Know When to Fuse: Investigating Non-English Hybrid Retrieval in the Legal Domain(了解何时融合:研究法律领域中的非英语混合检索)

    [10:10] 📚 The MERIT Dataset: Modelling and Efficiently Rendering Interpretable Transcripts(MERIT数据集:建模和高效渲染可解释的转录文本)

    【关注我们】

    您还可以在以下平台找到我们,获得播客内容以外更多信息

    小红书: AI速递

  • Zijn er afleveringen die ontbreken?

    Klik hier om de feed te vernieuwen.

  • 大家好,欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年9月03日,我们将带您快速了解两篇热门AI论文。首先是关于零样本时间序列预测的视觉掩码自编码器,其次是语言模型在流式传输中的多模态能力。精彩内容,马上开始!

    [00:24] 🔍 VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters(VisionTS:视觉掩码自编码器是零样本时间序列预测的免费午餐)

    [01:10] 🗣 Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming(Mini-Omni:语言模型在流式传输中能听、能说、能思考)

    【关注我们】

    您还可以在以下平台找到我们,获得播客内容以外更多信息

    小红书: AI速递

  • 大家好,欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年9月02日,我们将带您快速浏览14篇热门AI论文,涵盖科学文献理解、文本到图像个性化、多模态模型评估等多个前沿领域。现在,让我们立即进入精彩的论文世界。

    [00:24] 📚 SciLitLLM: How to Adapt LLMs for Scientific Literature Understanding(SciLitLLM:如何适应大型语言模型以理解科学文献)

    [01:02] 🖼 CoRe: Context-Regularized Text Embedding Learning for Text-to-Image Personalization(CoRe:基于上下文正则化的文本嵌入学习在文本到图像个性化中的应用)

    [01:41] 🏙 UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios(UrBench:在多视角城市场景中评估大型多模态模型的综合基准)

    [02:24] 📚 The VoxCeleb Speaker Recognition Challenge: A Retrospective(VoxCeleb说话人识别挑战回顾)

    [02:59] 🌍 InkubaLM: A small language model for low-resource African languages(InkubaLM:一种针对低资源非洲语言的小型语言模型)

    [03:46] 📚 CURLoRA: Stable LLM Continual Fine-Tuning and Catastrophic Forgetting Mitigation(CURLoRA:稳定的大型语言模型持续微调与灾难性遗忘缓解)

    [04:24] 🌐 CrossViewDiff: A Cross-View Diffusion Model for Satellite-to-Street View Synthesis(跨视图扩散模型:卫星视图到街景视图合成)

    [05:07] 📚 Jina-ColBERT-v2: A General-Purpose Multilingual Late Interaction Retriever(Jina-ColBERT-v2:一种通用多语言后期交互检索器)

    [05:38] 📚 SurveySum: A Dataset for Summarizing Multiple Scientific Articles into a Survey Section(SurveySum:将多篇科学文章摘要成综述部分的语料库)

    [06:22] 🩺 Automatic Differential Diagnosis using Transformer-Based Multi-Label Sequence Classification(基于Transformer的多标签序列分类自动鉴别诊断)

    [07:04] 🔍 GIFT-SW: Gaussian noise Injected Fine-Tuning of Salient Weights for LLMs(GIFT-SW:针对大型语言模型的显著权重注入高斯噪声的微调方法)

    [07:38] 🧬 Large-Scale Multi-omic Biosequence Transformers for Modeling Peptide-Nucleotide Interactions(大规模多组学生物序列变换器用于模拟肽-核苷酸相互作用)

    [08:16] 🔍 VLM4Bio: A Benchmark Dataset to Evaluate Pretrained Vision-Language Models for Trait Discovery from Biological Images(VLM4Bio:评估预训练视觉-语言模型在生物图像中特征发现能力的基准数据集)

    [09:00] 🌍 ClimDetect: A Benchmark Dataset for Climate Change Detection and Attribution(ClimDetect:气候变化检测与归因的基准数据集)

    【关注我们】

    您还可以在以下平台找到我们,获得播客内容以外更多信息

    小红书: AI速递

  • 大家好,欢迎收听“Hugging Face 每日AI论文速递”月末特辑。每个月的最后一天,我们都会为您带来当月Hugging Face上最热门的AI论文汇总。今天,我们将带您回顾2024年8月的精彩研究成果。

    本期节目涵盖了从文本生成模型的交互式学习、长上下文检索的新推理模式,到实时游戏引擎中的扩散模型应用,以及图像与视频中的任意分割技术等多个前沿领域。此外,我们还将探讨AI在科学发现自动化、多模态大型语言模型的视觉表示等方面的最新进展。

    现在,让我们一起深入这些令人兴奋的AI研究,探索科技的未来。节目马上开始,敬请期待!

    [00:47] TOP1(🔥148) | 🔍 Transformer Explainer: Interactive Learning of Text-Generative Models(Transformer解释器:交互式学习文本生成模型)

    [02:54] TOP2(🔥130) | 📚 Writing in the Margins: Better Inference Pattern for Long Context Retrieval(边缘写作:长上下文检索的更好推理模式)

    [04:59] TOP3(🔥108) | 🎮 Diffusion Models Are Real-Time Game Engines(扩散模型作为实时游戏引擎)

    [06:58] TOP4(🔥100) | 🎥 SAM 2: Segment Anything in Images and Videos(SAM 2:图像与视频中的任意分割)

    [08:50] TOP5(🔥100) | 🤖 The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery(AI科学家:迈向完全自动化的开放式科学发现)

    [10:26] TOP6(🔥99) | 🦙 The Llama 3 Herd of Models(Llama 3 模型群)

    [12:37] TOP7(🔥97) | 🔍 Building and better understanding vision-language models: insights and future directions(构建和更好地理解视觉-语言模型:见解与未来方向)

    [15:10] TOP8(🔥95) | 🤖 xGen-MM (BLIP-3): A Family of Open Large Multimodal Models(xGen-MM (BLIP-3): 开放大型多模态模型系列)

    [17:05] TOP9(🔥84) | 📊 GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI(GMAI-MMBench:面向通用医疗AI的综合多模态评估基准)

    [19:24] TOP10(🔥81) | 🔍 Law of Vision Representation in MLLMs(多模态大型语言模型中的视觉表示定律)

    【关注我们】

    您还可以在以下平台找到我们,获得播客内容以外更多信息

    小红书: AI速递

  • 大家好,欢迎收听《Hugging Face 每日AI论文速递》周末特辑。每周日,我们都会为您带来一周内Hugging Face上最受欢迎的AI论文摘要。本期节目涵盖的日期是从2024年8月26日至2024年9月01日。

    在这一期中,我们将深入探讨五篇引人注目的论文,包括长上下文检索的推理模式、扩散模型在实时游戏引擎中的应用、视觉-语言模型的构建与理解、多模态大型语言模型中混合编码器的设计空间探索,以及多模态大型语言模型中的视觉表示定律。

    现在,让我们立即进入本期节目的精彩内容。

    [00:43] TOP1(🔥126) | 📚 Writing in the Margins: Better Inference Pattern for Long Context Retrieval(边缘写作:长上下文检索的更好推理模式)

    [02:46] TOP2(🔥102) | 🎮 Diffusion Models Are Real-Time Game Engines(扩散模型作为实时游戏引擎)

    [05:00] TOP3(🔥94) | 🔍 Building and better understanding vision-language models: insights and future directions(构建和更好地理解视觉-语言模型:见解与未来方向)

    [07:16] TOP4(🔥62) | 🦅 Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders(Eagle:探索多模态大型语言模型中混合编码器的设计空间)

    [09:07] TOP5(🔥62) | 🔍 Law of Vision Representation in MLLMs(多模态大型语言模型中的视觉表示定律)

    【关注我们】

    您还可以在以下平台找到我们,获得播客内容以外更多信息

    小红书: AI速递

  • 大家好,欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月30日,我们将带您快速浏览9篇热门AI论文,涵盖多模态大型语言模型、视觉语言模型、视频扩散模型等多个前沿领域。现在,让我们立即进入精彩的论文世界。

    [00:24] 🔍 Law of Vision Representation in MLLMs(多模态大型语言模型中的视觉表示定律)

    [01:03] 🔍 CogVLM2: Visual Language Models for Image and Video Understanding(CogVLM2:用于图像和视频理解的视觉语言模型)

    [01:40] 🌐 ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model(ReconX:利用视频扩散模型从稀疏视角重建任意场景)

    [02:18] 🎵 WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling(WavTokenizer:一种高效的音频语言建模声学离散编解码器标记器)

    [02:54] 🎥 SAM2Point: Segment Any 3D as Videos in Zero-shot and Promptable Manners(SAM2Point:零样本和可提示方式下的3D视频分割)

    [03:28] 🎨 CSGO: Content-Style Composition in Text-to-Image Generation(CSGO:文本到图像生成中的内容-风格组合)

    [04:18] 🌐 3D Reconstruction with Spatial Memory(基于空间记忆的三维重建)

    [04:54] 📈 Scaling Up Diffusion and Flow-based XGBoost Models(扩展扩散和基于流的XGBoost模型)

    [05:29] 🎭 StyleRemix: Interpretable Authorship Obfuscation via Distillation and Perturbation of Style Elements(StyleRemix:通过蒸馏和扰动风格元素进行可解释的作者身份混淆)

    【关注我们】

    您还可以在以下平台找到我们,获得播客内容以外更多信息

    小红书: AI速递

  • 大家好,欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月29日,我们将带您快速浏览13篇热门AI论文,涵盖大型语言模型、多模态设计、能效模式等多个前沿领域。现在,让我们立即进入今天的论文速递。

    [00:23] 📚 BaichuanSEED: Sharing the Potential of ExtensivE Data Collection and Deduplication by Introducing a Competitive Large Language Model Baseline(BaichuanSEED:通过引入竞争性大型语言模型基线来分享广泛数据收集和去重化的潜力)

    [01:03] 🦅 Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders(Eagle:探索多模态大型语言模型中混合编码器的设计空间)

    [01:45] 🐬 Dolphin: Long Context as a New Modality for Energy-Efficient On-Device Language Models(海豚:将长上下文作为新的能效模式用于设备上的语言模型)

    [02:26] 🚀 Distribution Backtracking Builds A Faster Convergence Trajectory for One-step Diffusion Distillation(分布回溯构建一步扩散蒸馏的更快收敛轨迹)

    [03:07] 📚 Leveraging Open Knowledge for Advancing Task Expertise in Large Language Models(利用开放知识提升大型语言模型任务专长)

    [03:49] 🔍 LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation(LLaVA-MoD:通过MoE知识蒸馏使LLaVA小型化)

    [04:30] 🔍 Knowledge Navigator: LLM-guided Browsing Framework for Exploratory Search in Scientific Literature(知识导航器:基于大型语言模型的科学文献探索搜索框架)

    [05:07] 🤖 In-Context Imitation Learning via Next-Token Prediction(通过下一标记预测进行情境模仿学习)

    [05:58] 📊 Efficient LLM Scheduling by Learning to Rank(通过学习排序实现高效的大型语言模型调度)

    [06:36] 🔍 Towards Realistic Example-based Modeling via 3D Gaussian Stitching(基于3D高斯拼接的现实示例建模方法研究)

    [07:16] 📚 ReMamba: Equip Mamba with Effective Long-Sequence Modeling(ReMamba:为Mamba模型配备有效的长序列建模能力)

    [07:51] 🔄 Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts(无辅助损失的混合专家模型负载均衡策略)

    [08:26] 🎭 TEDRA: Text-based Editing of Dynamic and Photoreal Actors(TEDRA:基于文本的动态和逼真演员编辑)

    【关注我们】

    您还可以在以下平台找到我们,获得播客内容以外更多信息

    小红书: AI速递

  • 大家好,欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月28日,我们将带您快速浏览11篇热门AI论文,涵盖实时游戏引擎、长上下文检索、混合模型加速等多个前沿领域。现在,让我们立即进入今天的论文速递。

    [00:24] 🎮 Diffusion Models Are Real-Time Game Engines(扩散模型作为实时游戏引擎)

    [01:08] 📚 Writing in the Margins: Better Inference Pattern for Long Context Retrieval(边缘写作:长上下文检索的更好推理模式)

    [01:52] 🐍 The Mamba in the Llama: Distilling and Accelerating Hybrid Models(The Mamba in the Llama: 蒸馏和加速混合模型)

    [02:25] 👾 GenCA: A Text-conditioned Generative Model for Realistic and Drivable Codec Avatars(GenCA:一种基于文本条件的生成模型,用于真实可驱动的编解码器虚拟形象)

    [03:10] 🎥 Generative Inbetweening: Adapting Image-to-Video Models for Keyframe Interpolation(生成中间帧:将图像到视频模型适应于关键帧插值)

    [03:50] 🎨 Build-A-Scene: Interactive 3D Layout Control for Diffusion-Based Image Generation(构建场景:基于扩散的图像生成的交互式3D布局控制)

    [04:25] 📖 Platypus: A Generalized Specialist Model for Reading Text in Various Forms(鸭嘴兽:一种用于阅读各种形式文本的广义专家模型)

    [05:07] 📊 Text2SQL is Not Enough: Unifying AI and Databases with TAG(Text2SQL还不够:通过TAG统一AI与数据库)

    [05:48] 🧠 Project SHADOW: Symbolic Higher-order Associative Deductive reasoning On Wikidata using LM probing(Project SHADOW:使用语言模型探针对Wikidata进行符号高阶关联演绎推理)

    [06:26] 🐦 Temporally-consistent 3D Reconstruction of Birds(海鸟的时间一致性三维重建)

    [07:00] 📊 DSTI at LLMs4OL 2024 Task A: Intrinsic versus extrinsic knowledge for type classification(DSTI在LLMs4OL 2024任务A中:内在知识与外在知识在类型分类中的比较)

    【关注我们】

    您还可以在以下平台找到我们,获得播客内容以外更多信息

    小红书: AI速递

  • 大家好,欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月27日,我们将带您快速浏览13篇热门AI论文,内容涵盖模型优化、基准测试、视频生成技术等多个前沿领域。现在,让我们立即进入今天的论文速递。

    [00:23] 🚀 SwiftBrush v2: Make Your One-step Diffusion Model Better Than Its Teacher(SwiftBrush v2:使您的一步扩散模型优于其教师模型)

    [00:58] 🔧 SWE-bench-java: A GitHub Issue Resolving Benchmark for Java(SWE-bench-java:一个针对Java的GitHub问题解决基准)

    [01:43] 🏆 K-Sort Arena: Efficient and Reliable Benchmarking for Generative Models via K-wise Human Preferences(K-Sort Arena:基于K-wise人类偏好的生成模型高效可靠基准测试)

    [02:17] 🎵 Foundation Models for Music: A Survey(音乐基础模型综述)

    [02:56] 🔄 LlamaDuo: LLMOps Pipeline for Seamless Migration from Service LLMs to Small-Scale Local LLMs(LlamaDuo:从服务大型语言模型到小型本地模型的无缝迁移LLMOps管道)

    [03:39] 🎥 Training-free Long Video Generation with Chain of Diffusion Model Experts(无需训练的长视频生成与链式扩散模型专家)

    [04:11] 🎮 Learning to Move Like Professional Counter-Strike Players(学习专业反恐精英玩家的移动行为)

    [04:46] 🌐 LLaVaOLMoBitnet1B: Ternary LLM goes Multimodal!(LLaVaOLMoBitnet1B:三元大型语言模型走向多模态!)

    [05:18] 📱 MobileQuant: Mobile-friendly Quantization for On-device Language Models(MobileQuant:适用于移动设备的语言模型量化方法)

    [05:53] 📈 Power Scheduler: A Batch Size and Token Number Agnostic Learning Rate Scheduler(Power Scheduler:一种与批量大小和令牌数量无关的学习率调度器)

    [06:25] 🎥 TVG: A Training-free Transition Video Generation Method with Diffusion Models(TVG:一种无需训练的过渡视频生成方法与扩散模型)

    [07:03] 🔍 Efficient Detection of Toxic Prompts in Large Language Models(大型语言模型中有毒提示的高效检测)

    [07:34] 👤 MagicMan: Generative Novel View Synthesis of Humans with 3D-Aware Diffusion and Iterative Refinement(MagicMan:利用3D感知扩散模型和迭代细化技术生成人类高质量多视角图像)

    【关注我们】

    您还可以在以下平台找到我们,获得播客内容以外更多信息

    小红书: AI速递

  • 大家好,欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月26日,我们将带您快速浏览11篇热门AI论文,内容涵盖视觉-语言模型、3D场景生成、大型语言模型训练效率等多个前沿领域。现在,让我们立即进入精彩的论文世界。

    [00:25] 🔍 Building and better understanding vision-language models: insights and future directions(构建和更好地理解视觉-语言模型:见解与未来方向)

    [00:58] 🌐 LayerPano3D: Layered 3D Panorama for Hyper-Immersive Scene Generation(LayerPano3D:分层3D全景图用于超沉浸式场景生成)

    [01:29] 📊 MME-RealWorld: Could Your Multimodal LLM Challenge High-Resolution Real-World Scenarios that are Difficult for Humans?(MME-RealWorld:多模态大型语言模型能否应对人类难以处理的高分辨率真实世界场景?)

    [02:08] ⚡ Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Time(多层Transformer梯度在几乎线性时间内可近似计算)

    [02:45] 🎥 CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities(CustomCrafter:保留运动和概念组合能力的定制化视频生成)

    [03:27] 🎭 T3M: Text Guided 3D Human Motion Synthesis from Speech(T3M:基于语音的文本引导3D人体运动合成)

    [04:05] 🔍 Memory-Efficient LLM Training with Online Subspace Descent(通过在线子空间下降实现内存高效的大型语言模型训练)

    [04:45] 🌟 CODE: Confident Ordinary Differential Editing(自信常微分编辑)

    [05:24] 🔍 FLoD: Integrating Flexible Level of Detail into 3D Gaussian Splatting for Customizable Rendering(FLoD:将灵活的细节层次集成到3D高斯喷洒中以实现可定制渲染)

    [05:59] 🌐 A Web-Based Solution for Federated Learning with LLM-Based Automation(基于LLM自动化的联邦学习网络解决方案)

    [06:41] 🚀 HiRED: Attention-Guided Token Dropping for Efficient Inference of High-Resolution Vision-Language Models in Resource-Constrained Environments(HiRED:在资源受限环境下高效推理高分辨率视觉-语言模型的注意力引导标记丢弃)

    【关注我们】

    您还可以在以下平台找到我们,获得播客内容以外更多信息

    小红书: AI速递

  • 大家好,欢迎收听“Hugging Face 每日AI论文速递”周末特辑。每周日,我们都会为您带来一周内Hugging Face上最热门的AI论文汇总。从2024年8月19日至8月25日,我们精选了五篇论文,涵盖了多模态模型、长视频处理、视频基础模型评估、人类视觉模型以及表格问答基准等多个前沿领域。现在,让我们立即进入本期精彩内容。

    [00:31] TOP1(🔥89) | 🌐 xGen-MM (BLIP-3): A Family of Open Large Multimodal Models(xGen-MM(BLIP-3):一个开放的大型多模态模型家族)

    [02:46] TOP2(🔥49) | 📺 LongVILA: Scaling Long-Context Visual Language Models for Long Videos(LongVILA:扩展长上下文视觉语言模型以处理长视频)

    [04:43] TOP3(🔥49) | 📹 TWLV-I: Analysis and Insights from Holistic Evaluation on Video Foundation Models(TWLV-I:视频基础模型的整体评估分析与洞察)

    [06:44] TOP4(🔥49) | 🧠 Sapiens: Foundation for Human Vision Models(智人:人类视觉模型基础)

    [09:06] TOP5(🔥44) | 📊 TableBench: A Comprehensive and Complex Benchmark for Table Question Answering(TableBench:一个综合且复杂的表格问答基准)

    【关注我们】

    您还可以在以下平台找到我们,获得播客内容以外更多信息

    小红书: AI速递

  • 大家好,欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月23日,我们将带您快速浏览今日的19篇热门AI论文,涵盖了大型语言模型的可控文本生成、多模态理解和生成、高保真文本到视频合成等多个前沿领域。现在,让我们立即进入精彩的论文世界。

    [00:27] 📚 Controllable Text Generation for Large Language Models: A Survey(大型语言模型的可控文本生成:综述)

    [01:00] 🧠 Sapiens: Foundation for Human Vision Models(智人:人类视觉模型基础)

    [01:36] 🌐 Show-o: One Single Transformer to Unify Multimodal Understanding and Generation(Show-o:一个统一的Transformer模型,实现多模态理解和生成)

    [02:12] 🎥 xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations(xGen-VideoSyn-1:高保真文本到视频合成与压缩表示)

    [02:45] 🎥 DreamCinema: Cinematic Transfer with Free Camera and 3D Character(DreamCinema:自由相机与3D角色的电影转移)

    [03:19] 🖼 Scalable Autoregressive Image Generation with Mamba(基于Mamba架构的可扩展自回归图像生成)

    [03:54] 🤖 Hermes 3 Technical Report(Hermes 3技术报告)

    [04:33] 🚀 Jamba-1.5: Hybrid Transformer-Mamba Models at Scale(Jamba-1.5:大规模混合Transformer-Mamba模型)

    [05:10] 🎥 Real-Time Video Generation with Pyramid Attention Broadcast(基于金字塔注意力广播的实时视频生成)

    [05:50] 🌲 Strategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search(战略家:通过双层树搜索让LLMs学习战略技能)

    [06:30] 🌉 SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs(SEA:多模态大型语言模型中令牌级视觉-文本集成监督嵌入对齐)

    [07:14] 💼 Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications(开放式金融大型语言模型:面向金融应用的多模态大型语言模型)

    [07:49] 📷 SPARK: Multi-Vision Sensor Perception and Reasoning Benchmark for Large-scale Vision-Language Models(SPARK:大规模视觉语言模型的多视觉传感器感知与推理基准)

    [08:26] 🇻 Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese(Vintern-1B:一个针对越南语的高效多模态大型语言模型)

    [08:56] 🎥 Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound(视频-福莱:基于时序事件条件的两阶段视频到声音生成)

    [09:24] 🎥 Anim-Director: A Large Multimodal Model Powered Agent for Controllable Animation Video Generation(Anim-Director:一个利用大型多模态模型驱动的可控动画视频生成代理)

    [10:05] 🧐 ConflictBank: A Benchmark for Evaluating the Influence of Knowledge Conflicts in LLM(ConflictBank:评估大型语言模型中知识冲突影响的基准)

    [10:46] 🌟 Subsurface Scattering for 3D Gaussian Splatting(3D高斯喷射中的次表面散射)

    [11:20] 🇷 The Russian-focused embedders' exploration: ruMTEB benchmark and Russian embedding model design(聚焦俄罗斯的嵌入模型探索:ruMTEB基准与俄语嵌入模型设计)

    【关注我们】

    您还可以在以下平台找到我们,获得播客内容以外更多信息

    小红书: AI速递

  • 大家好,欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月22日,我们将带您快速浏览今日的8篇热门AI论文,内容涵盖视频基础模型评估、LLM优化技术、以及多模态模型分析等前沿话题。现在,让我们立即进入精彩的论文世界。

    [00:26] 📹 TWLV-I: Analysis and Insights from Holistic Evaluation on Video Foundation Models(TWLV-I:视频基础模型的整体评估分析与洞察)

    [01:03] 📉 LLM Pruning and Distillation in Practice: The Minitron Approach(LLM剪枝与蒸馏实践:Minitron方法)

    [01:39] 📚 FocusLLM: Scaling LLM's Context by Parallel Decoding(FocusLLM:通过并行解码扩展LLM的上下文长度)

    [02:18] 🎥 TrackGo: A Flexible and Efficient Method for Controllable Video Generation(TrackGo:一种灵活且高效的可控视频生成方法)

    [02:59] 🖼 FRAP: Faithful and Realistic Text-to-Image Generation with Adaptive Prompt Weighting(FRAP:基于自适应提示权重的忠实与真实文本到图像生成)

    [03:41] 📊 GRAB: A Challenging GRaph Analysis Benchmark for Large Multimodal Models(GRAB:一个针对大型多模态模型的高难度图表分析基准)

    [04:19] 🔄 Backward-Compatible Aligned Representations via an Orthogonal Transformation Layer(通过正交变换层实现向后兼容的对齐表示)

    [04:54] 📈 Expanding FLORES+ Benchmark for more Low-Resource Settings: Portuguese-Emakhuwa Machine Translation Evaluation(扩展FLORES+基准测试集以适应更多低资源语言环境:葡萄牙语-Emakhuwa机器翻译评估)

    【关注我们】

    您还可以在以下平台找到我们,获得播客内容以外更多信息

    小红书: AI速递

  • 大家好,欢迎收听'Hugging Face 每日AI论文速递'。今天是2024年8月21日,我们将带您快速浏览15篇热门AI论文,涵盖表格问答、预训练影响、多模态模型、图像生成、自动化红队测试等多个前沿领域。现在,让我们立即进入精彩的论文世界。

    [00:26] 📊 TableBench: A Comprehensive and Complex Benchmark for Table Question Answering(TableBench:一个综合且复杂的表格问答基准)

    [00:59] 🔍 To Code, or Not To Code? Exploring Impact of Code in Pre-training(编码与否?探索预训练中代码的影响)

    [01:30] 🌉 Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model(Transfusion:使用一个多模态模型预测下一个标记并扩散图像)

    [02:16] 🌐 MegaFusion: Extend Diffusion Models towards Higher-resolution Image Generation without Further Tuning(MegaFusion:无需进一步调整即可扩展扩散模型以生成更高分辨率图像)

    [02:50] 🚀 Ferret: Faster and Effective Automated Red Teaming with Reward-Based Scoring Technique(Ferret:基于奖励评分技术的快速有效自动化红队测试)

    [03:35] 🔍 The Brittleness of AI-Generated Image Watermarking Techniques: Examining Their Robustness Against Visual Paraphrasing Attacks(AI生成图像水印技术的脆弱性:对视觉转述攻击的鲁棒性评估)

    [04:14] 🦦 Predicting Rewards Alongside Tokens: Non-disruptive Parameter Insertion for Efficient Inference Intervention in Large Language Model(预测奖励与令牌并行:大型语言模型中非破坏性参数插入的高效推理干预)

    [04:56] 🎹 RP1M: A Large-Scale Motion Dataset for Piano Playing with Bi-Manual Dexterous Robot Hands(RP1M:一个用于双手灵巧机器人手钢琴演奏的大规模运动数据集)

    [05:33] 📊 ShapeSplat: A Large-scale Dataset of Gaussian Splats and Their Self-Supervised Pretraining(ShapeSplat:一个大规模的高斯喷射数据集及其自监督预训练)

    [06:05] ⚡ MagicDec: Breaking the Latency-Throughput Tradeoff for Long Context Generation with Speculative Decoding(MagicDec:通过投机性解码打破长上下文生成的延迟-吞吐量权衡)

    [06:39] 🎬 Audio Match Cutting: Finding and Creating Matching Audio Transitions in Movies and Videos(音频匹配剪辑:在电影和视频中寻找和创建匹配音频过渡)

    [07:22] 📈 MambaEVT: Event Stream based Visual Object Tracking using State Space Model(基于事件流使用状态空间模型的视觉目标跟踪)

    [08:07] 📚 PhysBERT: A Text Embedding Model for Physics Scientific Literature(PhysBERT:物理科学文献的文本嵌入模型)

    [08:41] 🚗 Recent Surge in Public Interest in Transportation: Sentiment Analysis of Baidu Apollo Go Using Weibo Data(近期公众对交通的兴趣激增:使用微博数据对百度Apollo Go进行情感分析)

    [09:15] 🔍 NeCo: Improving DINOv2's spatial representations in 19 GPU hours with Patch Neighbor Consistency(NeCo:通过补丁邻域一致性在19 GPU小时内改进DINOv2的空间表示)

    【关注我们】

    您还可以在以下平台找到我们,获得播客内容以外更多信息

    小红书: AI速递

  • 大家好,欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月20日,我们将带您快速浏览11篇热门AI论文,涵盖长上下文视觉语言模型、3D引导重建、电路设计等多个前沿领域。现在,让我们立即进入精彩的论文世界。

    [00:26] 📺 LongVILA: Scaling Long-Context Visual Language Models for Long Videos(LongVILA:扩展长上下文视觉语言模型以处理长视频)

    [01:06] 🌐 MeshFormer: High-Quality Mesh Generation with 3D-Guided Reconstruction Model(MeshFormer:利用3D引导重建模型生成高质量网格)

    [01:44] 🚀 ShortCircuit: AlphaZero-Driven Circuit Design(短路:基于AlphaZero的电路设计)

    [02:29] 🌐 Segment Anything with Multiple Modalities(多模态场景分割)

    [03:09] ⚡ NeuFlow v2: High-Efficiency Optical Flow Estimation on Edge Devices(NeuFlow v2:边缘设备上的高效光流估计)

    [03:44] 🎥 Factorized-Dreamer: Training A High-Quality Video Generator with Limited and Low-Quality Data(分解梦想家:在有限和低质量数据下训练高质量视频生成器)

    [04:22] 🖱 TraDiffusion: Trajectory-Based Training-Free Image Generation(TraDiffusion:基于轨迹的无训练图像生成)

    [04:59] 🌟 Photorealistic Object Insertion with Diffusion-Guided Inverse Rendering(基于扩散引导的逆向渲染实现真实感对象插入)

    [05:29] 🔍 SpaRP: Fast 3D Object Reconstruction and Pose Estimation from Sparse Views(SpaRP:从稀疏视角快速进行3D物体重建和姿态估计)

    [06:08] 📚 Authorship Attribution in the Era of LLMs: Problems, Methodologies, and Challenges(大型语言模型时代下的作者归属:问题、方法与挑战)

    [06:51] 🔒 Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risk of Language Models(Cybench:评估语言模型网络安全能力和风险的框架)

    【关注我们】

    您还可以在以下平台找到我们,获得播客内容以外更多信息

    小红书: AI速递

  • 大家好,欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月19日,我们将带您快速浏览7篇热门AI论文,涵盖多模态模型、图像生成、自动化设计等多个前沿领域。现在,让我们立即进入精彩的论文世界。

    [00:23] 🌐 xGen-MM (BLIP-3): A Family of Open Large Multimodal Models(xGen-MM(BLIP-3):一个开放的大型多模态模型家族)

    [01:08] 🖼 JPEG-LM: LLMs as Image Generators with Canonical Codec Representations(JPEG-LM:使用标准编解码器表示的大型语言模型作为图像生成器)

    [01:37] 🤖 Automated Design of Agentic Systems(代理系统的自动化设计)

    [02:14] 🖼 TurboEdit: Instant text-based image editing(TurboEdit:即时基于文本的图像编辑)

    [02:56] ⚕ Surgical SAM 2: Real-time Segment Anything in Surgical Video by Efficient Frame Pruning(手术SAM 2:通过高效帧修剪实现手术视频中的实时分割)

    [03:29] 📚 Fine-tuning Large Language Models with Human-inspired Learning Strategies in Medical Question Answering(在医学问答中通过人类启发式学习策略微调大型语言模型)

    [04:06] 📊 D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning(D5RL:多样化的数据集用于数据驱动的深度强化学习)

    【关注我们】

    您还可以在以下平台找到我们,获得播客内容以外更多信息

    小红书: AI速递

  • 各位听众朋友,大家好!欢迎收听《Hugging Face 每日AI论文速递》周末特辑,我们每周日为您带来一周内Hugging Face上最热门的AI研究论文。本期节目涵盖的日期是从2024年8月12日至2024年8月18日。

    在这一期中,我们将为您介绍五篇精选论文,包括探索完全自动化科学发现的“AI科学家”,释放长上下文LLMs生成能力的“LongWriter”,以及最新的图像生成模型“Imagen 3”等。这些论文涵盖了从自动化科学发现到语言模型的新进展,再到图像生成的创新技术。

    现在,让我们立即进入本期节目的精彩内容。

    [00:47] TOP1(🔥84) | 🤖 The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery(AI科学家:迈向完全自动化的开放式科学发现)

    [02:43] TOP2(🔥53) | 📚 LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs(LongWriter:从长上下文LLMs中释放10,000+字生成能力)

    [05:11] TOP3(🔥46) | 🌟 Imagen 3(Imagen 3)

    [07:26] TOP4(🔥45) | 🩺 Med42-v2: A Suite of Clinical LLMs(Med42-v2:一套临床大型语言模型)

    [09:05] TOP5(🔥42) | 🧠 Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers(互推理使小型语言模型成为更强的问题解决者)

    【关注我们】

    您还可以在以下平台找到我们,获得播客内容以外更多信息

    小红书: AI速递

  • 大家好,欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月16日,我们将带您快速浏览12篇热门AI论文,涵盖了从LLM自我对齐、数据集浓缩、知识图谱训练到视频生成等多个前沿领域。现在,让我们立即进入精彩的论文世界。

    [00:25] 🔍 DeepSeek-Prover-V1.5: Harnessing Proof Assistant Feedback for Reinforcement Learning and Monte-Carlo Tree Search(DeepSeek-Prover-V1.5:利用证明助手反馈进行强化学习和蒙特卡洛树搜索)

    [01:05] 🔄 I-SHEEP: Self-Alignment of LLM from Scratch through an Iterative Self-Enhancement Paradigm(I-SHEEP:从零开始通过迭代自我增强范式实现LLM的自我对齐)

    [01:49] 🔍 Heavy Labels Out! Dataset Distillation with Label Space Lightening(重标签出!数据集浓缩与标签空间轻量化)

    [02:31] 🧠 Training Language Models on the Knowledge Graph: Insights on Hallucinations and Their Detectability(在知识图谱上训练语言模型:幻觉现象及其可检测性的洞察)

    [03:05] 🧠 Towards flexible perception with visual memory(面向灵活感知与视觉记忆)

    [03:43] 🧠 FuseChat: Knowledge Fusion of Chat Models(FuseChat:聊天模型知识融合)

    [04:26] 🌉 MVInpainter: Learning Multi-View Consistent Inpainting to Bridge 2D and 3D Editing(MVInpainter:学习多视角一致性修复以桥接2D和3D编辑)

    [05:02] 🎥 FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance(FancyVideo:通过跨帧文本引导实现动态且一致的视频生成)

    [05:47] 🔊 Accelerating High-Fidelity Waveform Generation via Adversarial Flow Matching Optimization(通过对抗流匹配优化加速高保真波形生成)

    [06:31] 🤝 The ShareLM Collection and Plugin: Contributing Human-Model Chats for the Benefit of the Community(ShareLM集合与插件:为社区贡献人机对话数据)

    [07:15] 🔄 BAM! Just Like That: Simple and Efficient Parameter Upcycling for Mixture of Experts(BAM!就这样:简单高效的参数升级循环方法用于混合专家模型)

    [07:56] 🤖 Can Large Language Models Understand Symbolic Graphics Programs?(大型语言模型能否理解符号图形程序?)

    【关注我们】

    您还可以在以下平台找到我们,获得播客内容以外更多信息

    小红书: AI速递

  • 大家好,欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月15日,我们将带您快速浏览今日的8篇热门AI论文,内容涵盖视觉理解、化学知识、3D编辑技术等多个前沿领域。现在,让我们立即进入精彩的论文世界。

    [00:23] 🔬 Seeing and Understanding: Bridging Vision with Chemical Knowledge Via ChemVLM(视觉与理解:通过ChemVLM弥合视觉与化学知识)

    [01:09] 🎨 Generative Photomontage(生成式拼贴)

    [01:46] 🌐 3D Gaussian Editing with A Single Image(基于单张图像的3D高斯编辑)

    [02:17] 📊 InfinityMATH: A Scalable Instruction Tuning Dataset in Programmatic Mathematical Reasoning(InfinityMATH:一个可扩展的指令调优数据集,用于程序化数学推理)

    [03:02] 📹 DeepSpeak Dataset v1.0(DeepSpeak 数据集 v1.0)

    [03:37] 📈 PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation(PeriodWave:高保真波形生成的多周期流匹配)

    [04:17] 📊 Aquila2 Technical Report(Aquila2技术报告)

    [04:56] 🌐 Rethinking Open-Vocabulary Segmentation of Radiance Fields in 3D Space(重新思考三维空间中辐射场的开放词汇分割)

    【关注我们】

    您还可以在以下平台找到我们,获得播客内容以外更多信息

    小红书: AI速递