特工每日情报丨 2025 年 3 月 27 日

date
Mar 27, 2025
slug
ai-news-2025-03-27
status
Published
tags
AI
News
summary
type
Post
日报收集时间线:2025 年 3 月 26 日 20:00:00 - 2025 年 3 月 27 日 20:00:00 日报首发于特工宇宙知识库:特工每日情报,可订阅关注

产品

Ima 正式上线 知识号

信源:https://mp.weixin.qq.com/s/osv2pfaGLwtHoqOOP6-Y4Q
notion image
① 知识库创作者可以在ima知识号入口申请创建账号,账号创建成功后即可在ima知识广场发布知识库。
② 知识号提供了数据分析工具,你可以直观地看到知识库的相关数据,包括知识库的数量、人数。
③ 如果知识库加入总人数大于500人,知识号还会提供单个知识库的访问次数、问答次数、数据趋势,帮助你更清晰地知道如何优化知识库的内容和问答设置。
另外此次更新 ima 可以拥有 30G 个人云存储空间

Ideogram 发布 3.0 版

信源:https://x.com/ideogram_ai/status/1904927717281456188?s=61
介绍:https://about.ideogram.ai/3.0
notion image
  • 在专业设计师评估中,Ideogram 3.0 在各种提示词范围内始终优于其他领先的图像模型
  • 该模型在图像-提示对齐度、照片级真实感和文本渲染质量方面实现了显著进步
  • 在人类评估中,Ideogram 3.0 在多样化提示词集上的 ELO 评分始终优于其他文本到图像模型
notion image
notion image

核心优势

  • 在专业设计师评估中,Ideogram 3.0 在各种提示词范围内始终优于其他领先的图像模型
  • 该模型在图像-提示对齐度、照片级真实感和文本渲染质量方面实现了显著进步
  • 在人类评估中,Ideogram 3.0 在多样化提示词集上的 ELO 评分始终优于其他文本到图像模型

主要功能特点

风格参考功能

  • 创作者可以上传最多 3 张参考图片来控制生成内容,使其遵循所选的美学风格
  • 这使创作者能够快速指定难以用文字描述的风格,实现更高效、更具表现力的创作工作流程
  • 提供"随机风格"功能,可从 43 亿个预设中探索独特组合
  • 用户找到喜欢的风格后,可以通过"风格代码"保存并重复使用

创意设计能力

  • 为平面设计、广告、营销等专业用例提供突破性的文本和布局生成能力
  • 能够以卓越的精确度创建风格化、准确的文本,包括其他模型难以处理的复杂和长篇构图
  • 创建的文本美观且富有艺术性,远超传统设计平台中的排版能力

增强的图像质量

  • 改进了场景细节、照明、色彩控制和手部渲染
  • 提供先进的编辑工具,如魔法填充(Magic Fill)等功能
  • 专注于提供照片级真实感的图像输出

可用性

  • 现已向所有用户开放,可通过 ideogram.ai 网站和 iOS 应用使用
  • 早期访问用户可获得 10,000 次优先生成机会
notion image
notion image

技术

阿里 Qwen Chat 上线音视频通话,并开源 Omni-7B

信源:https://x.com/alibaba_qwen/status/1904944923159445914?s=61
notion image
Qwen 2.5-Omni 是一个端到端的多模态大语言模型,旨在感知包括文本、图像、音频和视频在内的多种模态,同时以流式的方式生成文本和自然语音响应。
notion image

主要特点

  • 全能创新架构:我们提出了一种全新的Thinker-Talker架构,这是一种端到端的多模态模型,旨在支持文本/图像/音频/视频的跨模态理解,同时以流式方式生成文本和自然语音响应。我们提出了一种新的位置编码技术,称为TMRoPE(Time-aligned Multimodal RoPE),通过时间轴对齐实现视频与音频输入的精准同步。
  • 实时音视频交互:架构旨在支持完全实时交互,支持分块输入和即时输出。
  • 自然流畅的语音生成:在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。
  • 全模态性能优势:在同等规模的单模态模型进行基准测试时,表现出卓越的性能。Qwen2.5-Omni在音频能力上优于类似大小的Qwen2-Audio,并与Qwen2.5-VL-7B保持同等水平。
  • 卓越的端到端语音指令跟随能力:Qwen2.5-Omni在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果,在MMLU通用知识理解和GSM8K数学推理等基准测试中表现优异。
相关文章资料:
视频介绍:https://www.youtube.com/watch?v=UF55yM67EH0
Blog: https://qwenlm.github.io/blog/qwen2.5-omni
Qwen Chat: https://chat.qwen.ai/
Hugging Face: https://huggingface.co/Qwen/Qwen2.5-Omni-7B

OpenAI Agents SDK 兼容 MCP 协议

信源:https://x.com/sama/status/1904957253456941061?s=61
OpenAI Agents SDK:https://openai.github.io/openai-agents-python/
MCP: https://modelcontextprotocol.io/introduction
notion image
OpenAI宣布开始支持MCP(模型上下文协议),该消息由CEO奥特曼亲自公布。他表示:"人们非常喜欢MCP,我们也很高兴在产品中增加对它的支持。今天我们已经在Agent SDK中支持MCP,对ChatGPT桌面应用以及Responses API的支持也即将到来!"
MCP是由Anthropic于2024年底推出的一种开放协议,旨在通过标准化接口实现大语言模型与外部数据源及工具的无缝集成。它被比喻为AI应用领域的"USB-C接口",为AI模型与不同数据源和工具之间提供了统一的连接方式。
notion image
Anthropic首席产品官Mike Krieger对此表示欢迎:"很高兴看到OpenAI也开始支持MCP。从去年到现在,MCP已经成为一个蓬勃发展的开放标准,拥有数千种集成,并且还在不断增长。"
自MCP开源以来,Block、Apollo、Replit、Codeium和Sourcegraph等公司已为其平台添加了MCP支持。OpenAI表示将在未来几个月内分享更多有关MCP计划的信息。
OpenAI的这一举措将大大降低开发Agent的成本,研究者可以利用众多的MCP服务器为智能体提供丰富的工具。

投融资

Nvidia 正在谈判收购 Lepton AI 丨The Information

信源:https://www.theinformation.com/articles/nvidia-nears-deal-buy-gpu-reseller-several-hundred-million-dollars
https://x.com/theinformation/status/1904998047454560612?s=61
Lepton AI:https://www.lepton.ai/
notion image
据The Infomation 消息,Nvidia 拟收购贾扬清创立的Lepton AI,交易金额达数亿美元。目前,Lepton AI 创始人贾扬清和 Nvidia 创始人黄仁勋对此消息尚未做出回应。

关于创始人贾扬清

贾扬清是人工智能领域的知名专家,被誉为"Caffe之父":
  • 2023年3月,贾扬清结束了在阿里云长达4年的职业生涯,宣布投身AI创业
  • 2024年,他当选为美国国家人工智能学院院士
  • 教育背景:清华大学自动化系本科和硕士,加州大学伯克利分校计算机科学博士
  • 在攻读博士期间开发了深度学习框架Caffe,成为全球最受欢迎的开源深度学习框架之一

关于 Lepton AI

Lepton AI专注于AI底层架构方向,致力于通过产品降低AI应用开发门槛,帮助开发者更便捷地创建、部署和扩展AI任务。
  • 成立时间:2023年
  • 融资历史:2023年5月完成首轮天使轮融资,投资方为 Fusion Fund 基金和 CRV 风投
  • 创始团队:除贾扬清外,还有领导全栈AI平台的白俊杰、资深技术专家李响。此外贾扬清和白俊杰都曾在Meta担任AI研究员,为Pytorch框架、OMNX等开源项目做出贡献。

主要产品

Lepton AI目前推出了两款主要产品:
  1. FastGPU:2024年6月上线的云GPU解决方案,主打经济高效和可靠性
  1. Lepton Search:2023年12月推出的对话式搜索引擎,基于Lepton AI平台实现,代码量不到500行

技术定位

Lepton AI的核心战略是提供大模型训练、部署和应用所需的基础设施:
  • 提供Python SDK和云计算平台
  • 支持HuggingFace模型集成
  • 支持从GitHub仓库创建AI模型
  • 整体降低AI应用开发门槛
Lepton AI在AI基础设施领域面临两大主要竞争对手:
  1. Together AI:比Lepton AI早成立约一年,已筹集超过5亿美元风险投资
  1. Fireworks:由前Meta PyTorch团队成员创立,去年完成B轮融资,英伟达曾参与跟投

Perplexity 年收入突破 1 亿美元

信源:https://x.com/aravsrinivas/status/1904912486035579176?s=61
notion image
Perplexity CEO Ardavind 宣布其年收入已突破 1 亿美元大关,这一成就的取得,距离其旗舰产品Perplexity Pro上线仅20个月,且在产品仍处于“高度未商业化”的状态下,实现了令人瞩目的6.3倍年增长率。

其他

推特被 Ghibili 占领了!!!4o 看看你干的好事

太多梗图了,整理不过来了
GPT-4o Image Generation:https://openai.com/index/introducing-4o-image-generation/
notion image
notion image
notion image
notion image
notion image
Open AI 于北京时间 2025 年 3 月 26 日凌晨发布 GPT-4o 图像生成能力, 是一个能够实现精确、准确、照片级真实感输出的原生多模态模型,解锁有用且有价值的图像生成。
不仅学习了图像与语言的关系,还学习了它们之间的关系。结合积极的后训练,生成的模型具有令人惊讶的视觉流畅性,能够生成有用、一致且上下文感知的图像。
  • 照片级真实感:4o 图像生成能够创建高度逼真的图像输出,质量接近真实照片,展示了 AI 图像生成技术的显著进步
  • 图像转换功能:该模型不仅能生成新图像,还能接收一张或多张图像作为输入,然后产生相关或转换后的图像,实现图像编辑和变换
  • 详细指令遵循:4o 能够可靠地遵循复杂的图像生成指令,包括精确的构图要求、风格指导和细节描述
  • 多模态理解:作为原生集成到语言模型中的功能,它能够更好地理解文本描述与视觉表现之间的关系
更多有关 gpt-4o 图像生成的示例,可以查看官方文章:GPT-4o Image Generation

Perplexity 即将发布 AI 浏览器 Comet

信源:https://x.com/aravsrinivas/status/1905001410858799522?s=61
notion image
Perplexity CEO Aravind Srinivas发推表示,Comet 能对网络上所有的工作和生活环境进行深入研推理、研究和解决问题,并且在 120 个标签栏的压力测试中,内存占用远小于 Chrome
notion image
notion image
注:曾红极一时的 AI 浏览器 Arc 团队于 2025 年 3 月 25 日发布新产品 DIA,目前正在 Alpha 测试阶段
notion image

Loveable 即将发布 2.0 版本,或支持 Agent Mode

信源:https://x.com/lovable_dev/status/1904981862810017808?s=61
notion image
Lovable 是一款无代码开发工具,仅通过文字描述就能做几秒钟内将想法转变为完整应用

苹果机器学习研究中心发布2025 年苹果学者

信源:https://machinelearning.apple.com/work-with-us#scholars
今年共有 21 位年轻学者获得了苹果学者奖学金(Apple Scholars in AIML), 该奖学金旨在庆祝那些在全球范围内追求前沿基础和应用机器学习研究的学生所做的贡献。
notion image

花边新闻丨AI 汪峰发布檄文,不出半日斩落马下

notion image

活动预告丨AI Hackaton - AI 解决问题大赛将于明日在杭举行

mp.weixin.qq.com
notion image

© 溪河 2021 - 2025