AIHot

AIHot · Featured

All Models Products Industry Papers Tips & Takes

Products75

Wayfinder Router：在本地和托管的大语言模型之间进行确定性查询路由

Wayfinder Router：在本地和托管的大型语言模型（LLM）之间进行确定性查询路由

Wayfinder Router 通过分析提示词的结构（长度、标题、列表、代码）和措辞（证明、数学、硬约束），在微秒级完成路由决策，完全离线且无需调用其他模型。默认仅使用结构特征，词汇线索因盲测未泛化而默认为关闭。对比依赖模型调用的路由器（如 RouteLLM、NotDiamond），它避免了延迟、成本和随机性。用户可在自有数据上校准评分阈值。支持任何 OpenAI 兼容 API（含 Ollama、Anthropic、Groq、vLLM 等），可自托管。提供终端和网页演示（--dry-run 无需密钥），以及基准测试和 FAQ。

Hacker News 热门（buzzing.cc 中文翻译）·6/29/2026, 00:58:56

Products72

阿德拉菲尼尔：仅在AI agent工作时阻止Mac睡眠的菜单栏工具

Show HN：阿德拉菲尼尔--仅在药物起效期间保持"盖子紧闭的Mac"处于清醒状态

Adrafinil 是一款 macOS 菜单栏应用，仅在 Claude Code、Codex、Cursor、Gemini CLI、Aider、Hermes、OpenCode、Cline、Pi 等 9 种 AI coding agent 持有活跃会话时阻止系统睡眠（包括合盖睡眠）。无 agent 工作时，合盖后 Mac 正常睡眠。它通过各 agent 的钩子系统调用 CLI，往返延迟低于 50ms，支持引用计数断言、热切出（温度阈值强制释放）、空闲释放及进程嗅探。需要 macOS Tahoe 26.4，Xcode 26+ 构建，以签名公证的磁盘映像提供。

Hacker News 热门（buzzing.cc 中文翻译）·6/28/2026, 11:55:17

Products66

Runway API 推出广告本地化 Recipe

Localize ads is now available as a Recipe via the Runway API. You can now translate static ads and …

广告本地化现在可通过 Runway API 以 Recipe 形式使用。现在您可以通过单次 API 调用翻译静态广告和图形资产。

X：Runway (@runwayml)·6/27/2026, 21:02:00

Products73

阿里千问输入法上线 macOS 版：最快 300 字/分，AI 自动润色

阿里千问输入法上线 macOS 版：最快 300 字 / 分，AI 自动润色

阿里千问输入法 macOS 版今日上线官网，支持最快 300 字/分的 AI 语音输入，可自动润色、将口语转为工整文字，并支持 9 种方言，纯净无广告。官方预告 iOS、Android、Windows 版将于近日发布。此前千问团队已于今年 5 月推出千问语音输入法（千问 App 内的组件），具备去语气词、纠错、格式化整理及基于上下文的智能回复等能力，而本次上线的输入法则定位为独立 App，填补千问在移动端 AI 输入法赛道的空白。

IT之家（RSS）·6/27/2026, 11:39:06

Products72

Weave 推出智能模型路由工具，可直接接入 Claude Code、Codex 和 Cursor

Show HN： Smart model routing directly in Claude， Codex and Cursor

Weave 发布智能模型路由工具，通过 `npx @workweave/router` 安装，作为本地代理运行在 localhost：8080。它采用基于 Avengers-Pro 1 的集群评分器，每个请求自动选择最佳模型。支持 Anthropic、OpenAI、Gemini 原生 API，并通过 OpenRouter 接入 DeepSeek、Kimi、GLM、Qwen、Llama、Mistral 等开源模型。用户自行保管提供商密钥，数据本地加密存储。工具兼容 Claude Code、Codex、Cursor 等客户端，并提供 OTLP 追踪，支持自托管部署。

Hacker News：AI 热帖·6/27/2026, 00:40:11

Products61

Claude Code v2.1.193 发布

v2.1.193

Claude Code v2.1.193 新增 `autoMode.classifyAllShell` 设置，将全部 Bash/PowerShell 命令经自动模式分类器处理。自动模式拒绝原因现加入转录、拒绝提示及 `/permissions` 页面。新增 `claude_code.assistant_response` OpenTelemetry 日志事件（默认不记录，需设置 `OTEL_LOG_ASSISTANT_RESPONSES=1`）。Bash 模式支持实时文件路径自动补全；MCP 服务器需认证时显示启动提示。新增空闲后台 shell 命令自动内存压力回收（可禁用）。修复 `/model` UI 状态滞后、后台任务误取消、子 agent 隐藏同级等问题，并改进了后台 agent 启动指令、MCP 认证重连、插件自动重命名等行为。

Claude Code：GitHub Releases（RSS）·6/26/2026, 05:45:57

Products66

Codex 在 ChatGPT 移动 App 正式可用

Codex in the ChatGPT mobile app is now generally available. Connect your phone and computer more se…

OpenAI 宣布 Codex 在 ChatGPT 移动应用中正式开放（GA），并新增一对一设备配对实现更安全的手机与电脑连接。移动端新增通知、目标、侧边聊天、文件预览及内联审阅评论功能。此前预览版已明确，用户可通过 ChatGPT 移动 App 启动新工作、审查输出、引导执行和批准下一步，而 Codex 实际继续在笔记本、Mac mini 或开发机上后台运行。

X：OpenAI Developers (@OpenAIDevs)·6/26/2026, 05:15:18

Products72

Claude Tag：下一代主动多玩家智能体

Claude Tag is the next evolution of agents. It's a proactive， multiplayer agent with memory and ide…

Claude Tag 是智能体的下一代进化。它是一个主动的、多玩家智能体，具有记忆和身份，构建在 Claude Code 之上。了解更多关于 Claude Tag 的工作原理以及使用它的最佳实践，请看这篇深度解析。

X：Claude Devs (@ClaudeDevs)·6/26/2026, 04:00:35

Products67

Midjourney 预览 V8.2 并加速草稿模式

Two quick updates in image world. Try adding --preview to your prompt for a early peak at V8.2 aesth…

Midjourney 带来两项更新。一是加入 `--preview` 参数可提前体验 V8.2 的美学与个性化效果；二是此前在 V8.1 推出的大批量草稿模式（生成 24 张低分辨率图，价格仅为标准 4 张的一半，点击 "Vary" 可升级为全分辨率）现在支持搭配 `--sref random` 使用，探索风格空间的速度比之前快 24 倍。

X：Midjourney (@midjourney)·6/26/2026, 03:11:05

Products62

Midjourney V8.1 草稿模式新增随机风格功能

Random styles in draft mode

Midjourney V8.1 的草稿模式（draft mode）添加了随机风格功能。用户在提示词中加入 `--sref random` 即可一键生成 24 张不同风格的图片。开启草稿模式可通过点击提示栏的 ⚡ 图标或添加 `--draft` 参数。

Midjourney：Updates（RSS）·6/26/2026, 02:50:16

Products65

Runway发布Agent 2.0

Introducing Agent 2.0

Runway发布Agent 2.0，帮助营销人员创建、测试和优化广告、视频及营销活动。品牌营销人员可在对话中开发活动概念、生成变体并自动本地化；绩效营销人员可上传创意并导入Meta、YouTube、TikTok或Google广告数据，由Agent分析后生成下一轮待测广告。社交媒体营销人员可一次性生成一周内容，自动裁切为9：16、16：9、1：1等格式；产品营销人员可借助Agent确定定位角度并构建活动资产。Agent 2.0面向所有用户开放。

Runway：News（网页）·6/26/2026, 02:41:58

Products71

OpenKnowledge：开源、AI 优先的 Obsidian/Notion 替代品

Show HN： OpenKnowledge - open source AI-first alternative to Obsidian/Notion

OpenKnowledge 是一款开源、本地优先的 Markdown 编辑器，私密免费，提供完整的所见即所得编辑体验。支持 macOS 桌面应用和 Web UI，内置文件导航、搜索、标签和图谱 wiki 链接查看器。可与 Claude、Codex、Cursor 等桌面应用协同实现 AI 编辑，并通过 MCP/CLI 兼容任意 AI 智能体框架。自带 MCP、技能和智能搜索，支持 LLM Wiki 和知识图谱。团队协作基于 Git/GitHub 实现无代码共享与自动同步。支持嵌入 HTML 及富文本组件。桌面应用内建 TUI，Linux/Windows/Intel Mac 用户可通过 CLI（Node.js 24+）以本地 Web 应用运行。可直接打开任何包含 Markdown/MDX 文件的文件夹。开源协议 GPL-3.0-or-later。

Hacker News：AI 热帖·6/26/2026, 00:04:46

Products73

Gemini 3.5 Flash 的 Computer Use 工具正式可用

The Computer Use tool is now available for Gemini 3.5 Flash 🛠️ Build agents that see and take acti…

Google AI 宣布 Gemini 3.5 Flash 的 Computer Use 工具正式可用，支持构建能观察并操作浏览器、移动端和桌面环境的 AI 智能体，可处理长期任务。新特性包括：内置移动与桌面操作系统支持；所有函数调用配备 intent arguments；可定制的客户端函数实现人工接管（HITL）；提示词注入检测及可配置的 action-level 安全策略。可用于自动化 QA 测试、业务流程等场景。

X：Google AI for Developers (@googleaidevs)·6/26/2026, 00:00:25

Products57

Google Finance 全新 Android 应用与投资组合功能上线

Our latest Google Finance upgrades， including a new app

本周，Google Finance 推出正式版 Android 应用，同步上线全球投资组合跟踪功能。用户可通过截图、CSV/PDF 上传或文字描述创建组合，并利用 AI 研究工具提问资产配置、固定收益影响等问题。新增市场情报简报功能：用户设定任务（如每日盘前简报），后台自动生成并推送至 Google 应用（Android/iOS）及网页端。Android 应用包含 watchlist、实时数据、金融新闻 feed、AI 研究工具及 AI 驱动的"关键时刻"解释股价波动。未来数月将把更多 web 功能（如财报电话、投资组合与任务）迁移至移动端，今年晚些推出 iOS 应用。

Google Blog：AI（RSS）·6/26/2026, 00:00:00

Products58

SGLang 引入 Waterfill 与 LPLB 提升 DeepEP MoE 负载均衡

Blog Improving DeepEP MoE Load Balance in SGLang with Waterfill and LPLB Mixture-of-Experts （MoE） models rely on Expert Parallelism （EP） to scale inference across multiple GPUs. In SGLang， DeepEP and EPLB provide high-performance serving under EP， but the workload seen by … NVIDIA Team

SGLang 为 DeepEP MoE 推理新增两种调度时负载均衡方法：Waterfill 将共享专家分配给负载更低的 rank，在 DeepSeek-V3/R1 服务负载下使总吞吐量提升 1.48% 至 4.66%，在 DeepSeek V4 上最佳点从 49，253 tok/s 提升至 51，677 tok/s（+4.92%）；LPLB 基于线性规划优化冗余专家副本的 token 路由，配合 EPLB 在相同集群上实现吞吐量提升 0.84% 至 7.34%。

LMSYS：Blog（Chatbot Arena 团队）·6/26/2026, 00:00:00

Products69

美团 LongCat 开源 VitaBench 2.0：长期动态智能体基准新标杆

美团 LongCat 团队推出 VitaBench 2.0，首个真实生活场景下针对长期动态用户建模的智能体评测基准。包含56名拟真用户、819个复杂任务、超2000个动态偏好及66个可执行工具，每位用户平均2093个交互事件，时间跨度平均1580天。同时支持长文本上下文学习和智能体记忆策略评测。测试显示，最强模型 Claude-Opus-4.6 在"开卷"模式下平均分刚过0.5；开启思考模式并不总能提升个性化任务表现；所有模型在需要主动提问的任务上得分断崖式下跌。VitaBench 2.0 已开源。

公众号：龙猫LongCat（美团）·6/25/2026, 19:58:00

Products55

盈透证券（Interactive Brokers）与 Grok 集成：组合分析、情景建模与实时交易指令生成

Explore the markets with Interactive Brokers and Grok

盈透证券（Interactive Brokers）近日与 Grok 集成，用户可在几分钟内免费关联现有账户，无需注册新账户。通过自然语言与 Grok 对话，可完成组合收益分析（如股息与利息预测）、行业/地区/经济事件的风险敞口情景建模、市场趋势研究，并直接生成对冲订单等实时交易指令，实现从数据洞察到执行决策的一体化。

xAI：News（网页）·6/25/2026, 08:00:00

Products71

OpenRouter MCP 服务器发布

The OpenRouter MCP Server

OpenRouter 推出 MCP 服务器，为编程智能体提供实时模型数据、基准排名、定价和文档查询。开发者通过一键安装（支持 Claude Code、Codex CLI、Cursor 等客户端），即可在编辑器内完成模型筛选、价格对比和测试推理，无需切换标签页。服务器整合 Artificial Analysis、Design Arena 及 OpenRouter 自身排名数据，例如推荐 GLM-5.2 作为性价比最佳的编码模型。工具集包括 models-list、model-get、model-endpoints、benchmarks 等，支持通过 chat-send 发送测试提示，比较不同模型（如 Claude Opus 4.8、GPT-5.5、DeepSeek V4 Pro）的响应、成本和延迟。API 密钥附带 7 天有效期和 10 美元消费上限，可随时撤销。

OpenRouter：Announcements（RSS）·6/25/2026, 08:00:00

Products65

Notion 使用 Cursor SDK 嵌入编码智能体

How Notion used the Cursor SDK to embed coding agents

Notion 通过 Cursor SDK 在数周内将编码智能体嵌入产品。用户可在文档中@Cursor、在讨论串中提及或向数据库指派任务，Cursor 即可端到端完成规划、构建、测试、验证并自动创建 PR。集成基于一套 Provider 无关的智能体框架，Notion 的讨论串对应一个 Cursor 智能体，每条消息对应一次智能体运行；结果通过 SSE 流式传输，支持断连恢复。Cursor SDK 提供与生产环境相同的模型、运行时和远程 MCP 支持，让 Notion 无需自建智能体基础设施即可获得完整栈编码能力。用户还可自定义模板、MCP 服务器、技能和子智能体，并设置自动触发规则。

Cursor Blog·6/25/2026, 04:55:19

Products65

Perplexity推出Computer for Counsel

Introducing Computer for Counsel. Computer now connects the research databases， document tools， and…

推出 Computer for Counsel。 Computer 现在连接了律师日常使用的研究数据库、文档工具和案件管理系统。可从中提取可引用来源：@midpageAI、@LegalZoom、@Docusign、@netdocuments 等。所有 Pro 和 Max 订阅用户均可使用。

X：Perplexity (@perplexity_ai)·6/25/2026, 03:34:04

Products74

Figma在Config 2026押注人类判断，画布AI能力却来自第三方

Figma bets on human judgment at Config 2026 while the AI powering its canvas belongs to someone else

Figma在Config 2026将设计画布扩展至代码、动画、3D深度和着色器效果，并集成去年收购的Weave工作流系统。新功能包括Code Layers（代码与设计并存）、Motion动画、深度层、Shader及Generative Plugins。协作方面，团队可搜索复用AI提示词、保存工作流为技能、共享插件。Figma的AI功能依赖Anthropic、OpenAI和Google等外部模型，推理成本挤压利润率。同时，Anthropic等公司的竞争产品可直接生成界面，构成威胁。

The Decoder：AI News（RSS）·6/25/2026, 00:49:01

Products70

Introducing computer use in Gemini 3.5 Flash

Google DeepMind 宣布，computer use 现作为内置工具集成于 Gemini 3.5 Flash，开发者可构建跨浏览器、移动端和桌面的智能体，实现视觉感知、推理与操作。此前该功能仅以独立模型形式存在于 Gemini 2.5。3.5 Flash 已支持函数调用及 Search、Maps 等内置工具，新增的 computer use 可提升持续软件测试和跨专业应用知识工作等长周期企业自动化任务的性能。安全方面采用针对性对抗训练，并可选配两项企业防护系统：要求用户确认敏感操作，以及在检测到间接 prompt 注入时自动停止任务。可通过 Gemini API 和 Gemini Enterprise Agent Platform 使用。

Google DeepMind：Blog（RSS）·6/25/2026, 00:30:01

Products62

Mistral AI 为 Connectors 推出多项安全与可控新能力

Bringing more control over your connectors June 24， 2026 Mistral AI

2026年6月24日，Mistral AI 发布 Connectors 多项新能力：Enriched admin controls（GA）支持按工作空间设置连接器访问权限并单独开关工具；API keys with connector scopes（GA）防止自动化 AI 工作负载中身份冒充；Multi-account connectors（GA）允许单个连接器绑定多个账户；Connectors Debugger（公开预览）对 MCP 连接器进行端到端根因分析；Connectors in Vibe Code（GA）和 Connectors in Workflows（公开预览）分别允许在开发者界面复用连接器及支持长时间运行任务不中断。

Mistral AI：News（网页）·6/24/2026, 23:59:47

Products66

火山引擎推出Agent Ready基础设施，AgentKit与ArkClaw企业版升级

火山引擎Agent Infra升级，让Agent真正进入企业工作流

火山引擎在FORCE大会推出面向企业智能应用的Agent Ready基础设施，构建AI云与Agent三层架构。AgentKit升级提供Identity、Runtime、Sandbox、Evaluation等模块，实现Agent可靠、可控、可衡量。Identity已接入数千家身份体系，Runtime支持长程任务和分钟级12万沙箱并发。ArkClaw企业版集成Agent广场、技能中心与企业知识库，支持IDP/SSO/OAuth及飞书、钉钉等IM入口统一管控。实践案例：海底捞门店经营Agent将小时级工作压缩到分钟级，人工跟进时长缩减70%，巡检满意度提升50%；创维酷开借助ArkClaw终端版打造AIOS，Token消耗节省50%，支撑百万级终端。

公众号：火山引擎·6/24/2026, 18:17:58

Products61

OpenAI 与 Broadcom 发布面向 LLM 推理的定制芯片 Jalapeño

OpenAI and Broadcom unveil LLM-optimized inference chip

OpenAI 与 Broadcom 发布首款自研推理加速器 Jalapeño，专为当前及未来 LLM 从头设计。早期测试显示，其性能功耗比大幅优于现有 SOTA。工程样片已在实验室以目标频率和功耗运行 GPT-5.3-Codex-Spark 等负载。芯片从设计到流片仅用 9 个月，并利用 OpenAI 模型加速部分流程。OpenAI 计划从 2026 年起与 Microsoft 等合作伙伴部署千兆瓦级数据中心，推出多代计算平台。

OpenAI：官网动态（RSS · 排除企业/客户案例）·6/24/2026, 14:00:00

Products77

今天，豆包正式推出专业版

豆包专业版基于豆包2.1系列大模型上线，面向复杂办公与生产力场景。办公任务模式接入可执行Agent任务的豆包2.1模型，支持操作本地电脑、浏览器、调用Skills技能、定时任务，内置Office办公套件，并可生成带后端数据库的在线应用。免费用户可体验豆包2.1 Turbo版办公任务模式，专业版接入豆包2.1 Pro模型。定价：标准套餐68元/月（连续包月），加强套餐200元/月，高级套餐500元/月。大学生认证后标准套餐38元/月，持续6个月。

公众号：豆包（字节）·6/24/2026, 09:00:00

Products61

FFASR 排行榜发布：真实远场条件下 ASR 评测

Introducing the FFASR Leaderboard： Benchmarking ASR in the Real World

Treble Technologies 与 Hugging Face 联合推出 FFASR（Far-Field ASR）排行榜，这是首个开源社区驱动的真实远场声学条件 ASR 评测基准。传统近场评测无法反映混响、背景噪声和麦克风距离带来的性能下降。FFASR 使用混合波模拟引擎生成声学数据，涵盖 14 种房间（20-470 m3）和三个信噪比级别（远场高 SNR >14 dB、中 SNR 8-12 dB、低 SNR <6 dB），加上近场干燥条件，共四类条件决定主排名。另有实验室实测/模拟验证轨道和移动声源 beta 版。性能指标同时报告词错误率（WER）和实时因子（RTFx，在 NVIDIA L4 GPU 上评估）。未来将支持多说话人场景、麦克风阵列和回声消除。

Hugging Face：Blog（RSS）·6/24/2026, 08:00:00

Products72

Mistral AI 发布 OCR 4 模型

Mistral OCR 4 Brings Citation-Ready Structured Output to RAG， Agentic， and Enterprise Search Pipelines

Mistral AI 今日发布 OCR 4，支持 170 种语言，可单容器自托管部署。新版本除提取文本外，还返回边界框、块类型（标题/表格/方程等）和逐字置信度分数。独立标注者在 600+ 文档、12+ 语言的测试中平均胜率 72%。价格 $4/千页，批量 $2/千页，Document AI 模式 $5/千页。企业客户可自托管。Rogo 报告等效精度下成本低约 8 倍、延迟低 17 倍；Anaqua 测得每页快约 4 倍。OCR 4 同时作为 Mistral Search Toolkit（公开预览）的接入组件。

MarkTechPost（RSS）·6/24/2026, 07:43:43

Products72

Runway推出Seedance 4K等三款新模型

Seedance 4K. Seedance Mini. Kling 3.0 Turbo. Available now. The world's best models， in one place. …

Seedance 4K。Seedance Mini。Kling 3.0 Turbo。现已推出。全球最佳模型，汇聚一处。使用优惠码 30RUNWAY，前三个月可享七折优惠。通过下方链接开始使用。

X：Runway (@runwayml)·6/24/2026, 05:36:44

Products70

Claude Code 团队用 Claude Tag 编写了 65% 的产品代码

The Claude Code team has been shipping with Claude Tag internally all year. It now writes 65% of o…

Claude Code 团队全年内部使用 Claude Tag。目前，Claude Tag 已编写了产品团队 65% 的代码，其中大部分代码本身也用于构建 Claude Tag。Claude Tag 是团队协作新工具，在 Slack 中作为成员加入，可访问指定频道和工具，用户通过 @提及将任务委派给 Claude。

X：Claude Devs (@ClaudeDevs)·6/24/2026, 01:13:29

Products56

Anthropic 推出 Claude Tag：在 Slack 中通过 @Claude 协作

Introducing Claude Tag

Anthropic 推出 Claude Tag，一种在 Slack 频道中通过 @Claude 委托任务的新协作方式。Claude 可记住频道上下文，支持多用户交互，经授权后可自动学习其他频道和数据源。开启"环境"行为后，能主动更新未解决的线程或任务。支持异步工作，可自主推进项目数小时或数天。即日起面向 Claude Enterprise 和 Team 客户提供 beta 版。管理员可精细控制工具和渠道访问权限、设置 token 消耗限额，并查看所有操作日志。

Anthropic：Newsroom（网页）·6/24/2026, 01:09:41

Products70

无限制OCR：单次长时域解析

Unlimited OCR 是一个托管在 GitHub 的项目，实现单次长时域解析（One-Shot Long-Horizon Parsing），旨在一次性处理长时间跨度的 OCR 任务。

Hacker News 热门（buzzing.cc 中文翻译）·6/23/2026, 21:32:22

Products73

IBM 开源 CUGA：轻量级智能体框架，提供二十余个单文件示例应用

Build real agentic apps using CUGA： two dozen working examples on a lightweight harness

IBM 开源了 CUGA（Configurable Generalist Agent），一个处理规划、执行循环、工具调用和状态管理的轻量级智能体框架。开发者只需提供工具列表和提示词即可构建 CugaAgent。内置计划-执行-反思循环，在 AppWorld（2025年7月-2026年2月）和 WebArena（2025年2月-9月）基准上排名第一。支持 Fast / Balanced / Accurate 三种推理模式，代码执行可在本地、Docker 或 E2B 沙箱中运行。可互换工具支持 OpenAPI、MCP 和 LangChain 函数，通过环境变量一键切换 OpenAI、watsonx、Ollama 等提供商。随框架发布二十余个单文件示例应用，涵盖电影推荐、IBM Cloud 架构顾问等场景，每个应用仅需一个 FastAPI 文件。

Hugging Face：Blog（RSS）·6/23/2026, 20:51:55

Products60

国内首个高考志愿AI测评出炉，千问多项表现超过资深咨询师

友松实验室发布国内首个高考志愿AI能力测评报告，测试千问高考志愿填报Agent四大模块。与53位平均从业4.6年的人类咨询师对照，千问表现更稳定精确：44道事实题全对；模拟10个志愿中6个可录取；100场匿名对比中专家58次倾向千问回答。使用千问辅助后，人类咨询师正确率提升，耗时减少约27%。该Agent基于千问高考志愿大模型和夸克8年高考数据，覆盖约3000所院校、2000多个专业。

公众号：千问APP（阿里）·6/23/2026, 18:54:49

Products70

NatureBench：AI编码智能体能否匹配Nature系列论文已发表SOTA？

NatureBench： Can Coding Agents Match the Published SOTA of Nature-Family Papers？

NatureBench是一个跨学科基准测试，包含90个从Nature系列同行评审论文中提取的任务，用于评估AI编码智能体能否超越复现、实现发现。基准基于NatureGym自动化管线，为每个任务提供标准化容器化环境，解决环境碎片化问题。在严格禁用网络搜索的协议下评估10种前沿智能体配置，最强模型仅在17.8%任务上超过已发表SOTA（g>0.1准则）。分析表明，智能体成功主要依赖方法论翻译，失败主因为方法选择错误和计算预算不足。已发布基准、NatureGym管线及公共排行榜。

HuggingFace Daily Papers（社区热门论文）·6/23/2026, 08:00:00

Products73

OpenRouter推出统一图像API

Introducing the Unified Image API

OpenRouter推出统一图像API，整合Google、OpenAI、Black Forest Labs、Recraft、ByteDance、Sourceful、Microsoft、xAI等30+模型。新API提供标准化请求格式，通过`/api/v1/images/models`端点返回每个模型的分辨率、宽高比、输出数量、输入参考图数量、种子等能力描述；通过`/api/v1/images/models/{id}/endpoints`端点获取具体服务商的定价与参数支持（如Seedream 4.5每张$0.04、FLUX.2 Pro每百万像素$0.03、GPT-5.4 Image 2按token计费）。OpenAI的GPT 5系列图像模型支持SSE流式预览，启用`"stream"： true`即可边生成边返回预览。新图像模型将仅添加至专用API，建议现有用户切换。

OpenRouter：Announcements（RSS）·6/23/2026, 08:00:00

Products59

Aleph 2.0 现已集成到 Figma Weave

Aleph 2.0 Is Now in Figma Weave

Aleph 2.0 是 Runway 的旗舰视频编辑模型，现已在 Figma Weave 中上线。它是一个基于上下文的视频编辑模型，通过关键帧工作：从视频中提取一帧，重新设计风格并附上时间戳连接回 Aleph 2.0 节点，即可将该编辑传递到主体出现的每一帧，同时保持其他内容不变。支持最长 30 秒、1080p 的片段，可跨多镜头序列应用编辑，无需逐镜头处理。

Runway：News（网页）·6/23/2026, 07:18:22

Products55

在 AWS、Google Cloud 和 Microsoft Foundry 上使用完整版 Claude Desktop

The full Claude Desktop experience on AWS， Google Cloud， and Microsoft Foundry

通过 AWS、Google Cloud 和 Microsoft Foundry 使用 Claude Desktop 的组织现已获得 Chat、Claude Cowork 和 Claude Code 集成的完整桌面体验。IT 团队可将推理保留在自己的云环境中，对话历史本地存储。支持 IAM Identity Center、Workforce Identity Federation、Microsoft Entra ID 或 Okta 登录；策略模板可导出至 Intune、GPO 或 Jamf；提供离线安装器。Chat、Claude Cowork 和 Claude Code 各有独立策略键，支持精细访问控制。M365 连接器通过 Entra 应用访问邮件和文档，并支持 GCC High/DoD 端点。

Claude：Blog（网页）·6/23/2026, 05:19:56

Products72

Show HN：Oak--专为代理设计的 Git 替代方案

Show HN： Oak--专为代理设计的 Git 替代方案

Oak 是开源版本控制系统，专为 AI 智能体（Claude Code、Codex、Cursor）设计。采用 BLAKE3 内容哈希、内容定义分块、diff/merge 及 Blob/Manifest/Commit/Tree 数据模型，可选 SQLite 和 git 后端。以分支-会话为基本工作单元，用分支描述替代逐次提交，通过内容寻址懒加载使智能体数秒内编辑任意仓库。速度远超 git。已发布公开测试版 v0.99.0，支持 macOS（Apple Silicon）、Linux（x86_64）及 Windows，可通过 curl 或 cargo 安装，Apache-2.0 开源。

Hacker News 热门（buzzing.cc 中文翻译）·6/23/2026, 05:00:09

Products75

东京 AI 公司 Sakana AI 推出多智能体编排系统 Sakana Fugu

Sakana AI 是2023年在东京成立的AI研发公司，核心定位是开发"自然启发"（nature-inspired）的AI模型。强调集体智能（collective intelligence）和演…

Sakana AI 是 2023 年成立于东京的 AI 公司，由前 Google Brain 的 David Ha（CEO）、Transformer 论文共同作者 Llion Jones（CTO）及前日本外交官 Ren Ito（主席）联合创立。其产品 Sakana Fugu 将多智能体系统封装成单个 API 调用，内部自动拆解任务、调度全球模型并验证结果。Fugu Ultra 在工程、科学、推理等基准上对标 Fable/Mythos，通过动态编排多模型天然绕开单一供应商出口管制风险，被视为将多智能体从复杂工程变为开箱即用的产品形态。

X：Berry Xia (@berryxia)·6/23/2026, 00:11:41

Products72

微信Agent小微灰度内测：主入口发消息红包，子入口可读聊天记录

聊聊我刚刚拿到测试的微信Agent。

微信Agent小微灰度内测已开始，主入口位于微信首页左上角，支持给好友发消息和红包（需确认），但无法读取聊天记录或向群聊发消息。群聊和私聊的"问小微"子入口则可读取聊天记录并支持群发。小微可创建日程提醒、待办、总结朋友圈，打通公众号和视频号进行问答。收藏仅可读取小微自建笔记。内置"小工具"功能，支持语音创建简易小程序（暂不可发布），还可调用第三方小程序。

公众号：数字生命卡兹克·6/22/2026, 21:34:14

Products69

Grok Build 推出 /goal 模式，支持长时间自主任务执行

Introducing /goal Jun 22， 2026 # Introducing /goal Use /goal for long-running autonomous task execution in Grok Build. Read More

xAI 在 Grok Build 中引入 `/goal` 新模式。用户只需用一行命令设定目标，agent 便会自动规划方案、分解任务为进度清单并持续执行，直至目标完成且通过验证，期间可额外下达指令。该模式支持监控与引导命令，任务完成时清单全部勾选。即日起可用，用户可通过 `curl -fsSL | bash` 安装 CLI 并登录账号即可使用。

xAI：News（网页）·6/22/2026, 08:00:00

Products72

Cloudflare 临时账户 for AI agents

Temporary Cloudflare Accounts for AI agents

Cloudflare 推出临时账户功能，无需注册即可通过 `npx wrangler deploy --temporary` 部署 Workers 项目，临时项目存活 60 分钟。该功能虽标称为 AI 智能体设计，但普通用户同样适用。作者使用 GPT-5.5 xhigh 在 Codex Desktop 中构建了测试应用，验证了部署与运行流程，并展示了项目认领页面。

Simon Willison 博客·6/22/2026, 06:01:04

Products78

美团tabbit国际版免费接入GPT-5.5/Claude Opus 4.8等旗舰模型

我去，GPT 5.5， Claude Opus 4.8， Gemini 3.5flash，最新旗舰版全接入，完全免费不用单独开订阅！美团最近悄悄上了一个叫 tabbit 国际版的应用，里面接了好几…

美团近期上线tabbit国际版应用，免费集成多家顶级AI模型的最新旗舰版，包括GPT-5.5、Claude Opus 4.8、Gemini 3.5 Flash，以及国内Kimi-2.6、GLM-5.1、MiniMax-M3。用户无需单独订阅即可使用这些模型。需注意：只有国际版包含海外模型，国内版仅提供国内模型。该应用旨在抢占AI入口，目前处于免费推广阶段。

X：阿易 AI Notes (@AYi_AInotes)·6/21/2026, 18:11:21

Products73

微信 AI 助手"小微"灰度上线，可通过文字或语音对话操作原生功能

微信 AI 助手"小微"灰度上线，可通过文字或语音对话操作微信原生功能

微信原生 AI 助手"小微"今日扩大灰度测试，支持文字或语音操作微信原生功能（调整设置、发送消息、拨打电话、点外卖、生成图片等），集成文件总结、提醒设置、音乐推荐。用户可一句话生成小程序（仅限个人使用，暂不支持分享），并可通过多轮对话修改风格。该功能由微信技术架构负责人周颢带队推进，计划 2026 年第三季度向更多用户推出。此前微信开放平台已于 6 月 8 日开放 AI 生态接入能力，微信支付同步发布 AI 专属卡。

IT之家（RSS）·6/20/2026, 16:59:23

Products77

NVIDIA Research 发布 SpatialClaw：免训练空间推理框架

NVIDIA AI Introduce SpatialClaw： A Training-Free Agent That Treats Code as the Action Interface for Spatial Reasoning

NVIDIA Research 发布 SpatialClaw，一个免训练的空间推理框架。它通过将代码作为动作接口，让智能体调用感知工具（Depth Anything 3、SAM 3）并自由组合输出，解决视觉语言模型在 3D 空间判断上的弱点。在 20 项基准测试中平均准确率达 59.9%，比近期智能体 SpaceTools 高 11.2 个百分点，比无工具基线高 6.5 点，比结构化工具调用高 3.2 点。框架无需重新训练，同一提示词和工具集可跨所有基准和骨干网络运行，支持 Qwen3.5/3.6 及 Gemma4 等 26B 至 397B 参数的模型。

MarkTechPost（RSS）·6/20/2026, 06:51:59

Products62

Cloudflare 为 AI 智能体推出临时账户

Temporary Cloudflare Accounts for AI agents

Cloudflare 在 Workers 上推出临时账户（Temporary Accounts），允许 AI 智能体直接运行 `wrangler deploy --temporary`，在数秒内获取一个可用的实时 Worker，无需绕开面向人类设计的部署流程。该功能旨在降低智能体部署门槛。

Cloudflare Blog·6/19/2026, 21:00:00

Products79

阿里开源向量数据库Zvec，UCSD黄碧薇教授提出因果AI第四代范式

卧槽，阿里把内部用了多年的向量数据库直接开源了，Pinecone每月70刀的能力，它pip一行免费就能用，十亿向量毫秒级还不用单独起服务🤯 以后做RAG和AI搜索的，不用再每月给Pinecone交…

阿里开源内部向量数据库Zvec，pip install zvec免费使用，对标Pinecone每月70美元能力。支持十亿向量毫秒级检索，无需单独起服务，全平台兼容；v0.5.0新增原生全文混合搜索。UCSD黄碧薇教授（causal-learn作者）提出AI四代范式：相关性小模型→因果小模型→相关性大模型（LLM）→因果大模型，认为当前正站在第四代门口。其创立的Aether AI完成首轮融资，致力于从视频中自动抽取物理规律，探索下一代因果AI范式。

X：阿易 AI Notes (@AYi_AInotes)·6/19/2026, 12:49:25

Products75

AI 员工 Viktor 登陆 Microsoft Teams，年化收入达 2000 万美元

Viktor grew a $20M annualized revenue run rate outside Microsoft Teams. Now it works inside Teams. …

AI 员工 Viktor 在 Slack 上实现 2000 万美元年化收入（无销售团队、未大规模推广），现已正式进驻 Microsoft Teams。Viktor 定位为零门槛 AI：用户无需学习、无需提示词，像 @同事一样提及即可获得完整工作成果，甚至无需主动 @ 也能自动完成。产品面向 Teams 的 3.2 亿用户，助力企业内部运营和管理人员零学习成本使用 AI。即日起免费试用，含 100 美元信用额度，无需绑定信用卡。

X：Rohan Paul (@rohanpaul_ai)·6/19/2026, 07:45:03

Products58

企业版新用量分析与更新的支出控制

New usage analytics and updated spend controls for enterprises

OpenAI 为 ChatGPT Enterprise 推出信用额度用量分析与更新的支出控制功能。全局管理控制台（Global Admin Console）统一展示 ChatGPT 和 Codex 的信用消耗，支持按时间、用户、产品、模型追踪用量趋势。管理员可为整个工作区设置默认限额，按群组配置额度，并为个人设置叠加限制。员工可查看个人用量并申请增加额度（附工作上下文）。这些功能即日起可用。

OpenAI：官网动态（RSS · 排除企业/客户案例）·6/19/2026, 01:00:00

77 featured items