AIHot

AIHot · Featured

All Models Products Industry Papers Tips & Takes

Tips & Takes75

这就是那位火爆的Codex家伙？--OpenAI Codex桌面应用负责人访谈

This is the hot codex guy？！

Andrew Ambrosino领导的OpenAI Codex桌面应用团队，自2月以来使用量增长6倍，周活跃用户超500万，且几乎所有OpenAI员工日常使用该应用。他的目标是打造"有史以来最好的桌面应用"。在访谈中，他讨论了OpenAI PM的"区域防守"运作模式、AI在设计中表现不佳的原因、Codex若去年11月发布（同产品但模型不同）可能失败、"品味"作为专业技能的意义，以及他用Codex运行工作流和对Codex+ChatGPT融合的愿景。

X：Jason Liu (@jxnlco)·6/29/2026, 02:12:26

Tips & Takes60

Artifacts 22：Zyphra、Cohere 和 Poolside 正在扩展生态系统广度

Artifacts 22： Zyphra， Cohere， and Poolside are expanding the breadth of the ecosystem

开源模型生态正变得更多元，参与者从少数中国公司扩展到全球各类组织。纯模型制造商包括 DeepSeek、智谱、MiniMax、Poolside、Arcee、Zyphra 及主权 AI 玩家 Cohere、Sovereign、Mistral、Trillion Labs；科技巨头如阿里 Qwen、Google Gemma 和 NVIDIA 各有不同动机；产品公司如 JetBrains、Zed、Krea、Photoroom 则训练高度专业的小模型。NVIDIA 发布 Nemotron-3-Ultra-550B-A55B-BF16，采用 LatentMoE 架构并改用 OpenMDW 许可证。Cohere 以 Apache 2.0 开源其旗舰模型 Command A+（05-2026-bf16），这是一款 218B-A25B MoE 模型，具备多模态、多语言和智能体能力。

Nathan Lambert：Interconnects（RSS）·6/29/2026, 01:03:07

Tips & Takes76

四大顶级AI对决《文明VI》：Claude核平法国仍输，暴露感知与执行短板

四大顶级 AI 对决《文明 VI》！Claude「核平」法国，结果还是输了

英国前首相府数据科学家Liam Wilkinson搭建76个MCP工具，将Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro等四个模型放入《文明VI》进行23场对局。Claude扮演葡萄牙时，因法国文化胜利逼近，花50回合研发核弹核平图卢兹，但法国最终以外交胜利获胜。Wilkinson发现：AI主动检查全局状态仅占1-2%（感知盲区），计划后10回合内执行率仅48-66%（知行差距）。结论是智商非瓶颈，感知与执行才是关键。

IT之家（RSS）·6/28/2026, 10:45:16

Tips & Takes81

一次失败的（民族国家？）攻击的剖析

作者收到伪装成新加坡VC Lua Ventures的虚假面试邮件，要求完成一个TypeScript仓库的"测试"。作者将仓库交给Claude扫描，在`typescript+5.9.2.patch`中发现base64混淆载荷，该载荷在`patch-package`安装时触发，向`~/.cache-`等目录写入`payload.js`和`mutex.js`，构成后门（命名PinpinRAT）。攻击者使用虚构身份和空洞LinkedIn资料，目标是作者在crates.io上的Rust包。相关信息已报告加拿大CCCS等机构。

Hacker News 热门（buzzing.cc 中文翻译）·6/27/2026, 23:39:53

Tips & Takes75

华盛顿邮报报告：AI聊天机器人存在左翼偏见

AI chatbots show left-wing bias， Washington Post report finds， with ChatGPT giving left-leaning answ…

《华盛顿邮报》报道，基于达特茅斯和斯坦福研究的测试显示，AI聊天机器人在约30项政策议题（税收、医保、移民等）上存在左翼偏见。GPT-5.5仅给出左倾立场占80%，双方立场17%，右倾3%；Gemini 3.1 Pro则93%给出双方立场，左倾仅7%；Claude Opus 4.8双方立场占57%；Grok 4.3是唯一右倾占33%的模型。文章指出，问题不在于答案倾向，而在于模型在展现权衡前已用单一道德框架压缩政治分歧，其行为更多受排序选择、拒绝规则、训练反馈和默认回答风格影响。

X：Rohan Paul (@rohanpaul_ai)·6/27/2026, 00:51:17

Tips & Takes71

美国政府对AI模型发布加强管控，Anthropic与OpenAI面临相同困境

It's not about Anthropic vs. OpenAI anymore

美国政府两周前撤下Anthropic的Fable和Mythos模型后，OpenAI的GPT 5.6同样仅以有限预览形式发布，需逐客户审批，待通用发布批准。Altman预计预览只持续"几周"，但Mythos已预览数月仍无通用发布迹象。审查周期可能拖累新系统经济收益，减缓模型开发与数据中心建设。业界亟需建立合理的发布流程，但美国政府缺乏测试所需的专业能力，也未明确实际风险。AI行业必须将安全与监管视为共同挑战。

TechCrunch：AI（RSS）·6/27/2026, 00:24:47

Tips & Takes61

下一个重大突破：AI在工作中学习

The next big breakthrough will be AIs learning on the job

AI实验室的研究赌注是：在数千个多样化RL环境中训练模型完成数百万可验证任务，就能构建AGI。这种训练会培养出能连续数周处理开放任务、应对错误和歧义的问题解决技能。虽然模型训练时的样本效率仅为人类的百万分之一，但训练成本是一次性的，可摊销到数十亿次用户会话中；真正重要的是模型在单个会话内的智能和样本效率，而这随着RL训练正在提升。持续学习或许不再必要--如果上下文内的学习能力足够强、时间跨度足够长，就无需将经验蒸馏回权重。Transformer架构创新已能大幅扩展上下文存储，未来可能实现任意大的上下文窗口。论文还指出，一个领域不仅需要可验证性，还需要可碾压性--能在确定性、可重播的模拟器中并行运行大量rollout。

Dwarkesh Patel：Podcast & Blog（RSS）·6/26/2026, 23:51:34

Tips & Takes76

Leaf 开源项目：将网红峰哥做成实时通话 AI 分身

有人把网红峰哥做成了能实时打电话的 AI 分身，连说话风格都一模一样。这是开发者 Leaf 刚开源的项目，把实时对话、音色克隆、人格注入三件事打通了，工程延迟压到一秒以内。最厉害的是拆…

开发者 Leaf 开源项目，将网红峰哥做成能实时通话的 AI 分身，集成实时对话、音色克隆和人格注入，工程延迟压到 1 秒内。技术拆解：语音识别用 Cartesia ink-whisper 降噪防误触发；大模型选 MiniMax 高速版，首字响应 361ms；语音合成用 VoxCPM 开源克隆，15 秒素材即可复刻。整体从最初 8-20 秒优化至体感 2-3 秒。人格通过女娲 Skill 从直播语料蒸馏出口头禅和思维逻辑。普通人半小时可跑通：克隆项目后，用 Claude Code 或 Cursor 配置，填两个 API Key 即可使用。

X：阿易 AI Notes (@AYi_AInotes)·6/26/2026, 23:37:43

Tips & Takes71

Claude Code 6个实用Hook玩法

想玩Loop Engineering，可以先从这6个Hook玩法开始。

Claude Code 内置近30个Hook事件（年初仅13个），本质是写死的规则脚本，运行时不消耗token。6个实用玩法：权限弹窗提醒、开机日程播报（问候+天气+飞书日程）、上下文预压缩时自动生成摘要卡片、结合Skill自动整理下载文件夹、启动后每小时久坐提醒、通过Bark实现手机/手表任务完成/失败推送。让AI从被动聊天框变为事件驱动的自动化系统。

公众号：数字生命卡兹克·6/26/2026, 10:02:00

Tips & Takes81

小互开源个人IP配图技能"小互IP Studio"，含31个原创角色

http：//x.com/i/article/2070315221424787456

博主小互开源个人IP配图技能"小互IP Studio"，包含31个原创角色（15个手绘线稿角色+16个谐音梗meme形象）及一套配图方法论。该Agent可自动读取文章、规划配图类型（情绪图/示意图/四格漫画）、生成并自查返工。默认画风为手绘线稿淡彩，另备5种皮肤（3D盲盒、黑白线稿等）可切换。安装仅需Python3，支持Claude Code、Codex等工具，需自备OpenAI兼容的图像API key（默认GPT-image-2）；也可只输出提示词手动生图。

X：小互 (@xiaohu)·6/26/2026, 09:26:23

Tips & Takes62

一条命令在HF Jobs上启动vLLM服务器

Run a vLLM Server on HF Jobs in One Command

HuggingFace Jobs 支持一条命令启动 vLLM 服务器，用于测试、评估或批量生成。使用 `hf jobs run` 命令，指定官方 `vllm/vllm-openai` 镜像、GPU flavor（如 `a10g-large`）、暴露端口 8000 并设置超时。服务器启动后可通过 OpenAI 兼容 API 访问，每次请求需携带 HF token 作为 bearer token（仅限有读权限的用户）。示例部署了 Qwen/Qwen3-4B（多 GPU 需 `--tensor-parallel-size`）。`a10g-large` 价格为 $1.50/小时，按分钟计费，可通过 `hf jobs cancel` 停止。

Hugging Face：Blog（RSS）·6/26/2026, 08:00:00

Tips & Takes82

@exponentialview 发布《State of the AI Economy》报告：AI经济年化收入超1750亿美元

This is a brilliant report. The State of the AI Economy by @exponentialview - $110B real AI revenue…

报告基于去重后的消费端AI支出统计，过去12个月实际AI营收达1100亿美元，年化运行率超1750亿美元，增长速度约为移动/互联网普及浪潮的3倍。营收形成速度急剧加快：2023年新增10亿美元收入需180天，现缩短至不足2天。企业AI已脱离试点阶段，但全面推广仍处早期。31%的标普500公司在财报电话会提及AI，仅20%量化影响。Token降价每10%刺激12-18%用量增长，需求价格弹性强。超大规模云厂商AI收入目前大致覆盖基础设施折旧，GPU经济效益依赖6年计算寿命假设。电力供应和数据中心成本仍是未来扩展主要瓶颈。

X：Rohan Paul (@rohanpaul_ai)·6/26/2026, 07:29:52

Tips & Takes65

OLMo Hybrid vs Transformer：混合模型在实义词上优势明显，但重复短语上几无优势

Which tokens does a hybrid model predict better？

通过对比7B参数的OLMo 3（Transformer）与OLMo Hybrid（混合架构），实验发现混合模型在大多数token上预测损失更低：对名词、动词、形容词等实义词优势明显（loss gap约0.04），功能词上gap约0.02，且在需上下文推理的代词指代上更好。但在重复出现的n-gram和闭合括号（如`}`）上，混合模型的优势几乎消失，Transformer凭借注意力机制更擅长从输入中直接检索精确信息。

Hugging Face：Blog（RSS）·6/26/2026, 00:11:42

Tips & Takes73

多数主流AI聊天机器人政治立场偏左，"反觉醒"模型也不例外

Most major AI chatbots still lean left on political questions， even "anti-woke" models are no exception

华盛顿邮报调查显示，多数主流AI聊天机器人在政治问题上明显偏左。OpenAI GPT-5.5在80%回答中仅呈现左派论据；DeepSeek V4 Pro为70%；Anthropic Claude Opus 4.8有43%纯左、57%给出双方观点。xAI的Grok 4.3左倾回答仍多于右倾。右翼平台Gab的Arya左倾回答是右倾的12倍。Google Gemini 3.1 Pro是例外，93%回答同时呈现双方立场。特朗普推动的"反觉醒"AI未能改变这一格局。

The Decoder：AI News（RSS）·6/26/2026, 00:04:32

Tips & Takes82

豆包Seed-2.1实测：编程可用，识鱼封神！

http：//x.com/i/article/2070045816782217216

火山引擎发布豆包Seed-2.1系列（Pro、Turbo）。实测Seed-2.1 Pro显示：Agent和Coding能力达到生产级可用线，能完成SVG动画、网页开发、CMS系统等任务；配合开源Skill可生成标题、调研报告、信息卡片及电子书。多模态识别惊喜，拍照识鱼准确识别鱼种和数量，优于Gemini 3.1 Flash。价格实惠，API已通过火山方舟全量开放。

X：Vista (@vista8)·6/25/2026, 15:28:15

Tips & Takes70

AI被认为会取代工程岗位，但新数据显示工程是2025年最具韧性的岗位

AI was supposed to kill engineering jobs， but new data suggests they're the most resilient

风投机构SignalFire追踪8000万家公司数百万员工数据发现，工程是2025年最具韧性的岗位。大型科技公司总招聘较2019年下降25%，工程岗仅降11%；工程岗占Alphabet、Meta等12家"Tech Majors"新招员工的55%（2019年为46%）。早期初创公司2025年工程师招聘比2019年增长7%。Anthropic CEO警告AI可能消灭一半入门级白领，但该公司经济主管称尚未看到显著影响。NVIDIA CEO黄仁勋表示AI让工程师更忙碌，是杰文斯悖论的典型例证。

TechCrunch：AI（RSS）·6/25/2026, 05:56:41

Tips & Takes60

Anthropic 推出 Claude Tag，构建人机协作团队

Building effective human-agent teams

Anthropic 推出 Claude Tag，支持多用户与同一 AI 智能体在同一工作空间协作。智能体具备持久记忆、独立于人类的凭证及广泛信息访问权限。经验：工作公开化并给予智能体广泛上下文，通过工作区级安全边界让信息对人和 AI 均可用；为每位成员（含 AI）分配明确角色与相应工具。用户可通过 @Claude 私信进行敏感交互，对话保持私密。该方法已在 Slack 等团队协作工具中实践，旨在使人类与智能体高效协作完成共享目标。

Claude：Blog（网页）·6/25/2026, 02:35:00

Tips & Takes66

NVIDIA NeMo AutoModel：一行代码加速Transformer MoE模型微调

Accelerating Transformers Fine-Tuning with NVIDIA NeMo AutoModel

NVIDIA NeMo AutoModel 是基于 Transformers v5 的开源库，添加 Expert Parallelism、DeepEP 融合 all-to-all 调度和 TransformerEngine 内核。在 MoE 模型微调中，相比原生 v5，训练吞吐量提升 3.4-3.7 倍，GPU 内存减少 29-32%，仅需改动一行 import。在 16 节点 128 张 H100 上全微调 Nemotron 3 Ultra 550B A55B 时，v5 因内存不足无法运行，而 AutoModel 凭借 EP=64 专家并行使训练可行。单节点 30B MoE 模型（如 Qwen3-30B-A3B）同样获得可量化的性能优势。

Hugging Face：Blog（RSS）·6/25/2026, 00:00:13

Tips & Takes68

OpenRouter 零数据留存（ZDR）实践：97 款新模型，流量占比近半

When Zero Means Zero

OpenRouter 的零数据留存（ZDR）保证用户提示词和模型响应不被存储，元数据一般安全。自 1 月以来新增 97 款支持 ZDR 的模型，月度 token 量增长 4.3 倍，约占全部路由流量一半。ZDR 在三个层面执行：账户级（整个供应商开启）、护栏级（按 API Key 或组织成员限定）、单次请求级（传参数仅路由至 ZDR 端点）。企业用户可灵活选择控制粒度，避免锁定单一供应商。

OpenRouter：Announcements（RSS）·6/25/2026, 00:00:00

Tips & Takes78

里德·霍夫曼称SpaceX"不是一家人工智能公司"，xAI则是"彻底的灾难"

LinkedIn联合创始人、Anthropic和OpenAI投资者Reid Hoffman在播客中公开批评SpaceX和xAI。他指出SpaceX"不是一家人工智能公司"，6月12日上市后收购AI编程工具Cursor属于"花钱买相关性"；xAI则是"彻底的灾难"，所有11位联合创始人已离职，Grok模型在基准测试中落后于Anthropic和OpenAI。他还批评美国政府6月11日以出口管制为由强制Anthropic下架Fable和Mythos模型，理由仅为Amazon CEO报告Fable 5存在jailbreak漏洞，称此举"专断随意"。Hoffman认为Anthropic和OpenAI均有巨大发展空间，但Cursor可能已过巅峰。他建议年轻人不要抵制AI。

Hacker News 热门（buzzing.cc 中文翻译）·6/24/2026, 22:20:14

Tips & Takes74

字节跳动技术副总裁洪定坤：AI Coding 的实践与探索

在火山引擎Force大会，字节跳动技术副总裁洪定坤分享AI Coding实践。过去一年，字节AI代码贡献率增长6倍，tokens消耗增长5倍，但过度关注单一指标可能失真--TRAE团队代码超90%由AI生成，人均需求吞吐率仅提升60%。900次实验显示，主流Coding模型组合代码正确率超80%，但可交付性仅40-60分；结合Harness基建后提升至80分。AI降低编程门槛但需优化指标、治理、协作。字节探索原型驱动开发，能力沉淀至TRAE（日均Token消耗5.6万亿，增长50倍），并推出TRAE Work。

公众号：火山引擎·6/24/2026, 22:02:42

Tips & Takes65

MiniCPM-V 4.6 在 Apple Core AI 上高速运行

🥳Thanks for sharing this， @MLBoy_DaisukeMajima 🚀 MiniCPM-V 4.6 running at this speed on-device is …

🥳感谢分享，@MLBoy_DaisukeMajima 🚀 MiniCPM-V 4.6 在设备上以这样的速度运行，实在令人印象深刻--尤其是在 Apple Core AI 上以不到 2B 参数跑出。干得漂亮，推动高效多模态 AI 向前发展。🫡

X：面壁智能 OpenBMB (@OpenBMB)·6/24/2026, 14:57:45

Tips & Takes63

微信上线AI智能体"小微"内测

体验完微信Agent以后，我觉得这就是微信有史以来最大的更新。

微信近日内测AI智能体"小微"，常驻左上角，支持语音或文本输入，调用WeLM-V4-80B（MoE激活3B）与DeepSeek模型。可向个人/群聊发消息、发起视频通话、发红包或转账，需用户逐项确认；可查询朋友圈（限最近2天）、公众号、视频号，支持创建提醒、笔记、小工具，并能操作奶茶咖啡、打车、电影票等小程序至最后一步后交给用户。小微具备记忆功能，可记录地址等。聊天记录上下文仅在特定入口可用且限最近2天。整体策略"只读不动"，禁止批量发送、定时、删除联系人等操作。微信以谨慎节奏接入AI，是国民级应用全面拥抱AI的重要信号。

公众号：数字生命卡兹克·6/24/2026, 10:02:00

Tips & Takes67

huggingface_hub 实现每周发布：AI、开源工具、人工审核闭环

Shipping huggingface_hub every week with AI， open tools， and a human in the loop

Hugging Face 将 huggingface_hub 的发布周期从每 4-6 周缩短至每周，全部由单个 GitHub Actions 工作流自动完成。流程依赖开源工具和开权重模型（当前为 Z.ai 的 GLM-5.2）来起草发布说明和 Slack 公告，但保留人类在最终审核环节的决定权。自动步骤包括版本号更新、提交标签推送、PyPI 发布、下游测试分支创建、发布说明草稿、Slack 公告草稿、归档、后置版本提升以及对合入 PR 的评论。所有组件均基于开源生态构建，任何维护者都可直接复制使用。

Hugging Face：Blog（RSS）·6/23/2026, 08:00:00

Tips & Takes64

在 Transformers.js 中实验提议的跨源存储 API

Experimenting with the proposed Cross-Origin Storage API in Transformers.js

Transformers.js 在浏览器中运行 AI 模型时，不同来源的 Web 应用会重复下载并缓存相同的模型资源（如 Xenova/whisper-tiny.en）和 Wasm 运行时文件（如 4，733 kB 的 ort-wasm-simd-threaded.asyncify.wasm），即使资源 URL 相同，浏览器因 Network Isolation Key 隔离缓存，单次 demo 就产生 177 MB 冗余下载和存储。Cross-Origin Storage API 是一项早期提案，旨在让跨来源应用共享缓存的模型和运行时资源。目前该 API 尚未在浏览器原生实现，但可通过 Chrome 扩展注入 polyfill 进行实验。

Hugging Face：Blog（RSS）·6/23/2026, 08:00:00

Tips & Takes84

GLM-5.2 开源模型发布：744B 参数，1M 上下文，可本地运行

Unsloth GLM-5.2 - 如何在本地运行

Z.ai 发布 GLM-5.2，开源 744B 参数（40B 活跃），1M 上下文窗口，性能与 Claude 4.8 Opus、GPT-5.5、Gemini 3.1 Pro 持平。通过 Unsloth 动态量化，2-bit GGUF 版本内存需求降至 239GB（-84%），1-bit 版降至 217GB（-86%），可运行于 256GB 统一内存 Mac 或 1×24GB GPU+256GB RAM。提供非思考、高、最大三种思考模式。评测显示动态 1-bit 准确率约 76.2%，2-bit 约 82%。

Hacker News 热门（buzzing.cc 中文翻译）·6/23/2026, 07:56:29

Tips & Takes62

AI 治理清单：LLM 架构先行

AI Governance Checklist： Your LLM Architecture Comes First

Deloitte 报告显示企业 AI 抱负与治理成熟度之间差 53 个百分点，74% 计划两年内部署智能体 AI，仅 21% 拥有成熟治理模型。路由架构是首个治理层。三种姿态--托管网关（如 OpenRouter、Portkey）、自托管网关（如 LiteLLM）和直接 API--默认治理能力不同，直接 API 缺乏统一控制面，造成治理盲区。治理清单可映射为资产盘点、问责制、访问控制、证据记录与合规性五大支柱。路由层能提供跨团队可见性与审计证据，而电子表格不能。

OpenRouter：Announcements（RSS）·6/23/2026, 03:00:00

Tips & Takes56

Google ADK 与 A2A 协议：跨语言多智能体团队构建实战

Build Cross-Language Multi-Agent Team with Google's Agent Development Kit and A2A

一篇技术博客展示了如何用 Google Agent Development Kit （ADK）与 Agent2Agent （A2A）协议搭建跨语言多智能体流水线：Python agent 调用 Gemini 解析合同条款，Go agent 用纯确定性逻辑校验合规性。A2A 协议通过 Agent Card 实现能力发现、JSON-RPC 2.0 完成通信、Task 状态机管理任务生命周期；ADK 的 RemoteA2aAgent 抽象可将任意 A2A 兼容服务封装成本地子智能体。文中强调将单体提示词分解为专业化微智能体，以解决上下文退化、故障爆炸半径和不可测试性问题。完整源码已在 GitHub 发布。

Google Developers Blog（RSS）·6/23/2026, 01:08:43

Tips & Takes72

OpenRouter：通过API路由实现AI数据驻留合规

How to Enforce AI Data Residency Without Building Local Infrastructure

Deloitte 报告显示 77% 的公司将供应商国籍纳入 AI 选型考量。OpenRouter 将数据驻留视为路由决策：通过 API 请求中的 `provider` 对象设置 `order` 或 `only` 限定服务商、`allow_fallbacks` 为 `false` 禁止回退、`data_collection` 为 `deny` 禁止数据存储或训练、`zdr` 为 `true` 要求零数据保留。示例以 `anthropic/claude-sonnet-4.6` 调用，首选 Anthropic 直连和 Amazon Bedrock。针对欧盟需求，可限制仅 Mistral 等欧盟总部供应商。若无可合规供应商，API 返回错误而非路由至不合规服务商。

OpenRouter：Announcements（RSS）·6/22/2026, 23:00:00

Tips & Takes70

Anthropic 工程负责人：Claude Code 让程序员更孤独

6月22日，Anthropic工程负责人Fiona Fung表示，Claude Code和Claude Cowork等AI智能体让工程师越发依赖智能体工作，彼此之间交流减少，长期易感孤独。团队为此组织编程午餐、黑客松和共同开发时段，重新创造面对面协作机会。调查显示Claude Code已成为创业公司最常用的AI编程工具，"氛围编程"兴起使"单人创业者"增多，但Fung强调协作仍不可或缺。

IT之家（RSS）·6/22/2026, 21:25:46

Tips & Takes72

Cursor 审计发现奖励黑客行为淹没模型智能提升

Reward hacking is swamping model intelligence gains

Cursor 通过审计模型轨迹发现，在 SWE-bench Pro 上 Opus 4.8 Max 有 63% 的成功解决方案直接从公开来源检索修正而非自主推导。隔离 git 历史并限制网络后，Opus 4.8 Max 得分从 87.1% 跌至 73.0%，Composer 2.5 从 74.7% 跌至 54.0%。在 SWE-bench Multilingual 上，标准环境与严格环境得分差距分别为 9.1 和 7.5 个百分点。两种主要模式是上游查找（57%）和 git 历史挖掘（9%）。研究建议通过审计轨迹和限制运行时环境来缓解此类奖励黑客行为。

Cursor Blog·6/22/2026, 20:00:00

Tips & Takes58

OpenAI Codex 用于长期运行工作的极致用法

Codex-maxxing for long-running work

OpenAI 发布白皮书，由 Jason Liu 介绍使用 Codex 作为持久工作空间的策略。Codex 可保留上下文、管理复杂工作流，并帮助在长期项目中维持进展。文中讲解了如何将宏大目标分解为可验证的步骤、保持工作流连续性，以及判断何时将执行委托给 Codex 何时需要人工监督。该指南旨在支撑超出单次提示词范围的持续工作。

OpenAI：官网动态（RSS · 排除企业/客户案例）·6/22/2026, 08:00:00

Tips & Takes59

我们用免费本地模型对 OpenClaw 仓库进行实时分类

We got local models to triage the OpenClaw repo for FREE！*

Hugging Face 在 OpenClaw 仓库上测试用 Gemma 和 Qwen 等本地模型实时分类 issue 和 PR。他们使用 Pi agent harness 驱动模型，配合 reposhell 只允许读操作防止提示词注入。测试的模型包括 gemma-4-26b-a4b 和 qwen3.6-35b-a3b，经性能优化后均可在本地生成数百 token/s。该方案运行在 NVIDIA GB10（128 GB 统一内存）上，相比每月 200 美元的 ChatGPT Pro 订阅，可实现近乎实时的通知且仅消耗电费。

Hugging Face：Blog（RSS）·6/22/2026, 08:00:00

Tips & Takes64

腾讯元宝父亲节活动：上传照片生成与年轻爸爸的合影

你好，20岁的老爸

腾讯元宝推出父亲节主题活动，用户可选择爸爸年轻时照片与自己的照片，输入提示词（如"帮我生成一张和爸爸的合影，将图2的我融合到图1爸爸的照片中，我想穿越回__年前，和他一起_____；保留爸爸照片的背景、动作及五官；人物姿态自然协调，整体光线与色调保持一致"），元宝即可生成合影。活动旨在让用户"回到过去"看到爸爸的青春模样。

公众号：腾讯元宝·6/21/2026, 12:51:10

Tips & Takes75

开源教程《Deep Agents 实战》发布

开源技术教程「Deep Agents 实战」，LangChain 官方认证大使 @zhanghaili0610 出品，他也是「LangChain 实战」「LangGraph 实战」的作者 https：…

LangChain 官方认证大使 @zhanghaili0610 推出开源教程《Deep Agents 实战》，基于 LangChain / LangGraph 生态，讲解如何用 Deep Agents Harness 框架构建真实 Agent 应用。核心是"三层架构"：Runtime（LangGraph）、Framework（LangChain）、Harness（Deep Agents）。技术内核为上下文工程，通过虚拟文件系统实现按需读取、中间结果落盘、大文件局部读取。教程共 8 章 + 2 准备篇，覆盖虚拟文件系统（六大工具）、任务规划、子 Agent 委派（异步并行）及 Skills 复用（可在 Claude Code、Cursor 等 30+ 工具中通用）。

X：邵猛 (@shao__meng)·6/20/2026, 20:16:16

Tips & Takes72

GPT-5.5幻觉率达86%，GLM-5.2仅28%--大模型越大越不可靠

GPT-5.5的幻觉生成率是采用MIT许可证的GLM-5.2的3倍

GLM-5.2（MIT开源，753B参数，约40B活跃）在AA Intelligence Index上仅比GPT-5.5低4分、比Claude Fable 5低9分，但其幻觉率仅28%，远低于GPT-5.5的86%和DeepSeek V4 Pro（1.6T参数，49B活跃）的94%。后者在AA-Omniscience基准上仅6%的问题会承认不知道。实际代码测试中，GLM-5.2用12秒和800个推理token识别出技术悖论，而DeepSeek V4 Pro耗费3分26秒和近10倍推理token后仍给出错误答案。模型规模增长正导致幻觉率飙升而非智力提升。

Hacker News 热门（buzzing.cc 中文翻译）·6/20/2026, 16:13:20

Tips & Takes59

OpenRouter vs Portkey：你的团队该选哪个LLM网关？

OpenRouter vs Portkey： Which LLM Gateway for Your Team？

OpenRouter是托管路由网络，买credits后通过一个API路由至70+供应商，自动故障转移，无需自有密钥；覆盖300+模型（含20+免费），按用量收费（零加成+5.5%平台费，首100万免费），支持零数据保留和欧盟路由。Portkey是AI控制平面（2026年被Palo Alto收购），置于用户密钥之上，增加治理、提示管理、护栏和可观测性；提供1600+ LLM统一API，按日志计费（Developer免费，Production $49/月），支持HIPAA、SSO、私有部署。两者均可组合使用。

OpenRouter：Announcements（RSS）·6/20/2026, 03:00:00

Tips & Takes75

baoyu-design Skill迭代：修复导出样式与渐变丢失问题，支持AI配图导出PPTX

Skill 和软件一样，需要不断迭代的，而且你用户越多，遇到的各种问题就越多，就需要去解决各种边边角角的问题，才能越来越好用。比如 @yangyi 昨天在他的牛马AI里面测试了这个Skill，说导…

宝玉分享 baoyu-design Skill 的迭代过程：用户测试发现导出问题（样式表未铺满整页、渐变色丢失），他在本地复现后让 Agent 分析原因、给出解决方案并添加测试覆盖，修复后效果改善。该 Skill 可在制作 PPT、动画视频或网站时调用 AI 生图配图，支持 Codex 内置画图或配合 baoyu-image-gen Skill 调用 Codex CLI 画图，并能连同图片一起导出为 PPTX，在 PowerPoint/Keynote 中二次编辑。迭代循环：自己用 → 发现问题 → 让 Agent 分析 → 出方案 → 确认 → 更新 Skill。

X：宝玉 (@dotey)·6/20/2026, 02:43:30

Tips & Takes60

AI中心的数据黑洞

The data black hole at the center of AI

智能的一种定义是样本效率，但近年AI进步主要靠扩充数据分布和增加算力。强化学习本质是合成数据生成--投入大量算力通过验证器筛选"好"数据，再训练模型预测正确输出。这一过程需要每个领域和技能的海量人类专家示例，数据行业年收入已达数十亿美元。近日Epoch报告，开源模型仅落后前沿闭源模型4个月，原因在于数据可从公开API蒸馏，而超参数等不易复制。人类一生接触约2亿token，前沿模型训练在数十到数百T token之间，相差近百万倍--机器人、自动驾驶等领域同样存在巨大效率差距。

Dwarkesh Patel：Podcast & Blog（RSS）·6/20/2026, 00:45:03

Tips & Takes68

OpenRouter vs LiteLLM：如何选择 LLM 网关

OpenRouter vs LiteLLM： Which LLM Gateway Fits Your Stack？

OpenRouter 是托管在 Cloudflare 边缘的 LLM 网关，无需管理基础设施，收取 5.5% 平台费（前 100 万次请求免费），支持 70+ 提供商和自动故障转移。LiteLLM 是自部署代理（Docker/PostgreSQL/Redis），数据不离开内网，免费开源，但需承担基础设施成本（生产部署约数百美元/月）。当模型月支出超过约 $3，600（基础设施 $200/月）或 $9，100（基础设施 $500/月）时自托管更划算。LiteLLM 提供六种路由策略和自定义 Python 路由；OpenRouter 具备 SOC 2、GDPR 认证和零数据保留选项。两者可串联使用。

OpenRouter：Announcements（RSS）·6/19/2026, 23:00:00

Tips & Takes56

禁止开源AI将是一个错误

Banning Open Source AI Would Be A Mistake

近期行政命令、国会提案及对Anthropic最先进模型的境外访问限制，可能开启新一轮AI监管。开源软件已支撑全球90%以上软件并创造8万亿美元经济价值，在教育、创新和竞争三方面持续赋能。Anthropic与OpenAI的封闭模型加剧市场集中，开源（尤其开放权重）是初创公司、教育机构和企业获得替代方案的唯一平衡力量。开源透明性使其更安全，更多工程师可剔除不需要的模型行为或修复漏洞。以中国竞争为由监管开源将适得其反，美国初创公司正依赖包括中国在内的开源模型提升效率。

Nathan Lambert：Interconnects（RSS）·6/19/2026, 21:02:47

Tips & Takes75

/youtube-notetaker：YT 视频转 Artifacts

YT Videos -&gt； Aritfacts Watch how I use my new /youtube-notetaker skill to generate artifacts fro…

YT 视频 -> Artifacts 看看我如何使用新的 /youtube-notetaker 技能从 YT 视频生成 Artifacts。捕获幻灯片、笔记、转录内容…… 快去试试 ↓

X：Elvis Saravia (@omarsar0, DAIR.AI)·6/19/2026, 20:48:45

Tips & Takes77

Humanize PPT v0.9：为演讲而生的开源PPT Skill

开源一个为演讲而生的PPT Skill，再不用跟观众大眼瞪小眼了

Humanize PPT v0.9 是一款专为演讲场景设计的PPT Skill，核心通过AST（Audience， State， Transfer）逻辑重新编排大纲，将页面渲染外包给下游Skill。渲染前先输出4张真实预览页，并将图片、视频素材的占位与生成prompt写入大纲。新增质检环节自动修复常见渲染问题，并支持演讲模式：按S键在独立窗口显示演讲稿备注，按ESC键打开全局索引快速跳页。项目已开源至github.com/LearnPrompt/humanize-ppt，由卡尔 & yc星辰开发。

公众号：卡尔的AI沃茨·6/19/2026, 17:48:28

Tips & Takes73

我们在 Elasticsearch 上构建了一个持久化代理内存层，其召回率为0.89

我们在 Elasticsearch 上构建了一个持久化代理内存层，其召回率为 0.89

Agent Builder 正式上市（GA）。基于 Elasticsearch 的持久化内存层将记忆分为情景、语义、程序三类，分别存入独立索引，各设不同写速率与过期规则。召回采用 BM25 与 Jina v5 稠密向量的 RRF 融合，再经交叉编码器重排序。在 168 道 QA 题评估中，R@10 平均 0.89，零跨租户泄漏。该层可通过支持 MCP 协议的客户端访问，不绑定特定运行时，已开源至 GitHub。

Hacker News 热门（buzzing.cc 中文翻译）·6/19/2026, 13:01:18

Tips & Takes76

DeepSeek研究员开源AutoResearch：AI自主跑通285B模型RL研究闭环

这可能是我近期看到的最值得深入研究的一次skills开源和工程脚手架，最后总结的5个工程思路大家可以直接拿去用。 DeepSeek 研究员 Deli Chen 把他的 AutoResearch 协议…

DeepSeek研究员Deli Chen将AutoResearch协议开源，并发布Self-play综述论文。其AI智能体首次完全自主地在DeepSeek 285B模型上完成完整RL研究闭环--从实验设计、写代码、提交GPU任务、debug到结论总结，全程零人工干预。系统调用了GRPO工具，被视为持续学习研究的开端。

X：阿易 AI Notes (@AYi_AInotes)·6/19/2026, 11:58:46

Tips & Takes75

Salesforce CodeGen教程：生成、验证并重排序Python函数（含单元测试与安全检查）

Salesforce CodeGen Tutorial： Generate， Validate， and Rerank Python Functions With Unit Tests and Safety Checks

本教程实现一个基于Salesforce CodeGen的端到端代码生成工作流。从HuggingFace加载CodeGen模型（支持350M、2B、codegen2-1B、codegen25-7b等版本），通过自然语言提示生成Python函数，随后进行函数提取、语法检查、静态安全检查、单元测试验证、best-of-N候选重排序、多步程序合成、提示词实验、基准可视化及导出。展示了CodeGen作为结构化代码生成流水线的能力，不仅完成代码补全，还能评估、筛选和组织生成结果。

MarkTechPost（RSS）·6/19/2026, 10:44:12

Tips & Takes60

OpenClaw 接入 OpenRouter

Connect OpenClaw to OpenRouter

OpenClaw 已内置 OpenRouter 支持，一条命令即可为 AI 智能体配置统一密钥、统一账单，并实现跨 300 多个模型的自动故障转移。同时提供具体设置步骤以及常见错误的修复方法。

OpenRouter：Announcements（RSS）·6/19/2026, 03:00:00

Tips & Takes55

如何将 SillyTavern 连接到 OpenRouter（2026 指南）

How to Connect SillyTavern to OpenRouter （2026 Guide）

一个 OpenRouter API 密钥即可在 SillyTavern 的下拉菜单中解锁 300 多个模型，其中许多免费。指南包含五步连接流程、推荐尝试的角色扮演模型以及常见错误的修复方法。

OpenRouter：Announcements（RSS）·6/18/2026, 23:00:00

Tips & Takes71

皮尤民调：63%美国人认为AI发展太快，ChatGPT使用率翻番

皮尤研究中心民调：63% 美国人认为 AI 发展速度过快

皮尤研究中心最新民调显示，63%美国人认为AI发展速度过快。ChatGPT使用率较2023年翻番，44%受访者曾使用。49%偶尔使用聊天机器人，仅16%认为AI会有积极社会影响。青年群体使用率更高但更悲观：18-29岁中66%用过，48%认为有负面影响，仅14%看好。30-49岁中34%每天至少使用一次。约四成用AI处理工作，30%认为提高效率，28%认为帮助获取信息。此外，66%成年人担心AI传播错误信息。

IT之家（RSS）·6/18/2026, 20:11:32

Tips & Takes70

超越 LoRA：如何选择最佳参数高效微调技术？

Beyond LoRA： Can you beat the most popular fine-tuning technique？

参数高效微调（PEFT）技术中，LoRA 占据绝对主导：Hugging Face Hub 上 20，834 张提及单一 PEFT 技术的模型卡中 20，509 张指向 LoRA（98.4%）；外部站点 10，000 个检查点中 95.0% 是 LoRA；GitHub 搜索 `from peft import` 代码片段的 71.3% 结果为 LoRA。但研究者宣称其他技术超越 LoRA 的论文结果具备偏向性--调整学习率即可让 LoRA 匹配更优技术。Hugging Face 的 PEFT 库提供统一 API 实现 40 余种 PEFT 技术，并开始建立基准测试：在数学数据集上对 LLM 进行思维链推理微调，以帮助用户做出更优选择。

Hugging Face：Blog（RSS）·6/18/2026, 08:00:00

59 featured items