codebase 工具數據很強,到我 agent 手上剩不到一成

FFF 宣稱快、省 token、給 AI agent 用,但接進 Claude Code 後我的 agent 實際吃得到不到一成。一個套件值不值得接,要看它宣稱的能力到你 agent 手上實際用得到多少,四個專案的 session 統計算給你看。

你已經有的越多,新工具能給的越少

評估熱門 AI 工具的方法總綱:先列自己已有的,再把工具賣點一條一條對上去,多數工具會自己歸零,剩下的那一點才值得認真看。

讓額度不大的帳號,也能掛機過夜跑完大型研究 workflow

想讓一個跑上百 agent 的重型研究在我睡覺時自己跑完,連額度不大的帳號也扛得起。難點是它幾十分鐘就燒爆一段每 5 小時的額度,得靠 pause→resume 跨段續跑。而 resume 能不能省 token,卡在一個官方沒明說的前提:workflow 夠不夠確定性。

官方 deep-research workflow,我用 Opus 跑一次掛一次

拿官方 deep-research workflow 密集跑研究,75 個 verify agent 一次湧入、直接頂破 Anthropic 的 acceleration limit。撞名、撞限、自己 fork 一支批次節流版的復盤。

ultracode workflow,別跑完就丟

dynamic workflow 是繼 skill 之後第三種「把成功流程固化成可復用資產」的載體。ultracode 的真正價值不在現場生一支腳本跑完,而在把編排本身存下來復用。三個實際遷移案例講怎麼選。

省 token 工具:省不了多少,但風險不小

親手試了五個主打省 token 的工具,從命令列代理到上下文壓縮層 proxy,宣稱跟實測常差一截,真正的代價在風險。連那個「做對了透明可逆」的也不值得裝。

裝了一堆 codebase 搜尋工具,agent 幾乎都不用

兩個月在一個 codebase 上前後評估了 8 個程式碼搜尋工具,前 7 個 agent 幾乎都不主動用。工具有沒有能力,跟它會不會被 agent 用起來,是兩件不同的事。

為什麼我不再相信 Explore Agent 說他做完了

LLM 工具鏈裡「報告成功」和「真的完成」差得很遠——subagent 捏造、安裝靜默失敗、排程一個月零進展、測試腳本自我推翻,四種場景、二十幾個案例,Anthropic 知道但選擇不修。

wiki 蓋好之後,讓它繼續活著才是真正的問題

Karpathy 的 LLM-wiki 範例給了結構,但結構不保證系統有用。不到一個月的密集迭代後,讓它持續活下去的是每天主動量健康度、由我手動拍板的迴圈,跟架構、演算法無關。

AI 說它查過官方文件,但它沒有

2026-05-10 實測:同一個查詢,WebSearch 回傳 10 條連結,沒有一條是官方文件專頁。瀏覽器走真實 Google 第一條就是。