codebase 工具數據很強,到我 agent 手上剩不到一成
FFF 宣稱快、省 token、給 AI agent 用,但接進 Claude Code 後我的 agent 實際吃得到不到一成。一個套件值不值得接,要看它宣稱的能力到你 agent 手上實際用得到多少,四個專案的 session 統計算給你看。
跟 Claude Code 一起踩坑,邊寫 code 邊寫心得。
FFF 宣稱快、省 token、給 AI agent 用,但接進 Claude Code 後我的 agent 實際吃得到不到一成。一個套件值不值得接,要看它宣稱的能力到你 agent 手上實際用得到多少,四個專案的 session 統計算給你看。
評估熱門 AI 工具的方法總綱:先列自己已有的,再把工具賣點一條一條對上去,多數工具會自己歸零,剩下的那一點才值得認真看。
想讓一個跑上百 agent 的重型研究在我睡覺時自己跑完,連額度不大的帳號也扛得起。難點是它幾十分鐘就燒爆一段每 5 小時的額度,得靠 pause→resume 跨段續跑。而 resume 能不能省 token,卡在一個官方沒明說的前提:workflow 夠不夠確定性。
一個下架八個月的 GlassWorm 惡意 extension 還躺在我硬碟上,被 bumblebee 掃出來。市集下架、編輯器自動更新、傳統掃描型工具都擋不住,只有掃磁碟實際安裝狀態才抓得到。
拿官方 deep-research workflow 密集跑研究,75 個 verify agent 一次湧入、直接頂破 Anthropic 的 acceleration limit。撞名、撞限、自己 fork 一支批次節流版的復盤。
dynamic workflow 是繼 skill 之後第三種「把成功流程固化成可復用資產」的載體。ultracode 的真正價值不在現場生一支腳本跑完,而在把編排本身存下來復用。三個實際遷移案例講怎麼選。
親手試了五個主打省 token 的工具,從命令列代理到上下文壓縮層 proxy,宣稱跟實測常差一截,真正的代價在風險。連那個「做對了透明可逆」的也不值得裝。
兩個月在一個 codebase 上前後評估了 8 個程式碼搜尋工具,前 7 個 agent 幾乎都不主動用。工具有沒有能力,跟它會不會被 agent 用起來,是兩件不同的事。
MEMORY.md 超出注入上限時有三類應對方向,但 A 類根本不存在,B 類有副作用,真正走得通的是 C,而且降 size ≠ 縮敘述。
LLM 工具鏈裡「報告成功」和「真的完成」差得很遠——subagent 捏造、安裝靜默失敗、排程一個月零進展、測試腳本自我推翻,四種場景、二十幾個案例,Anthropic 知道但選擇不修。
Karpathy 的 LLM-wiki 範例給了結構,但結構不保證系統有用。不到一個月的密集迭代後,讓它持續活下去的是每天主動量健康度、由我手動拍板的迴圈,跟架構、演算法無關。
安裝 mempalace 跑了 2-3 週,hook 自動寫入 928 次,我主動查了 3 次,0.09% 的搜尋/drawer 比,6 個對照測試 grep 全勝——最後親手拔掉。
2026-05-10 實測:同一個查詢,WebSearch 回傳 10 條連結,沒有一條是官方文件專頁。瀏覽器走真實 Google 第一條就是。