
一個由 LLM 自我維護、會隨時間複利成長的個人知識庫
AI 新秀計畫 結業專案|作者:林汯錕|日期:2026/05/27
標籤:LLM、知識管理、Obsidian、Claude、地端 AI、AI Agent
我的成果不是一個 App,而是一座知識庫本身。
把兩個課程系列(地端生成式模型訓練營 + AI 新秀計畫)、約 40 份 PDF / PPTX 教材與手冊,交給 AI(Claude Code)逐份消化。
產出一個結構化、互相連結的 Obsidian 知識圖譜。
傳統筆記:寫完就停在那天的理解,不會自我更新。
RAG:黑盒檢索、每次重查、不沉澱結構。
本專案要的是會複利成長 (compounding) 的知識資產——每多消化一份教材,既有頁面被交叉更新、矛盾被標記、圖譜更密。
手寫筆記:不會自我更新,新舊知識不互連,越記越散。
全丟 RAG:看不出「知識之間的關係」。
直接問 ChatGPT:不綁教材、無法回溯出處、答完即忘。
有結構(像維基)。
能自我維護(像 agent)。
可回溯出處(像 RAG)。
而且會隨時間長大。
Raw 來源:教材原檔,唯讀,是事實來源(human 擁有)。
Wiki:LLM 建立與維護的所有 markdown 頁面(LLM 擁有)。
Schema:一份規範文件,定義結構與工作流程(人機共同演進)。
分工:人類定方向、提問、蒐集來源;AI 閱讀、摘要、交叉引用、維持一致。
Ingest(消化):抽取教材 → 寫摘要頁 → 更新相關概念頁 → 登錄索引與日誌。
Query(提問):查索引 → 讀相關頁 → 綜合作答並附引用;好的回答歸檔成分析頁。
Lint(健檢):自動找出矛盾、孤兒頁、斷裂連結、被提到卻沒專頁的概念。
概念頁:每個技術名詞一頁(定義 → 為什麼重要 → 怎麼運作)。
來源頁:每份教材一頁摘要,保留出處可回溯。
主題樞紐頁(MOC):把散落概念串成導航地圖。
雙向連結:在 graph view 視覺化整套課程的知識結構。
AI Agent:Claude Code(Claude Opus),擔任知識庫的維護者。
內容抽取:pypdf(PDF 取文字)、python-pptx(PPTX 取文字/表格/內嵌圖)。
知識庫載體:Obsidian vault(wikilinks、aliases、frontmatter、graph view)。
格式與版控:純 Markdown + YAML,git 友善。
可讀、可攜、可版控、零鎖定。
十年後用任何文字編輯器都打得開。
英文被位移加密:部分簡報英文文字層被位移,需先判讀再解碼還原。
中文變亂碼 (mojibake):嵌入字型抽不出中文時,改走逐頁影像判讀。
PPTX 文字「消失」:文字被群組 (group) 起來,程式須遞迴才抓得到。
整頁圖片型簡報:每頁就是一張全圖、文字層全空(含 AI 生成的簡報)——抽出每頁最大內嵌圖當影像逐頁讀,並挑高資訊密度頁,避免逐頁浪費。
新教材牴觸舊主張時,用警告標註記錄衝突、保留兩邊來源。
實例:群聯 aiDAPTIV+ 訓練版 vs 推論版屬不同世代;GraphRAG 不一定贏傳統 RAG。
全庫達到零孤兒頁、零斷裂連結、所有頁皆登錄索引。
曾一次性修復上百條因主題頁缺失造成的斷裂連結。
尚未上課的主題先記為待補,該堂課後補齊、缺口閉合。
主題樞紐頁:7
概念頁:約 32
實體頁(工具/產品/框架):10
來源摘要頁:約 29
分析頁:1(持續成長)
涵蓋原始教材:約 40 份
模型微調與訓練(SFT / LoRA / RLHF / 知識蒸餾 / 分散式訓練 / 對齊安全)
推論與部署(Transformer / Attention / KV-Cache / 量化 / FlashAttention)
RAG 與檢索(RAG / GraphRAG / Embedding)
Agent 與工具(Agent / Function Calling / MCP)
評估與測試(Benchmark / LLM-as-judge / EvalScope)
基礎設施與維運(GPU 硬體 / Docker / CI-CD)
地端 AI 部署方案(群聯 aiDAPTIV+)
整理到後來,浮現出貫穿全課程的洞見:地端 LLM 落地,本質是一場對「記憶體頻寬」的搏鬥。
訓練端與推論端各自爆記憶體,而量化、分散式、FlashAttention、KV-Cache offload 都是同一敵人的不同戰線。
這條主線已整理成知識庫的第一頁分析。
金鑰防護:某份投影片含疑似真實 API 金鑰,未抄錄進任何頁面,並提醒撤銷。
出處可回溯:每個事實主張都標注來源,避免幻覺。
版權意識:原始教材僅作唯讀事實來源、不對外散布。
從 ingest 走向 query:累積更多分析頁(選型決策、技術比較),讓知識庫變成「會回答問題的顧問」。
接入語意搜尋:規模再大時導入向量檢索,與結構化圖譜形成「結構導航 + 語意檢索」雙引擎。
持續複利:每週新教材持續消化,讓圖譜隨時間越長越密。