人工智慧專責辦公室Office of AI Affairs

本計畫群聯課程知識圖譜實踐 (Claude Code + Obsidian)｜國立陽明交通大學人工智慧專責辦公室

本計畫群聯課程知識圖譜實踐 (Claude Code + Obsidian)

林汯錕2026/05/27

把本計畫群聯課程，轉換成一張知識圖譜

一個由 LLM 自我維護、會隨時間複利成長的個人知識庫

AI 新秀計畫結業專案｜作者：林汯錕｜日期：2026/05/27
標籤：LLM、知識管理、Obsidian、Claude、地端 AI、AI Agent

一、專案總覽（Project Overview）

這個專案是什麼

我的成果不是一個 App，而是一座知識庫本身。
把兩個課程系列（地端生成式模型訓練營 + AI 新秀計畫）、約 40 份 PDF / PPTX 教材與手冊，交給 AI（Claude Code）逐份消化。
產出一個結構化、互相連結的 Obsidian 知識圖譜。

核心理念

傳統筆記：寫完就停在那天的理解，不會自我更新。
RAG：黑盒檢索、每次重查、不沉澱結構。
本專案要的是會複利成長 (compounding) 的知識資產——每多消化一份教材，既有頁面被交叉更新、矛盾被標記、圖譜更密。

二、動機與問題（Motivation）

課程資訊破碎的痛點

手寫筆記：不會自我更新，新舊知識不互連，越記越散。
全丟 RAG：看不出「知識之間的關係」。
直接問 ChatGPT：不綁教材、無法回溯出處、答完即忘。

我的目標

有結構（像維基）。
能自我維護（像 agent）。
可回溯出處（像 RAG）。
而且會隨時間長大。

三、核心架構（Architecture）

三層架構

Raw 來源：教材原檔，唯讀，是事實來源（human 擁有）。
Wiki：LLM 建立與維護的所有 markdown 頁面（LLM 擁有）。
Schema：一份規範文件，定義結構與工作流程（人機共同演進）。
分工：人類定方向、提問、蒐集來源；AI 閱讀、摘要、交叉引用、維持一致。

三大操作

Ingest（消化）：抽取教材 → 寫摘要頁 → 更新相關概念頁 → 登錄索引與日誌。
Query（提問）：查索引 → 讀相關頁 → 綜合作答並附引用；好的回答歸檔成分析頁。
Lint（健檢）：自動找出矛盾、孤兒頁、斷裂連結、被提到卻沒專頁的概念。

知識庫的頁面類型

概念頁：每個技術名詞一頁（定義 → 為什麼重要 → 怎麼運作）。
來源頁：每份教材一頁摘要，保留出處可回溯。
主題樞紐頁（MOC）：把散落概念串成導航地圖。
雙向連結：在 graph view 視覺化整套課程的知識結構。

四、技術棧（Technology Stack）

使用工具

AI Agent：Claude Code（Claude Opus），擔任知識庫的維護者。
內容抽取：pypdf（PDF 取文字）、python-pptx（PPTX 取文字/表格/內嵌圖）。
知識庫載體：Obsidian vault（wikilinks、aliases、frontmatter、graph view）。
格式與版控：純 Markdown + YAML，git 友善。

為何選純 Markdown

可讀、可攜、可版控、零鎖定。
十年後用任何文字編輯器都打得開。

五、工程挑戰與解法（Engineering Highlights）

教材抽取的四大難題

英文被位移加密：部分簡報英文文字層被位移，需先判讀再解碼還原。
中文變亂碼 (mojibake)：嵌入字型抽不出中文時，改走逐頁影像判讀。
PPTX 文字「消失」：文字被群組 (group) 起來，程式須遞迴才抓得到。
整頁圖片型簡報：每頁就是一張全圖、文字層全空（含 AI 生成的簡報）——抽出每頁最大內嵌圖當影像逐頁讀，並挑高資訊密度頁，避免逐頁浪費。

六、知識品質維護（Quality & Consistency）

矛盾標記，不默默覆蓋

新教材牴觸舊主張時，用警告標註記錄衝突、保留兩邊來源。
實例：群聯 aiDAPTIV+ 訓練版 vs 推論版屬不同世代；GraphRAG 不一定贏傳統 RAG。

Lint 健檢成果

全庫達到零孤兒頁、零斷裂連結、所有頁皆登錄索引。
曾一次性修復上百條因主題頁缺失造成的斷裂連結。

缺口追蹤

尚未上課的主題先記為待補，該堂課後補齊、缺口閉合。

七、成果展示（Results）

規模數字

主題樞紐頁：7
概念頁：約 32
實體頁（工具/產品/框架）：10
來源摘要頁：約 29
分析頁：1（持續成長）
涵蓋原始教材：約 40 份

知識覆蓋（七大主題）

模型微調與訓練（SFT / LoRA / RLHF / 知識蒸餾 / 分散式訓練 / 對齊安全）
推論與部署（Transformer / Attention / KV-Cache / 量化 / FlashAttention）
RAG 與檢索（RAG / GraphRAG / Embedding）
Agent 與工具（Agent / Function Calling / MCP）
評估與測試（Benchmark / LLM-as-judge / EvalScope）
基礎設施與維運（GPU 硬體 / Docker / CI-CD）
地端 AI 部署方案（群聯 aiDAPTIV+）

浮現的主線

整理到後來，浮現出貫穿全課程的洞見：地端 LLM 落地，本質是一場對「記憶體頻寬」的搏鬥。
訓練端與推論端各自爆記憶體，而量化、分散式、FlashAttention、KV-Cache offload 都是同一敵人的不同戰線。
這條主線已整理成知識庫的第一頁分析。

八、負責任的 AI（Responsible AI）

金鑰防護：某份投影片含疑似真實 API 金鑰，未抄錄進任何頁面，並提醒撤銷。
出處可回溯：每個事實主張都標注來源，避免幻覺。
版權意識：原始教材僅作唯讀事實來源、不對外散布。

九、未來展望（Future Outlook）

從 ingest 走向 query：累積更多分析頁（選型決策、技術比較），讓知識庫變成「會回答問題的顧問」。
接入語意搜尋：規模再大時導入向量檢索，與結構化圖譜形成「結構導航 + 語意檢索」雙引擎。
持續複利：每週新教材持續消化，讓圖譜隨時間越長越密。