深度學習 AI 的變革者: Transformer

2017年經典論文《Attention is All You Need》首秀

徹底改變了人工智慧處理資訊的方式，成為深度學習模型（Deep Learning）的首選架構。

最創新的部分在於「自我注意力機制」（Self-Attention Mechanism），能夠一次處理序列中的所有資訊。

機器學習、深度學習、Transformer, GenAI 的關係

機器學習
(Machine Learning)

⊃

深度學習
(Deep Learning)

⊃

Transformer
架構

→

生成式 AI
(GenAI)

Transformer 是當前主流深度學習架構。（傳統模型（如RNN）一次只能處理一個詞）

GenAI (生成式 AI)： ChatGPT、Google Gemini、Meta Llama，都是基於 Transformer 架構。

機器學習

讓電腦從資料中學習。包含但不限於「監督式」與「非監督式」兩大類型。

深度學習 (Deep Learning)

是機器學習的子集，使用複雜的多層神經網路。此技術可應用於監督式和非監督式學習任務，處理更複雜的模式。

生成式 AI (Generative AI)

通常基於大型深度學習模型，專注於「創造」全新的內容，而不僅是分析或預測。

「我不是蘋果的粉絲，但我喜歡吃蘋果」

同一個詞，不同的語境，不同的意義

AI 下一個詞的預測

Next-Word Prediction

AI 文字生成原理：機率接龍

Transformer 模型核心原則：給定一段文字輸入，它會預測接下來最可能出現的下一個詞是什麼。

輸入：「無心插柳柳..」

Transformer 計算出每個詞彙的原始分數 (Logits)。Logits 代表了每個詞彙的可能性，但尚未標準化。

Softmax 函數將原始分數轉換為機率分佈，確保所有選項的機率總和為1。

公式: Logit $z_i$ 轉換為機率 $P_i$：

$$P_i = \frac{e^{z_i}}{\sum_{j=1}^{N} e^{z_j}}$$

• 轉換後，所有詞彙的機率總和為 1，就是下一個字詞

核心機制 — Query, Key, Value (QKV)

QKV 類比：圖書館/網路搜尋

Q、K、V 的概念是為了在模型內部模擬一種「搜尋與比對」的程序。

Query (Q)

查詢

提問的意圖

代表詞彙「想要知道什麼」

類比：Google搜尋引擎關鍵字

→

Key (K)

鍵值

資訊標籤

代表其他詞彙「能提供什麼資訊」

類比：搜尋結果的網頁標題

→

Value (V)

數值

實際內容

Q 找到匹配 K 後要提取的「內容」

類比：網頁的實際文章內容

QKV 數學原理：用「暴君的廚師」來理解

生活化類比：暴君的廚師

想像你是暴君的私人廚師，每天都要準備不同的料理。每個食材（詞彙）都有無限的可能性，但你需要從三個不同角度來處理它：

🔍 Query (Q)

「暴君今天想吃什麼？」

搜尋的目標

🏷️ Key (K)

「這個食材適合做什麼？」

被搜尋的標籤

🍽️ Value (V)

「實際的料理內容」

內容的價值

數學原理：三種不同的「料理轉換」

• 每個食材（詞彙嵌入 $X$）就像一塊生肉，有無限的料理可能性

• 透過三種不同的「料理手法」（權重矩陣），我們可以從同一塊肉中提取出不同的資訊：

🔍 搜尋轉換：$Q = X W_Q$ （找出暴君想吃的）

🏷️ 標籤轉換：$K = X W_K$ （判斷食材適合做什麼）

🍽️ 內容轉換：$V = X W_V$ （實際的料理內容）

💡 為什麼需要三種轉換？

精確匹配

就像廚師需要知道「暴君想吃什麼」和「食材能做什麼」才能完美匹配

靈活運用

同一種食材可以根據不同需求（Q、K、V）展現不同的特性和價值

自我注意力機制 (Self-Attention)

上下文的計算與重要性分配

讓每個詞都擁有「全局視野」

自我注意力機制是 Transformer 區塊的核心。它讓序列中的每個詞都能考量到序列中所有其他詞的資訊，來重新定義自己的意思。

目標：讓詞彙的表徵從單純的詞義，提升為上下文相關的語義表徵。

數學原理：縮放點積注意力

• Transformer 採用的是「縮放點積注意力」（Scaled Dot-Product Attention）。

• 注意力分數計算 ( $Q K^T$ )：將 Query 矩陣與 Key 矩陣的轉置相乘 (點積)，計算出所有詞彙之間的相似度或相關性。

• 公式：

$$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{Q K^T}{\sqrt{d_k}}\right) V$$

數學符號	意義	白話解釋
$Q K^T$	點積相似度	查詢 (Q) 與所有標題 (K) 的比對結果。
$\sqrt{d_k}$	縮放因子	用於防止向量維度 $d_k$ 過大時，點積結果也變得太大，導致 Softmax 運算後梯度變得不穩定。
Softmax	正規化	將相似度分數轉換成總和為 1 的加權機率分佈。
$\times V$	加權求和	根據機率權重，從 Value (內容) 中提取上下文資訊。

互動式縮放因子演示

調整縮放因子 $\sqrt{d_k}$ 來觀察注意力分數的變化

縮放因子 $\sqrt{d_k}$:

2.0

範例句子：「鏟子超人，我...」

鏟子超人，我的超人

注意力分數矩陣 (Query: "我")

Softmax 後的注意力權重

💡 觀察重點： 當縮放因子較小時，注意力分數差異會被放大，模型會更專注於最相關的詞彙。當縮放因子較大時，注意力分數會變得較為平均，模型會考慮更多詞彙的資訊。

自我注意力與上下文價值

精確捕捉語義：讓「蘋果」不再只有一種意思

核心價值：創造豐富的上下文表徵

• 自我注意力機制最重要的功能，是將輸入詞彙的嵌入轉化為具有豐富上下文資訊的表徵。

• 在 Transformer 中，模型可以根據句子環境，為同一個詞賦予不同的意義，解決了傳統模型無法處理的一詞多義問題。

案例：語義的整合

• 句子 1：「我喜歡吃蘋果。」

• 句子 2：「他買了一台蘋果手機。」

• 運作過程：

1. 當 Query (Q) 為「蘋果」時，它會與序列中的 Key (K)（例如：「吃」或「手機」）進行比對。

2. 如果 Q-K 比對結果顯示它與「手機」高度相關，模型會從 Value (V) 提取「品牌/科技產品」的上下文資訊。

• 結果：輸出的新向量不再是單純的詞義，而是這個詞在當前句子中的精確語義。這種加權平均的機制使模型能精準捕捉長距離的依賴性。

進階概念：多頭注意力 (Multi-Head Attention)

多角度分析 — 讓模型像多位專家一樣思考

原始數學公式

$$\text{MultiHead}(Q,K,V) = \text{Concat}(\text{head}_1, ..., \text{head}_h)W^O$$

$$\text{head}_i = \text{Attention}(QW_i^Q, KW_i^K, VW_i^V)$$

其中 $h$ 是注意力頭的數量，$W^O$ 是輸出投影矩陣

白話文：同時從不同角度看問題

• Transformer 不只使用一個自注意力機制，而是同時使用多個「注意力頭」（Head）平行運作。

• 想像你在看書，你需要多位專家同時幫助你理解：

◦ 頭 A：專注於文法結構（句法關係）。

◦ 頭 B：專注於語意關聯（詞彙意義）。

◦ 頭 C：專注於邏輯順序（上下文連貫性）。

「專家看書」的數學表示

以句子「我喜歡吃蘋果」為例：

👨‍🏫 專家 A（文法結構）：

Q_A = [我, 喜歡, 吃, 蘋果] × W_A^Q

K_A = [我, 喜歡, 吃, 蘋果] × W_A^K

專注：「喜歡」→「我」（主語關係）、「吃」→「蘋果」（動賓關係）

🧠 專家 B（語意關聯）：

Q_B = [我, 喜歡, 吃, 蘋果] × W_B^Q

K_B = [我, 喜歡, 吃, 蘋果] × W_B^K

專注：「喜歡」↔「吃」（情感動作）、「吃」↔「蘋果」（動作對象）

🔗 專家 C（邏輯順序）：

Q_C = [我, 喜歡, 吃, 蘋果] × W_C^Q

K_C = [我, 喜歡, 吃, 蘋果] × W_C^K

專注：「我」→「喜歡」→「吃」→「蘋果」（時間順序）

🤝 整合結果：

MultiHead = Concat(專家A輸出, 專家B輸出, 專家C輸出) × W^O

結果：「蘋果」= 文法上的賓語 + 語意上的食物 + 邏輯上的動作對象

核心原理

• 每個注意力頭都會使用獨立學習的 Q、K、V 權重矩陣。

• 因此，每個頭能夠從輸入中捕捉不同類型、不同層次的關係。

• 所有注意力頭的結果會被串接（Concatenate）起來，再整合成一個統一的、更豐富的表徵，極大提升模型的表達能力。

穩定訓練機制 — 殘差連接 (Residual Connections)

深層學習的「捷徑」與記憶力

白話文：防止資訊在深層網路中遺失

• 殘差連接（Residual Connections）是深度神經網路中的關鍵創新。

• 它就像在每一層（Transformer Block）都設置了一個「捷徑」（Shortcut）。

• 在處理資料時，殘差連接會將未經當前層修改的原始輸入直接跳過一或多層，並加到該層的最終輸出上。

視覺化說明

❌ 沒有殘差連接

輸入

層1

層2

層3

輸出

資訊可能遺失

✅ 有殘差連接

輸入

層1

層2

層3

輸出

原始資訊保留

大地色線條：殘差連接（捷徑），直接將原始輸入加到每層的輸出

數學表示：輸出 = F(x) + x，其中 F(x) 是層的轉換，x 是原始輸入

數學與用途

• 核心功能：確保「原始資訊」可以無損地流經多層網路。

• 穩定性：有效減輕深度網路訓練中常見的「梯度消失問題」，確保模型底層的權重在訓練時能獲得足夠的更新。這對擁有 12 個或更多區塊的深層 Transformer 模型至關重要。

控制創造力的「溫度」— 超參數 Temperature

Temperature 決定模型輸出的確定性或隨機性

白話文：隨機性或創造力的「調節旋鈕」

• Temperature (T) 是一個超參數，用於控制模型在預測下一個詞時的隨機性或創造力。

• 它的數值決定了機率分佈的形狀。

出現的位置

• Temperature 出現在模型計算出 Logits 之後、Softmax 函數轉換成機率之前。

• 模型會將 Logits ($z_i$) 先除以 Temperature ($T$)，然後才進行 Softmax 運算：

$$\text{Probability} = \text{Softmax}\left(\frac{\text{Logits}}{T}\right)$$ $$P_i = \frac{e^{z_i / T}}{\sum_{j=1}^{N} e^{z_j / T}}$$

超參數「溫度」低溫求穩，高溫求變

Temperature $T$	特性/模式	對機率分佈的影響	輸出結果	應用情境
低溫 (T < 1)	決定性 (Deterministic)	分佈更「尖銳」。差異被放大。	傾向選擇最高機率詞彙。結果可預測且一致。	摘要、翻譯、事實型問答 (需要精度)。
高溫 (T > 1)	隨機性/創造性 (Probabilistic/Creative)	分佈更「平滑」。差異被壓縮。	增加選擇低機率詞的機會。輸出更具多樣性與驚喜。	故事寫作、腦力激盪 (需要創意)。

• 極端情況：當 $T=0$ 時，模型進入貪婪模式 (Greedy Selection)，總是選擇最高機率的詞彙。

• 風險：雖然高 $T$ 帶來創意，但也可能導致輸出不連貫、不準確或不符合語義。

🎭 溫度參數個性化測試

調整您的「冒險指數」：50%

保守冒險

您的 AI 個性：平衡型

溫度參數：1.0

在保守與冒險之間取得平衡，既不會過於死板，也不會過於隨性。

核心問題 — 自我注意力與人類注意力的差異？

AI 的運算與人腦的思考

關鍵問題：效能與價值的權重分配

如果 Transformer 的效能取決於它如何分配注意力來決定「上下文價值」，那麼我們個人效能的提升，是否也遵循類似的「自我注意力」機制，精準地決定我們當下行動或決策中「價值 (Value)」的權重？

差異比較 — 人機注意力的根本不同 (四個面向)

AI 的平行運算 vs. 人腦的生物學限制

比較面向	人類注意力 (生物系統)	Transformer 自我注意力 (人工系統)
1. 容量限制與處理方式	受限/序列式。必須在不同輸入間切換。是解決有限資源的方案。	平行處理。在充足資源下，可以一次性考慮序列中所有元素。是一種提取上下文關係的機制。
2. 注意力路徑	雙向 (Top-down & Bottom-up)。受意圖、知識 (Top-down) 和顯著刺激 (Bottom-up) 驅動。	單向 (數據驅動)。注意力分配完全基於訓練數據的模式。缺乏由目標或認知狀態驅動的「由上而下」控制機制。
3. 意圖性與能動性	主動/有意識。注意力是一種主動的決策機制，與個體的能動性 (Agency) 相關。	被動/數學構造。模型不具備內在的認知狀態或意圖。其「注意力」本質上是計算元素間關係的數學構造。

大腦的「有限資源管理器」

人類注意力的定義與功能

• 定義：注意力是心靈選擇性地掌握「幾個同時可能的對象或思緒」之一的能力。

• 核心功能：這是對有限的認知資源（limited computational resources）進行彈性控制（flexible control）的關鍵。

• 五大面向：人類注意力包括了選擇性注意力 (維持原有行為並過濾刺激)、分開性注意力 (同時專注多件事情)、轉移性注意力 (快速切換焦點)、持續性注意力 (長時間專注)、以及集中的注意力 (井然有序地應對外部刺激)。

人類注意力的能力上限與限制

• 容量限制 (Capacity Constraints)：人類受限於有限的視覺範圍和工作記憶容量。工作記憶的限制類似於著名的「神奇的數字 4」 (Magic Number 4)。

• 處理方式：由於這些生物限制，人類的注意力必須是序列式地運作，需要不斷切換焦點。

• 數據佐證：類似於人類，Transformer 模型在 N-back 任務中，隨著 N 增加，準確度會顯著下降。研究假設這與自我注意力機制的容量限制相似。

Magic Number

測試你的工作記憶容量

請記住以下數字序列，然後按順序點擊：

點擊「開始遊戲」開始

參考文獻

Attention Is All You Need (2017)
經典 Transformer 論文
Transformer 解釋互動式網站
視覺化學習資源
手把手帶你寫程式理解 Transformer
實作教學課程
Transformer GPT2.0 互動式深入原理剖析
深入原理分析
Transformer 教科書
圖解式教學

考試？遊戲？

請點擊連結：進入 ChatGPT 問答遊戲

回答完問題後將你的答案傳到 google 表單

限時 10 分鐘

[測試題目集]

第1題

Transformer 架構的最大創新是什麼？

a. 引入循環神經網路處理長序列

b. 使用卷積層取代嵌入向量

c. 自我注意力機制，可同時處理整個序列

d. 減少參數，避免過擬合

第2題

以下哪一項是 Transformer 的錯誤特性？

a. 可以同時處理整個序列中的所有詞

b. 使用自我注意力機制捕捉長距離依賴

c. 需要透過訓練學習 Q、K、V 的權重矩陣

d. 必須逐步處理序列，無法並行計算

第3題

在詞彙機率預測過程中，Logits 的角色是什麼？

a. 模型計算出的未正規化分數

b. 機率總和為 1 的分佈

c. 輸入的嵌入向量

d. 注意力權重

第4題

Softmax 在 Transformer 中的功能是什麼？

a. 將分數壓縮到 -1 到 1 之間

b. 將所有輸入向量轉換為 QKV

c. 將 Logits 正規化為機率分佈

d. 增加模型的計算速度

第5題

Q、K、V 在 Transformer 中的對應意義為？

a. 查詢、鍵值、數值

b. 問題、答案、結果

c. 向量、矩陣、張量

d. 查詢、分類、值

第6題

在注意力運算中，為什麼要對「查詢與鍵值的相似度分數」進行縮放處理？

a. 減少參數數量

b. 提高模型容量

c. 確保 Softmax 的輸入數值不會過大而導致梯度不穩定

d. 減少訓練時間

第7題

多頭注意力機制的主要優勢是什麼？

a. 從多角度捕捉不同語意關係

b. 降低模型參數

c. 提升計算速度

d. 減少訓練資料需求

第8題

殘差連接 (Residual Connection) 在 Transformer 中的主要功能是？

a. 提升隨機性

b. 減少運算量

c. 替代多頭注意力

d. 確保資訊暢通，避免梯度消失

第9題

Temperature 參數調高 (T > 1) 時，模型輸出會如何？

a. 更隨機、多樣化

b. 更保守、重複性高

c. 完全不輸出文字

d. 變成確定性預測

第10題

下列哪一項正確描述 Transformer 與人類注意力的差異？

a. Transformer 有內在意圖，人類沒有

b. 人類注意力可同時平行處理無限資訊，Transformer 無法

c. Transformer 注意力由數據驅動，人類注意力有意識主導

d. 兩者運作方式完全相同

Transformer 核心概念