基於 DGA 的中文語言模型張力調控實驗報告(更新版)
一、實驗背景與動機
在自然語言生成任務中,Transformer 模型通過注意力機制建模 token 之間的依賴關係。然而,這種機制在生成過程中往往缺乏“認知調控”能力,難以解釋模型在面對複雜問題時的內部狀態變化。
為此,我們引入一種新的注意力干預機制——動態幾何注意力(Dynamic Geometric Attention, DGA),用於主動擾動模型的注意力結構,並通過“張力”指標量化這種擾動對模型內部表示的影響。
二、DGA 定義與原理
DGA 是一種在生成前階段對 Transformer 模型的 query 表示進行幾何擾動的機制。其核心思想是:
這種方法不依賴模型結構修改,適用於任何支持輸出 hidden states 的 Transformer 模型。
三、相關論文與理論基礎
本實驗中的 DGA 概念受到以下研究啟發:
Dynamic Group Attention
論文標題:
作者:Kai Liu et al., IJCAI 2022
Dynamic Graph Attention
本實驗中的 DGA 更偏向於一種“幾何擾動”機制,靈感來源於上述機制,但更直接作用於 query 表示空間。
四、實驗設置
模型:IDEA-CCNL/Wenzhong-GPT2-110M(中文 GPT2-small)
環境:本地 CPU,PyTorch + Hugging Face Transformers
Prompt 示例:什麼是算法?
DGA 參數 λ:控制注意力擾動強度,範圍從 0.1 到 5.0
張力計算方式:基於 query 與所有 key 的歐幾里得距離均值
五、實驗結果
📊 張力隨 λ 變化表格
📈 張力曲線趨勢分析