設萬維讀者為首頁 廣告服務 聯繫我們 關於萬維
簡體 繁體 手機版
分類廣告
版主:紅樹林
萬維讀者網 > 五 味 齋 > 帖子
實驗
送交者: mingcheng99 2025年07月04日05:41:49 於 [五 味 齋] 發送悄悄話

基於 DGA 的中文語言模型張力調控實驗報告(更新版)

一、實驗背景與動機

在自然語言生成任務中,Transformer 模型通過注意力機制建模 token 之間的依賴關係。然而,這種機制在生成過程中往往缺乏“認知調控”能力,難以解釋模型在面對複雜問題時的內部狀態變化。

為此,我們引入一種新的注意力干預機制——動態幾何注意力(Dynamic Geometric Attention, DGA),用於主動擾動模型的注意力結構,並通過“張力”指標量化這種擾動對模型內部表示的影響。

二、DGA 定義與原理

DGA 是一種在生成前階段對 Transformer 模型的 query 表示進行幾何擾動的機制。其核心思想是:

  • 計算每個 query 與所有 key 的平均偏移向量(Δq);

  • 將該偏移向量按比例 λ 添加回原始 query:

  • 從而改變注意力分布,引發模型內部的“認知張力”。

這種方法不依賴模型結構修改,適用於任何支持輸出 hidden states 的 Transformer 模型。

三、相關論文與理論基礎

本實驗中的 DGA 概念受到以下研究啟發:

  1. Dynamic Group Attention

    • 論文標題:

    • 作者:Kai Liu et al., IJCAI 2022

  2. Dynamic Graph Attention

    • 論文標題:

    • 作者:Sibei Yang et al., ICCV 2019

本實驗中的 DGA 更偏向於一種“幾何擾動”機制,靈感來源於上述機制,但更直接作用於 query 表示空間。

四、實驗設置

  • 模型:IDEA-CCNL/Wenzhong-GPT2-110M(中文 GPT2-small)

  • 環境:本地 CPU,PyTorch + Hugging Face Transformers

  • Prompt 示例:什麼是算法?

  • DGA 參數 λ:控制注意力擾動強度,範圍從 0.1 到 5.0

  • 張力計算方式:基於 query 與所有 key 的歐幾里得距離均值

五、實驗結果

📊 張力隨 λ 變化表格

📈 張力曲線趨勢分析

  • 張力隨着 λ 增大呈現非線性加速上升趨勢;

  • 未觀察到張力飽和或反轉,說明模型對 DGA 擾動具有高度響應性;

  • λ = 5.0 時張力已達初始值的 4 倍以上,注意力結構被極大擾動。


0%(0)
0%(0)
標 題 (必選項):
內 容 (選填項):
實用資訊
回國機票$360起 | 商務艙省$200 | 全球最佳航空公司出爐:海航獲五星
海外華人福利!在線看陳建斌《三叉戟》熱血歸回 豪情築夢 高清免費看 無地區限制