圖7.縮放點積注意力(ScaledDot-ProductAttention)原理和Softmax公式 如下圖 7 所示,在完成 Query 和 Key 的相似度計算后,通過 Softmax 激活函數將原始分數轉化為和為 1 的概率分布,就可以將輸入向量中的數值解釋為各個類別或事件的概率。Softmax 函數的特點是會放大輸入向量中較大值的相對優勢,使得最大值對應的概率更加突出,而其他較小值對應的概率相對較小。這有助于模型在進行決策或分類時更加明確地傾向于可能性最大的選項。 行業數據 下載Excel 下載圖片 原圖定位