什么是算法歧視？種類、特征介紹

2022-03-29 10:39:37 作者：2200 4367

1.算法歧視

歧視，從字面上看其意思是有區別的予以看待：歧視，在本質上與不平等、非正義對等。對于歧視的概念在法律上的界定，從對不同國際公約的表述中“可以將歧視概括為基于外在環境和自身情況的差異，使得人們對他人或者特定群體因種族、性別、民族、宗教信仰、社會出身等存在的不同而產生的損害其機會或者待遇平等的一種概括性固定看法”。

算法歧視作為歧視的一種表現形式，它是人工智能機器的開發者或者使用者在使用智能機器決策時根據智能機器自身算法邏輯對目標對象進行劃分，并施以不同標準對待而產生的歧視。它伴隨著智能機器的決策系統的產生，滲入到人工智能技術所涉及的眾多領域。

算法歧視的本質是由算法模型導致的對特定個人或群體的系統性的、重復性的不合理對待。因為算法歧視是計算機系統在收集和分析數據的過程中自動生成的，所以也有學者稱之為“自動化歧視”。

算法歧視

2.算法歧視的種類

(1)數據帶來的歧視

數據作為社會現實的數字化反映，涵蓋了各種社會信息。這些由數據反映的社會關系會通過機器算法體現在相關決策的預測中。數據中反映的帶有歧視性的信息也會被智能機器以決策的形式表現出來。數據作為人工智能發展的基礎，“其來源十分廣泛，包括各種交易數據，移動通訊數據，機器傳感器數據，互聯網上的開放數據等”。如果在涉及數據獲取各環節發生錯誤那么錯誤的決策輸出勢必會帶來包括歧視在內的一系列負面影響。

從數據的獲取來看，數據采樣發生偏差會使數據片面采集。在數據的采樣上，采樣的目的往往力求做到全樣本，但是實際上全樣本采樣很難做到。當下，數據樣本采集最多的當屬少數的幾家大型互聯網平臺，出于保護商業利益的原因這些互聯網公司一般都不會公開數據，并且會限制這些數據被網絡扒取，其結果就是數據的匯整難以為全。比如，人文社會科學在做實證分析時往往會適用問卷調查的方式做數據分析，但是在做調查問卷過程中往往因不嚴謹、不規范，造成抽樣的不客觀。原因是多樣的，其中比較直接的是路人在被突然問卷調查時會有抵觸心理，有時也會草率勾畫、急于脫身等，這些都會讓調查問卷流于形式，對問卷調查的結果造成影響。這些數據從采集上就發生了偏差，并不能真實反映客觀的情況，使得數據的采用從一開始就入錯了軌。又如，一旦樣本采集不充足，使用重復數據的話會造成數據比重偏差。倘若數據挖掘不夠深入，缺乏數據挖掘的能力，數據反映的也僅僅是浮于表面的事實，數據的不完整將會加重既有的社會偏見的比重。在現實社會中“人類社會既有的‘數據鴻溝’現象可能導致部分人的數據缺失，因此會被隔離在‘算法社會’之外。機器學習算法基于這一整體的‘數據集’形成的規則應用于具體社會場景，暗含著以整體特征來推斷個體行為的邏輯，這便造成了算法歧視的問題”。諸如以上方式獲取的數據若被采用都將直接從源頭上造成“污染”。

從數據的處理上看，大量的數據供給并不是都能直接拿來利用，這就需要將數據通過一定的方式變成能夠被采納的描述。如通過科學合理的模型建造和數據解讀。若在模型建造上發生錯誤，或者數據解讀訓練不夠，或者有意為之以達到自己想要的結果，這些到最后都會使結果偏離客觀真相。

前述無論是數據的采集還是對數據的解讀，一旦發生偏差和錯誤就可能會造成算法作出有失客觀、公正的決策，并且算法決策是用舊有數據提取的信息對未知目標進行的預測，過去的數據造成的歧視在得到算法的確認后都將每一次的輸入生成的偏差結果作為下一次輸入的反饋?？上攵?，每一次的結果偏差將比上一次的更大。整個算法運作系統變成了類似“聲反饋自激振蕩”的歧視性循環，尤其是在受眾頗多的公眾決策中會造成一部分人因此而受到歧視。

(2)算法引起的歧視

算法是開發者、設計者主觀思維的代碼化，它從開始的設計目的、成功與否的指標、篩選數據、反饋驗證等一系列流程，都體現著開發者、設計者的主觀意愿。如果他們的偏見意識被嵌入進算法系統，那么算法就先天性的具備了偏見“基因”。在包含有深度學習的算法運行過程中，可能會產生非事先設定的決策路徑，而得出具有“黑箱”的決策。因此，這種機器自主學習的算法也同樣會產生具有歧視的決策。

按照歧視被識別的難易程度可以將歧視劃分為“直接歧視和間接歧視”?！稇椃ā分幸幎ㄓ袑γ褡?、種族、性別等禁止性歧視的平等性原則，若用算法直接表達出具有以上禁止性歧視特征的評價的話，尚可直接尋求通過司法途徑予以約束。當算法應用中通過對數據的整合，從中歸納出一些共性特征后，以此特征為依據將會作出帶有評價性的決策，這其中也會包含一些歧視性的評價。而這些隱藏性的歧視即——間接歧視卻不易被發現。比如，某個算法對大量的數據分析后，發現某種工作崗位，大多數都是男性群體并且該崗位薪資普遍較高，那么該算法模型在投遞招聘信息時就會有選擇性的投遞給男性群體，從而忽略了女性群體的平等機會。這就勢必會對適合此崗位的女性群體造成歧視。此外，算法會從大量數據中分析出數據主體是否殘疾、身體健康狀況等隱私特征，并可能以此對數據主體作出不利的評價，該歧視就不易被人發現?？梢钥闯鏊惴ㄆ缫暤囊粋€主要原因是算法錯誤的判斷了不同目標之間的邏輯關系，即錯誤的判斷了該崗位匹配男性優先于匹配女性。跟海量數據的“扒”取相似，算法決策往往側重于關聯性的強弱。一旦被算法判定有足夠強的關聯性就會被當作對目標對象作決策的根據。

少數個體會被算法歧視，群體也未能幸免?！案鶕?Edmund S.Phleps 提出、Dennis J.Aigner 等學者認為當勞動信息不完全的前提下，雇主依據統計的群體性特征作雇傭和工資決策時就會對處于不利的群體造成就業和工資的歧視”。假如，兩位求職者，其工作經歷、學歷等方面不相上下，其中一人第一學歷是名牌高校，另一人第一學歷是普通高校，若雇傭者僅僅根據學校名氣為依據便錄取了第一學歷是名牌大學的畢業生，而不去對工作能力方面做進一步的考查，對第一學歷為普通高校的畢業生來說，構成實質上的歧視。若將該招聘模式做成算法，以此規律作統計依據，這種決策就會對該類群體產生算法歧視，并且這種歧視將會是大范圍的。畢竟名牌大學生相對于普通大學生在數量上而言，差距明顯。即使普通大學里的優秀生，也會被這種算法歧視損害權益。

3.算法歧視的特征

(1)機制化

雖然人腦的認知模式是科學界的終極奧秘，始終無法消除歧視和偏見，心理學研宄表明做出包含歧視性決定的人可能往往沒有意識到其決策具有歧視，尤其是面對需要快速或自動回應的問題時，但是人類的決策機制通常是個別的和隨機的，并且不具有連續性。與之相反，算法決策系統則是普遍的和持續的，往往具有很高的穩定性。當人類對算法決策的使用越來越頻繁，有缺陷的算法可能為它的擴展性和重復性以更快的速度、更大的規模造成損害。人類在場景互動過程產生的主觀感覺或價值判斷總體上是一種可控的選擇，而且人類的決策所產生的歧視往往是分散的，通常不會造成集成化的影響。因而，當算法決策取代人類決策時，它們往往會帶來一種“不可避免的色彩”(Patina of Inevitability)，這種假象使得算法決策的結果看似是公平的，實際上很可能是缺乏根據的。

就目前技術發展的現實圖景而言，大數據與算法的結合還不足以構成一個感知系統，即便深度學習能夠借助隨機的、自主的試錯來不斷趨近程序設定的目標，但是它們仍然不能用于處理具有復雜性、情感性以及創造性的事務。在這種情況下，人工智能作為自動化的決策系統，若輸入包含歧視性的數據，那么產生具有歧視性的結果就幾乎無法避免，而且它還會通過機器學習實現自我迭代，從而系統性、重復性地造成社會不公平，可以說恰恰是人工智能中持續生產的偏見，使得人類充滿歧視的歷史邁向了一個全新的階段。

由數據建模產生的算法歧視具有機制化的特征，使得它對平等權的侵蝕更加廣泛和深入，這導致“當今世界大多數的不公平，并不是來自個人的偏見，而是來自大規模的結構性偏見”。而人類大腦的認知系統還沒有進化出察覺結構性偏見的能力，在這個人工智能時代，算法充斥人類社會各個角落，這種狀況對于保護平等權來說不啻一個真實的壞消息。

(2)隱蔽性

算法歧視的隱蔽性主要歸咎于算法黑箱，即自動化決策算法通過對原始數據的自動化分析產生高級認知的過程是缺乏透明性的。簡而言之，所謂“算法黑箱”就是指在人工智能數據輸入和結果輸出的過程中，存在著人類無法得知甚至超越人類認知維度的秘境。如學者季衛東所言，在數據驅動的人工智能時代，“透明社會”與“算法黑箱”是我們不得不面臨的一對根本矛盾。

更多行業知識，敬請關注三個皮匠報告行業知識欄目。

《AMiner：人工智能之數據挖掘(171頁).pdf》

《2020算法的道德：算法對人工智能系統道德的貢獻 - 恩智浦(英文版)(14頁).pdf》