當(dāng)表現(xiàn)出種族或性別歧視覆蓋
當(dāng)AI表現(xiàn)出種族或性別歧視
數(shù)據(jù)集中的偏差常常體現(xiàn)出了制度基礎(chǔ)和社會權(quán)力關(guān)系中更深、更隱蔽的不均衡。例如,維基百科看起來是一個(gè)豐富多樣的數(shù)據(jù)源,但是該站上的人物頁面里只有18%是女性。
AI正在改變我們的經(jīng)濟(jì)和社會,改變我們交流的方式,改變我們的行政和政治。不平等在我們的社會中積疾已久,不能讓AI在不經(jīng)意間延續(xù)甚至惡化這一問題了。
谷歌翻譯在將西班牙語翻譯成英語時(shí),通常將提及女人的句子翻譯成“他說”或“他寫道”。尼康相機(jī)中用來提醒拍照者照片中的人有沒有眨眼的軟件有時(shí)會把亞洲人識別為總在眨眼。
單詞嵌入——一個(gè)用來處理和分析大量自然語言數(shù)據(jù)的流行算法,會把歐裔美國人的姓名識別為“正面”詞匯,而非裔美國人的姓名識別為“負(fù)面”詞匯。
在有偏差的數(shù)據(jù)集上訓(xùn)練出的算法通常只能將左邊的圖片識別為“新娘”。
除此之外,人們還發(fā)現(xiàn)了其他很多人工智能(AI)系統(tǒng)性地歧視特定人群的例證。
決策偏見并不是AI獨(dú)有的問題,但由于AI的應(yīng)用范圍越來越大,解決AI偏見至關(guān)重要。
導(dǎo)致AI產(chǎn)生偏見的原因
楊七明常常噓寒問暖 導(dǎo)致AI產(chǎn)生偏見的一個(gè)主要因素是訓(xùn)練數(shù)據(jù)。大多數(shù)機(jī)器學(xué)習(xí)任務(wù)都是使用大型、帶標(biāo)注的數(shù)據(jù)集來訓(xùn)練的。
例如,用于圖像分類的深度神經(jīng)絡(luò)通常會使用ImageNet進(jìn)行訓(xùn)練,其中包含了逾1400萬張帶標(biāo)簽的圖片。這種方法會在無意中產(chǎn)生出包含了性別、種族和文化偏見的數(shù)據(jù)集。
通常來說,會有一些人群被代表過度,而另一些則代表不足。
ImageNet推動了計(jì)算機(jī)視覺研究,但是其中超過45%的數(shù)據(jù)來源于美國,而美國人只占世界人口的4%。相反,中國和印度加起來只占其中3%的數(shù)據(jù)量,而兩國人口卻占了世界人口的36%。
由此看出,這些動物體內(nèi)除了大腦,還有一個(gè)獨(dú)立的系統(tǒng)來處理身體的變化。這些現(xiàn)象引發(fā)了我們的思考:機(jī)器人體內(nèi)可以構(gòu)建這樣的系統(tǒng)嗎?答案是——可以。
缺乏地理上的多樣性可以在一定程度上解釋為什么計(jì)算機(jī)視覺算法會把傳統(tǒng)的身著白色婚紗的美國新娘標(biāo)注為“新娘”、“禮服”、“女人”、“婚禮”,而印度新娘的照片則會被標(biāo)注為“表演”和“戲服”。
偏見的另一個(gè)來源可以歸于算法本身。一個(gè)常見的機(jī)器學(xué)習(xí)程序會試圖最大化訓(xùn)練數(shù)據(jù)集的整體預(yù)測準(zhǔn)確率。
如果訓(xùn)練數(shù)據(jù)集中某類人群的出現(xiàn)頻率遠(yuǎn)多于另一人群,那么程序就會為占比更多的人群進(jìn)行優(yōu)化,這樣才可以提高整體的準(zhǔn)確率。
有缺陷的算法還會造成惡性循環(huán),使偏見越發(fā)嚴(yán)重。舉例來說,使用統(tǒng)計(jì)方法訓(xùn)練出的系統(tǒng),例如谷歌翻譯,會默認(rèn)使用男性代詞。這是因?yàn)橛⒄Z語料庫中男性代詞對女性代詞的比例為2:1。
更糟糕的是,每次翻譯程序默認(rèn)翻出“他說”,就會提高絡(luò)上男性代詞的比例——這可能會逆轉(zhuǎn)女性在性別平等上所獲得的艱難勝利。
數(shù)據(jù)偏差來源于制度和社會
數(shù)據(jù)集中的偏差常常體現(xiàn)出了制度基礎(chǔ)和社會權(quán)力關(guān)系中更深、更隱蔽的不均衡。例如,維基百科看起來是一個(gè)豐富多樣的數(shù)據(jù)源,但是該站上的人物頁面里只有18%是女性。
在關(guān)于女性的條目中,鏈接到男性條目的數(shù)量遠(yuǎn)比男性條目鏈接到女性條目的數(shù)量要多,因此搜索引擎里就更容易找到關(guān)于男性的條目。女性條目里還包含了更多的伴侶和家人信息。
因此,在構(gòu)建訓(xùn)練數(shù)據(jù)集時(shí)必須進(jìn)行技術(shù)處理,并將社會因素納入考慮范圍。我們不能局限于方便的分類方式——“女人/男人”,“黑人/白人”等——這些分類方式無法捕捉到性別和種族認(rèn)同上的復(fù)雜性。數(shù)據(jù)管理者應(yīng)當(dāng)盡可能提供與數(shù)據(jù)相關(guān)的描述語的精確定義。
公平是什么?
計(jì)算機(jī)科學(xué)家應(yīng)努力開發(fā)能夠穩(wěn)定應(yīng)對數(shù)據(jù)中的人類偏見的算法。
當(dāng)計(jì)算機(jī)科學(xué)家、倫理學(xué)家、社會科學(xué)家等人努力提高數(shù)據(jù)和AI的公平性時(shí),我們所有人都應(yīng)該思考“公平”到底應(yīng)該指什么。
數(shù)據(jù)是應(yīng)當(dāng)表現(xiàn)現(xiàn)有的世界,還是應(yīng)當(dāng)表現(xiàn)大多數(shù)人所追求的世界?
又比如,用來評估應(yīng)聘者的AI工具是應(yīng)當(dāng)評價(jià)應(yīng)聘者是否有能力,還是應(yīng)聘者是否能融入工作環(huán)境?應(yīng)該讓誰來決定哪種“公平”才是更為優(yōu)先的?
計(jì)算機(jī)、程序和進(jìn)程塑造了我們的態(tài)度、行為和文化。AI正在改變我們的經(jīng)濟(jì)和社會,改變我們交流的方式,改變我們的行政和政治。不平等在我們的社會中積疾已久,不能讓AI在不經(jīng)意間延續(xù)甚至惡化這一問題了。
上海無痛人流醫(yī)院排名西安治療早泄哪家好
一品紅
- 搬家入宅不能馬虎,要忽略這幾件事!
- 房山區(qū)揭曉風(fēng)險(xiǎn)點(diǎn)位,涉超市、核酸采樣點(diǎn)等!經(jīng)開區(qū)緊急通知→
- 給羅威納犬驅(qū)蟲的最佳時(shí)間位置
- 養(yǎng)一只不挑食的貓是一種怎樣的體驗(yàn)別人家的位置
- 羅威納犬幼犬如何挑選位置
- 腸胃健康關(guān)系身體健康拉布拉多犬腸胃的正確位置
- 鸚鵡的常見寄生蟲病有哪些位置
- 茶杯犬的隱蔽部位應(yīng)當(dāng)如何進(jìn)行護(hù)理位置
- 拉布拉多犬挑食該怎么及時(shí)糾正位置
- 小狗被蜱蟲咬了有什么危害怎么解決位置
- 養(yǎng)狗不易且養(yǎng)且珍惜說說飼養(yǎng)昆明犬所需要的位置
- 綏芬河口岸前個(gè)月地產(chǎn)木制品出口量價(jià)齊增物業(yè)