產(chǎn)品
3月27日,今日頭條出品的一款名為“靈犬”的微信小程序,正式結(jié)束了為時兩個月的內(nèi)測期?!办`犬”本周內(nèi)正式上線,這是國內(nèi)首款反低俗信息小程序。
這款小程序脫胎于今日頭條反低俗算法模型,用于鑒定低俗信息。用戶可以將文字或者文章鏈接放置到搜索框內(nèi),即可查詢該條信息的健康程度。
不過,在文字檢測上,“靈犬”團(tuán)隊(duì)規(guī)定,用戶輸入的字?jǐn)?shù)必須超過10個字,才能進(jìn)行檢測。
為此,“靈犬”團(tuán)隊(duì)給出了解釋:用戶給的上下文、語境等信息越充分,機(jī)器判斷的準(zhǔn)確度就會越高。
有參與內(nèi)測的用戶曾經(jīng)在“靈犬”上檢測了“你餓不餓我下面給你吃”幾個字,數(shù)據(jù)顯示,該內(nèi)容健康指數(shù)為51%。昨天,刺猬君再次檢測,該內(nèi)容的指數(shù)為56%。
“靈犬”團(tuán)隊(duì)解釋說,不同于色情信息,處理低俗信息的一個難點(diǎn)在于,人們對于低俗的判斷標(biāo)準(zhǔn)具有一定的主觀性。色情信息很直接,低俗信息偏隱晦,對于像“靈犬”這種機(jī)器就更難了。
今日頭條的做法是,把低俗的標(biāo)準(zhǔn)分為兩個層次:幾乎所有人看來都會一致同意的標(biāo)準(zhǔn)底線,和因人而異的主觀判斷。
那么,在算法機(jī)制機(jī)制背后,“靈犬”是如何判斷一段文字或網(wǎng)址鏈接為低俗呢?
“靈犬”團(tuán)隊(duì)給出的解釋是,算法模型處理低俗內(nèi)容,有一條最常見的路徑:“收集數(shù)據(jù)-標(biāo)注樣本-訓(xùn)練模型”。
對于用戶輸入的文字或鏈接,“靈犬”會先進(jìn)行提取、分詞和語義識別,然后根據(jù)設(shè)定的規(guī)則,輸出對應(yīng)的分?jǐn)?shù)、評級和結(jié)論。
不過,測試員將帶圖片和視頻的鏈接進(jìn)行測試時,檢測效果并不太好。
“靈犬”團(tuán)隊(duì)給出的解釋是:因?yàn)閳D片、視頻提取需要較長的時間,返回結(jié)果較慢,考慮到工具的即時性,暫時還不支持檢測。
“靈犬”的誕生,將被納入到今日頭條內(nèi)容審核體系中,它與今日頭條內(nèi)容審核機(jī)制是一條“犬”和一支“工作犬部隊(duì)”的關(guān)系??梢岳斫鉃椋办`犬”是頭條審核機(jī)制中反低俗部分的一個簡化版本。
據(jù)了解,在內(nèi)容審核方面,今日頭條目前投入了4000多人專業(yè)審核團(tuán)隊(duì)。
“靈犬”團(tuán)隊(duì)對外稱,這是國內(nèi)最大的審核團(tuán)隊(duì),并搭建色情、低俗、標(biāo)題黨、虛假信息、低質(zhì)模型180多個,結(jié)合人工、技術(shù)手段,有效提升了內(nèi)容審核的效率和準(zhǔn)確度。
其實(shí),今日頭條在去年就謀劃這件事情了,在今年1月底,“靈犬”團(tuán)隊(duì)曾面向全社會招募反低俗測試員,最終從超過5000位報名用戶,選出了30位代表,包括政府部門工作人員,媒體記者、編輯,大學(xué)教授、學(xué)生,互聯(lián)網(wǎng)公司產(chǎn)品經(jīng)理和技術(shù)人員,自媒體人等。
在內(nèi)測階段,“靈犬”團(tuán)隊(duì)根據(jù)測試員的意見反饋,增加了大量人工策略,幫助完善“靈犬”小程序。增加的策略包括:對于權(quán)威媒體報道和詩詞類內(nèi)容,予以算法推薦傾斜;對于時政等機(jī)器難以直接處理的內(nèi)容,必須交由人工審核判斷。
p0