作者|Sergio De Simone
譯者|馬可薇
策劃 | 丁曉昀
領英工程師 Shubham Agarwal 及 Rishi Gupta 解釋道,為協助發現並移除違反其標準政策的內容,領英一直在使用自研的 AutoML 框架,該框架可以並行地訓練分類器且試驗多個模型架構。
我們使用 AutoML 不斷重新訓練已有模型,將訓練所需時間從數月縮短到數天,並減少開發新基線模型所需時間。這也讓我們能積極主動地應對新出現的對抗性威脅。
內容審核的關鍵之一在於持續的執行和調整,以應對規避審核的新手段,除此之外還必須要能適應環境的變化。這些變化包括:數據漂移,即平台上發布的內容會隨著對話的進行發生固有變化;全球事件,這類事件往往會在討論中出現並產生不同觀點,其中常充斥著錯誤信息;對抗性威脅,其中包括欺詐和欺瞞行為,如偽造檔案、實施詐騙等。
為應對上述挑戰,領英採用的方法目標為「主動檢測」,該方法需要一個不斷調整和發展其 ML 模型和系統的過程。AutoML 是領英內部研發的工具,全稱為自動化機器學習(Automated Machine Learning),用於,通過不斷在新數據上重新訓練模型、使用假負和假正等數據修正模型、微調參數方式提升機器學習性能。
通過 AutoML,我們得以將過去冗長且複雜的流程轉變為精簡又高效的流程……在實現 AutoML 後,我們開發新基線模型和持續性重新訓練已有模型的平均所需時間從兩個月縮短直不到一周。
通過 AutoML,領英工程師實現了數據準備和特徵轉換過程的自動化,其中包括降噪、降維和特徵工程,意在創建用於分類器訓練的高質量訓練數據集。
在第二階段,AutoML 通過搜索一系列超參數和優化方式,對比不同分類器架構在一組已定的評估指標下生成的模型性能。
最後,AutoML 將新完成訓練的模型供給生產伺服器,實現部署過程的自動化。
Agarwal 和 Gupta 認為這套工具仍有一些方面不太成熟,具體來說是需要提高速度和效率,使其能夠在更大範圍內應用,最終提高對計算能力的要求。他們稱,另一個頗具前景的領域是使用生成式 AI,減少標籤噪聲並生成用於模型訓練的合成數據,從而提高數據集質量,
雖然並不是所有的組織都有領英的運營規模,或者能擁有自研 ML 自動化工具的資源,但 Agarwal 和 Gupta 所描述的方式仍可在小規模範圍內進行複製,從而減輕機器學習工程師與重新訓練已有模型相關的重複性工作量。
原文連結:
How LinkedIn Uses Machine Learning to Address Content-Related Threats and Abuse (https://www.infoq.com/news/2024/01/linkedin-automl-content-filter/)
並發王座易主?Java 21 虛擬線程強勢崛起,Go & Kotlin還穩得住嗎 | 盤點
谷歌新年大裁員,引矽谷裁員潮!OpenAI正式推出GPT Store,但第一批應用已被像素級抄襲;騰訊伺服器深夜崩潰 | Q資訊
純向量資料庫和向量插件都有局限,那未來發展有其他方向嗎?
系統 bug 致百人入獄,砸了 2.8 億元仍上雲失敗!二十年了,這家大企業被日本軟體坑慘了
文章來源: https://twgreatdaily.com/22a23fb7a307b5d16f8f0a0e019f55a1.html