位元組跳動如何在單元測試中落地大模型|QCon

2023-07-10     InfoQ

原標題:位元組跳動如何在單元測試中落地大模型|QCon

單元測試是保障項目可靠性的重要手段。然而,傳統的智能單測生成方法存在著對多種程式語言重新適配、依賴靜態分析和動態分析工具的問題。但大模型出現後,另一種令人振奮的解決方案來了。

隨著模型參數規模的提升,大模型在代碼理解和代碼生成能力方面取得了巨大的進步,為單元測試帶來了全新的可能性。端到端的生成方式可以低成本地將單元測試覆蓋到多種程式語言中,為項目提供可靠性保障。然而,在大模型助力智能單測生成的過程中,仍然存在模型幻覺和測試分支覆蓋不全的問題。

為解決以上問題,位元組跳動算法專家張樹波的團隊發現通過任務微調、強化學習等技術可以提升語言模型的單元測試生成語法正確率和分支覆蓋率。經過測試,他們的 70 億參數模型的生成效果不弱於通用版 ChatGPT 的水平,並且在低端顯卡上的推理時延只有 ChatGPT 的 25%。且目前大模型單元測試生成分支覆蓋率在實際項目中達到 56%,同時在抖音的 Android、iOS 雙端落地,問題有效性達到 80%,修復率 65%。

在本次演講中,他將首先介紹單元測試的背景和其在軟體開發中的重要性,並提出評估單元測試生成效果的指標,以便更好地衡量生成結果的質量和覆蓋範圍。

接著介紹傳統的單測生成方法,包括依賴靜態分析和動態分析等工具。傳統方法在面對多種程式語言時需要進行適配,並存在一些局限性和挑戰。

隨後,他將結合大模型基座介紹與對比、Prompt 對單測生成的影響、代碼理解、生成能力評估、測試用例生成能力評估和通用模型存在的問題等幾方面介紹他們是如何評估通用大模型的單測生成能力的。隨後介紹如何通過任務微調提升分支覆蓋率和強化學習緩解模型幻覺問題以達到提升大模型單測生成效果的目的。

最引人入勝的是大模型落地工程實踐的部分,這部分包含大模型微調框架開發和大模型推理優化實踐兩個部分。

最後,他將分享大模型在單元測試生成領域的應用落地情況,與聽眾共同探討大模型在提升軟體開發效率和質量方面的潛力,並探討未來發展的可能性。

如果你也對大模型如何助力智能單測生成從而提升項目的可靠性感興趣,這個演講一定不要錯過。

活動推薦

以「啟航·AIGC 軟體工程變革」為主題的 QCon 全球軟體開發大會·北京站將於 9 月 3-5 日在北京•富力萬麗酒店舉辦,此次大會策劃了大模型應用落地、面向 AI 的存儲、AIGC 浪潮下的研發效能提升、大前端融合提效、LLMOps、異構算力、微服務架構治理、業務安全技術、構建未來軟體的程式語言、FinOps 等近 30 個精彩專題。

文章來源: https://twgreatdaily.com/zh-tw/19837c371ff6183ac9a04e67a728c440.html