位元組跳動如何在單元測試中落地大模型

單元測試是保障項目可靠性的重要手段。然而，傳統的智能單測生成方法存在著對多種程式語言重新適配、依賴靜態分析和動態分析工具的問題。但大模型出現後，另一種令人振奮的解決方案來了。

隨著模型參數規模的提升，大模型在代碼理解和代碼生成能力方面取得了巨大的進步，為單元測試帶來了全新的可能性。端到端的生成方式可以低成本地將單元測試覆蓋到多種程式語言中，為項目提供可靠性保障。然而，在大模型助力智能單測生成的過程中，仍然存在模型幻覺和測試分支覆蓋不全的問題。

為解決以上問題，位元組跳動算法專家張樹波的團隊發現通過任務微調、強化學習等技術可以提升語言模型的單元測試生成語法正確率和分支覆蓋率。經過測試，他們的 70 億參數模型的生成效果不弱於通用版 ChatGPT 的水平，並且在低端顯卡上的推理時延只有 ChatGPT 的 25%。且目前大模型單元測試生成分支覆蓋率在實際項目中達到 56%，同時在抖音的 Android、iOS 雙端落地，問題有效性達到 80%，修復率 65%。

在本次演講中，他將首先介紹單元測試的背景和其在軟體開發中的重要性，並提出評估單元測試生成效果的指標，以便更好地衡量生成結果的質量和覆蓋範圍。

接著介紹傳統的單測生成方法，包括依賴靜態分析和動態分析等工具。傳統方法在面對多種程式語言時需要進行適配，並存在一些局限性和挑戰。

隨後，他將結合大模型基座介紹與對比、Prompt 對單測生成的影響、代碼理解、生成能力評估、測試用例生成能力評估和通用模型存在的問題等幾方面介紹他們是如何評估通用大模型的單測生成能力的。隨後介紹如何通過任務微調提升分支覆蓋率和強化學習緩解模型幻覺問題以達到提升大模型單測生成效果的目的。

最引人入勝的是大模型落地工程實踐的部分，這部分包含大模型微調框架開發和大模型推理優化實踐兩個部分。

最後，他將分享大模型在單元測試生成領域的應用落地情況，與聽眾共同探討大模型在提升軟體開發效率和質量方面的潛力，並探討未來發展的可能性。

如果你也對大模型如何助力智能單測生成從而提升項目的可靠性感興趣，這個演講一定不要錯過。

活動推薦

以「啟航·AIGC 軟體工程變革」為主題的 QCon 全球軟體開發大會·北京站將於 9 月 3-5 日在北京•富力萬麗酒店舉辦，此次大會策劃了大模型應用落地、面向 AI 的存儲、AIGC 浪潮下的研發效能提升、大前端融合提效、LLMOps、異構算力、微服務架構治理、業務安全技術、構建未來軟體的程式語言、FinOps 等近 30 個精彩專題。

位元組跳動如何在單元測試中落地大模型｜QCon

麥當勞中國：打造 MACH 架構的數字化巨無霸

vivo 軒轅文件系統：AI 計算平台存儲性能優化實踐

從架構角度認識 AI：為架構師解讀機器學習與生成增強技術

全球科技巨頭扎堆的機密計算，迎來了中國「黑馬」

都2024年了，端到端保護軟體供應鏈安全真的實現了嗎？

AI 驅動的可觀測性革新：攜程如何通過架構升級實現高效數據治理與性能平衡

人工智慧缺乏「激勵機制」，如何重新定位和思考 AI 的發展？

Flux、SD 等圖片生成模型遭「封禁」，但這次矽谷大廠不反對了！

Uber 履約系統如何實現零停機時間遷移

前端策略：使用框架還是純JavaScript？

卷模型還是做平台？

三年虧損51億元，去年賣出22台車！文遠知行被爆赴美IPO，估值超360億元

Forrester在HashiCorp 2024雲戰略現狀調查中推薦了雲成熟度修復措施

40 個頂尖數據團隊的構成剖析

改善 Kubernetes 日誌以增強可觀測性

優步使用谷歌雲平台實現大數據基礎設施的現代化

鴻蒙崛起背後：作業系統新格局，關業務場景什麼事？

LLM 能提高開發人員的生產力嗎

華盛頓大學開源語音深度學習算法，可以在嘈雜的環境中鎖定某個說話者

2024年8款資料庫數據分析能力（TPC-H）真實性能評測，真有100倍差距

AI 大模型如何在各行業跑通業務閉環？

豆包大模型家族發布、火山方舟升級，火山引擎如何打造全棧AI技術服務？

百度文心智能體平台舉辦開發者沙龍，打造國內領先的智能體生態 | Q推薦

領英是如何利用機器學習解決內容相關威脅和濫用問題