軟體開發人員指南:在自己的數據上訓練ChatGPT

2024-01-16     51CTO

原標題:軟體開發人員指南:在自己的數據上訓練ChatGPT

譯者 | 李睿

OpenAI公司推出的ChatGPT對於對話式人工智慧具有革命性意義。雖然其開箱即用的功能令人印象深刻,但ChatGPT的功能本質上受到2021年固有訓練數據的限制。對於軟體開發人員和科技公司來說,在自定義數據集上訓練ChatGPT是創建量身定製的人工智慧助手的關鍵。

在這個全面的指南中,將探索軟體團隊使用微調和MEMWALKER交互式閱讀等技術來訓練定製ChatGPT模型的最佳實踐。

1、克服ChatGPT默認訓練的局限性

ChatGPT是由OpenAI公司在一個龐大的通用知識數據集上進行了預訓練,包括維基百科、書籍、網站等。由於這些訓練數據是在2021年收集的,ChatGPT有一些天然的弱點:

  • 對2021年之後發生的近期事件或新出現的話題一無所知。
  • 在歷史和文學等常見領域之外的專業知識狹窄。
  • 沒有基於對話的個人記憶功能。
  • 難以在長對話中保持場景。

這些限制直接來自ChatGPT的固定數據集,該數據集缺乏最新的專業知識。用戶通過在自己的數據上訓練ChatGPT,可以創建適合自己的行業、主題和業務需求的版本。

2、訓練ChatGPT模型的關鍵方法

軟體開發團隊可以使用一些核心技術來定製ChatGPT:

(1)對Curated數據集進行微調

一種簡單直接的方法是收集相關文本,例如文檔、電子郵件、手冊等,以微調ChatGPT模型。這個過程包括:

  • 編譯自定義數據集:收集涵蓋用戶希望ChatGPT學習的主題和知識的文本。
  • 清洗和預處理:將數據轉換為標準格式,匿名化任何敏感信息。
  • 微調模型:使用類似Anthropic的API上傳數據集,並通過反向傳播進一步訓練ChatGPT。

微調直接將用戶的專業知識灌輸到ChatGPT中。

(2)採用MEMWALKER互動閱讀

對於長格式文本,MEMWALKER等先進技術可以在訓練期間更有效地處理場景。MEMWALKER有兩個階段:

  • 建立記憶樹:長文本被分成多個片段。每個片段匯總形成樹結構的一個節點。
  • 導航樹:當回答問題時,人工智慧遍歷樹以從節點收集相關細節。

這種方法允許在冗長的示例中維護場景。

(3)檢索增強

用戶還可以通過索引數據集並將搜索與ChatGPT相結合來使用檢索增強功能。這允許在推理時利用大量的利基數據。

  • 建立向量索引:為自定義文本集合建立索引,以進行語義搜索。
  • 整合檢索:在查詢ChatGPT時,首先從索引中顯示相關文本。
  • 生成響應:讓ChatGPT使用這些文本來告知其答案。

總之,這些技術支持對ChatGPT知識進行重要的定製。接下來,用戶可以通過一些步驟來訓練自己的模型。

3、如何訓練ChatGPT模型的聊天技巧

用戶可以通過實踐指南來訓練自己的ChatGPT模型,以適合其用例:

(1)收集和準備訓練數據

  • 編制與行業或主題相關的文本內容的多樣化數據集。抓取相關網站,收集產品文檔,創建自定義文章等。
  • 通過消除文本重複、修復格式問題和匿名化任何私人信息來清理數據。
  • 將數據集拆分為訓練、驗證和測試子集。

(2)將數據上傳到人工智慧平台

  • 使用Anthropic或Cohere等平台上傳數據集。確保正確地標記數據拆分。
  • 選擇ChatGPT模型架構,例如Claude或GPT-3模型作為基礎。

(3)進行額外訓練

  • 通過梯度下降訓練,在訓練中調整基礎模型。在開發集上進行驗證。
  • 考慮使用MEMWALKER之類的技巧來處理長文本。
  • 檢索aug,索引文本並集成語義搜索。

(4)評估自定義聊天機器人

  • 在堅持測試集和真實世界的對話中測試用戶經過專門訓練的模型。
  • 分析模型對關鍵概念、相關性和對話連貫性的回憶。
  • 通過收集更多關於弱點和再培訓的數據來疊代改進。

(5)部署模型

  • 當用戶滿意時,通過人工智慧平台提供的API部署其自定義ChatGPT。
  • 設置生產實例並將其集成到用戶的應用程式和業務工作流中。

·監控和維護模型,根據需要對新數據進行再培訓。

4、自定義聊天機器人的實際應用

經過專門訓練的ChatGPT模型在商業應用中有無限的可能性:

  • 客戶支持機器人:訓練產品文檔,手冊和常見問題。
  • 行業分析機器人:獲取收益報告、新聞稿和文章,回答財務問題。
  • 主題專家機器人:通過教科書和研究論文進行訓練,教授醫學、法律、工程等知識。
  • 企業文化機器人:通過培訓新員工了解內部維基、手冊和信息歷史,幫助他們入職公司。

正如人們所看到的,幾乎任何行業或利基領域都可以從定製的、知識淵博的ChatGPT助手中受益。自定義解鎖了與用戶的用例相一致的更多相關的對話能力。

互動閱讀領域提供了大量的實際應用。以檢索增強生成(RAG)為例,它融合了檢索和文本生成。這些模型可以從MEMWALKER中受益匪淺,使它們能夠有效地從大量文檔集合中提取相關的見解。

此外,企業可以利用集成了MEMWALKER的自定義人工智慧聊天機器人進行更廣泛、更自然的對話,同時保留必要的場景。

隨著大型語言模型(LLM)的不斷發展,交互式閱讀的潛力只會不斷擴大。它為人工智慧管理需要對場景、記憶和邏輯推理有豐富理解的任務鋪平了道路。

5、訓練大型人工智慧模型的未來

像交互式閱讀這樣的方法有利於導向在大型語言模型中更像人類的場景處理。隨著大型語言模型(LLM)的規模越來越大,減少他們對數據的渴求將是至關重要的。有效的信息編碼也允許利用更專業的利基知識。

對於軟體開發團隊來說,學習如何有效地訓練和定製像ChatGPT這樣的大語言模型會給企業帶來更多的機會。結合檢索增強等技術,這些人工智慧助手可以在廣泛的主題上進行有意義的、深入的對話,穩步向人工智慧助手邁進。

希望這一指南能夠闡明訓練ChatGPT機器人的有效技術。有了正確的數據和有效的訓練方法,用戶就可以為其軟體業務和開發人員創建專門的對話代理。

原文連結:https://dzone.com/articles/training-chatgpt-on-your-own-data-a-guide-for-soft

文章來源: https://twgreatdaily.com/zh-sg/59f59a1f291793d25647339e141f82f4.html