ChatGPT搶走了數據!程式語言排行榜,沒法做了!

2023-12-20     51CTO

原標題:ChatGPT搶走了數據!程式語言排行榜,沒法做了!

提及程式語言排行榜,很多人都能想到Tiobe、RedMonk、Stack Overflow等,基本上它們更新的頻率也相對固定。但最近,這家號稱程式語言榜單天花板的RedMonk似乎「放鴿子」了。

RedMonk一般一年發布兩次榜單,上次更新的榜單是在5月,按慣例第二次發布應該是在今年的11月,但今年卻遲遲沒有動作。

今日,官網終於公開了沒有發布語言排行榜的原因:他們之前從Stack Overflow和Github上獲取到的樣本數量大大減少,已經顯著影響到榜單排名的評估!背後的罪魁禍首,竟是AI編程助手!

RedMonk排名離不開社區樣本

根據官方介紹,RedMonk通過追蹤程式語言在GitHub和Stack Overflow上的代碼使用情況與討論數量,統計進行分析後進行排序,進而深入了解潛在的語言採用趨勢。

具體講,RedMonk 榜單的數據收集方式包含兩部分:使用GitHub Archive作為數據源對GitHub數據進行分析;Stack Overflow部分則直接使用其提供的實用工具 data explorer。

具體排序算法官方也給出較詳細的介紹,這裡不再贅述。

ChatGPT推遲了編程榜單的進行

今年大家都見證了一個增長奇蹟:ChatGPT推出後,兩個月就做到了一個億的用戶。

1 Stack Overflow首當其衝

隨後,Stack Overflow流量下降的速度開始陡生,以致於其CEO宣布對數據獲取方開始收費的決定。

Stack Overflow 的網站訪問量顯著下滑到原來的一半,不僅如此,還有分析師指出「用戶花在 Stack Overflow 上的時間比去年同期下降了 40%,比此前網站峰值期下降了約 2 億小時」。

此外,Stack Overflow在網站上的問題和答案也減少了五成,投票也減少了。原因也很明顯,開發人員已經可以即時向人工智慧助手提問,並在上下文中給出答案,而無需再去Stack Overflow中查詢答案。

那麼由Stack Overflow提供的公共數據集的實用性的價值就會大打折扣。

上圖是Stack Overflow 上使用排名前20種程式語言標籤的問題數量,可以看出比前一時期減少了近20%。這還只是是RedMonk在ChatGPT爆火之後第一次完整地運行這些數字,粗略查詢下整年的變化,就會發現結果更加明顯。

2.Github同樣也沒有擺脫數據下降的影響

RedMonk對於Stack Overflow數據的下降是有預料到的,但令其萬萬沒沒想到的是,Github也被AI代碼助手打擊到了,數據上也出現了非常嚴重的異常。

Redmonk使用的數據集是BigQuery上的公共數據集,為此,Redmonk會向谷歌和GitHub團隊詢問了數據是如何提取的,以及是否在內部數據中看到了類似的變化。

「得到的結果非常意外,我們從GitHub Archive中看到的數據顯示,與2022年下半年PR相比,2023年上半年的拉取請求下降了約25%。」

ChatGPT寫代碼能力太強了,後果很嚴重。各種Copilot的出現,已經嚴重影響到了編程問答社區的提問數量。樣本量的減少,意味著RedMonk賴以進行的排名變化統計似乎面臨著不小的挑戰,因為這些樣本數據似乎已經不足以完全、真實地反映語言的受歡迎程度了。

下一步,編程排行榜怎麼辦

因此,RedMonk無奈地表示,基於人工智慧的代碼助手的出現和興起已經影響了RedMonk語言排名的數據。

隨著問題和知識共享從公共的社區論壇轉移到私人的AI聊天工具,他們從公開數據中確定有意義趨勢的能力也將無限期地改變

接下來,RedMonk會繼續跟蹤這些趨勢,並確定樣本量的變化將如何影響他們進行排名,同時預告2024年1月發布新榜單。

寫在最後:

新的數據霸主正在誕生

大模型時代的到來,已經在慢慢改變人們原來的網際網路習慣。以前大家遇到問題,可能想到的是訪問門戶、訪問社區,而生成式AI爆發後,取而代之的是各種「ChatGPT」的私人聊天介面。

而由此帶來的,就是人機互動數據的源頭髮生了遷移。知識問答社區的形態又會發生怎樣的改變?會不會朝著「弱問答、輕社交」的方向演進?又或者是其他哪些方向?

再比如依賴這些數據的下游企業,又該如何適應新的數據生產霸主?

這些都是一個個亟待回答的問題。且讓我們看看幾周後,RedMonk是如何思考和這個問題的。

文章來源: https://twgreatdaily.com/zh-cn/81c7410000f67443090bf0433aaab6dc.html