全文連結:https://tecdat.cn/?p=33350
原文出處:拓端數據部落公眾號
分析師:Shuli Wang
自行車共享系統是新一代的傳統自行車租賃,從會員,租賃到歸還的整個過程已經自動化。通過這些系統,用戶可以輕鬆地從特定位置租用自行車,然後在另一個位置返回。目前,全球約有500多個自行車共享計劃,其中包括500多萬輛自行車。今天,由於這些系統在交通、環境和健康問題中的重要作用,人們對它們產生了極大的興趣。
除了自行車共享系統有趣的現實世界應用外,這些系統生成的數據特徵使它們對研究具有吸引力。與公共汽車或地鐵等其他運輸服務相反,旅行的持續時間,出發和到達位置明確記錄在這些系統中。此功能將自行車共享系統轉變為可用於感知城市移動性的虛擬傳感器網絡。因此,預計通過監測這些數據可以檢測到城市中的大多數重要事件。
本文幫助客戶探索如何利用R語言中的線性回歸模型來準確預測共享單車的需求。線性回歸是一種基於統計學原理的預測模型,通過建立變量之間的線性關係,以及使用歷史數據和其他相關因素,可以對未來共享單車需求進行預測。
數據介紹
相關分析
correlation analysis 相關分析是研究現象之間是否存在某種依存關係,並對具體有依存關係的現象探討其相關方向以及相關程度,是研究隨機變量之間的相關關係的一種統計方法。
具體來說,我們可以運用相關分析方法,探究共享單車需求與各種可能影響因素之間的相關性。這些影響因素可以包括天氣條件、時間、地理位置、季節性變化等等。通過收集大量的歷史數據,並應用相關分析技術,我們可以發現其中的模式和趨勢,揭示出哪些因素對共享單車需求影響較大,哪些因素影響較小。例如計算相關係數、繪製相關圖表等。同時,還可以強調相關分析的重要性,如通過了解需求與各個因素之間的相關關係,共享單車企業可以更好地進行調度和管理,提供更滿意的服務。此外,我們也可以說明相關程度的解釋,例如相關係數的取值範圍以及其所代表的相關強度。
相關分析在揭示共享單車需求與其他因素的關係方面具有廣泛的應用價值。通過深入探索和運用相關分析,我們可以為共享單車行業的決策和發展提供更為可靠的數據支持。
直方圖
多元線性回歸
在回歸分析中,如果有兩個或兩個以上的自變量,就稱為多元回歸。 計算公式:
使用最小二乘法來估計回歸係數
假設我們要探究共享單車需求與天氣條件、時間和地理位置之間的關係,可以利用多元線性回歸模型來分析這些因素對共享單車需求的影響。
上述代碼首先創建了一個數據框data,其中包含了三個自變量:天氣條件、時間,以及一個因變量:共享單車需求。然後利用lm函數建立了一個多元線性回歸模型。最後,通過summary函數輸出回歸模型的摘要信息,包括回歸係數、顯著性水平、擬合優度等指標。
模型評估
R-square 擬合優度,又稱為可決係數(coefficient of determination)是指回歸直線對觀測值的擬合程度.
關於分析師
在此對Shuli Wang對本文所作的貢獻表示誠摯感謝, 她在上海大學完成了信息管理學位,專注數據採集、分析領域。擅長R語言、Python。
最受歡迎的見解
1.R語言多元Logistic邏輯回歸 應用案例
2.面板平滑轉移回歸(PSTR)分析案例實現
3.matlab中的偏最小二乘回歸(PLSR)和主成分回歸(PCR)
4.R語言泊松Poisson回歸模型分析案例
5.R語言混合效應邏輯回歸Logistic模型分析肺癌
6.r語言中對LASSO回歸,Ridge嶺回歸和Elastic Net模型實現
7.R語言邏輯回歸、Naive Bayes貝葉斯、決策樹、隨機森林算法預測心臟病
8.python用線性回歸預測股票價格
9.R語言用邏輯回歸、決策樹和隨機森林對信貸數據集進行分類預測