最近我們被客戶要求撰寫關於電影市場調查問卷數據的研究報告,包括一些圖形和統計輸出。
這是一份有關消費者對電影市場看法及建議的調查報告,我們採取了問卷調查法,其中發放問卷256份,回收有效問卷200份 ( 點擊文末「閱讀原文」獲取完整代碼數據******** )。
我們對數據 ( 查看文末了解數據免費獲取方式 ) 進行了基本分析,比如:相關性。還有基本圖形、回歸方差分析。最後模型比較。
相關視頻
拓端
,贊25
head(data)
str(data)
數據一共有200個樣本,25個屬性。具體屬性和取值及其含義如下:
繪製各個變量的餅圖可以看到基本人口信息的各個取值的所占的百分比。
點擊標題查閱往期內容
數據分享|數據視角可視化分析豆瓣電影評分爬蟲數據
左右滑動查看更多
01
02
03
04
基本統計量
數據的清理
#數據清理
對缺失值(NA)的處理
data=na.omit(data)
#變量篩選
colnames(data)
data=data[, -which(colnames(data) %in% c("填寫時間","是否星標","提交後隨機碼" , "是否已
基本數據分析,比如:相關性。還有基本圖形、回歸方差分析。最後模型比較。
數據檢驗
相關性
查看您對中國電影產業的發展建議和請問您看電影的主要目的是什麼變量之間是否具有相關關係
檢驗的結果是,由於P =0.016<0.05,因此在0.05的顯署性水平下,拒絕原假設,認為兩者之間具有相關關係。
下面進行方差分析
m1<-aov(Q12.您一般通過什麼途徑購買電影票~Q9.請問您看電影的主要目的是什麼,data=datacor)
由於p值大於0.05,從這個結果可以看出看電影的不同目下購買電影股票的差別不顯著。
由於p值小於0.05,從這個結果可以看出看電影的不同目下購買電影股票的差別不顯著。
從回歸模型的結果來看,可以看到接受電影票價格區間對被調查對象考慮的電影外在因素有比較大的影響,p值小於0.05,因此該變量對被調查者選擇去看電影有顯著的影響 。其次被調查者的年齡也有較明顯的影響,可以年齡和被調查者去看電影有較大的負相關關係,因此可以認為年齡大的人會傾向於考慮的看電影各種外在因素。
plot(model)
從回歸模型的殘差結果圖來看,殘差比較均勻地分布在0線周圍,和qq圖周圍,說明殘差隨機服從正態分布,因此,回歸模型具有較好的效果。
模型篩選與比較,使用逐步回歸進行模型篩選最優模型,然後和傳統的回歸模型進行比較。刪去不顯著的變量.
進行變量刪減後的回歸模型,我們得到最優變量是被調查者接受的電影票價格區間,p值小於0.05,說明該變量對被調查者考慮的外在因素有顯著的影響。
數據獲取
在公眾號後台回復「電影數據」,可免費獲取完整數據。****
點擊文末 「閱讀原文」
獲取全文完整代碼數據資料。
本文選自《R語言電影市場調查問卷回歸模型、方差anova分析可視化》。
點擊標題查閱往期內容
R語言用邏輯回歸、決策樹和隨機森林對信貸數據集進行分類預測
邏輯回歸(對數幾率回歸,Logistic)分析研究生錄取數據實例
R語言使用Metropolis- Hasting抽樣算法進行邏輯回歸
R語言邏輯回歸Logistic回歸分析預測股票漲跌
R語言在邏輯回歸中求R square R方
R語言邏輯回歸(Logistic Regression)、回歸決策樹、隨機森林信用卡違約分析信貸數據集
R語言對用電負荷時間序列數據進行K-medoids聚類建模和GAM回歸
R語言進行支持向量機回歸SVR和網格搜索超參數優化
R語言貝葉斯MCMC:GLM邏輯回歸、Rstan線性回歸、Metropolis Hastings與Gibbs採樣算法實例
在R語言中實現Logistic邏輯回歸
R語言邏輯回歸、Naive Bayes貝葉斯、決策樹、隨機森林算法預測心臟病
R語言用Rcpp加速Metropolis-Hastings抽樣估計貝葉斯邏輯回歸模型的參數
R語言邏輯回歸logistic模型分析泰坦尼克titanic數據集預測生還情況
R語言用lme4多層次(混合效應)廣義線性模型(GLM),邏輯回歸分析教育留級調查數據
R語言隨機森林RandomForest、邏輯回歸Logisitc預測心臟病數據和可視化分析
R語言基於Bagging分類的邏輯回歸(Logistic Regression)、決策樹、森林分析心臟病患者
R語言邏輯回歸(Logistic回歸)模型分類預測病人冠心病風險