數據分享|R語言逐步回歸模型對電影票房、放映場數、觀影人數預測可視化

2023-11-22     tecdat拓端

原標題:數據分享|R語言逐步回歸模型對電影票房、放映場數、觀影人數預測可視化

全文連結:https://tecdat.cn/?p=34335

原文出處:拓端數據部落公眾號

本文通過利用回歸模型幫助客戶對電影的票房數據(以及放映場數,觀影人數)進行了研究,確定了決定電影的票房的重要因素。並講述、論證了預測電影的票房是電影投資的至關重要的環節。通過對電影票房預測技術的發展和探討,深度剖析了電影票房預測這個研究課題。

數據描述

我們收集了中國電影發行放映協會統計的過千萬票房的國產電影的相關統計指標,共涉及275部影片。

數據瀏覽:

因變量為:

放映場數(千場):累積量。

觀影人數(萬人):累積量。

票房(萬元):累積量。票房均值在一億人民幣左右,其中《人在囧途之泰囧》票房達到了12.7億,位列第一。

自變量為:

•影片部分

genre 影片類別:分類變量,共有15個類型。為了獲得大量的觀眾群體,大多數影片都兼具許多種影片類型,因此我們僅選取了該片最主要的類型。15個類型分別是:喜劇,魔幻,動作,愛情,災難,歷史劇情,勵志,主旋律,警匪,懸疑,動畫,兒童,驚悚,家庭倫理。

Year 上映年份:2010-2013四年

month 上映月份:1-12

week 上映周數:1-53,從當年1月1號起記為第一周

distribute 電影分級:C/G/L/S

runtime 時長:分鐘。過長或過短的電影都會對票房產生影響,找到合理的時長,從而能夠有效的控制電影的剪輯。

Story 作品是否改編 :該指標是電影產品的核心元素,在內容為王的當下,好的劇本往往能夠吸引受眾,對於國產影片,觀眾更看重的是好的故事,他們往往對國產影片的技術並不抱太大希望。因此,該指標主要包括兩個水平,一是暢銷小說改編成劇本1,另一個則是非改編劇本也就是原創劇本0。(N=改編,S=原創

reality 作品是否真人真事:1=真實,0=虛構

remake 作品是否翻拍:1=翻拍,0=非翻拍

sequel 作品是否續集:好萊塢的一大宗旨是誓將續集進行到底,真可謂天長地久有時盡,大片續集無絕期!因為第一,好拍;第二,票房好。那麼,在中國市場,這招是否仍然管用?

•導演演員部分

導演姓名

導演年代

第幾部作品:該片是該導演的第幾部作品。冠軍《人在囧途之泰囧》是導演徐崢的處女作,拿到了12億的票房,而喜劇《財神客棧》已經是導演王晶的第110部影片。老導演or新導演,哪一種更吸引人?是久煉成鋼,姜越老越辣?還是廉頗老矣,洗洗回家睡吧?

導演得獎情況:1=得獎,0=沒得獎

導演是否轉型:導演是一門確實能夠自學成才的工種,就像久病成醫,演的多了,拍的多了,自然也能成為優秀的導演。在中國電影市場中,演員轉型當導演的趙薇、徐崢;作家轉型的郭敬明、韓寒,我們希望看到已經在自己的領域取得成就的這些名人,隨著工種的轉變是否會對票房有影響。

Baidu index 主演的百度指數:影片的主演在分析中是一個字符變量,為了更好的使用這一指標,同時優化工作效率,我們決定在相同的時間段,選擇所有演員百度指數的平均值作為衡量主演的標準。因為大多數電影不會僅有一個主演,所以我們選取了兩個主演。百度指數越高,代表該演員知名度越高。

查看數據

該數據集有以下一些變量:

從上表可以看到不同變量的缺失數據均值中值最大最小值等情況和分布情況。

從直方圖來看,數據大致服從正態分布,說明數據可以進行回歸模型的建立。

模型建立

主要思路 為了準確的估計票房,了解電影票房的一般規律,更好為電影投資方提供參考意見,本文從電影票房和電影相關屬性出發,採用多元回歸分析方法,建立了線性回歸模型,得出了電影票房變動的影響因素. 具體分析步驟

1.描述性統計,初步查看每個變量的均數中值等數據.

2.選擇多項式回歸模型

2.1變量選取 通過回歸模型篩選出顯著性較強的變量進行回歸建模。

2.2顯著性檢驗 根據F值和p值統計量來判斷模型是否具有顯著的統計意義。

2.3擬合預測 使用得到的模型對實際數據進行擬合和預測。

3.擬合不同的模型。查看模型效果。

4.分析得出結論 得出各個自變量之間的關係,以及它們對因變量的影響及其意義。

(一)轉換數據,擬合多元線性模型

建立多元線性——票房

嘗試通過最直觀的解釋建立模型,進行多元線性模型並進行分析。

從全變量模型可以看出大部分變量無法估計出其參數,說明部分變量不適合用來預測票房,因此對其中的部分變量進行刪減後。得到篩選後的回歸模型。

顯示回歸結果

回歸結果分析

從輸出結果的變量sig值可以看出,導演的情況和是否有續集以及電影的時長對電影的票房有巨大的影響。 從變量的coefficient回歸係數來看,導演的情況和是否有續集有正相關關係。可以看到電影的票房和上映國家也有顯著的關係,在美國上映的電影票房較高,可以看到他們的回歸系p數在顯著性水平0.05下均顯著不為零。

殘差分析可以對回歸模型的假設條件即隨機誤差項是否獨立同分布進行檢驗,同時還可以找出離群點。 顯示結果如下:

由於模型中部分係數是不顯著,因此需要對模型進行改進,本文採用疊代回歸模型建模。

使用逐步回歸之後對模型進行殘差檢驗。下圖是殘差直方圖,從圖上可以發現, 所有點基本上是隨機地分散在0周圍,密度曲線近似為正態分布。右邊是正態pp圖,其意義與左邊類似;表明隨機誤差項是服從正態分布的,其原因是正態qq圖近似地可以看成一條直線;.

擬合效果圖形展示

以 原始數據作為x軸,回歸擬合值為軸作圖,在xy面上的點用直線連接見圖。

原始圖和擬合值的關係散點圖

由於大部分黑色的實際數據點被紅色的預測點覆蓋,因此,模型具有較好的預測效果。

進行多元線性模型並進行分析——放映場數

回歸結果分析

從輸出結果的變量sig值可以看出,和票房的回歸結果類似。導演的情況和是否有續集以及電影的時長對電影的演出場數有巨大的影響。 從變量的coefficient回歸係數來看,導演的情況和是否有續集有正相關關係。可以看到電影的票房和上映國家也有顯著的關係,在美國上映的電影票房較高,可以看到他們的回歸系p數在顯著性水平0.05下均顯著不為零。

回歸結果

殘差分析可以對回歸模型的假設條件即隨機誤差項是否獨立同分布進行檢驗,同時還可以找出離群點。 顯示結果如下:

由於模型中部分係數是不顯著,因此需要對模型進行改進,本文採用逐步回歸模型建模。

逐步回歸模型建模

使用逐步回歸之後對模型進行殘差檢驗。下圖是殘差直方圖,從圖上可以發現, 所有點基本上是隨機地分散在0周圍,密度曲線近似為正態分布。右邊是正態pp圖,其意義與左邊類似;表明隨機誤差項是服從正態分布的,其原因是正態qq圖近似地可以看成一條直線;.

左圖是殘差直方圖,從圖上可以發現, 所有點基本上是隨機地分散在0周圍,密度曲線近似為正態分布。右邊是正態pp圖,其意義與左邊類似;表明隨機誤差項是服從正態分布的,其原因是正態qq圖近似地可以看成一條直線;

擬合效果圖形展示

以 原始數據作為x軸,回歸擬合值為軸作圖,在xy面上的點用直線連接見圖。

原始圖和擬合值的關係散點圖

由於大部分黑色的實際數據點被紅色的預測點覆蓋,因此,模型具有較好的預測效果。

進行多元線性模型並進行分析——觀影人數

回歸結果分析

從輸出結果的變量sig值可以看出,和票房的回歸結果類似。導演的情況和是否有續集以及電影的時長對電影的演出場數有巨大的影響。 從變量的coefficient回歸係數來看,導演的情況和是否有續集有正相關關係。可以看到電影的票房和上映國家也有顯著的關係,在美國上映的電影票房較高,可以看到他們的回歸系p數在顯著性水平0.05下均顯著不為零。

回歸結果

殘差分析可以對回歸模型的假設條件即隨機誤差項是否獨立同分布進行檢驗,同時還可以找出離群點。 顯示結果如下:

由於模型中部分係數是不顯著,因此需要對模型進行改進,本文採用逐步回歸模型建模。

使用逐步回歸之後的模型進行殘差檢驗。下圖是殘差直方圖,從圖上可以發現, 所有點基本上是隨機地分散在0周圍,密度曲線近似為正態分布。右邊是正態pp圖,其意義與左邊類似;表明隨機誤差項是服從正態分布的,其原因是正態qq圖近似地可以看成一條直線;.

左圖是殘差直方圖,從圖上可以發現, 所有點基本上是隨機地分散在0周圍,密度曲線近似為正態分布。右邊是正態pp圖,其意義與左邊類似;表明隨機誤差項是服從正態分布的,其原因是正態qq圖近似地可以看成一條直線;

擬合效果圖形展示

以原始數據作為x軸,回歸擬合值為軸作圖,在xy面上的點用直線連接見圖。

原始圖和擬合值的關係散點圖

由於大部分黑色的實際數據點被紅色的預測點覆蓋,因此,模型具有較好的預測效果。

結論

通過以上分析可以明顯發現,面對良莠不齊的影片,通過集體智慧去粗取精,導演的情況和是否有續集以及電影的時長對電影的演出場數有巨大的影響,是一種幫助建立品位的電影體並作為生產者參考標準之一,他們直接影響電影公司對於導演、演員的選取。

最受歡迎的見解

1.R語言多元Logistic邏輯回歸 應用案例

2.面板平滑轉移回歸(PSTR)分析案例實現

3.matlab中的偏最小二乘回歸(PLSR)和主成分回歸(PCR)

4.R語言泊松Poisson回歸模型分析案例

5.R語言回歸中的Hosmer-Lemeshow擬合優度檢驗

6.r語言中對LASSO回歸,Ridge嶺回歸和Elastic Net模型實現

7.在R語言中實現Logistic邏輯回歸

8.python用線性回歸預測股票價格

9.R語言如何在生存分析與Cox回歸中計算IDI,NRI指標

文章來源: https://twgreatdaily.com/zh/d53071d898e38398604c7638a2db9812.html