Spark精華問答 | 為什麼選擇Spark作為流計算引擎？

總的來說，Spark採用更先進的架構，使得靈活性、易用性、性能等方面都比Hadoop更有優勢，有取代Hadoop的趨勢，但其穩定性有待進一步提高。我總結，具體表現在如下幾個方面。

Q：為什麼選擇Kafka去承擔類似數據總線的角色？

A：絕大部分是由於它簡單的架構以及出色的吞吐量, 並且與Spark也有專門的集成模塊. Kafka的出色吞吐量主要是來自於最大化利用系統緩存以及順序讀寫所帶來的優點, 同時offset和partition的涉及也提供了較好的容災性.

Q：為什麼選擇Spark作為流計算引擎？

A：主要是由於Spark本身優雅的RDD設計讓分布式編程更簡單, 同時結合Spark的內存緩存層也使得計算更快,而Spark對各種技術的集成與支持, 能夠使技術棧更簡單和通用, 也是選用它的一個重要原因. 而Spark的DirectKafkaInputDStream也提供了簡單有效的HA.

Q：Spark和Hadoop的操作模型區別

A：Hadoop：只提供了Map和Reduce兩種操作所有的作業都得轉換成Map和Reduce的操作。

Spark：提供很多種的數據集操作類型比如Transformations 包括map, filter, flatMap, sample, groupByKey, reduceByKey, union, join, cogroup, mapValues,sort,partionBy等多種操作類型，還提供actions操作包括Count,collect, reduce, lookup, save等多種。這些多種多樣的數據集操作類型，給開發上層應用的用戶提供了方便。

Q：spark Streaming 是什麼？

A：Spark Streaming是一種構建在Spark上的實時計算框架，它擴展了Spark處理大規模流式數據的能力。

首先，Spark Streaming把實時輸入數據流以時間片Δt （如1秒）為單位切分成塊，Spark Streaming會把每塊數據作為一個RDD，並使用RDD操作處理每一小塊數據，每個塊都會生成一個Spark Job處理，最終結果也返回多塊。在Spark Streaming中，則通過操作DStream（表示數據流的RDD序列）提供的接口，這些接口和RDD提供的接口類似。

正如Spark Streaming最初的目標一樣，它通過豐富的API和基於內存的高速計算引擎讓用戶可以結合流式處理，批處理和交互查詢等應用。因此Spark Streaming適合一些需要歷史數據和實時數據結合分析的應用場合。當然，對於實時性要求不是特別高的應用也能完全勝任，另外通過RDD的數據重用機制可以得到更高效的容錯處理。

Q：Spark streaming+Kafka應用

A：WeTest輿情監控對於每天爬取的千萬級遊戲玩家評論信息都要實時的進行詞頻統計，對於爬取到的遊戲玩家評論數據，我們會生產到Kafka中，而另一端的消費者我們採用了Spark Streaming來進行流式處理，首先利用上文我們闡述的Direct方式從Kafka拉取batch，之後經過分詞、統計等相關處理，回寫到DB上（至於Spark中，由此高效實時的完成每天大量數據的詞頻統計任務。

小夥伴們沖鴨，後台留言區等著你！

關於Spark，今天你學到了什麼？還有哪些不懂的？除此還對哪些話題感興趣？快來留言區打卡啦！留言方式：打開第XX天，答：……

同時歡迎大家搜集更多問題，投稿給我們！風裡雨里留言區里等你~

福利

1、掃描添加小編微信，備註「姓名+公司職位」，加入【雲計算學習交流群】，和志同道合的朋友們共同打卡學習！

Spark精華問答 | 為什麼選擇Spark作為流計算引擎？

@程式設計師，不要瞎努力！比起熬夜更可怕的是「熬日」

叮！這裡有一份雲端趴體邀請函

支持OpenStack，紅帽將開源進行到底

任正非卸任華為數位技術公司副董事長；谷歌雲伺服器上12億人信息泄露；美國禁止運營商用聯邦補貼買華為設備，華為回應：涉嫌違法……

只有程式設計師才能讀懂的三國演義（一）

新品速遞 | AppCenter 支持新計費模式&新增主機類型等新功能上線

三分鐘搞定你的深度學習開發環境，青雲QingCloud 上線推理引擎服務

青雲QingCloud 為本鋼核心業務上雲送來「定心丸」

為什麼嫁人就選程式設計師

沒有美支持，華為表示其5G仍能保持世界領先；谷歌發布補丁；微軟發布 SQL Server 2019 新版本……

美國爆料：量子計算機將如何顛覆一切？

恭喜你！在25歲前看到了這篇最最靠譜的深度學習入門指南

主動安全，新華三融合生態之力

媒體觀察｜下一個「10億賭約」，傳統企業怎麼贏？CIC 2019 全國巡展錦囊傾授

阿里雲開放國內首個雲端資料庫測試平台，雲已成為資料庫新標準；華為5G隨行WiFi發布；科大訊飛推出 AI 專用語音晶片系列……

聊一聊DNS劫持那些事

「當頭棒喝」你是真的了解雲計算嗎？

「舉栗子」Docker 容器磁碟占滿的幾種情況｜CSDN博文精選

這款耳機堪比千元級的AirPods

如果批評《說好不哭》不自由，則讚美周杰倫無意義

探秘HDFS——發展歷史、核心概念、架構、工作機制（上）｜博文精選

任正非採訪的數據分析解讀

「不吹不黑」詳解容器技術架構、網絡和生態

亞馬遜消費者業務宣布永久關閉 Oracle 資料庫，去O新進展；華為發布最新5G全系列解決方案；蘋果正研究新設備「智能戒指」……