老師，IDEA如何在本地運行和調試Hadoop程序？

2019-10-30 程式設計師聖經

作者：Tong ZHAN
來源：https://www.polarxiong.com/

前言

Hadoop可以運行在三種模式下：

單機模式
偽分布模式
完全分布式模式

相信初學者入門Hadoop的第一堂課就是偽分布模式Hadoop系統的安裝，相信一定是血淚史各種翻教程各種重裝。而實際上，基於Hadoop的MapReduce程序在單機上運行，並不一定需要安裝偽分布模式Hadoop系統，甚至，並不一定需要安裝Hadoop。

運行和調試MapReduce程序只需要有相應的Hadoop依賴包就行，可以完全當成一個普通的JAVA程序。本文就將介紹這種簡單方便的方法。

簡介

正如上文所說，在單機模式下，可以將MapReduce程序當成一個普通的JAVA程序；對比偽分布模式，其主要不足就在於沒有Hadoop的整個管理控制系統，如JobTracker面板，而只是用來運行和調試程序；而其優點就在於開發調試方便，編寫的程序通常不需要修改即可在真實的分布式Hadoop集群下運行。

Maven

Maven是一個項目管理工具，我們這裡主要用到的是它的依賴管理系統。通常我們在開發Hadoop MapReduce程序時，首先要下載對應版本的鏡像，然後加載鏡像中的JAR依賴包，開始編寫代碼。這個步驟說起來容易但經常會碰到錯綜複雜的依賴關係，而利用Maven就能輕鬆解決這個問題。只需要在Maven配置文件中指定Hadoop依賴包名字和版本號，Maven就能自動搞定這些依賴，你只需要專心寫代碼就好了。

Intellij IDEA

為什麼不用Eclipse呢？這裡沒有貶低Eclipse的意思，只是我認為Eclipse用戶體驗太差，而且各種操作過於繁瑣。Intellij用起來更順手，內置了Maven的支持，而且看起來似乎更有前景，就使用Intellij了。

環境要求

JDK 1.7（1.8似乎也可以，但Hadoop官方推薦1.7）
Intellij

不需要安裝任何模式的Hadoop。

WordCount

這裡以Hadoop的官方示例程序WordCount為例，演示如何一步步編寫程序直到運行。

新建項目

在Intellij中點擊File->New->Project，在彈出的對話框中選擇Maven，JDK選擇1.7，點擊Next。

接下來填寫Maven的GroupId和ArtifactId，隨便填，點擊Next。

然後是Project name，這裡填寫WordCount，點擊Finish。

這樣就新建好了一個空的項目，別著急，還有一個地方可能需要修改。打開Intellij的Preference偏好設置，定位到Build, Execution, Deployment->Compiler->Java Compiler，將WordCount的Target bytecode version修改為1.7。

配置依賴

新建項目後，在Intellij左上方會有項目文件結構，雙擊以編輯pom.xml，這就是Maven的配置了。

添加源

pom.xml初始內容如下

在project內尾部添加




apache
http://maven.apache.org

添加apache源。

添加依賴

這裡只需要用到基礎依賴hadoop-core和hadoop-common；如果需要讀寫HDFS，則還需要依賴hadoop-hdfs和hadoop-client；如果需要讀寫HBase，則還需要依賴hbase-client。

在project內尾部添加

這裡hadoop-core的version一般為1.2.1，hadoop-common的version可以依照你的實際需要來。

修改pom.xml完成後，Intellij右上角會提示Maven projects need to be Imported，點擊Import Changes以更新依賴

附上完整的pom.xml

WordCount

在src->main->java下新建一個WordCount類，添加內容

此代碼來自Hadoop官方教程，出處見參考。

配置輸入文件

WordCount對輸入文件字符進行計數，輸出計數的結果。首先需要配置輸入路徑，這裡在WordCount下（src同級目錄）新建一個文件夾input，並添加一個或多個文本文件到input中，作為示例。

這裡還有一件事情，點擊File->Project Structure，在彈出來的對話框中選擇Modules項，點擊Sources選項卡，將Language level調整為7。（如果你用到版本控制的話，可以在這裡將input文件夾標記為Excluded。

配置運行參數

這裡我們需要配置此程序運行時的Main class，以及WordCount需要的輸入輸出路徑。

在Intellij菜單欄中選擇Run->Edit Configurations，在彈出來的對話框中點擊+，新建一個Application配置。配置Main class為WordCount（可以點擊右邊的...選擇），Program arguments為input/ output/，即輸入路徑為剛才創建的input文件夾，輸出為output。

運行和調試

運行

上述配置完成後，點擊菜單欄Run->Run 'WordCount'即開始運行此MapReduce程序，Intellij下方會顯示Hadoop的運行輸出。待程序運行完畢後，Intellij左上方會出現新的文件夾output，其中的part-r-00000就是運行的結果了！

由於Hadoop的設定，下次運行時務必刪除output文件夾！

調試

斷點調試也很容易，在需要設置的代碼前單擊加上斷點，點擊菜單欄Run->Debug 'WordCount'即開始調試，程序會在斷點處停下。

Windows下的權限問題

Windows下運行可能會出錯，提示

ERROR security.UserGroupInformation: PriviledgedActionException as ...

這是因為當前用戶沒有權限來設置路徑權限（Linux無此問題），一個解決方法是給hadoop打補丁，參考Failed to set permissions of path: tmp，因為這裡使用的Maven，此方法不太適合。另一個方法是將當前用戶設置為超級管理員（「計算機管理」，「本地用戶和組」中設置），或以超級管理員登錄運行此程序。

不過我覺得最好的解決方法是在Linux或macOS上跑hadoop。

小結

上面描述的步驟有些多，但邏輯上都是很清晰的，有過一次經驗以後就之後就容易多了，主要就是在pom.xml的配置和運行參數的配置上。刪除WordCount程序的運行不需要任何的Hadoop開發環境，並且依賴問題全部交給Maven解決了，怎麼樣？是不是非常簡單？

DEMO

本示例程序代碼放在Github上，參見zhantong/Hadoop-WordCount。

https://github.com/zhantong/Hadoop-WordCount

老師，IDEA如何在本地運行和調試Hadoop程序？

為什麼不推薦使用存儲過程？

一文搞懂 Java 中的枚舉，看完都懂了

web容器是如何解析http報文的

95後的小鮮肉是如何自學成才？這裡有份必備的入門資源

面試題：SSH 和 SSM 兩個框架的淺顯的區別？

談談中間件開發，給想從事中間件開發的同學

一文帶你入門區塊鏈

阿里校招回憶錄（已成功拿到offer）

為什麼大多數人在Windows上的安裝git flow會失敗？

假如生活欺騙了你，不要悲傷不要心急《代碼大全》會一直陪伴著你

小李，快看看這位大佬的算法之路，寫得真心不錯...

程式設計師，如何在編程面試中脫穎而出？

Spring 最常用的 7 大類註解，史上最強整理

Java Web項目發布，伺服器部署（完整版）

女票沒有代碼好？程式設計師：我們不一樣，我們不一樣

什麼是整潔的架構

詳細講解 Redis 的兩種安裝部署方式

潘石屹開始學Python了！他還買了這些書，網友：作秀麼？

牛逼哄哄的ELK日誌分析系統，搭建起來也沒有想像中的那麼難啊

一個埠沒關，我得伺服器被黑到系統崩潰，看我怎麼找回數據

漫畫：如何用Zookeeper實現分布式鎖？

「解惑」Java 代碼執行原理

來一份MySQL索引數據結構及優化清單

你的代碼要被存在北極1000年！GitHub啟動代碼永久存儲計劃