Hadoop徹底入門
「Hadoop徹底入門」を読了した。差し当たってやらなそうなところはかなり読み飛ばしたけど。ちょっとHadoopについて調べたり、使ってみたりする必要があるので、買ってみた。
副題に「オープンソース分散処理環境の構築」とあり、著者の方が以下のように書いている通り、「Hadoop徹底入門」では環境構築に大きくページが割かれている。
オライリーさんのHadoop本は、どちらかと言えばHadoop上でMapReduceアプリケーションを開発する為の内容になっていますが、本書はどちらかというとシステムの環境構築、運用、監視、可用性の確保等といった内容がメインになっています。
「Hadoop徹底入門」が出ます : Preferred Research
またHadoopやMapReduceの原理や仕組みはしっかり解説されている。ただアプリケーション部分の説明がちょっと少ない。MapReduceのアプリケーションとしては、WordCountしか紹介されていない。Hadoopの動作原理を理解し、実行環境を作れるようにはなるけど、Hadoopを使ったアプリケーションを作るのは難しい。
というわけで、象本(オライリーのHadoop本)も買わないと。でもこの本がいまいちというわけではない。よい本だと思う。いまはHadoopをちょっと試しているという状態なので、今後本格的な環境を作るときにはかなり役立つと思う。
それにしてもHadoopを使おうとすると、いろいろな知識が必要になる。Linuxの知識は必須だし、MapReduceの概要をわかっていないと理解し辛い。つまりインフラとアプリケーション、両方の知識が必要になる。
だからこのあたりの本の内容をある程度理解しているいいかも。特に「Googleを支える技術」では、Hadoopの元となるGoogleのシステム(GFS/BigTable/MapReduce)について書いてあるので。
こういった分散処理環境が手軽に作れるのって、わくわくする。