Clouderaの提供しているAMIはバージョン1(CDH1)から3(CDH3)まであるのですが、それぞれ梱包されてあるHadoopとその上モノのHive, Pigのバージョンは異なります。
| CDH Release | Hadoop 0.18 | Hadoop 0.20 | Hive | Pig |
|---|---|---|---|---|
| CDH1 | hadoop_0.18.3-6cloudera0.3.0 | N/A | hive_0.3.0-0cloudera0.3.0 | pig_0.2.0-0cloudera0.3.0 |
| CDH2 | hadoop-0.18.3+76.2 | hadoop-0.20.1+169.56 | hive-0.4.1+14.4 | pig-0.5.0+11.1 |
| CDH3 | N/A | hadoop-0.20.2+228 | hive-0.5.0+20 | pig-0.5.0+30 |
CDHは常にupdateしていて、現在の最新リリースであるCDH3も2010年5月5日現在ではテスト版扱いですが、これもじきにStable版としてリリースされることになるかと思います。
さて、そうるとClouderaのAMIを使っていて、特定のバージョンに上げたい、というのは結構自然な流れかと思います。このとき、バージョンを上げる流れとしては次のような流れになります。
- Hadoopとその上モノであるHive, Pigなどをパッケージ管理ツールを利用して全てアンインストール。
- パッケージ管理ツールのレポジトリを追加
- パッケージ管理ツールを利用してHadoopをインストールし直し
- パッケージ管理ツールを利用してHive, Pigなどをンストールし直し
要するに、全ソフトウェアのバージョンをまとめて上げるのではなく、Hadoopかまたはそれ以外の特定のソフトウェアについて、パッケージ管理ツールを利用してバージョンを上げる、ということが可能になります。このとき、Hadoopについては新たに設定項目がかなり多かったり、AMIを作りなおさないと試すことができなかったりと面倒なことが多いのですが、逆にHiveやPigなどHadoopの上モノについては、AMIを作り直すこともなく、その場でバージョンを上げることも結構簡単にできます。
たとえば、HiveのバージョンをCDH1→CDH2に上げる場合は次のような手順で可能です。
まず、既存にインストールされてあるHiveをアンインストールします。たとえばFedoraベースの AMIの場合は、パッケージ管理ツールとしてはyumを利用することが可能です。
yum remove hadoop-hive
次に、CDH2用のyumのレポジトリを追加します。あとえばCDH2用のレポジトリを追加するときは、こんなかんじ。CDH3用のレポジトリを追加したい場合は、URLの最後をcloudera-cdh3.repoに変更ください。
cd /etc/yum.repos.d/ wget http://archive.cloudera.com/redhat/cdh/cloudera-cdh2.repo
これで、最新のパッケージを扱える状態になりました。ここでHiveだけCDH2仕様のver0.40系にしてみましょう。
yum -y install hadoop-hive
これで、0.40.xのHiveがインストールされました。また、設定ファイル(/etc/hive/conf/hive-site.xml)は、オリジナルのものに戻ってしまっているので、適宜直しておきましょう。ぼくは以下の箇所を変更、追加しました。
- javax.jdo.option.ConnectionURL
- javax.jdo.option.ConnectionDriverName
- javax.jdo.option.ConnectionUserName
- javax.jdo.option.ConnectionUserPassword
いかがでしたでしょうか?Hiveについては、アップグレードは非常に簡単だったかと思います。同じように、PigについてもHadoopの上モノなので同様の手順でアッグレード可能になります。これなら割と気軽にバージョン上げたりパッチ当てたりなんかもできそうですね。
また、Hadoop本体のアップグレードについても、次回は挑戦してみたいと思います。
Google Adsense
Social bookmark comment : 0
No comment.
Comment : 0
Trackback : 0
- TrackBack URL for this entry
- http://blog.katsuma.tv/mt-tb.cgi/221
- Listed below are links to weblogs that reference
- ClouderaベースのAMIのHiveのバージョンを上げる方法 from blog.katsuma.tv
2010/05/06 (Thu)