とあるメルマガに書いた原稿です。
2011年11月号(2011/11/17日発行)されたものです。
ここにも載せておきます。
Soliloquy of a Super Engineer (5) Doug Cutting Live in Japan 2 @ Thu, 17 Nov 2011
┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┓ ◆◇『スーパーエンジニアの独り言 第5回 “Apache HadoopとBig Data”』◇◆ ┗━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┛
今回の話題は「Doug Cutting氏の来日講演」の続編です。
Doug Cutting, Again
Doug Cutting 氏は "Apache Hadoop" の創造主です。彼の基調講演を拝聴した
(2011年9月1日)その様子をお届けします。講演当日の会場では所狭しとパイプ
椅子が敷き詰められ聴講者がひしめき合う満員御礼で、熱気立ち上がる中、プロ
ジェクターとDoug Cutting氏の勇姿を拝見しつつ、彼が発した言葉を一言も漏ら
さぬ覚悟でミミズが這うような字で手帳にひたすらメモを走り書きした次第です。
このメモを元に講演顛末の後半を書き起こします。
"Apache Hadoop: A New Paradigm for Data Processing"
Doug Cutting, Architect, Cloudera, Inc.
(講演されたスライドタイトル一覧は前々回のメルマガをご参照ください。)
Facebook、Twitter、Amazon、eBayといった錚々たるサービス企業でHadoopが
採用され、企業向けとしても適用が進んでいる実績がありますが、Hadoopを
『新しい基盤』と位置付けているポイントとして挙げたのは以下になります。
Hadoop as a New Infrastructure
◇ 「コモディティ化されたハードウェア」
◆ 「シーケンシャルファイルアクセス」
◇ 「シャーディング」
◆ 「オープンソースである」
Commodity
まず「コモディティ化」は、計算資源が劇的にコストダウンし、性能も大幅に
アップしている現象であり、これを活用するためには何千ものコンピュータに
スケール可能な(拡張性が柔軟である)仕組みが有効であるという事。
次に「シーケンシャルファイルアクセス」についてです。
その対極であるランダムアクセスはハードドライブのシークを発生することに
なりますが、ハード的にシークの時間は短縮しておらず「シークタイム=無駄な
時間」となります。シーケンシャルなアクセスとすることで無駄を省き実際の
操作に集中させる事ができるというのです。 例えばパッチシステムにすること
が挙げられます。
Sharding
「シャーディング」というのは、データベースを分割することです。
データベースを分割することで拡張性が生み出されます。
ここで重要なことが、信頼性を保証しながら(マニュアルではなく)自動化を
推奨していくことにあります。つまり、分割した上でのフォールトトレラント
環境が必要であり、不意のハードウェア故障にも対応できるようになります。
the Fuuture is Data
この講演は、 "the future is data" 将来への提示の話で締め括られました。
Web 2.0の教訓で「データが重要である」ことは言うまでもなく、加えて
沢山のデータを収集することが重要であることを繰り返して強調しています。
収集した生の大量データをシンプルなアルゴリズムで解析すれば良い
という主旨です。複雑なアルゴリズムにおける改良を繰り返すのではなく、
データを収集するのに注力した方が得策だとのことです。つまり、
必要なデータを全部集めることで、一番効率的な解析が行えるのです。
ビジネスにおいて、より多くのデータを集めて解析することが更なる改善
に繋げることに有効である、という示唆でした。
この命題は、新しい分散型データOSのカーネルとして「Hadoop」を利用する
ことで実現可能であります、というDoug Cutting氏の締めのお言葉でありました。
講演ではコアのHDFSとMapReduceやHive、Pigなど周辺コンポーネントの簡単な
紹介がありましたが、これはまた機会があればということにさせて頂きます。
The Yellow One Stands for Hadoop
因みに、彼は名前の由来であるHadoop(黄色い象のぬいぐるみ)と同伴していました。
講演後に聴講者と一緒に "Doug + Hadoop" で記念写真を撮られていました。
超高速スーパーコンピューターの登場を待つこともなく、大量のデータを
集めて分散並列処理を行うことが可能となる時代が到来しつつあります。
コンシューマサービスを生業とする大企業ではHadoopを活用していますが、
エンタープライズ適用ではトレーサビリティ一題と仮定しただけでも製造、
流通、食品、アパレル、あらゆる業界でビジネスを拡大させます。
ビッグデータ(Big Data)を扱う取り組みは既にトレンドになっているのです。
次回は、急速に浸透し普及が進む電子書籍の話題です。お楽しみに。