目次

Hyper nehanとは

Hyper nehanとは、nehanの一部の機能が大規模データに対応、なおかつ高速化したバージョンです。

ここではその威力と、サービスの構成についてご紹介します。

何が速くなるのか?

どのくらい速くなるのか?

8,000万行×14列(約5GB)のデータを用いて比較した例を紹介します。

下記のようなデータ量が大きくなると時間がかかる分析機能を例にとると、過去のXラージプランと比較し、約5〜10倍の高速化を実現しました。

なお、速度検証の詳細についてはこちらからご確認いただけます。

どうやって実現した?

これまで、nehanは全てpythonでデータ処理を行っておりました。

pythonは下記の通り、1仕事1人で処理を行うイメージです。

Hyper nehanでは、pythonに変わりSparkという技術を採用し、下記のように複数人で処理を行えるようにしています。

独自のスイッチ機能

これにより、処理を分担して行うことで、大規模データに対応・高速化が実現できましたが、全てのデータ量で優位、というわけではありません。

実は「分担」という作業自体にも時間がかかるため、小規模データにおいてはpythonで処理したほうが速いのです。

そのため、Hyper nehanでは

  • 小規模データではpythonで処理する
  • 大規模データではSparkで処理する

という自動スイッチの仕組みを採用しています。(データソースのみ一部が自動スイッチに対応しておりません)

また、機能ごとに、データ量と処理の仕方を鑑みて、AIがpython/Sparkどちらで処理するべきかを自動判定します。(※)

Hyper nehanの注意点

スケジュール機能を運用に用いた場合の注意点ですが、Spark構成の特徴上、実行時間がピタッと安定しません。

例えば、複数人で大規模データを処理する場合、実行時間が伸びる傾向があります。

 

※:AIの稼働は、データ処理ログが蓄積し次第順次搭載し、それまでは固定数値のしきい値で切り替えを実施します。

この記事は役に立ちましたか?
はい いいえ
この記事は役に立ちましたか?
はい いいえ