Hyper nehanとは
Hyper nehanとは、nehanの一部の機能が大規模データに対応、なおかつ高速化したバージョンです。
ここではその威力と、サービスの構成についてご紹介します。
何が速くなるのか?
どのくらい速くなるのか?
8,000万行×14列(約5GB)のデータを用いて比較した例を紹介します。
下記のようなデータ量が大きくなると時間がかかる分析機能を例にとると、過去のXラージプランと比較し、約5〜10倍の高速化を実現しました。
なお、速度検証の詳細についてはこちらからご確認いただけます。
どうやって実現した?
これまで、nehanは全てpythonでデータ処理を行っておりました。
pythonは下記の通り、1仕事1人で処理を行うイメージです。
Hyper nehanでは、pythonに変わりSparkという技術を採用し、下記のように複数人で処理を行えるようにしています。
独自のスイッチ機能
これにより、処理を分担して行うことで、大規模データに対応・高速化が実現できましたが、全てのデータ量で優位、というわけではありません。
実は「分担」という作業自体にも時間がかかるため、小規模データにおいてはpythonで処理したほうが速いのです。
そのため、Hyper nehanでは
- 小規模データではpythonで処理する
- 大規模データではSparkで処理する
という自動スイッチの仕組みを採用しています。(データソースのみ一部が自動スイッチに対応しておりません)
また、機能ごとに、データ量と処理の仕方を鑑みて、AIがpython/Sparkどちらで処理するべきかを自動判定します。(※)
Hyper nehanの注意点
スケジュール機能を運用に用いた場合の注意点ですが、Spark構成の特徴上、実行時間がピタッと安定しません。
例えば、複数人で大規模データを処理する場合、実行時間が伸びる傾向があります。
※:AIの稼働は、データ処理ログが蓄積し次第順次搭載し、それまでは固定数値のしきい値で切り替えを実施します。