はじめに
弊社でデータ分析の話もあり、AWSとかインフラまわりをちょこちょこと調べていて備忘録も兼ねてまとめてみた。
AWS
データウェアハウスは、トランザクションシステムと基幹業務アプリケーションから取得したリレーショナルデータを分析するために最適化されたデータベースです。データ構造とスキーマの事前定義は、SQL クエリが高速になるように最適化されます。業務レポート作成や分析などには、通常、SQL クエリの結果が使用されるためです。データにはクリーニング、エンリッチメント、変換が実施され、信頼できる "単一の情報源" となるようにします。
データレイクでは、基幹業務アプリケーションからのリレーショナルデータに加えて、モバイルアプリケーション、IoT デバイス、ソーシャルメディアからの非リレーショナルデータも保存されます。データの構造やスキーマは、データをキャプチャした時点では定義されません。つまり、データの保存時には、慎重に設計する必要がなく、この先答えが必要になりそうな質問を把握しておく必要もありません。SQL クエリ、ビッグデータ分析、全文検索、リアルタイム分析、機械学習など、さまざまなタイプのデータ分析を使用し、インサイトを発見できます。
課題としては、
・データが溢れすぎて目的を失いがち。
・データのメンテナンスや整理整頓など定期的に管理が必要。
こんな声を見た。
たしかに目的を明確化しておかないと、ただただデータを持っているだけの沼になってしまいそう…。
あと、なんというか構築するのとかセキュリティ面とかいろいろ大変そう。
と、思ったらこんなのもあった。
金融サービス向けとかもある。なにがどう見えるのだろうか。
Amazon FinSpace は、履歴データでの作業も簡単にします。信用リスクを計算するモデルを構築したとしましょう。このモデルは利率とインフレ率に依存し、これらは頻繁に更新されます。顧客に関連付けられたリスクレベルは、インフレ率と利率が異なっていた数か月前のものであるため、現在は変わってしまっています。データアナリストがデータを現在の状態、および過去の状態で検証するモデリングは、bitemporal modeling と呼ばれます。Amazon FinSpace では、時間をさかのぼり、モデルが複数の次元に沿ってどのように進化しているかを比較することが容易になります。
おー!なるほど!なんだかおもしろそう!
他参考にしたもの。
5G
だけど、大容量データとか重たい処理するときにちょっと気になるのがネットワークの問題…。
そういえば、先週くらいに「5Gで遠隔医療操作ができるようになる」というニュースを見た。
通信が早くリアルタイム性がある5Gだからこそ成せるのだとか。
「既にあるWi-Fiネットワークでもいいのでは」という見方も出てくるだろうが、大規模な工場などの本格的なデジタル化を実現する上では、やはり5Gが持つ高い性能、とりわけ低遅延や多数同時接続といった特徴が重要だという声が多いようだ。それに加えて5Gはもともと広域で利用が想定されており、複数の基地局を設置して広いエリアをカバーするのが得意なことから、大規模な工場や倉庫、さらには港湾など屋外の広いエリアで利用する上ではWi-Fiより優位性がある。
費用が高額とかまだまだネックになるところが多そうで、どこでもだれでもすぐに使えるわけではなさそう。ただ、ネットワークの問題が解消されたら、出来ること見れることがより増えそう。まずは、スマホで体験してみたい…。
さいごに
本当はデータ分析に括らず、自動化ツールとかセキュリティとか気になるものをいろいろ調べていたが、時間の都合上そのまとめはまたの機会に…。
弊社では積極的に新しい技術を取り入れて、もっといいものを作っていこうと頑張っています。
物流、ロジテック、サービス連携、データプラットフォーム等に興味のある方、カジュアル面談もできますので、ぜひお話しできたらと思います。