こんにちは、サウナ熱波師を目指しながらSnowflakeの勉強中のアキコです!本日も私のブログにお越しいただき、ありがとうございます。
さて、最近は少しまずいかもと思うことがあります。というのも、今の職場を続けながら将来的にはサウナ熱波師に転職しようと考えているんですが、そのことが職場にバレたらかなり気まずいんです。どんな職場でもそうですよね。これはひっそり内密にすすめねばいけません。
今の私の仕事は「外国人の生活補助をするみんなのおかん」です。役所手続きや、生活相談や人生相談、そのたいろいろ。ほんまにいろいろです。いきなりメッセージで「Help me」と入ってきてドキーッ!なんてこともしばしば。
そんな私がいまsnowpro core取得を目指してることが職場にバレたらITの世界に飛び込もうとしてると間違いなく思われるやろうし、「違うんです、熱波師になりたいんです」と本当のことを言っても「なんやそれ」と騒がれそうです。
あと家の都合もあり、試験を受けに行くのも平日に有給を取って仕事抜けてこっそり行くしかないんです。
ということで、念には念をということであまり個人の特定に繋がるような内容は書かないようにします。いろいろとぼかしたり、省略したりすることも多いと思いますがそんな事情ですのでごめんなさい。
ちなみにSnowflakeの内容についてぼかしているのは、決して職場の気まずさのためではなく、たんに私の知識不足が原因です。
ところで、snowpro coerの試験に挑戦している方にはぜひおすすめのブログがあります!紹介する許可もいただけました(ありがとうございます)
SnowPro Core 合格体験記 [COF-C02] 効果的な勉強法を丁寧に解説
こちら素晴らしく詳しく丁寧な体験記で、試験対策のコツや実際に役立った勉強法が詳しく紹介されています。このリンクを見れば、あなたもわたしも試験勉強にもきっと大きなヒントが得られると思います。
Pistachioさん、ありがとうございます!
では本日は半構造化データについて勉強します。
以前のブログでお手上げ降参した話題ですが、自分なりに理解してみました。
構造化データ
半構造化データ
非構造化データ
のみっつ。
分かりやすく銭湯のロッカーに例えると
「構造化データ」は、きっちり整理された銭湯のロッカーのようなもの(と私は理解しました)。ロッカー内には細かく区切られた棚があり、メガネ置き場、上着、ズボン、着替えなど、どこに何を置くかが決められていて、必要なものをすぐに取り出せるようになっている感じです。まさに構造化。
「半構造化データ」は、名前の通り半分だけ構造化されてる。これは仕切りのない自由なロッカーをイメージしています。ロッカー自体はあるけれど、内部は自由で、どこに何を置いても良いので、大小さまざまな荷物を柔軟に収納できる状態です。大きなバッグをそのまま置いたり、大きめのサウナマットいれたり、小物をまとめて一緒に置いたり、何でもアリな感じです。ある意味、自由度が高いけど、整理が必要な場合にはちょっと工夫が要る感じです。
「非構造化データ」は、ロッカーそのものがなく(えっ!)、銭湯の利用者が床に直接荷物を置いているような状態。荷物が散らばっていて、何がどこにあるのかわからず、整理もされていないので、探すのが大変なイメージです。家に帰ってきて洗濯物を出そうとしたら、誰のかわからない靴下が混じっている、みたいな感じでしょうか。ひえー!
ざっくりイメージできたところで、snowflakeとしてはこれら3つのデータの形をどのように扱うのでしょうか。まず「構造化データ」。これはまさにsnowflakeのような仕組みが取り扱うのにもともとベストな形なので何の問題もなさそうです。
次に「半構造化データ」。これが前回私がギブアップしてしまった項目です。どうやら、半構造化のなかにもさらに種類があり、Snowflakeが扱える形式や特長があるみたいなんです。
たとえばJSON(ジェイソンと読む)という有名な形式があります。ジェイソンと聞くとわたしら世代は13日の金曜日とか思い出して怖い気持ちになっちゃいますが大丈夫。これは半分だけ構造化されたデータの形式で、ルールにのっとって扱えばSnowflakeでつかうことができます。ほかにもAvro(アブロ?)、ORC(オーアールシーー?)、Parquet(パーケイ?)などがありそれぞれルールがありそうです。
このあたりは試験で出そうなので暗記祭りかなと身構えてます!
最後の「非構造化データ」。そう、ロッカーのない銭湯に誰のものかわからない荷物が散乱した戦場。これもSnowflakeではデータとして扱えるようです。
ここのページに、かいてありました!「非構造化データには、画像、ビデオ、オーディオも含まれます。」つまりわたしら一般人がイメージする写真とかの「データ」は非構造化データってことがつながりました!
ということで3種類のデータについてざっくりと理解を深めることができました。いつもながら、これは私の理解ですので間違ってる内容とかあれば教えていただけると嬉しいです。あと、いいねつけてもらえると本当に嬉しいです!