はじめに
Qiita Advent Calendar12日目ですね。
12月の折り返しの時期といっても過言ではないかもしれません。
約2週間くらい記事を書いていると、伝わる文章の書き方に挑戦してみようと思ったり、
書きたいこと思っていることがスラスラ出てくるようになってきています。
記事を書くということは考えたことを文章に出すわけなので、そもそも考えている内容が論理的に破綻をしていると、
自分でも何を書いているのだろうと振り返れるわけです。
意外と、自分にとってプラスなことが多いと思います。
背景
昨日は、以下の記事を記載したわけなのですが、テキストマイニングを行いました。
Pythonのライブラリのインポートから行ったため、興味のある方は読んでみてください。
データの可視化に必要な順序
-
データ収集と前処理:
- 必要なデータを収集し、欠損値や異常値を処理
-
データの分析:
- データを理解し、どのような情報を引き出したいかを処理
-
適切な可視化手法の選定:
- データの性質や目的に応じて、棒グラフ、折れ線グラフ、散布図、ヒートマップなどの適切な可視化手法選択
-
データの視覚化:
- 選定した手法を用いてデータを視覚化
-
可視化結果の解釈と共有:
- 可視化したデータを解釈し、得られた洞察を共有:レポートやダッシュボードを作成
-
フィードバックと改善:
- 共有した結果に対するフィードバックを収集し、必要に応じて可視化の手法やデータの選定
データ可視化
1からやります。
・google spread sheetでテキストの分割
・データの分割(カンマ区切り)
2.はできています。
3.適切な可視化を探すために、様々に分析をしてみます。
Tableauを用いて、データ可視化について考えます。
作成できるグラフをすべて出力してみます。
Qiitaの規約で一番使用されている回数が多い名詞のクロス表
4.データの可視化
クロス集計表・棒グラフ・ヒートマップにしてみました。
5.可視化結果の解釈と共有
・データ可視化の結果
Qiitaの規約で多く使われている言葉の中で、
「利用」、「投稿」、「登録」、「使用」などユーザーの行動に用いられている動作
「当社」、「サービス」、「場合」、「利用」、「規約」など条件に関しての名詞
数字
2011 → 2024まで存在し、規約が更新されていそう。
6.今回のテキストマイニングの改善
テキストの数を計算しても、あまり有益な情報を得られていない。
簡単な解析しか行っていないため、情報の優位性はない。
ヒートマップが一番見やすいと感じた。
最後に
テキストマイニングを行うことができたが、それがデータの分析の活用にはいかせなかった。
もう少し考える必要がある。