この記事はClassi Advent Calendar 2018 2日目の記事です。
ClassiのAI室でデータサイエンティストをやってる@tetsuroitoです。
私は今年の5月からJoinして、教育業界のデータサイエンスを推進しています。
所属するAI室も今年の6月から新設された部署で、新たなテクノロジーの技術検証を行ったり、社内のデータ基盤構築や活用推進を行っています。
データ活用推進の施策の一環としては、過去に公開された記事もあるので、良ければ目を通してみてください。
データサイエンティスト発 “COCKPIT PROJECT” 〜ユーザーを乗せたClassiを正しい方向へ導くみんなの操縦室〜
さて、これとは別に私が社内の技術啓蒙活動の一環として行っているAI通信
の取り組みを紹介します。
これまでAIや人工知能などは全く関わりのなかった社員も多く、それらの現状把握があまりできていないと感じた私は、AI通信と題して社内の情報共有ツールに毎週AI関連の記事を書いています。現在では、少し頻度を落として隔週での刊行となっています。
AI通信は、その週のAI関連のピックアップ記事を3~4本を選定し、3行まとめと私の所感を記載して紹介しています。他にも関連イベントのレポートや他の社員の寄稿などでも構成されていますが、本論とは趣旨がずれるので割愛します。(最近では寄稿者を1名増やして2名体制で更新していますが、それはまた別の機会にでも)
本記事では、この取り組みによって紹介した記事の中で独断と偏見の処理によって今年のAI of the Yearを選定してしまおうと企んだ記事となります。まずは紹介した記事の一覧を見てみましょう。
紹介した記事一覧
No | 号数 | タイトル | 3行まとめ |
---|---|---|---|
1 | 創刊号 | さらばAI、これからは「拡張知能」と呼ぶ時代がやってくる | - AIという言葉は「人間と機械は敵対するに違いない」という仮定に汚染されてしまった -「拡張機能」と呼ぶことでいまのAIを「人々のためによいことを行う道具」として捉えやすくする - AIのアルゴリズムが倫理的であるように学術機関や企業研究者は社内の倫理プロセスやガイドラインを設定している |
2 | 創刊号 | 世界のデータサイエンティスト、2,384チームが競った「Mercari Price Suggestion Challenge」―メルカリが機械学習活用のコンペを開催した狙いとは? | - メルカリが世界のデータサイエンティストが集う「Kaggle」というコンペサイトに出題して話題になった狙いを解説 - テーマはより精度の高い価格査定アルゴリズムを開発してください - 結果世界中の開発者や研究者に取り組んでもらえ、広報的にもアルゴリズム的にも採用的にもメリットがあった |
3 | 創刊号 | Firebase ML Kitで自作のカスタムモデルを使って料理・非料理画像を判定できるようにした | - GoogleI/Oで発表されたFirebase ML Kitを使って試した結果のブログ(TensorFlow Liteを使用) - ML Kitをアプリ実装するための導入までが書かれていて、丁寧で良い(ただしAndroid) - サンプルではうまくいかなったが、カスタムモデルを実装した流れをコードも込みで解説 |
4 | 創刊号 | "DeepLeaningで有名な有名な東大 松尾研がPRMLのスライドを公開 | - コンピューターサイエンスを専攻する学生が一度は必ずぶつかる教科書がPRML - 正式名称はパターン認識と機械学習でPattern Recognition and Machine Learningの略 - 東大松尾研で輪読会をした発表資料が詰まっており、この分野をちょっと覗いてみたい人はチラ見をオススメ |
5 | Vol.2 | 「説明できること」の先にある科学の未来:伊藤穰一 | - 人間は直感的に物事を理解できるが、現在のAIは統計的な機械学習に依存しており、それができない。 - 統計モデルに完全に欠けているもののひとつが、データの中身の理解である。専門家は無意識である直感をそこまで重視していない - 直観モデルを学習できる機械を開発できたら、「説明できることの特異点」に達し、新たな科学の未来があるだろう |
6 | Vol.2 | 人工知能で処理←実は人海戦術、偽AI企業が蔓延する理由 | -「人工知能(AI)」サービスはコンピュータでない、ありきたりな人工でない知能のケースがありえる - アマゾンのクラウドソーシングであるメカニカルタークを使って、人間を安く使って提供しているケースもある - 新たなアイデアをすぐに試すには有効だが、顧客との信頼関係を損なう危険もある |
7 | Vol.2 | Netflixが「住所や年齢」を必要としないたった1つの理由 | - コンテンツビジネスのキモはレコメンド機能でサブスクリプション型ビジネスのNetflixはこの技術にかなり投資している - 多くのwebサービスは年齢などの属性情報やアンケートなどの心理情報を取りたがるが、視聴傾向と無関係なのでそれは扱わない - 「とにかく集める」のではなく、「なぜ集め、どう使うか」を考えることが重要だ |
8 | Vol.2 | AIが見つけた、埋もれたQiita良記事100選 | - Qiitaのいいねがたくさんついた記事を優良と定義して、そんなに注目されてないけど、良記事と判定された記事を公開 - Doc2Vecという文章間の距離を定量化するモデルで良記事や単語の近いものを選定 → 失敗 - K-meansというクラスター分析の手法で良記事に近いものを選定 → 成功 |
9 | Vol.4 | 文章の「自動要約ツール」、ユーザーローカルが無償提供 | - 入力した文章から重要部分を取り出して要約するツールの無償提供を開始 - 要約したい文章をアップすると、文章構造を分析し、特徴語や重要文を自動抽出する。重要語の抽出は「LexRank」を使用 - マーキングやヒートマップ、モノクロ強調で視覚的な表示に対応。また、3,5,10行要約が可能 |
10 | Vol.4 | 人の流れをAIが学習 警視庁、隅田川花火で実証実験 | - 警視庁が隅田川花火大会でカメラの映像から、人数計測や移動予測を行う新システムの実証実験を行なった - 2年後のオリンピックに向けて効率的な警備部隊運用が課題となっており、そのための実証実験 - 今回は学習をメインに行い、将来的にはプライバシー配慮をしつつ、不審者の特定などを行う |
11 | Vol.4 | 居眠りさせないオフィス開発へ まぶた監視→室温下げる | - NECとダイキン工業が生産性向上を目的に研究。NECが顔認識技術を生かし、まぶたの動きを監視。ダイキンはその際のエアコン制御技術で協力 - パソコンの画面につけたカメラでまぶたの動きを監視。動きの変化により眠気を感知するとエアコンの温度を下げて目覚めを促す仕組み - 生産性向上の研究から、部屋の気温や明るさ、においなどを変えると眠気が減るかどうかを調べ、部屋の温度を下げるのが最も効果的だとわかった |
12 | Vol.5 | 人工知能を制作してわかった「人間の条件」 | - 「知能とは何か」に定義がないので、人工知能にも定義がない。哲学はそんな人間探求をずっと行ってきた - 1960年代から人工知能の大きな未解決問題として、無限の世界から、有限の問題を定義する知的能力がないフレーム問題がある - 西洋の知恵を東洋の実践的体験知を組み合わせ、哲学探究によって開拓された土壌がそのまま人工知能の土壌になる |
13 | Vol.5 | 集合データを学習するモデルの紹介 | - 近年、集合データを扱うモデルの研究が行われ始めており、記事ではコーディネートを集合データとして扱う問題設定をする - 先行研究ではデータをペアに持たせ評価する方法やカテゴリに順序ラベルをつけ、それをLSTMにかけて評価することをやったが、集合データを扱えていなかった - permutation invariantとpermutation equivariantの2つの場合のネットワークを紹介し、PyTorchの実装例を紹介した |
14 | Vol.5 | 我が国の未来に向けたリソース投下の現状と課題 | - 落合陽一さんと小泉新次郎さんの企画の平成最後の夏期講習の中でYahoo安宅さんがプレゼンした資料です - 様々な調査データをふんだんに利用し、国のリソース配分が適切になされていないという事実を明らかにしていきます - 将来の投資への振り分けと現状のインフラ維持コストの高さにより、都市集中型の未来しか描けない現状に問題を提起しました |
15 | Vol.5 | 遺伝的アルゴリズムを使って「学校の間取り」を考えたらどうなるのか? | - 遺伝的アルゴリズムを使って間取り図を最適化する「Evolving Floor Plans」の一環でサイモン氏が学校の間取りを最適化した - 「移動するときに混雑しないこと」、「避難経路を最小距離にすること」、「窓を設置すること」などのテーマに沿って表現 - 様々な環境要因を考慮して間取りの最適化ができる反面、変な方向に学習してありえない答えを出すこともあるので、人のチェックは必要 |
16 | Vol.6 | 機械学習を用いてユーザーのご意見分類業務を効率化した話 | - ユーザーからの意見の分類をスタッフがやっていたが、大変なので機械学習で分類した - 100カテゴリ以上の多クラス分類かつ不均衡データの問題であり、モデル化はなかなか難易度が高かった - 実際に業務に適用したら工数を半分も削減することができた |
17 | Vol.6 | 英ディープマインド、AIで目の疾患検出 熟練医並み | - 「AlphaGo」を作ったGoogle傘下のDeepMind社が目の疾患を熟練専門医師と同程度に検出できるシステムを開発 - 2016年に英国民保険サービスと一緒に取り組み、数千の目のスキャン画像を学習し精度を向上。判断の妥当性にも配慮し、AIがどういった経緯で診断を下したかも説明できる - 今後は臨床試験の実施を進め、実際の医療現場での活用に向けた認可の取得を目指す |
18 | Vol.6 | 人間の「無意識の偏見」がAIに与える負の影響とは何か | - AIはどのハイテク企業にとっても重点分野だが、グーグルはAIの製品化にあたって「全員が使える」を指針としている - GoogleはAIを何に使うか、あるいは使わないかを明確にしようとした「AI Principles」を発表した - AIの実装に偏見は入れてはいけない。人間中心で良心に基づいたAIにする必要がある |
19 | Vol.7 | 勘違いした意志決定をなくすには結局AIなのか、4つの事例から | - AIへの過剰な期待が大きく、少しでも失敗すると失望されるが、人間側のミスの可能性がある。それがデータバイアスの問題 - アルゴリズムは公平な判断を下すが、そのための学習データを人間の先見性というバイアスで歪めてしまう - AIの限界を意識して意思決定するのはOK。別の文脈で倫理問題もあり、その観点でも大事 |
20 | Vol.7 | AIりんな、歌の上達は驚異的。人のように歌う仕組み、ボカロとの違いとは? | - りんなは共感を集めるAIになるためにnana musicと組んで歌を歌うプロジェクトを行なっている - 一般的な音声の波形分析ではなく、人の声真似をDeepLearningモデルを通して行っている - nanaで一般のユーザーとコラボレーションし、それを学習、どんどん精度が向上している |
21 | Vol.7 | 個人データの企業利用の実態を調査--個人情報保護委員会が公開 | - 2017年5月の個人情報保護法の改正で「匿名加工情報制度」が導入され、今回、活用状況の調査結果が公表された - 個人データの利活用は25%、利用データは「統計情報」がよく使われ、用途別では「匿名加工情報」「個人情報」も利用されている - 情報漏えいリスクの軽減、手続きの簡略化のメリットがある一方で、よくわからない回答も一定数ある |
22 | Vol.7 | 憶測で失敗しないためのパーソナライズ戦略 | - ユーザーの来訪時の期待値は高く、Webサイトのパーソナライズは、ユーザーの関心を効果的に集める方法 - 質の低いパーソナライズは体験を阻害するので、綿密に計画し、継続的にテストを行い最適化する必要がある - 注意点をきちんと認識し、適切な機能、画像、コンテンツをパーソナライズし、体験を最適化する |
23 | Vol.8 | AIは未来を予測しない。いまを映す「鏡」である:伊藤穰一" | - MITが反社会的なAIサイコパス「ノーマン」を開発し、機械学習でアルゴリズムを生成する際にデータがどれだけ重要な役割を果たすかを実証 - AIは様々な用途で利用され、客観的なリスク評価が可能。それを用いて、世のなかのひずみを映し出し、社会を批判的に見つめ直すべき - これらを避けるためには「偏りのない」システム作成よりも先に、ものごとの因果関係を理解することに努めるべき |
24 | Vol.8 | データサイエンティストは育成して囲い込む | - データサイエンティストは異なる種類のデータを必要に応じて組み合わせ、解釈をして、素早く正しい意思決定をするための根拠を作り出す - データサイエンティスト協会が定義したスキルマップがあり、滋賀大学ではそのような人材を育成している - 業界課題として、人材育成が課題となっている |
25 | Vol.8 | あなたたちは、本当に「AI開発プロジェクト」をやる気があるのか? | - AIをやりたいと呼ばれても、「課題がない」、「データがない」、「理解がない」で進まない - AIに対して過度な期待を抱く人が多いのは、多くのビジネスパーソンが「業務をプロセスで考えられない」という点も関係する - どうしてもプロジェクトを進める場合は、「じゃあ3回失敗しましょう」とクライアントに話すという |
26 | Vol.8 | Dropboxが匿名データを研究目的で大学に提供、その倫理的な是非 | - Dropboxが匿名加工した16000人のデータを研究者に提供。事前に同意は取っていなかった。その物議を醸した是非を問う - 個人情報度合いの高い研究にはインフォームドコンセント(十分な情報を伝えた上での相手の同意の取得)が重要 - 今回の研究が具体的にどんなサービス向上になるかは不明だが、Dropboxはよりよい機能をデザインするのに役に立つと説明 |
27 | Vol.9 | Googleの‘Dataset Search’サービスで科学者やジャーナリストがデータの発見と理解を強化 | - Googleが9/5に"Dataset Search"を発表。研究者やジャーナリストのデータ検索性を改善する - データセットのプロバイダーガイドラインで、彼らのデータを容易に見つけるためのデータや情報の提示の仕方を示唆している - これにより、さらなる業界の開発効率を上げる目的 |
28 | Vol.9 | AIや機械学習、データサイエンスの普及で生じる難題とは | - 人工知能や機械学習のビジネス適用が進んでいるが、今後はそれらの管理が問題となる - アルゴリズムの不規則な広がりやプロジェクト管理の問題、ベンダーの誇大な宣伝に起因するAI導入の消化不良の事例が今後まとまって出てくるかもしれない - AIのテクノロジーは、「次の10年にかけて事実上どこにでもある」ものとなる |
29 | Vol.9 | ユーザーが音声対話システムに「人間らしさ」を感じるポイントとは? | - Yahoo!音声アシストでは音声認識、対話処理技術をい活用して、よりよい体験のアップデートを行なってきた - (仕組み)発話 → サーバー処理 → 意味理解or別サービス情報取得 → 応答生成サーバー → スマフォに応答 - 雑談や歌を歌うなどの非タスク志向のコミュニケーションが成立すると人間味を感じる傾向が強い |
30 | Vol.9 | AIなのか愛なのか? 食における人工知能の可能性 | - Food Galaxyという取り組みで世界各地から集められたレシピデータを「ベクトル化」し、「食の世界地図」を作っている - 当初、AIにうま味の解釈は存在せず、それらを追加したものの、火加減などのバランス調整が難しい - ラタトゥイユと牛肉のミルフィーユわさび味で対決したら、驚きの発見があった |
31 | Vol.10 | なぜ日本は人工知能研究で世界に勝てないか 東大・松尾豊さんが語る“根本的な原因” | - 東大の松尾豊教授は、「日本は今のままでは世界に勝てない。その現実と向き合う所から始めないといけない」と主張 - 行政の政策や大企業の動きの遅さに対する不満を述べるより、自ら手を動かすべき - ビジネスの世界で勝った企業がアカデミックの世界でも勝つという因果関係なので、ビジネスで負けているのが一番大きな問題 |
32 | Vol.10 | Gartnerがデータ管理分野の「3つの新興技術」に注目、いずれも急速に普及が進む | - ガートナーの2018年データ管理のハイプサイクルにおいて、「DataOps」「プライベートクラウドdbPaaS(Private Cloud database Platform as a Service)」「機械学習(ML)対応のデータ管理」が初出 - 技術よりも提供プラットフォームの成熟が早く、ハイプサイクルの最後の段階である『生産性の安定期』に迅速に移行しようとしている - 機能向上がオンプレミスソフトウェアにも波及し、ML対応のデータ管理は今後数年間で急速に導入が進むだろう |
33 | Vol.10 | ディープラーニング/機械学習のビジネスフレームワーク「5D」 | - ディープラーニングや機械学習周りでの失敗事例が色々と聞かれるようになってきた - 導入に対する3つのフェーズを意識し、5つのDの関連部分を意識すべき - 自分のPhaseを知った上で、5Dでどこが足りていないのかを分析し、やるべきことを明確にしましょう |
34 | Vol.10 | 2025年までにAIと人間の「仕事量」が逆転、WEF予測 | - 世界経済フォーラム(WEF)によると、今後10年で職場の仕事はほとんど機械が実行することになるという - 人間は現在、仕事全体の約71%を担当しているが、今後7年間で負担は急速にシフトしていくという。 - 2025年までに7500万件の雇用が失われる一方で、新たな役割が1億3300万件ほど創出される可能性がある |
35 | Vol.11 | データ×人工知能活用の可能性は「エコシステム」が加速させる | - 2018年2月に「データフォレスト構想」を公表し、社外でもヤフーのデータから得られるインサイトを使ってもらおうとしている - SAPはデータを自由に使えるわけじゃないので、モデル化することに力を注いでいる - グローバルではこのようなマッチング事例が増えて来ている |
36 | Vol.11 | 人工知能開発は「儲けないと意味がない」 東大・松尾豊さんが見た“絶望と希望” | - 大学の2つの価値。「さまざまな分野の専門家が知的好奇心で動く研究の価値」「産業的・社会的なバリュー」 - 欧米に比べ、大学と産業界の連携は弱い。原因は日本の研究者はお金もうけの大変さを理解していない人が多いこと - 少子高齢化でさまざまな制度疲労が起きている、大企業がどんどん倒れている、という設定でハードモードをクリアしていくべき |
37 | Vol.11 | Google re:Work-ガイド:「効果的なチームとは何か」を知る | - Googleリサーチチームが社内のチームを定量と定性の双方のアプローチで効果的なチームを検証 - 真に重要なのは「誰がチームのメンバーであるか」よりも「チームがどのように協力しているか」である - それらの結果をもとにチームがアクションすることを手助けするツールを紹介 |
38 | Vol.11 | Googleが日本で複数のAI関連事業を立ち上げ、UNIQLOとパートナーシップも | - Googleはカンファレンスでいくつかアップデートを発表し、ユニクロらとの戦略的なパートナーシップを発表した - ファーストリテイリングは成長の加速化のためにGoogleのG Suiteや機械学習ツールを利用していきたいようだ - Ariakeプロジェクトにより、社員たちは、論理や判断、共感といった人間の特性を生かした意思決定ができるようになる |
39 | Vol.12 | ソフトバンク、「AI」研究する学生に給付型奨学金--最大で総額1億円 | - ソフトバンクが2019年4月からAIの学修・研究に取り組む学生を対象とした給付型奨学金プログラム「ソフトバンクAI人材育成スカラーシップ」を発表 - 募集対象は情報工学や情報科学、統計学などの分野において、AIに関する学修・研究に取り組む学生 - 同プログラムの目的はAIの導入により大きく変革する社会に対して、今後の各産業の発展を担う“AI人材”の育成に貢献すること |
40 | Vol.12 | 全てのプロダクトマネージャーが知っておくべき5つの機械学習の限界と対策 | - 機械学習プロジェクトはそれ自体が目的となってしまい、うまくいかないケースが海外でも多い - プロダクトマネージャーは事前にその機械学習プロジェクトの問題設定と解決したい問題を時間をかけて定義しておくべき - Facebookの人が主張した機械学習が役立つ7つの問題と5つの限界を紹介 |
41 | Vol.12 | 20代女性「カワイイ」のツボ ビッグデータで解剖 | - 消費者の購買行動を把握できるID-POSデータを使って小売店でのデータを細かく分析できる - 「チョコミントアイス」「オイデルミン」「透明飲料」を属性別に分析。定番の層と新たな層の発見でブームの説明が可能に - 今、世間ではどんなものが求められているのか。綿密に調査・分析したいときはID-POSデータが有効に活用できる |
42 | Vol.12 | 「ウェブの父」ティム・バーナーズ=リーが新プラットフォーム「Solid」を発表 | - GAFAがデータを独占している現状を打開するためにパーソナル・オンライン・データ・ストア(POD)のSolidを発表 - データの保存場所や「誰がどのような情報にアクセスするか」が完全にユーザーの手に委ねられ、許可を与えれば自分の持つデータを他の誰かと共有することが可能になる - 何かをユニバーサルにすることと、それを自分自身でコントロールし続けるということは、同時に行えません |
43 | Vol.13 | 「開発の丸投げやめて」 疲弊するAIベンダーの静かな怒りと、依頼主に“最低限”望むこと | - 17年ぐらいになると、AI開発を内製化する会社と外注する会社の二極化が始まった - 業務プロセスをAIに置き換えるようにしないとダメ。その逆ばかりが横行している - 結局、地道だけど人材の育成に取り組むしかなく、勉強し続ける気概、情熱が大事だ |
44 | Vol.13 | 汚部屋からもビデオ会議に出席できるプラグインで“働き方改革”後押し、「AI背景ぼかし」機能を搭載したサイバーリンク「PerfectCam」 | - サイバーリンク社の映像加工プラグインソフト「PerfectCam」新たに「AI背景ぼかし」機能を搭載することを発表した - ディープラーニングを使って人間の輪郭を抽出、AR技術を使って背景ぼかしを実現 - 機密性の高い情報のマスキングに対して効果があるはずだと同社は説明している |
45 | Vol.13 | ボストン・ダイナミクスの“ロボット犬”が、東京の建設現場で働き始めた | - ボストンダイナミクスが「SpotMini」の新しい映像を公開(東京にある竹中工務店の建設現場で稼働している様子) - 優れた歩行性能を示している - 楽しませてくれるロボットの映像は卒業。実用化の段階へと舵をきる |
46 | Vol.14 | "Preferred NetworksとPFDeNA、深層学習技術を活用しがん14種を判定するシステムの共同研究を開始 | - PFNとPFDeNAが国立がん研究センター協力のもと、深層学習技術を活用し、少量の血液で14種類のがんを早期発見する検査システムの研究開発を開始 - PFNは、計測されたExRNAの発現量と臨床情報を用いて、深層学習によって学習・評価・解析 - 2021年を目標に社会実装し、がんの早期発見・健康寿命延伸を目指す |
47 | Vol.14 | バイドゥが機械翻訳で新手法、「同時通訳」実現への道開く" | - バイドゥが、より自然でリアルタイムな機械翻訳の新手法を開発 - 従来は言語が違うと単語の並び方が違うので、「同時」翻訳システムの開発はこれまで一筋縄ではいかなかった - バイドゥの新しい手法は話者が文を話し終わる前に翻訳を始めることで、その遅れを短縮しようというもの |
48 | Vol.14 | AI業界の「中国脅威論」は本当か? —— 日本のAIベンチャーが米気鋭学者集団と組んだ理由 | - 産業界と学術界とで「AI分野の中国脅威論」には、見立ての違いがある - 処理をある種の数理モデルとして設計できる事象がすべて - AIで解決すべき課題を発見し、より強いアルゴリズムをつくり、使いこなした者(企業)が勝つ |
49 | Vol.15 | 岡山のスーパーが、膨大なデータを分析するワケ | - 岡山県津山市に本社を構えるスーパー「マルイ」が競合店出店をきっかけにBI導入を実施 - 以前はかなり劣っていたが、リアルタイムでデータを分析、PDCAを回したが、判断力が必要とわかった - 今では何でも見ることができ、活用もできるようになったが、どう活用して行くかの突破口を見つけないといけない |
50 | Vol.15 | 世界的に遅れているAI開発--原因はデータ不足? | - 現時点でのAI開発レベルは、世界的に見ても当初の期待よりも低いのが実情 - 主に原因は2点で「才能の不足」と「AI学習データの不足」 - 後者にはさらに4つの課題があり、これらを適切にリードする人材を獲得するところが大事 |
51 | Vol.15 | データサイエンティストたちのモデルの活用度を高めるGoogle CloudのKubeflowパイプラインとAI Hub | - Google Cloudが、KubeflowパイプラインとAIHubを発表。 - 目的は自分の作ったモデルをいろんな組織や企業で共通的に利用できるようにすること - モデルが汎用のビルディングブロックになり、実用される機会が増えるだろう |
52 | Vol.16 | 機械学習のシステムはときどき人間をびっくりさせる…学習内容に忠実なだけで | - 機械 の考え方を知るための楽しい資料で弱点や奇癖をまとめたスプレッドシート(英語)がある- ‘機械’は本当の意味で“考えて”いるわけではなく、いくつかのパラメーターと、進化という能力と目標を与えられ、アルゴリズムに忠実に従うため - 機械学習とは、機械が理解できるものだけを、学習しているのだから所詮、そんなものだ |
53 | Vol.16 | 時代に合わない教育が人工知能などがもたらす11兆5000億ドルの経済成長を阻む恐れがあると判明 -アクセンチュアが発表- | - 日本におけるリスキルの重要性は大きく、人材育成に失敗すると10年間で5,440億ドルの日本の経済成長が危機にさらされ、 GDPに毎年1.6ポイントのマイナス効果を与えるとの結果 - 高まりつつあるスキルの重要性は、高度な論理的思考、 創造性、 社会的知性、 センシング力。いずれも 実践や経験を通して習得されるもの - スキルとのギャップ解消に向けて次の3つのアプローチは、1,経験学習の加速化、2,組織ではなく個人に焦点を当てる、3,AI弱者に学習の機会を与える |
54 | Vol.16 | AIの本当の危険性、AIでまったく前進していない大きな問題 | - AIがまったく前進していない大きな問題は意図を共有すること - 機械は状況が変化したときに適応できないので、いつAIを信じるべきかを知ることが非常に重要 - 相手が知らないという前提に立って判断する |
選定方法
上記のように、テキストデータから前処理を行い、何かしらの情報量を算出して、それをベースにランキングを出そうと着想しました。
しかし
うまくいきませんでした。なので、独断と偏見で勝手に選びます。
せっかくなので、概観を眺めるために、記事のタイトルと3行まとめデータをテキスト処理してWordCloudにしてみたいと思います。処理にはR言語を使っています。
library(RMeCab)
library(tidytext)
library(dplyr)
library(stringr)
library(wordcloud)
## 分かち書き用の独自関数定義 Special Thanks y_mattu
mecab_wakati <- function(..., pos = "") {
res <- RMeCabC(...) %>%
unlist() %>%
.[stringr::str_detect(names(.), pos) == TRUE] %>%
stringr::str_c(collapse = " ")
if(length(res) == 0) {
res <- ""
}
return(res)
}
ai <- r_ai %>%
rowwise() %>%
mutate(wakati = mecab_wakati(text)) %>%
select(-text)
bow <- ai %>%
unnest_tokens(output = "word", input = "wakati",
token = stringr::str_split, pattern = " ")
bow %>% count(word) %>% anti_join(stop_word,c("word")) %>% with(wordcloud(word,n,max.words=100))
細かい説明は割愛しますが、1記事ごとにタイトル+3行まとめに要約した文書集合に対して分かち書きを行い、それらをトークン化します。そこから助詞や記号などの不要データをストップワードとして定義し、除去。
残ったワードをワードクラウドにしています。
アウトプット
AIというワードや機械学習などのトピックが多くみられるようですね。
今回記事をピックアップする際に心がけていたのは、AIや人工知能、データ活用に関連する記事でありながら、幅広いニュースを取り上げるように心がけていました。
例えば、新たな研究成果が出されたら、それを紹介したり、最近話題のAIに関する倫理や哲学に関する記事、また一般的なデータ活用の紹介事例など。
集めてみて感じたことは、1~2週間だけでも、対象となる母集団になり得る記事はたくさん書かれていて、それらを追いかけるだけでも非常に勉強になるということでした。
AI of the Year
というわけで、今年のAI of the Yearは
東京大学松尾先生のインタビュー
人工知能開発は「儲けないと意味がない」 東大・松尾豊さんが見た“絶望と希望”
に決定します!
やはり企業でも研究でも礎となる稼ぎがないとダメだという鋭い指摘はとても共感できました。
いやー、AIに関わる記事って本当に素晴らしいですね。
以上、AI通信の取り組みからAI of the Yearを選んだ件、終幕でございます。
明日はa.k.a. 猫型蓄音機 しんぺいさん(@Shinpeim@github)です。乞うご期待!