More than 3 years have passed since last update.

[AWS Kendra]Slackをデータソースとして設定できるようになったのでやってみた

Posted at 2022-04-01

AWS Kendraとは

自然言語処理および高度な検索アルゴリズムを使用して非構造化データおよび構造化データを検索できるようにする、高精度でインテリジェントな検索サービスです

要するに自然言語で色々検索できちゃうよ〜〜〜っていうすごいやつです

今回行うこと

3/23にデータソースとしてSlackを設定できるようになったのでそちらを試してみたいと思います！

やってみる

事前準備

検索を行うSlackで適当にメッセージを送信しておく

今回は事前に、英語の適当な文字列,「AWS SAAの試験ガイド英語版のPDF」を送っておきました

Slackの設定

1.下記URLにアクセスして検索を行いたいSlackのURLを入力します
https://app.slack.com/apps-manage

2.ワークスペースの名前の左のビルドを選択

3.Create New AppしてFrom scratchを選択

4.AppNameを任意の名前を入力し、検索を行いたいワークスペースを選択してCreate Appを選択

5.左のメニューのOAuth&Permissionsを選択

6.User Token Scopesで下記のScopeを選択

channels:history
channels:read
groups:history
groups:read
im:history
im:read
mpim:history
mpim:read
team:read
users.profile:read
users:read
emoji:read
files:read
usergroups:read

![スクリーンショット 2022-04-01 10.31.12.png](https://image.docbase.io/uploads/31247fcd-1afd-45be-9570-35e418bfae07.png =WxH)

7.OAuth Tokens for Your WorkspaceのInstall to Workspaceを選択。その後の画面で許可する

8.User OAuth Tokenをコピーしておく

Slack側でやった設定のまとめ

SlackのワークスペースでUser Token Scopesに設定した権限を付与したユーザーを作成して
Kendra側でデータソースとして設定するときにそのユーザーを選択することでメッセージの取得ができるようになるという感じです

Kendraの設定

1.KendraにアクセスしてCreate an IndexからIndexを作成します(東京はまだないので注意)

2.下記の内容でNext

項目	値
Index name	test-kendra
Description	Using slack with kendra
IAM role	Create a new role
Role name	test-kendra-role

3.Configure user access controlInfoはデフォルトのままNext

4.Developer editionでcreate

※indexの作成には30分くらいかかるのでここでコーヒーブレイクなどを行っておいてください

5.作成したIndexを選択してAdd data sources、Slackを選択します

6.下記の内容でNext

項目	値
Data source name	test-kendra-slack
Description	source connector for slack
Language	English(en)

7.下記の内容でNext

項目	値
Slack workspace team ID	※xxxxx
Authentication	Create and add new sercret
Sercret name	AmazonKendra-Slack-slack-key
Slack token	User OAuth Token
Virtual Private Cloud (VPC)	No VPC
IAM role	Create a new role
Role name	AmazonKendra-test-kendra-slack-role

※workspace team idはslackをブラウザで開いたときにclientの右の文字列
下記の場合だと123455678がworkspace team id
https://app.slack.com/client/123455678/xxxxx

Select type of content to crawlでまとめて読み込むチャンネルを選択できます。
Public channelsならすべてのPublicチャンネルなどを選択します。
今回は1つのチャンネルのみなのでPublic channelsを選択して、Additional configuration (channels) - optionalを展開し、対象のチャンネル名を入力してAddを押します

Select crawl start dateはいつからのデータを読み込むかを設定します

それ以外の項目はデフォルトのままでSync run scheduleをRun on demandでNext

9.Set field mappingsはデフォルトのままNext

10.Add data sourceを選択します。選択すると30秒ほどで画面が切り替わります

11.しばらくするとCurrent sync stateがidleになります