More than 3 years have passed since last update.

Slackのメッセージ履歴を取得してcsvファイルに出力した話

Posted at 2023-01-09

はじめに

Slackの特定のチャンネルを対象に、投稿されたメッセージ履歴を取得→ファイル出力の方法を紹介します。
Slackにはエクスポート機能がありますが、ここで紹介するのは、エクスポート機能を使用せずにメッセージ内容を取り出す方法です。

SlackAPI

WebAPIを使用しました。
SlackAPIにアクセスして、APIを作成します。TOKEN取得までの流れは多くの人がまとめてくれているので、そちらを参考にしてください。

conversations.history

conversations.historyを使用してメッセージを取得します。ただし、単純にこれを使うだけではスレッドのメッセージを取得しないので、今回はデータ内のタイムスタンプを参照してスレッド返信を取得するようなコードを書きました。

Tokenに使用したスコープ

channels:history
channels:read
groups:history
im:history
mpim:history
users:read

Pythonでの実装

出力内容

メッセージタイプ(メッセージ or メッセージへのスレッド返信)
投稿者
投稿時刻
メッセージ内容

メッセージと、それへの返信は並べて出力する形にしました。

コード

import requests
import pandas as pd
from datetime import datetime
import urllib3
urllib3.disable_warnings()

def main():
    SLACK_CHANNEL_NAME = "出力ファイルの名前"
    SLACK_CHANNEL_ID = "チャンネルID"
    TOKEN = "取得したTOKEN"

    SLACK_URL_his = "https://slack.com/api/conversations.history"
    SLACK_URL_user = "https://slack.com/api/users.info" 
    SLACK_URL_rep = "https://slack.com/api/conversations.replies"
    SLACK_URL_mem = "https://slack.com/api/conversations.members"
    
    members_dict = get_members(SLACK_CHANNEL_ID, TOKEN, SLACK_URL_mem, SLACK_URL_user)
    msgs_all = get_message(SLACK_CHANNEL_ID, TOKEN, SLACK_URL_his, msgs_all = [], latest_ts = None)
    msgs_ls = get_msgslist(SLACK_CHANNEL_ID, TOKEN, SLACK_URL_rep, msgs_all)
    out_all = []
    out_all = get_outlist(out_all, msgs_ls, members_dict)
    
    output = pd.DataFrame(out_all, 
                      columns=['type','name', 'time', 'text'])
    output.to_csv(SLACK_CHANNEL_NAME + '.csv', encoding = 'utf_8_sig')

if __name__ == "__main__":
    main()

以下、main()で使用した各関数

get_members

def get_members(SLACK_CHANNEL_ID, TOKEN, SLACK_URL_mem, SLACK_URL_user):
    # チャンネル内のユーザーIDリストを取得
    headers = {'Authorization': 'Bearer ' + str(TOKEN)}
    params = {'channel': SLACK_CHANNEL_ID}

    response_mem = requests.get(SLACK_URL_mem, headers=headers, params=params, verify=False)
    json_mem = response_mem.json()
    members_id = json_mem['members']

    # IDから名前リストを取得
    members_name = []
    for id in members_id:
        headers = {'Authorization': 'Bearer ' + str(TOKEN)}
        params = {'channel': SLACK_CHANNEL_ID, 'user':id}
        response_info = requests.get(SLACK_URL_user, headers=headers, params=params, verify=False)

        json_info = response_info.json()
        members_name.append(json_info['user'].get('real_name'))

    # IDと名前の対応辞書を作成
    members_dict = {key:val for key, val in zip(members_id, members_name)
                     if val is not None}
    
    return members_dict

get_message

def get_message(SLACK_CHANNEL_ID, TOKEN, SLACK_URL_his, msgs_all = [], latest_ts = None):
    # チャンネル内のメッセージのリストを返す関数
    # ここで返すリストにはスレッド返信は含まれない
    
    headers = {'Authorization': 'Bearer ' + str(TOKEN)}
    params = {'channel': SLACK_CHANNEL_ID, 'latest':latest_ts}
    
    response_his = requests.get(SLACK_URL_his, headers=headers, params=params, verify=False)
    json_his = response_his.json()
    msgs_his = json_his['messages']
    msgs_all.extend(msgs_his)
    
    # 一度に取得できるメッセージ数は100なので、チャンネル内のメッセージ数が100以上の場合は再帰処理
    if len(msgs_his) == 100:
        get_message(msgs_all, msgs_his[-1].get('%tbs'))
    
    return msgs_all

get_msgslist

def get_msgslist(SLACK_CHANNEL_ID, TOKEN, SLACK_URL_rep, msgs_his):
    # スレッド返信がある場合は、返信も含めたリストに再構成して時系列順に並べたリストを返す関数
   
    msgs_ls = []
    for msgs in msgs_his:
        if msgs.get('thread_ts'):
            headers = {'Authorization': 'Bearer ' + str(TOKEN)}
            params = {'channel': SLACK_CHANNEL_ID, 'ts':msgs.get('thread_ts')}
            response_rep = requests.get(SLACK_URL_rep, headers=headers, params=params, verify=False)
            
            json_rep = response_rep.json()
            msgs_rep = json_rep.get('messages')
            if msgs != None:
                msgs_ls.append(msgs_rep)
    msgs_ls.reverse()
    
    return msgs_ls

get_outlist

def get_outlist(out_ls, msgs_ls, members_dict):
    # 必要な要素のみを抽出したリストを返す関数
    
    for msgs in msgs_ls:
        for i in range(len(msgs)):
            if members_dict.get(msgs[i].get('user')) == None:
                # 現在チャンネルに含まれていないメンバーはIDのまま表示
                count = 0
                for user_id, name in members_dict.items():
                    if count == 0:
                        text = msgs[i].get('text')
                    text = text.replace(user_id, name)
                    count = count + 1
                tmp = [
                        msgs[i].get('user'),
                        datetime.fromtimestamp(int(float(msgs[i].get('ts')))).strftime('%Y/%m/%d %H:%M:%S'),
                        text
                      ]
            else:
                count = 0
                for user_id, name in members_dict.items():
                    if count == 0:
                        text = msgs[i].get('text')
                    text = text.replace(user_id, name)
                    count = count + 1
                tmp = [
                        members_dict.get(msgs[i].get('user')),
                        datetime.fromtimestamp(int(float(msgs[i].get('ts')))).strftime('%Y/%m/%d %H:%M:%S'),
                        text
                      ]
                
            if i == 0:
                # main：スレッド返信以外
                tmp.insert(0, 'main')
            else:
                # reply：スレッド返信
                tmp.insert(0, 'reply')
            
            out_ls.append(tmp)
            
    return out_ls

CSV出力例

出力したcsvファイルを確認するとこんな感じです。
出力順は、メッセージの投稿時刻(スレッド元となるメッセージ)の昔→最近です。スレッド返信は、スレッド元となるメッセージに連なるようにしています。

改善したいこと

get_outlist内で3重のfor文を回している点。for文を重ねて回すと時間がかかるので、ぜひ改善したいが案が思いついていないのが現状。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up