More than 1 year has passed since last update.

天鳳からログデータを取得するプログラムまとめ

Last updated at 2023-06-07Posted at 2023-06-05

※この記事は2020年に作成しました

天鳳ログデータを取得する概要

下記から天鳳のログデータが圧縮されたファイルをダウンロードする。
https://tenhou.net/sc/raw/

ダウンロードしてきたファイルはgzipで、圧縮された中に大量のHTMLファイルが入っている。
そのHTMLの中には過去の牌譜の観戦用URLが大量に入っている。
観戦用URL：http://tenhou.net/0/?log=【牌譜ID】
実際にデータがある場所のURL:http://tenhou.net/0/log/?【牌譜ID】
実際のデータがある場所にログがXMLで書かれている。

手順としては、下記の1から4でログデータを取得する。
①gzipファイルからHTMLをテキストファイルとして保存するプログラム
　gzipの中にあるHTMLをテキストファイルとして保存

②上記のテキストファイルからURL部分のみを抽出するプログラム
　HTMLのテキストファイルから観戦用URLの書かれている部分のみを取り出してテキストとして保存している

③観戦用URLからデータの書かれているXMLファイルのURLを生成するプログラム
　観戦用URLだけ書かれているテキストファイルから、XMLのURLを作成しテキストファイルとして保存している

④そのXMLの書かれているURLからXMLファイルを取得するプログラム
　URLにXMLファイルを取得して保存している

①

gzipファイルからHTMLをテキストファイルとして保存するプログラム

# coding: utf-8
import os
import tarfile
import gzip
files = os.listdir('D:/2018-08/gz/')
for file in files:
    origin = "D:/2018-08/gz/" + file
    name = file
    name = name[:-8]
    filename = "D:/2018-08/url-txt/"+name+".txt"
    print (filename)
    f1 = gzip.open(origin,'rb')
    f2 = open(filename,'w')
    _line = f1.readline()
    
    while _line:
        _text = _line.decode('utf-8')
        f2.write(_text)
        _line = f1.readline()

    f1.close()
    f2.close()
'''
ダウンロードしてきたファイルにはgzipで圧縮された中に大量のHTMLファイルが入っている
5:listdirは指定したファイルのディレクトリをリストにして一覧で取得する
'''

②

上記のテキストファイルからURL部分のみを抽出するプログラム

# coding: utf-8
import os
import tarfile
import gzip
files = os.listdir('D:/2018-08/url-txt/')

for file in files:
    origin = "D:/2018-08/url-txt/" + file
    name = file
    name = name[:-4]
    filename = "D:/2018-08/txt/url"+name+".txt"
    print (filename)
    f1 = open(origin,'r')#,encoding='utf-8')
    f2 = open(filename,'w')#,encoding='utf-8')

    _text = f1.readline()
    while _text:
        f2.write(_text[31:87])
        _text = f1.readline()
        if _text != "\n":
            f2.write("\n")
    f1.close()
    f2.close()

③

観戦用URLからデータの書かれているXMLファイルのURLを生成するプログラム

# coding: utf-8
import os
import tarfile
import gzip
files = os.listdir('D:/2018-08/txt/')

for file in files:
    origin = "D:/2018-08/txt/" + file
    name = file
    name = name[3:-4]
    filename = "D:/2018-08/id-txt/"+name+"ID.txt"
    print (filename)
    f1 = open(origin,'r',encoding='utf-8')
    f2 = open(filename,'w',encoding='utf-8')

    _text = f1.readline()
    while _text:
        f2.write(_text[:20])
        f2.write(_text[21:24])
        f2.write("/?")
        f2.write(_text[25:61])
        _text = f1.readline()

    f2.write('\n')
    f1.close()
    f2.close()

④

そのXMLの書かれているURLからXMLファイルを取得するプログラム
天鳳のサイトにアクセスするので、連続でファイルを取得する場合はtime.sleep()で時間を置いたほうが良い。

# coding: utf-8
import os
import tarfile
import urllib
import requests
import time
import sys
files = os.listdir('D:/2018-08/id-txt03/')
j = 0
for file in files:
    name = file
    f1 = open("D:/2018-08/id-txt03/"+name,'r',encoding='utf-8')
    lines = f1.readlines()
    f1.close()
    f1 = open("D:/2018-08/id-txt03/"+name,'r',encoding='utf-8')
    for i in lines :
        xml = f1.readline()
        if xml =='\n':
            break
        text = xml[:-1]
        text_url = xml[7]
        filename = "D:/2018-08/xml03/"+text[25:]+".xml"
        f2 = open(filename,'w',encoding='utf-8')
        headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.90 Safari/537.36'}
        res=requests.get(url=text, headers=headers)
        f2.write(res.text)
        f2.close()
        #time.sleep(0.1)
        j = j+1
        print(filename)
    f1.close()
    #sys.exit()
    #time.sleep(5)

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up