4
2

研究やデータサイエンスで利用できる実環境のHTTPアクセスログ

Last updated at Posted at 2022-09-22

EClog

ハーバード大学のデータベースで公開されています.ECサイトのアクセスログを匿名化して公開しています.

EClog: HTTP-level e-commerce data based on server access logs for an online store

このデータセットの分析結果は以下の論文で確認できます.

Analysis of Aggregated Bot and Human Traffic on E-Commerce Site - 346.pdf

Kibanaで可視化したログは以下です.

Kibana.png

Online Shopping Store

ハーバード大学のデータベースで公開されています.ECサイトのアクセスログをダウンロードできます.タイムスタンプやデータサイズをはじめとする一部の情報しか含まれていないため用途は限られそうです.

Online Shopping Store - Web Server Logs - Harvard Dataverse

ワールドカップのWebサイト

1998年のサッカーワールドカップのアクセスログを見つけました.
静的コンテンツ(HTML,CSS,画像)が中心のWebサイトです.

chengtx/WorldCup98: http server access logs of WorldCup 98

LogHub

LogHubではApache HTTP Serverのエラーログがデータセットとして公開されています.

loghub/Apache at master · logpai/loghub

その他

Googleがデータセット用の検索エンジンを提供しています.
https://datasetsearch.research.google.com/

余談

Usenixで一般的なコンピュータの障害についてまとめたリポジトリがありました.

Amazonの社内システムのアクセスログを匿名したデータセットがありました.

推薦システムの論文で使われていそうなデータセットが以下にまとめてありました.

4
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
2