nginx

Nginxのアクセスログを加工集計する

More than 3 years have passed since last update.

ちょっと必要に迫られて調べていたので簡単にまとめました。なお、Nginxのログフォーマットはデフォルトのままにしており、こんな感じのログが記録されています。

xxx.xxx.xx.xxx - - [01/Sep/2015:00:00:00 +0900] "GET /xxxx/xxxx HTTP/1.1" 200 12700 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

結果だけ知りたい方のために、どうやったのか先に書いておきます

awk '($7 !~ /(jpg|woff|svg|png|css|js|gif|eot|php|ico|ttf)/)' access.log | awk '{print $1,",",$12,$13,$14,$15,$16,$17,",",$7 }' | sort| uniq -c | sort -rn | head -n 25

やりたかったこと

  • 各ページへのアクセスがだいたいどの程度あるのか
  • 可能なら各ページxIPアドレスという形で集計したい

Nginx自体にそれほど精通してない&こういうログ集計でよく利用されるUnixコマンド(awkとか)の使い方をよく知らないので以下を参考にしながら作業していきました

試行錯誤した結果を覚えてる範囲でまとめる

最初におこなった作業

まず、http statusが200のものを抽出しつつIPアドレス別にアクセス数をまとめるために以下のようにしてみました

cat access.log | awk '($9 ~ /200/)' | awk '{ print $1,$7 }' | sort | uniq -c | sort -rn | head -n 25

上記のコマンドですが、こんな感じの意味になるかと思います

  • アクセスログを読み込み、Unixのパイプで次に処理をうつす
  • 読み込んだログでhttp statusが200に該当する箇所をawkで正規表現使って抽出し、Unixのパイプで次に処理をうつす
    • $9という所。半角スペースで句切られるから先頭から9番目という感じの理解をしてますがあまりここ自信がない
  • IPアドレス($1)と実際にアクセスがあったパス($7)を出力しUnixのパイプで次に処理をうつす
  • sortで並べ替えてUnixのパイプで次に処理をうつす
  • uniqコマンドを用いて重複した行の数をカウントしUnixのパイプで次に処理をうつす
  • sortのrnオプションを付けて数値として逆順でソートしUnixのパイプで次に処理をうつす
  • headコマンドでトップ25件のみ表示する

実際の出力結果はこんな感じでした

  28 100.200.10.200 /
  86 49.212.144.52 /
  47 61.114.52.30 //uploads/117763.jpg
  44 61.114.52.30 //uploads/115879.jpg
  # 以下省略

静的ファイルなどへのアクセスを除外して加工する

上記実行したら画像ファイルへのアクセスばっかりになってしまったので、画像などの静的ファイル+α(拡張子PHPへのアクセスが一部あったので)を除外する方法を調べてみました

最初に書いたやつで

awk '($9 ~ /200/)'

というのが正規表現を駆使した箇所だったのでこれを応用してまずは

awk '($7 !~ /(jpg|woff|svg|png|css|js|gif|eot|php|ico|ttf)/)' access.log | head -n 10

という感じで意図した値が取得できそうか確認してみたところ、静的ファイルなどへのアクセスは除外された形でうまく値が取得できていました

最終形

ここまでの作業内容をふまえて

awk '($7 !~ /(jpg|woff|svg|png|css|js|gif|eot|php|ico|ttf)/)' access.log

という結果に対して

  • アクセス元のIPアドレス、UserAgent、アクセス先のパスの情報をカンマ区切りで出力してUnixのパイプで次に処理をうつす
  • sortで並べ替えてUnixのパイプで次に処理をうつす
  • uniqコマンドを用いて重複した行の数をカウントしUnixのパイプで次に処理をうつす
  • sortのrnオプションを付けて数値として逆順でソートしUnixのパイプで次に処理をうつす
  • headコマンドでトップ25件のみ表示する

ということをするために

awk '($7 !~ /(jpg|woff|svg|png|css|js|gif|eot|php|ico|ttf)/)' access.log | awk '{print $1,",",$12,$13,$14,$15,$16,$17,",",$7 }' | sort| uniq -c | sort -rn | head -n 25

という感じにしあげて、意図した結果が得られました

このデーターをGoogle スプレッドシートに読み込んで・・と思って

awk '($7 !~ /(jpg|woff|svg|png|css|js|gif|eot|php|ico|ttf)/)' access.log | awk '{print $1,",",$12,$13,$14,$15,$16,$17,",",$7 }' | sort| uniq -c | sort -rn > /Users/xxxxx/Desktop/output.csv

としたのですが、日付が

01/Sep/2015:00:00:00 +0900

という形式でこのままだと日付として認識してくれないんですよね・・・・

なので

  • 01/Sep/2015のSepの所をテキストエディタなどで数値に置き換える
  • 置き換えた後に、以下のようなRubyで書いたスクリプトを通じて日付型に変換
CSV.open("/Users/xxxxx/Desktop/replace.csv", "wb") do |csv|
  CSV.foreach("/Users/xxxxx/Desktop/output.csv",{ :encoding => "UTF-8", :col_sep => ","}) do |row|
    csv << [ row[0], DateTime.strptime(row[1],'%d/%m/%Y:%H:%M:%S').strftime("%Y/%m/%d %H:%M:%S"), row[2], row[3]]
  end
end

という感じで日付の変換をしてあげるとうまくいくかと思います。