ITパスポート試験の過去問の "正解選択肢だけ" を分析するためのデータ処理

Last updated at 2022-12-15Posted at 2022-12-15

この記事の内容

ネタです。
ITパスポートの4択ア、イ、ウ、エのパターンを分析するために、データを構造化してみます。
過去問対策には全くならないので、あまり間に受けないようご注意ください。

処理の流れ

PDFファイルの取得
PDFからテキストの読み取り
データの整理
簡単な分析例

環境

macOS Monterey 12.6
Python 3.8.5
- beautiful-soup
- pandas
- pdfminer
- matplotlib
  - データ整理までなら不要
- statsmodels
  - 同上

PDFファイルの取得

ITパスポート試験の過去問ページでPDFが公開されているので、BeaufulSoupでダウンロードURLを一括で拾ってローカルにダウンロードします。

# 使うモジュール
import requests
from urllib.request import urlopen
from urllib.parse import urljoin
import time
import os
from bs4 import BeautifulSoup

# URL一覧の取得
base_url = "https://www3.jitec.ipa.go.jp/JitesCbt/html/openinfo/questions.html"
res = urlopen(base_url)
soup = BeautifulSoup(res.read())
tar_table = soup.find_all("table")[1]
titles = tar_table.find_all("td", attrs={"class":"table_10_1"})
titles = [t.text.strip() for t in titles]
answers = tar_table.find_all("td", attrs={"class":"table_10_4"})
urls = [a.find("a").get("href") for a in answers]
urls = [urljoin(base_url,u) for u in urls]
title_url_dict = dict(zip(titles,urls))
title_url_dict

こんな感じの辞書ができます。

{'ITパスポート試験 令和4年度分': 'https://www3.jitec.ipa.go.jp/JitesCbt/html/openinfo/pdf/questions/2022r04_ip_ans.pdf',
 'ITパスポート試験 令和3年度分': 'https://www3.jitec.ipa.go.jp/JitesCbt/html/openinfo/pdf/questions/2021r03_ip_ans.pdf',
(中略)
'ITパスポート試験 平成21年度 春期分': 'https://www3.jitec.ipa.go.jp/JitesCbt/html/openinfo/pdf/questions/2009h21h_ip_ans.pdf'}

あとは順番にダウンロードすれば良いです。サーバーに負荷をかけないように、待機時間を入れるのを忘れずに。

# PDFのダウンロード
dirname = "pdf"
os.makedirs(dirname,exist_ok=True)
for title, url in title_url_dict.items():
    print(f"downloading {title}")
    pdf = urlopen(url)
    with open(os.path.join(dirname,title+".pdf"), "wb") as f:
        f.write(pdf.read())
    time.sleep(3)
    
print("done.")

done. が表示されたら終了です。

downloading ITパスポート試験 令和4年度分
downloading ITパスポート試験 令和3年度分
(中略)
downloading ITパスポート試験 平成21年度 春期分
done.

PDFからテキストの読み取り

ダウンロードしたPDFファイルから、pdfminerを使って文字を読み取ります。
pdfminer は表組みになっているものは縦方向に順番に文字を読み取るようなので、ITパスポートの様式にぴったりですね。ラッキー。
結果のリストは各試験ごとに辞書型で格納します。

# モジュールの読み込み
from pdfminer.high_level import extract_text
import re

# PDFからテキストを読み取る
# 正規表現で「ア」から「エ」までの文字を抜き取る
table_data = {}
pat = re.compile(r"[ア-エ]")
for title in titles:
    path = os.path.join(dirname, title+".pdf")
    text = extract_text(path)
    seq = pat.findall(text)
    ver = title.split(" ", 1)[1]
    table_data[ver] = seq

データの整理

あとはpandasデータフレームに入れてあげるだけです。
1点注意が必要なのが、平成21年の秋試験は、多答問題があるため回答数が揃っていません。
今回は泣く泣く除外するとします。

# モジュールのインポート
import pandas as pd

# 各試験での回答数を表示
for k,v in table_data.items():
    print(k, len(v))

令和4年度分 100
令和3年度分 100
(中略)
平成22年度 春期分 100
平成21年度 秋期分 102
平成21年度 春期分 100

辞書をpd.DataFrameに放り込むと簡単にデータフレームにしてくれます。

# データフレーム型に変換
table_data = {k:v for k,v in table_data.items() if len(v) == 100}
df = pd.DataFrame(table_data)
df.head()

	令和4年度分	令和3年度分	令和2年度 10月分	令和元年度秋期分	平成31年度春期分	平成30年度秋期分	平成30年度春期分	平成29年度秋期分	平成29年度春期分	平成28年度秋期分	平成28年度春期分	平成27年度秋期分	平成27年度春期分	平成26年度秋期分	平成26年度春期分	平成25年度秋期分	平成25年度春期分	平成24年度秋期分	平成24年度春期分	平成23年度秋期分	平成23年度特別分	平成22年度秋期分	平成22年度春期分	平成21年度春期分
0	エ	ウ	ウ	エ	エ	ア	エ	ウ	ア	エ	ア	ア	ウ	ウ	ア	エ	ア	エ	イ	ア	ア	エ	ア	ウ
1	イ	エ	イ	ア	ウ	ウ	ウ	エ	イ	ア	ア	ア	ア	ウ	エ	ア	ウ	イ	ア	イ	イ	ア	イ	ウ
2	ウ	ウ	イ	ウ	ア	ウ	イ	ア	ア	ウ	エ	エ	エ	ア	エ	エ	イ	ア	イ	エ	イ	イ	エ	イ
3	ア	ア	ウ	エ	イ	ウ	ア	イ	イ	エ	ウ	ア	ウ	イ	イ	ウ	ア	イ	ア	エ	イ	ア	ウ	ア
4	イ	ウ	イ	エ	ア	ウ	イ	ア	イ	イ	ウ	ア	ア	ウ	エ	ウ	エ	イ	ウ	イ	ウ	ウ	イ	イ

数値として分析したい人のために、ア→0、イ→1 みたいな変換をしたデータも作っておきましょう。

# 変数の変換
df_num = df.replace({
    "ア":0,
    "イ":1,
    "ウ":2,
    "エ":3
})
df_num.head()

	令和4年度分	令和3年度分	令和2年度 10月分	令和元年度秋期分	平成31年度春期分	平成30年度秋期分	平成30年度春期分	平成29年度秋期分	平成29年度春期分	平成28年度秋期分	平成28年度春期分	平成27年度秋期分	平成27年度春期分	平成26年度秋期分	平成26年度春期分	平成25年度秋期分	平成25年度春期分	平成24年度秋期分	平成24年度春期分	平成23年度秋期分	平成23年度特別分	平成22年度秋期分	平成22年度春期分	平成21年度春期分
0	3	2	2	3	3	0	3	2	0	3	0	0	2	2	0	3	0	3	1	0	0	3	0	2
1	1	3	1	0	2	2	2	3	1	0	0	0	0	2	3	0	2	1	0	1	1	0	1	2
2	2	2	1	2	0	2	1	0	0	2	3	3	3	0	3	3	1	0	1	3	1	1	3	1
3	0	0	2	3	1	2	0	1	1	3	2	0	2	1	1	2	0	1	0	3	1	0	2	0
4	1	2	1	3	0	2	1	0	1	1	2	0	0	2	3	2	3	1	2	1	2	2	1	1

簡単な分析例

後はよしなに、好き勝手分析してみてください。

例えば毎年の正答選択肢の数を集計するならこんな感じ。

# データを縦持ちにする
df_long = df.unstack()
df_long.name = "value"
df_long = df_long.reset_index()
# グループ集計
df_long.groupby("level_0")["value"].value_counts().unstack().loc[df.columns]

value	ア	イ	ウ	エ
令和4年度分	32	27	16	25
令和3年度分	29	20	25	26
令和2年度 10月分	27	25	23	25
令和元年度秋期分	21	20	23	36
平成31年度春期分	26	22	26	26
平成30年度秋期分	19	25	28	28
平成30年度春期分	30	21	27	22
平成29年度秋期分	18	29	31	22
平成29年度春期分	14	25	22	39
平成28年度秋期分	27	27	20	26
平成28年度春期分	25	21	32	22
平成27年度秋期分	30	23	29	18
平成27年度春期分	19	23	31	27
平成26年度秋期分	21	25	34	20
平成26年度春期分	22	24	26	28
平成25年度秋期分	20	26	26	28
平成25年度春期分	23	28	23	26
平成24年度秋期分	18	28	31	23
平成24年度春期分	25	24	30	21
平成23年度秋期分	17	29	37	17
平成23年度特別分	23	30	26	21
平成22年度秋期分	22	34	20	24
平成22年度春期分	18	29	30	23
平成21年度春期分	23	30	31	16

自己相関関数を書いてみたりもできます。

# モジュールのインポート
import matplotlib.pyplot as plt
from statsmodels.tsa.stattools import acf
plt.rcParams['font.sans-serif'] = ['Hiragino Maru Gothic Pro', 'Yu Gothic']
%matplotlib inline

# 全ての列に自己相関関数を適用して折れ線グラフで表示
fig = plt.figure(figsize=(10,12))
ax = fig.add_subplot()
df_num.apply(lambda x:acf(x), axis=0).plot(ax=ax)
plt.show()

おわり

ITパスポートを受けようとする人はこんな事をやっていないで、過去問をひたすら解いたら良いんじゃないでしょうか。

参考にしたもの

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

	令和4年度分	令和3年度分	令和2年度 10月分	令和元年度秋期分	平成31年度春期分	平成30年度秋期分	平成30年度春期分	平成29年度秋期分	平成29年度春期分	平成28年度秋期分	平成28年度春期分	平成27年度秋期分	平成27年度春期分	平成26年度秋期分	平成26年度春期分	平成25年度秋期分	平成25年度春期分	平成24年度秋期分	平成24年度春期分	平成23年度秋期分	平成23年度特別分	平成22年度秋期分	平成22年度春期分	平成21年度春期分
0	エ	ウ	ウ	エ	エ	ア	エ	ウ	ア	エ	ア	ア	ウ	ウ	ア	エ	ア	エ	イ	ア	ア	エ	ア	ウ
1	イ	エ	イ	ア	ウ	ウ	ウ	エ	イ	ア	ア	ア	ア	ウ	エ	ア	ウ	イ	ア	イ	イ	ア	イ	ウ
2	ウ	ウ	イ	ウ	ア	ウ	イ	ア	ア	ウ	エ	エ	エ	ア	エ	エ	イ	ア	イ	エ	イ	イ	エ	イ
3	ア	ア	ウ	エ	イ	ウ	ア	イ	イ	エ	ウ	ア	ウ	イ	イ	ウ	ア	イ	ア	エ	イ	ア	ウ	ア
4	イ	ウ	イ	エ	ア	ウ	イ	ア	イ	イ	ウ	ア	ア	ウ	エ	ウ	エ	イ	ウ	イ	ウ	ウ	イ	イ

	令和4年度分	令和3年度分	令和2年度 10月分	令和元年度秋期分	平成31年度春期分	平成30年度秋期分	平成30年度春期分	平成29年度秋期分	平成29年度春期分	平成28年度秋期分	平成28年度春期分	平成27年度秋期分	平成27年度春期分	平成26年度秋期分	平成26年度春期分	平成25年度秋期分	平成25年度春期分	平成24年度秋期分	平成24年度春期分	平成23年度秋期分	平成23年度特別分	平成22年度秋期分	平成22年度春期分	平成21年度春期分
0	3	2	2	3	3	0	3	2	0	3	0	0	2	2	0	3	0	3	1	0	0	3	0	2
1	1	3	1	0	2	2	2	3	1	0	0	0	0	2	3	0	2	1	0	1	1	0	1	2
2	2	2	1	2	0	2	1	0	0	2	3	3	3	0	3	3	1	0	1	3	1	1	3	1
3	0	0	2	3	1	2	0	1	1	3	2	0	2	1	1	2	0	1	0	3	1	0	2	0
4	1	2	1	3	0	2	1	0	1	1	2	0	0	2	3	2	3	1	2	1	2	2	1	1

	令和4年度分	令和3年度分	令和2年度 10月分	令和元年度秋期分	平成31年度春期分	平成30年度秋期分	平成30年度春期分	平成29年度秋期分	平成29年度春期分	平成28年度秋期分	平成28年度春期分	平成27年度秋期分	平成27年度春期分	平成26年度秋期分	平成26年度春期分	平成25年度秋期分	平成25年度春期分	平成24年度秋期分	平成24年度春期分	平成23年度秋期分	平成23年度特別分	平成22年度秋期分	平成22年度春期分	平成21年度春期分
0	エ	ウ	ウ	エ	エ	ア	エ	ウ	ア	エ	ア	ア	ウ	ウ	ア	エ	ア	エ	イ	ア	ア	エ	ア	ウ
1	イ	エ	イ	ア	ウ	ウ	ウ	エ	イ	ア	ア	ア	ア	ウ	エ	ア	ウ	イ	ア	イ	イ	ア	イ	ウ
2	ウ	ウ	イ	ウ	ア	ウ	イ	ア	ア	ウ	エ	エ	エ	ア	エ	エ	イ	ア	イ	エ	イ	イ	エ	イ
3	ア	ア	ウ	エ	イ	ウ	ア	イ	イ	エ	ウ	ア	ウ	イ	イ	ウ	ア	イ	ア	エ	イ	ア	ウ	ア
4	イ	ウ	イ	エ	ア	ウ	イ	ア	イ	イ	ウ	ア	ア	ウ	エ	ウ	エ	イ	ウ	イ	ウ	ウ	イ	イ

	令和4年度分	令和3年度分	令和2年度 10月分	令和元年度秋期分	平成31年度春期分	平成30年度秋期分	平成30年度春期分	平成29年度秋期分	平成29年度春期分	平成28年度秋期分	平成28年度春期分	平成27年度秋期分	平成27年度春期分	平成26年度秋期分	平成26年度春期分	平成25年度秋期分	平成25年度春期分	平成24年度秋期分	平成24年度春期分	平成23年度秋期分	平成23年度特別分	平成22年度秋期分	平成22年度春期分	平成21年度春期分
0	3	2	2	3	3	0	3	2	0	3	0	0	2	2	0	3	0	3	1	0	0	3	0	2
1	1	3	1	0	2	2	2	3	1	0	0	0	0	2	3	0	2	1	0	1	1	0	1	2
2	2	2	1	2	0	2	1	0	0	2	3	3	3	0	3	3	1	0	1	3	1	1	3	1
3	0	0	2	3	1	2	0	1	1	3	2	0	2	1	1	2	0	1	0	3	1	0	2	0
4	1	2	1	3	0	2	1	0	1	1	2	0	0	2	3	2	3	1	2	1	2	2	1	1

	令和4年度分	令和3年度分	令和2年度 10月分	令和元年度秋期分	平成31年度春期分	平成30年度秋期分	平成30年度春期分	平成29年度秋期分	平成29年度春期分	平成28年度秋期分	平成28年度春期分	平成27年度秋期分	平成27年度春期分	平成26年度秋期分	平成26年度春期分	平成25年度秋期分	平成25年度春期分	平成24年度秋期分	平成24年度春期分	平成23年度秋期分	平成23年度特別分	平成22年度秋期分	平成22年度春期分	平成21年度春期分
0	エ	ウ	ウ	エ	エ	ア	エ	ウ	ア	エ	ア	ア	ウ	ウ	ア	エ	ア	エ	イ	ア	ア	エ	ア	ウ
1	イ	エ	イ	ア	ウ	ウ	ウ	エ	イ	ア	ア	ア	ア	ウ	エ	ア	ウ	イ	ア	イ	イ	ア	イ	ウ
2	ウ	ウ	イ	ウ	ア	ウ	イ	ア	ア	ウ	エ	エ	エ	ア	エ	エ	イ	ア	イ	エ	イ	イ	エ	イ
3	ア	ア	ウ	エ	イ	ウ	ア	イ	イ	エ	ウ	ア	ウ	イ	イ	ウ	ア	イ	ア	エ	イ	ア	ウ	ア
4	イ	ウ	イ	エ	ア	ウ	イ	ア	イ	イ	ウ	ア	ア	ウ	エ	ウ	エ	イ	ウ	イ	ウ	ウ	イ	イ

	令和4年度分	令和3年度分	令和2年度 10月分	令和元年度秋期分	平成31年度春期分	平成30年度秋期分	平成30年度春期分	平成29年度秋期分	平成29年度春期分	平成28年度秋期分	平成28年度春期分	平成27年度秋期分	平成27年度春期分	平成26年度秋期分	平成26年度春期分	平成25年度秋期分	平成25年度春期分	平成24年度秋期分	平成24年度春期分	平成23年度秋期分	平成23年度特別分	平成22年度秋期分	平成22年度春期分	平成21年度春期分
0	3	2	2	3	3	0	3	2	0	3	0	0	2	2	0	3	0	3	1	0	0	3	0	2
1	1	3	1	0	2	2	2	3	1	0	0	0	0	2	3	0	2	1	0	1	1	0	1	2
2	2	2	1	2	0	2	1	0	0	2	3	3	3	0	3	3	1	0	1	3	1	1	3	1
3	0	0	2	3	1	2	0	1	1	3	2	0	2	1	1	2	0	1	0	3	1	0	2	0
4	1	2	1	3	0	2	1	0	1	1	2	0	0	2	3	2	3	1	2	1	2	2	1	1