0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Wikipediaのリダイレクト情報をファイルに出力してみた

Posted at

※以下の文章の一部は生成AIで作成したものです。

ファイルの説明

「jawiki-20241001-pages-articles-multistream_nlp4j_redirects.txt」は、Wikipedia日本語バージョンのリダイレクト情報のみを集めた非常に有用なデータファイルです。Wikipediaのリダイレクト機能は、同義語や別名、誤表記などを正規のページへと自動的に誘導する仕組みであり、このファイルには712,891行にわたるリダイレクトの対が記録されています。

内容の例

例えば、「日本IBM」が「日本アイ・ビー・エム」へリダイレクトされている場合は「日本IBM\t日本アイ・ビー・エム」と出力されており、このように各リダイレクトの情報がタブ区切りで整理されています。このデータは、自然言語処理(NLP)や検索エンジンの開発において、同義語や別称の処理に役立つだけでなく、より正確で網羅的なテキストマイニングや名前解決などに幅広く利用できるリソースです。

有用性

さらに、このデータはWikipediaの巨大なXMLダンプファイルから抽出されているため、リダイレクトに関する情報を効率的に活用することができます。通常のwiki構文や巨大なデータ処理に悩まされることなく、即座に自然言語処理の研究や開発に応用できる点が魅力的です。このリダイレクト情報を活用することで、名前解決や異なる言い回しの統合といった処理が精度よく行えるでしょう。

データの例

データの例(1):先頭から50行
SandBox	サンドボックス
HomePage	ホームページ
地理	地理学
ワールド・ミュージック	ワールドミュージック
ネマティック相	ネマティック液晶
スメクティック相	液晶
ミュージシャン一覧	音楽家の一覧
病名	病気の別名の一覧
黒人霊歌	霊歌
アルコール飲料	酒
明石沢貴士	プロジェクト:漫画家/日本の漫画家 あ行#赤石沢貴士
冨樫	富樫
吉冨昭仁	吉富昭仁
現在のイベント	Portal:最近の出来事
必要とされている記事	Wikipedia:執筆依頼
東京を舞台にした漫画作品	東京を舞台とした漫画・アニメ作品一覧
必要とされている画像	Wikipedia:画像提供依頼
ユーゴスラビア改名	ユーゴスラビア
あなだもあ	プロジェクト:漫画家/日本の漫画家 あ行#.E3.81.82.E3.81.AA.E3.81.A0.E3.82.82.E3.81.82
阿萬和俊	プロジェクト:漫画家/日本の漫画家 あ行#.E9.98.BF.E8.90.AC.E5.92.8C.E4.BF.8A
情報・メディア・コミュニケーション	新聞学
黒人音楽	ブラックミュージック
石川弥子	プロジェクト:漫画家/日本の漫画家 あ行#.E7.9F.B3.E5.B7.9D.E5.BC.A5.E5.AD.90
伊万里すみ子	プロジェクト:漫画家/日本の漫画家 あ行#.E4.BC.8A.E4.B8.87.E9.87.8C.E3.81.99.E3.81.BF.E5.AD.90
ゴレンジャー	秘密戦隊ゴレンジャー
うちやましゅうぞう	プロジェクト:漫画家/日本の漫画家 あ行#うちやましゅうぞう
沖一	プロジェクト:漫画家/日本の漫画家 あ行#.E6.B2.96.E4.B8.80
奥瀬早紀	奥瀬サキ
臣士レイ	プロジェクト:漫画家/日本の漫画家 あ行
織倉まこと	プロジェクト:漫画家/日本の漫画家 あ行#.E7.B9.94.E5.80.89.E3.81.BE.E3.81.93.E3.81.A8
竹宮恵子	竹宮惠子
ストップ高	値幅制限
ストップ安	値幅制限
呼び値単位	呼び値
残余財産請求権	残余財産分配請求権
日生かおる	プロジェクト:漫画家/日本の漫画家 は行#.E6.97.A5.E7.94.9F.E3.81.8B.E3.81.8A.E3.82.8B
グンデル・バルン	ガムラン
グンデル・パヌルス	ガムラン
蛇皮線	三線
クラブサン	チェンバロ
海明寺祐	海明寺裕
かたせ湘	プロジェクト:漫画家/日本の漫画家 か行#.E3.81.8B.E3.81.9F.E3.81.9B.E6.B9.98
上條敦士	上條淳士
木村えいじ	プロジェクト:漫画家/日本の漫画家 か行#木村えいじ
日下部拓海	プロジェクト:漫画家/日本の漫画家 か行#.E6.97.A5.E4.B8.8B.E9.83.A8.E6.8B.93.E6.B5.B7
桑沢あきお	プロジェクト:漫画家/日本の漫画家 か行#桑沢篤夫
河野やすこ	プロジェクト:漫画家/日本の漫画家 か行#.E6.B2.B3.E9.87.8E.E3.82.84.E3.81.99.E3.81.93
越智千文	プロジェクト:漫画家/日本の漫画家 あ行#.E8.B6.8A.E6.99.BA.E5.8D.83.E6.96.87
小林ぽんず	プロジェクト:漫画家/日本の漫画家 か行#.E5.B0.8F.E6.9E.97.E3.81.BD.E3.82.93.E3.81.9A
斉藤岬	斎藤岬

データの例(2):「IBM」でGREPした結果
日本IBM	日本アイ・ビー・エム
PC/XT	IBM PC XT
インターナショナル・ビジネス・マシーンズ・コーポレーション	IBM
アイ・ビー・エム	IBM
I5/OS	IBM i
IBM Homepage Builder	ホームページ・ビルダー
大和研究所	日本IBM大和事業所
IBM大和事業所	日本IBM大和事業所
データ・セット	データセット (IBMメインフレーム)
3270端末	IBM 3270
DBCS-Host	IBM漢字システム
DBCS-PC	IBM漢字システム
IBM DB2	IBM Db2
IBM POWER	POWER (マイクロプロセッサ)
IBM 7040	IBM 7090
IBM BigBlue	IBMビッグブルー
IBM・BIS	NPB・BIS
IBM形式フロッピー	IBM形式フロッピーディスク
IBMフォーマット	IBM形式
256フォーマット	IBM形式フロッピーディスク
256形式	IBM形式フロッピーディスク
H型フォーマット	IBM形式フロッピーディスク
IBMディスク	IBM形式フロッピーディスク
IBMフロッピー	IBM形式フロッピーディスク
IBMフロッピーディスク	IBM形式フロッピーディスク
全銀IBM	IBM形式フロッピーディスク
H型フロッピー	IBM形式フロッピーディスク
256フロッピー	IBM形式フロッピーディスク
IBM704	IBM 704
IBM701	IBM 701
IBM Big Blue	IBMビッグブルー
IBM AIX	AIX
IBMC	細胞分子生物学研究所
IBM DOS	IBM PC DOS
PC DOS 2000	IBM PC DOS
3270	IBM 3270
IBM Lotus Symphony	Lotus Symphony
International Business Machines	IBM
IBCS	IBMビジネスコンサルティングサービス
IBM 486SLC	IBM 386SLC
IBMマルチステーション5550	マルチステーション5550
NEC選定IBM拡張文字	Microsoftコードページ932
IBM Roadrunner	Roadrunner
IBM箱崎事業所	日本IBM箱崎事業所
Workplace OS	IBM Workplace OS
IBM漢字	IBM漢字システム
DPCX	IBM 8100
DPPX	IBM 8100
IBM System/88	System/88
Lotus Workplace	IBM Workplace
IBM Lotus Domino	HCL Domino
IBM Director	IBM Systems Director
IBMのディスク記憶	IBMのディスク記憶装置
MQSeries	IBM MQ
IBM Multiprise	IBM S/390
GPFS	IBM General Parallel File System
General Parallel File System	IBM General Parallel File System
PS/2	IBM PS/2
ViVA	IBM ViVA
ウォレス対IBM他事件	ウォレス対インターナショナル・ビジネス・マシーンズ・コーポレーション他事件
Think	Think (IBM)
IBM Sequoia	セコイア (スーパーコンピュータ)
IBM J9 VM	IBM J9
IBMビル	590 マディソン・アベニュー
S390	IBM_S/390
IBM PC Convertible	IBM PCコンバーティブル
IBM Lotus Sametime	HCL Sametime
DB2	IBM Db2
IBM Z	System z
IBM Cloud Video	Ustream
IBM野洲事業所	日本IBM野洲事業所
IBM Portable Personal Computer	IBMポータブルPC
セレクトリック・タイプライター	IBM Selectric typewriter
OS/400	IBM i
IBM漢字コード	IBM漢字システム#IBM漢字コード
System/23	IBM System/23
IBM 5550	マルチステーション5550
IBM Research	IBM基礎研究所
IBMコーポレーション	IBM
日本IBM野洲硬式野球部	日本アイ・ビー・エム野洲硬式野球部
IBM LinuxONE	System z
IBM System 360	System/360
IBM STRETCH	IBM 7030
IBM Stretch	IBM 7030
IBM鉄道駅	IBM駅
IBM PC互換機	PC/AT互換機
IBM Palm Top PC 110	Palm Top PC 110
IBM System/360	System/360
IBM 3340	IBMのディスク記憶装置#IBM 3340
IBM拡張漢字	IBM拡張文字
IBM Naval Ordnance Research Calculator	IBM NORC
IBM 305	IBM 305 RAMAC
IBM 700/7000シリーズ	IBM 700/7000 series
IBM 700シリーズ	IBM 700/7000 series
IBM 7000シリーズ	IBM 700/7000 series
IBM SSEC	Selective Sequence Electronic Calculator
IBM Sametime	HCL Sametime
IBM Notes	HCL Domino
IBM Domino	HCL Domino
IBM 700	IBM 700/7000 series
IBM 7000	IBM 700/7000 series
IBM 7010	IBM 700/7000 series#7010
IBM System/3	System/3
IBM System/32	System/32
IBM System/34	System/34
IBM System/36	System/36
IBM AS/400	System i
IBM ストレージ	System Storage
IBM Storage	System Storage
IBM メインフレーム	System z
IBM Power Systems	Power Systems
I.B.M.	IBM (曖昧さ回避)
IBM POWER8	POWER8
WebSphere MQ	IBM MQ
IBM BladeCenter	BladeCenter
日本IBMビッグブルー	BIG BLUES八千代ベイ東京
IBM Information Management System	IMS
合同会社IBMP	IBMP (音楽出版社)
IBMP	2-イソブチル-3-メトキシピラジン
IBM 5150	IBM PC
IBM Watson	ワトソン (コンピュータ)
IBM 5160	IBM PC XT
TrueNorth	コグニティブ・コンピュータ#IBM TrueNorthチップ
BASICA	IBM BASIC

データの公開場所

英語での説明

The file "jawiki-20241001-pages-articles-multistream_nlp4j_redirects.txt" is an invaluable dataset containing only the redirect information from Wikipedia Japanese Edition, making it highly accessible and ready for use. With 712,891 lines, it captures pairs of redirect entries, allowing users to trace how one term redirects to another. For example, when "日本IBM" (Nihon IBM) redirects to "日本アイ・ビー・エム" (Nihon Ai-Bī-Emu), it is represented as "日本IBM\t日本アイ・ビー・エム" in the file, formatted in a tab-delimited style.

This dataset is particularly useful for natural language processing (NLP) tasks, search engine optimization, or synonym handling, as it provides direct mappings between alternative names, spellings, or terms and their correct Wikipedia page destinations. It can enhance applications such as entity recognition, name disambiguation, and more precise text mining by ensuring that different terms referring to the same concept are handled consistently.

Extracted from Wikipedia's massive XML dumps, this data bypasses the complexity of dealing with raw wiki syntax and oversized files, offering a streamlined solution for working with redirects. By utilizing this file, researchers and developers can easily incorporate accurate synonym resolution and entity linkage into their NLP models and applications, making it a powerful resource for those looking to enhance their handling of aliases and redirects in text data.


以上.

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?