※以下の文章の一部は生成AIで作成したものです。
ファイルの説明
「jawiki-20241001-pages-articles-multistream_nlp4j_redirects.txt」は、Wikipedia日本語バージョンのリダイレクト情報のみを集めた非常に有用なデータファイルです。Wikipediaのリダイレクト機能は、同義語や別名、誤表記などを正規のページへと自動的に誘導する仕組みであり、このファイルには712,891行にわたるリダイレクトの対が記録されています。
内容の例
例えば、「日本IBM」が「日本アイ・ビー・エム」へリダイレクトされている場合は「日本IBM\t日本アイ・ビー・エム」と出力されており、このように各リダイレクトの情報がタブ区切りで整理されています。このデータは、自然言語処理(NLP)や検索エンジンの開発において、同義語や別称の処理に役立つだけでなく、より正確で網羅的なテキストマイニングや名前解決などに幅広く利用できるリソースです。
有用性
さらに、このデータはWikipediaの巨大なXMLダンプファイルから抽出されているため、リダイレクトに関する情報を効率的に活用することができます。通常のwiki構文や巨大なデータ処理に悩まされることなく、即座に自然言語処理の研究や開発に応用できる点が魅力的です。このリダイレクト情報を活用することで、名前解決や異なる言い回しの統合といった処理が精度よく行えるでしょう。
データの例
データの例(1):先頭から50行
SandBox サンドボックス
HomePage ホームページ
地理 地理学
ワールド・ミュージック ワールドミュージック
ネマティック相 ネマティック液晶
スメクティック相 液晶
ミュージシャン一覧 音楽家の一覧
病名 病気の別名の一覧
黒人霊歌 霊歌
アルコール飲料 酒
明石沢貴士 プロジェクト:漫画家/日本の漫画家 あ行#赤石沢貴士
冨樫 富樫
吉冨昭仁 吉富昭仁
現在のイベント Portal:最近の出来事
必要とされている記事 Wikipedia:執筆依頼
東京を舞台にした漫画作品 東京を舞台とした漫画・アニメ作品一覧
必要とされている画像 Wikipedia:画像提供依頼
ユーゴスラビア改名 ユーゴスラビア
あなだもあ プロジェクト:漫画家/日本の漫画家 あ行#.E3.81.82.E3.81.AA.E3.81.A0.E3.82.82.E3.81.82
阿萬和俊 プロジェクト:漫画家/日本の漫画家 あ行#.E9.98.BF.E8.90.AC.E5.92.8C.E4.BF.8A
情報・メディア・コミュニケーション 新聞学
黒人音楽 ブラックミュージック
石川弥子 プロジェクト:漫画家/日本の漫画家 あ行#.E7.9F.B3.E5.B7.9D.E5.BC.A5.E5.AD.90
伊万里すみ子 プロジェクト:漫画家/日本の漫画家 あ行#.E4.BC.8A.E4.B8.87.E9.87.8C.E3.81.99.E3.81.BF.E5.AD.90
ゴレンジャー 秘密戦隊ゴレンジャー
うちやましゅうぞう プロジェクト:漫画家/日本の漫画家 あ行#うちやましゅうぞう
沖一 プロジェクト:漫画家/日本の漫画家 あ行#.E6.B2.96.E4.B8.80
奥瀬早紀 奥瀬サキ
臣士レイ プロジェクト:漫画家/日本の漫画家 あ行
織倉まこと プロジェクト:漫画家/日本の漫画家 あ行#.E7.B9.94.E5.80.89.E3.81.BE.E3.81.93.E3.81.A8
竹宮恵子 竹宮惠子
ストップ高 値幅制限
ストップ安 値幅制限
呼び値単位 呼び値
残余財産請求権 残余財産分配請求権
日生かおる プロジェクト:漫画家/日本の漫画家 は行#.E6.97.A5.E7.94.9F.E3.81.8B.E3.81.8A.E3.82.8B
グンデル・バルン ガムラン
グンデル・パヌルス ガムラン
蛇皮線 三線
クラブサン チェンバロ
海明寺祐 海明寺裕
かたせ湘 プロジェクト:漫画家/日本の漫画家 か行#.E3.81.8B.E3.81.9F.E3.81.9B.E6.B9.98
上條敦士 上條淳士
木村えいじ プロジェクト:漫画家/日本の漫画家 か行#木村えいじ
日下部拓海 プロジェクト:漫画家/日本の漫画家 か行#.E6.97.A5.E4.B8.8B.E9.83.A8.E6.8B.93.E6.B5.B7
桑沢あきお プロジェクト:漫画家/日本の漫画家 か行#桑沢篤夫
河野やすこ プロジェクト:漫画家/日本の漫画家 か行#.E6.B2.B3.E9.87.8E.E3.82.84.E3.81.99.E3.81.93
越智千文 プロジェクト:漫画家/日本の漫画家 あ行#.E8.B6.8A.E6.99.BA.E5.8D.83.E6.96.87
小林ぽんず プロジェクト:漫画家/日本の漫画家 か行#.E5.B0.8F.E6.9E.97.E3.81.BD.E3.82.93.E3.81.9A
斉藤岬 斎藤岬
データの例(2):「IBM」でGREPした結果
日本IBM 日本アイ・ビー・エム
PC/XT IBM PC XT
インターナショナル・ビジネス・マシーンズ・コーポレーション IBM
アイ・ビー・エム IBM
I5/OS IBM i
IBM Homepage Builder ホームページ・ビルダー
大和研究所 日本IBM大和事業所
IBM大和事業所 日本IBM大和事業所
データ・セット データセット (IBMメインフレーム)
3270端末 IBM 3270
DBCS-Host IBM漢字システム
DBCS-PC IBM漢字システム
IBM DB2 IBM Db2
IBM POWER POWER (マイクロプロセッサ)
IBM 7040 IBM 7090
IBM BigBlue IBMビッグブルー
IBM・BIS NPB・BIS
IBM形式フロッピー IBM形式フロッピーディスク
IBMフォーマット IBM形式
256フォーマット IBM形式フロッピーディスク
256形式 IBM形式フロッピーディスク
H型フォーマット IBM形式フロッピーディスク
IBMディスク IBM形式フロッピーディスク
IBMフロッピー IBM形式フロッピーディスク
IBMフロッピーディスク IBM形式フロッピーディスク
全銀IBM IBM形式フロッピーディスク
H型フロッピー IBM形式フロッピーディスク
256フロッピー IBM形式フロッピーディスク
IBM704 IBM 704
IBM701 IBM 701
IBM Big Blue IBMビッグブルー
IBM AIX AIX
IBMC 細胞分子生物学研究所
IBM DOS IBM PC DOS
PC DOS 2000 IBM PC DOS
3270 IBM 3270
IBM Lotus Symphony Lotus Symphony
International Business Machines IBM
IBCS IBMビジネスコンサルティングサービス
IBM 486SLC IBM 386SLC
IBMマルチステーション5550 マルチステーション5550
NEC選定IBM拡張文字 Microsoftコードページ932
IBM Roadrunner Roadrunner
IBM箱崎事業所 日本IBM箱崎事業所
Workplace OS IBM Workplace OS
IBM漢字 IBM漢字システム
DPCX IBM 8100
DPPX IBM 8100
IBM System/88 System/88
Lotus Workplace IBM Workplace
IBM Lotus Domino HCL Domino
IBM Director IBM Systems Director
IBMのディスク記憶 IBMのディスク記憶装置
MQSeries IBM MQ
IBM Multiprise IBM S/390
GPFS IBM General Parallel File System
General Parallel File System IBM General Parallel File System
PS/2 IBM PS/2
ViVA IBM ViVA
ウォレス対IBM他事件 ウォレス対インターナショナル・ビジネス・マシーンズ・コーポレーション他事件
Think Think (IBM)
IBM Sequoia セコイア (スーパーコンピュータ)
IBM J9 VM IBM J9
IBMビル 590 マディソン・アベニュー
S390 IBM_S/390
IBM PC Convertible IBM PCコンバーティブル
IBM Lotus Sametime HCL Sametime
DB2 IBM Db2
IBM Z System z
IBM Cloud Video Ustream
IBM野洲事業所 日本IBM野洲事業所
IBM Portable Personal Computer IBMポータブルPC
セレクトリック・タイプライター IBM Selectric typewriter
OS/400 IBM i
IBM漢字コード IBM漢字システム#IBM漢字コード
System/23 IBM System/23
IBM 5550 マルチステーション5550
IBM Research IBM基礎研究所
IBMコーポレーション IBM
日本IBM野洲硬式野球部 日本アイ・ビー・エム野洲硬式野球部
IBM LinuxONE System z
IBM System 360 System/360
IBM STRETCH IBM 7030
IBM Stretch IBM 7030
IBM鉄道駅 IBM駅
IBM PC互換機 PC/AT互換機
IBM Palm Top PC 110 Palm Top PC 110
IBM System/360 System/360
IBM 3340 IBMのディスク記憶装置#IBM 3340
IBM拡張漢字 IBM拡張文字
IBM Naval Ordnance Research Calculator IBM NORC
IBM 305 IBM 305 RAMAC
IBM 700/7000シリーズ IBM 700/7000 series
IBM 700シリーズ IBM 700/7000 series
IBM 7000シリーズ IBM 700/7000 series
IBM SSEC Selective Sequence Electronic Calculator
IBM Sametime HCL Sametime
IBM Notes HCL Domino
IBM Domino HCL Domino
IBM 700 IBM 700/7000 series
IBM 7000 IBM 700/7000 series
IBM 7010 IBM 700/7000 series#7010
IBM System/3 System/3
IBM System/32 System/32
IBM System/34 System/34
IBM System/36 System/36
IBM AS/400 System i
IBM ストレージ System Storage
IBM Storage System Storage
IBM メインフレーム System z
IBM Power Systems Power Systems
I.B.M. IBM (曖昧さ回避)
IBM POWER8 POWER8
WebSphere MQ IBM MQ
IBM BladeCenter BladeCenter
日本IBMビッグブルー BIG BLUES八千代ベイ東京
IBM Information Management System IMS
合同会社IBMP IBMP (音楽出版社)
IBMP 2-イソブチル-3-メトキシピラジン
IBM 5150 IBM PC
IBM Watson ワトソン (コンピュータ)
IBM 5160 IBM PC XT
TrueNorth コグニティブ・コンピュータ#IBM TrueNorthチップ
BASICA IBM BASIC
データの公開場所
英語での説明
The file "jawiki-20241001-pages-articles-multistream_nlp4j_redirects.txt" is an invaluable dataset containing only the redirect information from Wikipedia Japanese Edition, making it highly accessible and ready for use. With 712,891 lines, it captures pairs of redirect entries, allowing users to trace how one term redirects to another. For example, when "日本IBM" (Nihon IBM) redirects to "日本アイ・ビー・エム" (Nihon Ai-Bī-Emu), it is represented as "日本IBM\t日本アイ・ビー・エム" in the file, formatted in a tab-delimited style.
This dataset is particularly useful for natural language processing (NLP) tasks, search engine optimization, or synonym handling, as it provides direct mappings between alternative names, spellings, or terms and their correct Wikipedia page destinations. It can enhance applications such as entity recognition, name disambiguation, and more precise text mining by ensuring that different terms referring to the same concept are handled consistently.
Extracted from Wikipedia's massive XML dumps, this data bypasses the complexity of dealing with raw wiki syntax and oversized files, offering a streamlined solution for working with redirects. By utilizing this file, researchers and developers can easily incorporate accurate synonym resolution and entity linkage into their NLP models and applications, making it a powerful resource for those looking to enhance their handling of aliases and redirects in text data.
以上.