はじめに
下記の記事を執筆中にコマンドプロンプトの if
文において数値以外の文字列にも比較演算子が有用であることを知った。
Qiitaでバッチファイルの謎なシンタクスハイライトを直したい2~バッチファイルの文法とは? - Qiita
しかも,その比較順序(照合順番)は筆者の以前の記事による sort
コマンドと*ほぼ*一致することも分かった。
Windowsのsortコマンドのアルゴリズムを探る(照合順番の闇)- Qiita
この記事は if
文の照合順番を調べた過程を記事にしたものである。結論を先にいうと if
文における照合順番は SORT
コマンドの照合順番と*ほぼ*一致しており,もともとはJIS X 4061:1996 日本語文字列照合順番に準拠した仕様のようだ。
if 文の文法について
if
文の構文を以下に示す。[...]
内は省略可能なオプションという意味である。
if [not] 文字列1 比較演算子 文字列2 コマンド
比較演算子は下記の7種類用意されている。比較対象となる二つの文字列がいずれも数字のみから構成される場合,数値として比較される。また,文字・文字列についても大小の比較が可能であるが,その比較順序(照合順番)は明らかにされていない。
演算子 | 意味 |
---|---|
== |
等しい |
EQU |
等しい |
NEQ |
等しくない |
LSS |
より小さい |
LEQ |
以下 |
GTR |
より大きい |
GEQ |
以上 |
どうやって調べるのか?
Shift-JIS の全文字(7485文字)をソートして調べてみる。つまり,バッチファイルでソートプログラムを作る。
$\color{red}{\Huge\textsf{えええ?バッチファイルでソートプログラム作るの???}}$
技術的な課題
バッチファイルでソートを行うに際して最大の課題はデータ構造であろう。バッチファイルではソートすべきデータを配列という形で保存しておくことが難しい。
ソートアルゴリズムは二番目の課題だろうか。バッチファイルは遅いので文字数 $n$ とおくと $O(n^2)$ のアルゴリズム(バブルソートなど)は採用したくない。できれば $O(n\log{n})$ で済ませたい。
また,バッチファイルでは関数(サブルーチン)の再帰的呼び出しは実現しづらい。
データ構造とアルゴリズム
三日ほど考えて下記の方針とした。
- ソートアルゴリズムはマージソートにする。マージソートは $O(n\log{n})$ である。
- ソート途中のデータはファイルに保存する。
- 初期状態ではファイルの各行に1文字ずつ文字を並べる。
- バッチファイルではファイルから二行ずつ読み出し,ソート結果を一行にまとめて一行ずつファイルに書き込む。
- 上記の操作を繰り返すたびにファイルの行数は約半分になり,ファイルの行数が一行になったら終了である。
この場合の技術的な課題は,ファイルから読み込んだ文字列を変数(環境変数)に一時格納するため,一つの変数で最大 7485 文字(Shift_JIS の全文字数)を格納する必要があるということだ。下記ページによると Windows10 では環境変数に文字数制限はないようだが,コマンドラインで引き渡せる文字数には制限がある様子。
ユーザー定義環境変数の最大サイズは 32,767 文字です。 環境ブロックのサイズに技術的な制限はありません。 ただし、ブロックへのアクセスに使用されるメカニズムによっては、実際的な制限があります。 たとえば、バッチ ファイルでは、コマンド ラインの最大長を超える変数を設定できません。
Windows Server 2003 および Windows XP: プロセスの環境ブロックの最大サイズは 32,767 文字です。 Windows Vista および Windows Server 2008 以降では、環境ブロックのサイズに技術的な制限はありません。
下記ページによるとコマンドプロンプト(バッチファイル)で使用可能な最大文字数は 8191 文字とのことでギリギリ許容範囲のようだ。
コマンド プロンプト (Cmd. exe) コマンド ライン文字列の制限 - Windows Client - microsoft
コマンドプロンプトで使用できる文字列の最大長は 8191 文字です。
この制限は、次の場合に適用されます。
- コマンドライン
- PATH 変数など、他のプロセスによって継承される個々の環境変数
- すべての環境変数の展開
コマンド プロンプトを使用してバッチ ファイルを実行する場合、この制限はバッチ ファイル処理にも適用されます。
ソート対象の文字列
表示可能な Shift_JIS の全 7485文字 のうち,バッチファイル内で比較を行うといろいろと障害が起こりやすい半角・全角スペースおよびタブ文字,半角記号を除いたテキストファイル Shift_JIS.TXT
を用意した。なお,文字は Shift_JIS の文字コード順に並べており,見易いように適当な文字数,カテゴリーで改行を入れた。
ソート対象の文字列(スペース文字および半角記号を除く Shift_JIS 文字一覧)
0123456789@ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz
§¨°±´¶×÷
ΑΒΓΔΕΖΗΘΙΚΛΜΝΞΟΠΡΣΤΥΦΧΨΩαβγδεζηθικλμνξοπρστυφχψω
ЁАБВГДЕЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯабвгдежзийклмнопрстуфхцчшщъыьэюяё
‐―‘’“”†‡‥…‰′″※℃№℡Å
ⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹ
←↑→↓⇒⇔∀∂∃∇∈∋∑√∝∞∟∠∥∧∨∩∪∫∬∮∴∵∽≒≠≡≦≧≪≫⊂⊃⊆⊇⊥⊿⌒
①②③④⑤⑥⑦⑧⑨⑩⑪⑫⑬⑭⑮⑯⑰⑱⑲⑳
─━│┃┌┏┐┓└┗┘┛├┝┠┣┤┥┨┫┬┯┰┳┴┷┸┻┼┿╂╋
■□▲△▼▽◆◇○◎●◯★☆♀♂♪♭♯、。〃々〆〇〈〉《》「」『』【】〒〓〔〕〝〟
ぁあぃいぅうぇえぉおかがきぎくぐけげこごさざしじすずせぜそぞただちぢっつづてでとどなにぬねのはば
ぱひびぴふぶぷへべぺほぼぽまみむめもゃやゅゆょよらりるれろゎわゐゑをん゛゜ゝゞ
ァアィイゥウェエォオカガキギクグケゲコゴサザシジスズセゼソゾタダチヂッツヅテデトドナニヌネノハバ
パヒビピフブプヘベペホボポマミムメモャヤュユョヨラリルレロヮワヰヱヲンヴヵヶ・ーヽヾ
㈱㈲㈹㊤㊥㊦㊧㊨㌃㌍㌔㌘㌢㌣㌦㌧㌫㌶㌻㍉㍊㍍㍑㍗㍻㍼㍽㍾㎎㎏㎜㎝㎞㎡㏄㏍
一丁七万丈三上下不与丐丑且丕世丗丘丙丞両並丨个中丱串丶丸丹主丼丿乂乃久之乍乎乏乕乖乗乘乙九乞也乢
乱乳乾亀亂亅了予争亊事二于云互五井亘亙些亜亞亟亠亡亢交亥亦亨享京亭亮亰亳亶人什仁仂仄仆仇今介仍从
仏仔仕他仗付仙仝仞仟仡代令以仭仮仰仲件价任仼伀企伃伉伊伍伎伏伐休会伜伝伯估伴伶伸伹伺似伽佃但佇位
低住佐佑体何佖佗余佚佛作佝佞佩佯佰佳併佶佻佼使侃來侈侊例侍侏侑侒侔侖侘侚供依侠価侫侭侮侯侵侶便係
促俄俉俊俍俎俐俑俔俗俘俚俛保俟信俣俤俥修俯俳俵俶俸俺俾俿倅倆倉個倍倏們倒倔倖候倚倞借倡倢倣値倥倦
倨倩倪倫倬倭倶倹偀偂偃偆假偈偉偏偐偕偖做停健偬偰偲側偵偶偸偽傀傅傍傑傔傘備傚催傭傲傳傴債傷傾僂僅
僉僊働像僑僕僖僘僚僞僣僥僧僭僮僴僵價僻儀儁儂億儉儒儔儕儖儘儚償儡優儲儷儺儻儼儿兀允元兄充兆兇先光
兊克兌免兎児兒兔党兜兢兤入全兩兪八公六兮共兵其具典兼冀冂内円冉冊册再冏冐冑冒冓冕冖冗写冝冠冢冤冥
冦冨冩冪冫冬冰冱冲决冴况冶冷冽冾凄凅准凉凋凌凍凖凛凜凝几凡処凧凩凪凬凭凰凱凵凶凸凹出函凾刀刃刄分
切刈刊刋刎刑刔刕列初判別刧利刪刮到刳制刷券刹刺刻剃剄則削剋剌前剏剔剖剛剞剣剤剥剩剪副剰剱割剳剴創
剽剿劃劇劈劉劍劑劒劔力劜功加劣劦助努劫劬劭劯励労劵効劼劾勀勁勃勅勇勉勍勒動勗勘務勛勝勞募勠勢勣勤
勦勧勲勳勵勸勹勺勾勿匀匁匂包匆匇匈匍匏匐匕化北匙匚匝匠匡匣匤匪匯匱匳匸匹区医匿區十千卅卆升午卉半
卍卑卒卓協南単博卜卞占卦卩卮卯印危卲即却卵卷卸卻卿厂厄厓厖厘厚原厠厥厦厨厩厭厮厰厲厳厶去参參又叉
及友双反収叔取受叙叛叝叟叡叢口古句叨叩只叫召叭叮可台叱史右叶号司叺吁吃各合吉吊吋同名后吏吐向君吝
吟吠否吩含听吭吮吶吸吹吻吼吽吾呀呂呆呈呉告呎呑呟周呪呰呱味呵呶呷呻呼命咀咄咆咊咋和咎咏咐咒咜咢咤
咥咨咩咫咬咯咲咳咸咼咽咾哀品哂哄哇哈哉哘員哢哥哦哨哩哭哮哲哺哽哿唄唆唇唏唐唔唖售唯唱唳唸唹唾啀啄
啅商啌問啓啖啗啜啝啣啻啼啾喀喃善喆喇喉喊喋喘喙喚喜喝喞喟喧喨喩喪喫喬單喰営嗄嗅嗇嗔嗚嗜嗟嗣嗤嗷嗹
嗽嗾嘆嘉嘔嘖嘗嘘嘛嘩嘯嘱嘲嘴嘶嘸噂噌噎噐噛噤器噪噫噬噴噸噺嚀嚆嚇嚊嚏嚔嚠嚢嚥嚮嚴嚶嚼囀囁囂囃囈囎
囑囓囗囘囚四回因団囮困囲図囹固国囿圀圃圄圈圉國圍圏園圓圖團圜土圦圧在圭地圷圸圻址坂均坊坎坏坐坑坙
坡坤坥坦坩坪坿垂垈垉型垓垠垢垣垤垪垬垰垳埀埃埆埇埈埋城埒埓埔埖埜域埠埣埴執培基埼堀堂堅堆堊堋堕堙
堝堡堤堪堯堰報場堵堺堽塀塁塊塋塑塒塔塗塘塙塚塞塢塩填塰塲塵塹塾境墅墓増墜增墟墨墫墮墲墳墸墹墺墻墾
壁壅壇壊壌壑壓壕壗壘壙壜壞壟壤壥士壬壮壯声壱売壷壹壺壻壼壽夂変夊夋夏夐夕外夘夙多夛夜夢夥大天太夫
夬夭央失夲夷夸夾奄奇奈奉奎奏奐契奓奔奕套奘奚奛奝奠奢奣奥奧奨奩奪奬奮女奴奸好妁如妃妄妊妍妓妖妙妛
妝妣妤妥妨妬妲妹妺妻妾姆姉始姐姑姓委姙姚姜姥姦姨姪姫姶姻姿威娃娉娑娘娚娜娟娠娥娩娯娵娶娼婀婁婆婉
婚婢婦婪婬婿媒媚媛媼媽媾嫁嫂嫉嫋嫌嫐嫖嫗嫡嫣嫦嫩嫺嫻嬉嬋嬌嬖嬢嬪嬬嬰嬲嬶嬾孀孃孅子孑孔孕孖字存孚
孛孜孝孟季孤孥学孩孫孰孱孳孵學孺宀它宅宇守安宋完宍宏宕宗官宙定宛宜宝実客宣室宥宦宮宰害宴宵家宸容
宿寀寂寃寄寅密寇寉富寐寒寓寔寘寛寝寞察寡寢寤寥實寧寨審寫寬寮寰寳寵寶寸寺対寿封専射尅将將專尉尊尋
對導小少尓尖尚尞尠尢尤尨尭就尸尹尺尻尼尽尾尿局屁居屆屈届屋屍屎屏屐屑屓展属屠屡層履屬屮屯山屶屹岌
岐岑岔岡岦岨岩岫岬岱岳岶岷岸岺岻岼岾峅峇峙峠峡峨峩峪峭峯峰峵島峺峻峽崇崋崎崑崔崕崖崗崘崙崚崛崟崢
崧崩嵂嵋嵌嵎嵐嵒嵓嵜嵩嵬嵭嵯嵳嵶嶂嶄嶇嶋嶌嶐嶝嶢嶬嶮嶷嶸嶹嶺嶼嶽巉巌巍巐巒巓巖巛川州巡巣工左巧巨
巫差己已巳巴巵巷巻巽巾市布帆帋希帑帖帙帚帛帝帥師席帯帰帳帶帷常帽幀幃幄幅幇幌幎幔幕幗幟幡幢幣幤干
平年幵并幸幹幺幻幼幽幾广庁広庄庇床序底庖店庚府庠度座庫庭庵庶康庸廁廂廃廈廉廊廏廐廓廖廚廛廝廟廠廡
廢廣廨廩廬廰廱廳廴延廷廸建廻廼廾廿弁弃弄弉弊弋弌弍式弐弑弓弔引弖弗弘弛弟弡弥弦弧弩弭弯弱弴張強弸
弼弾彁彅彈彊彌彎彑当彖彗彙彜彝彡形彦彧彩彪彫彬彭彰影彳彷役彼彿往征徂徃径待徇很徊律後徐徑徒従得徘
徙從徠御徨復循徭微徳徴德徹徼徽心必忌忍忖志忘忙応忝忞忠忤快忰忱念忸忻忽忿怎怏怐怒怕怖怙怛怜思怠怡
急怦性怨怩怪怫怯怱怺恁恂恃恆恊恋恍恐恒恕恙恚恝恟恠恢恣恤恥恨恩恪恫恬恭息恰恵恷悁悃悄悅悉悊悋悌悍
悒悔悖悗悚悛悟悠患悦悧悩悪悲悳悴悵悶悸悼悽情惆惇惑惓惕惘惚惜惞惟惠惡惣惧惨惰惱惲想惴惶惷惹惺惻愀
愁愃愆愈愉愍愎意愑愕愚愛感愠愡愧愨愬愰愴愷愼愽愾愿慂慄慇慈慊態慌慍慎慓慕慘慙慚慝慟慢慣慥慧慨慫慮
慯慰慱慳慴慵慶慷慾憂憇憊憎憐憑憔憖憘憙憚憤憧憩憫憬憮憲憶憺憾懃懆懇懈應懊懋懌懍懐懣懦懲懴懶懷懸懺
懼懽懾懿戀戈戉戊戌戍戎成我戒戓戔或戚戛戝戞戟戡戦截戮戯戰戲戳戴戸戻房所扁扇扈扉手才扎打払托扛扞扠
扣扨扮扱扶批扼找承技抂抃抄抉把抑抒抓抔投抖抗折抛抜択抦披抬抱抵抹抻押抽拂担拆拇拈拉拊拌拍拏拐拑拒
拓拔拗拘拙招拜拝拠拡括拭拮拯拱拳拵拶拷拾拿持挂指挈按挌挑挙挟挧挨挫振挺挽挾挿捉捌捍捏捐捕捗捜捧捨
捩捫据捲捶捷捺捻掀掃授掉掌掎掏排掖掘掛掟掠採探掣接控推掩措掫掬掲掴掵掻掾揀揃揄揆揉描提插揖揚換握
揣揩揮援揵揶揺搆損搏搓搖搗搜搦搨搬搭搴搶携搾摂摎摘摠摧摩摯摶摸摺撃撈撒撓撕撚撝撞撤撥撩撫播撮撰撲
撹撻撼擁擂擅擇操擎擒擔擘據擠擡擢擣擦擧擬擯擱擲擴擶擺擽擾攀攅攘攜攝攣攤攪攫攬支攴攵收攷攸改攻放政
故效敍敎敏救敕敖敗敘教敝敞敢散敦敬数敲整敵敷數斂斃文斈斉斌斎斐斑斗料斛斜斟斡斤斥斧斫斬断斯新斷方
於施旁旃旄旅旆旋旌族旒旗旙旛无旡既日旦旧旨早旬旭旱旺旻昀昂昃昆昇昉昊昌明昏易昔昕昜昞星映昤春昧昨
昭昮是昱昴昵昶昻昼昿晁時晃晄晉晋晏晒晗晙晝晞晟晢晤晥晦晧晨晩普景晰晳晴晶智暁暃暄暇暈暉暎暑暖暗暘
暙暝暠暢暦暫暮暲暴暸暹暼暾暿曁曄曇曉曖曙曚曜曝曠曦曩曰曲曳更曵曷書曹曺曻曼曽曾替最會月有朋服朎朏
朔朕朖朗望朝朞期朦朧木未末本札朮朱朴朶朷朸机朽朿杁杆杉李杏材村杓杖杙杜杞束杠条杢杣杤来杦杪杭杯杰
東杲杳杵杷杼松板枅枇枉枋枌析枕林枚果枝枠枡枢枦枩枯枳枴架枷枸枹枻柀柁柄柆柊柎柏某柑染柔柘柚柝柞柢
柤柧柩柬柮柯柱柳柴柵査柾柿栁栂栃栄栓栖栗栞校栢栩株栫栲栴核根格栽桀桁桂桃桄框案桍桎桐桑桒桓桔桙桜
桝桟档桧桴桶桷桾桿梁梃梅梍梏梓梔梗梛條梟梠梢梦梧梨梭梯械梱梳梵梶梹梺梼棄棆棈棉棊棋棍棏棒棔棕棗棘
棚棟棠棡棣棧森棯棲棹棺椀椁椄椅椈椋椌植椎椏椒椙椚椛検椡椢椣椥椦椨椪椰椴椶椹椽椿楊楓楔楕楙楚楜楝楞
楠楡楢楨楪楫業楮楯楳楴極楷楸楹楼楽楾榁概榊榎榑榔榕榘榛榜榠榧榮榱榲榴榻榾榿槁槃槇槊構槌槍槎槐槓様
槙槝槞槢槧槨槫槭槲槹槻槽槿樂樅樊樋樌樒樓樔樗標樛樞樟模樢樣権横樫樮樰樵樶樸樹樺樽橄橆橇橈橋橘橙機
橡橢橦橫橲橳橸橾橿檀檄檍檎檐檗檜檠檢檣檪檬檮檳檸檻櫁櫂櫃櫑櫓櫚櫛櫞櫟櫢櫤櫨櫪櫺櫻欄欅權欒欖欝欟欠
次欣欧欲欷欸欹欺欽款歃歇歉歌歎歐歓歔歙歛歟歡止正此武歩歪歯歳歴歸歹死歿殀殃殄殆殉殊残殍殕殖殘殞殤
殪殫殯殱殲殳殴段殷殺殻殼殿毀毅毆毋母毎毒毓比毖毘毛毟毫毬毯毳氈氏民氓气気氛氣氤水氷永氾氿汀汁求汎
汐汕汗汚汜汝汞江池汢汨汪汯汰汲汳決汽汾沁沂沃沆沈沌沍沐沒沓沖沙沚沛没沢沫沮沱河沸油沺治沼沽沾沿況
泄泅泉泊泌泓法泗泙泚泛泝泡波泣泥注泪泯泰泱泳洄洋洌洒洗洙洛洞洟津洩洪洫洲洳洵洶洸活洽派流浄浅浙浚
浜浣浤浦浩浪浬浮浯浴海浸浹涅涇消涌涎涓涕涖涙涛涜涬涯液涵涸涼淀淅淆淇淋淌淏淑淒淕淘淙淞淡淤淦淨淪
淫淬淮深淲淳淵混淸淹淺添淼清渇済渉渊渋渓渕渙渚減渝渟渠渡渣渤渥渦渧温渫測渭渮港游渹渺渼渾湃湊湍湎
湖湘湛湜湟湧湫湮湯湲湶湾湿満溂溌溏源準溘溜溝溟溢溥溪溯溲溶溷溺溽溿滂滄滅滉滋滌滑滓滔滕滝滞滬滯滲
滴滷滸滾滿漁漂漆漉漏漑漓演漕漠漢漣漫漬漱漲漸漾漿潁潅潔潘潛潜潟潤潦潭潮潯潰潴潸潺潼澀澁澂澄澆澈澎
澑澗澡澣澤澪澱澳澵澹激濁濂濃濆濔濕濘濛濟濠濡濤濫濬濮濯濱濳濵濶濺濾瀁瀅瀇瀉瀋瀏瀑瀕瀘瀚瀛瀝瀞瀟瀦
瀧瀨瀬瀰瀲瀾灌灑灘灣火灯灰灸灼災炅炉炊炎炒炙炫炬炭炮炯炳炸点為炻烈烋烏烙烝烟烱烹烽焄焉焏焔焙焚焜
無焦然焼煆煇煉煌煎煕煖煙煜煢煤煥煦照煩煬煮煽熄熈熊熏熔熕熙熟熨熬熱熹熾燁燃燈燉燎燐燒燔燕燗營燠燥
燦燧燬燭燮燵燹燻燼燾燿爆爍爐爛爨爪爬爭爰爲爵父爺爻爼爽爾爿牀牆片版牋牌牒牘牙牛牝牟牡牢牧物牲牴特
牽牾犀犁犂犇犒犖犠犢犧犬犯犱犲状犹犾狂狃狄狆狎狐狒狗狙狛狠狡狢狩独狭狷狸狹狼狽猊猖猗猛猜猝猟猤猥
猩猪猫献猯猴猶猷猾猿獄獅獎獏獗獣獨獪獰獲獵獷獸獺獻玄率玉王玖玩玲玳玻玽珀珂珈珉珊珍珎珒珖珞珠珣珥
珪班珮珱珵珸現球琅理琇琉琢琥琦琩琪琮琲琳琴琵琶琺琿瑁瑕瑙瑚瑛瑜瑞瑟瑠瑢瑣瑤瑩瑪瑯瑰瑳瑶瑾璃璉璋璞
璟璢璧環璽瓊瓏瓔瓜瓠瓢瓣瓦瓧瓩瓮瓰瓱瓲瓶瓷瓸甁甃甄甅甌甍甎甑甓甕甘甚甜甞生産甥甦用甫甬甯田由甲申
男甸町画甼畄畆畉畊畋界畍畏畑畔留畚畛畜畝畠畢畤略畦畧畩番畫畭畯異畳畴當畷畸畿疂疆疇疉疊疋疎疏疑疔
疚疝疣疥疫疱疲疳疵疸疹疼疽疾痂痃病症痊痍痒痔痕痘痙痛痞痢痣痩痰痲痳痴痺痼痾痿瘁瘉瘋瘍瘟瘠瘡瘢瘤瘧
瘰瘴瘻療癆癇癈癌癒癖癘癜癡癢癧癨癩癪癬癰癲癶癸発登發白百皀皂皃的皆皇皈皋皎皐皓皖皙皚皛皜皞皦皮皰
皴皷皸皹皺皿盂盃盆盈益盍盒盖盗盛盜盞盟盡監盤盥盧盪目盲直相盻盾省眄眇眈眉看県眛眞真眠眤眥眦眩眷眸
眺眼着睆睇睚睛睡督睥睦睨睫睹睾睿瞋瞎瞑瞞瞠瞥瞬瞭瞰瞳瞶瞹瞻瞼瞽瞿矇矍矗矚矛矜矢矣知矧矩短矮矯石矼
砂砌砒研砕砠砡砥砦砧砲破砺砿硅硎硝硤硫硬硯硲硴硺硼碁碆碇碌碍碎碑碓碕碗碚碣碧碩碪碯碵確碼碾磁磅磆
磊磋磐磑磔磚磧磨磬磯磴磽礁礇礎礑礒礙礦礪礫礬礰示礼社祀祁祇祈祉祐祓祕祖祗祚祝神祟祠祢祥票祭祷祺祿
禀禁禄禅禊禍禎福禔禛禝禦禧禪禮禰禳禹禺禽禾禿秀私秉秋科秒秕秘租秡秣秤秦秧秩秬称移稀稈程稍税稔稗稘
稙稚稜稟稠種稱稲稷稻稼稽稾稿穀穂穃穆穉積穎穏穐穗穡穢穣穩穫穰穴究穹空穽穿突窃窄窈窒窓窕窖窗窘窟窩
窪窮窯窰窶窺窿竃竄竅竇竈竊立竍竏竑竒竓竕站竚竜竝竟章竡竢竣童竦竧竪竫竭端竰競竸竹竺竿笂笄笆笈笊笋
笏笑笘笙笛笞笠笥符笨第笳笵笶笹筅筆筈等筋筌筍筏筐筑筒答策筝筥筧筬筮筰筱筴筵筺箆箇箋箍箏箒箔箕算箘
箙箚箜箝箞箟管箪箭箱箴箸節篁範篆篇築篋篌篏篝篠篤篥篦篩篭篳篶篷簀簇簍簑簒簓簔簗簟簡簣簧簪簫簷簸簽
簾簿籀籃籌籍籏籐籔籖籘籟籠籤籥籬米籵籾粁粂粃粉粋粍粐粒粕粗粘粛粟粡粢粤粥粧粨粫粭粮粱粲粳粹粽精糀
糂糅糊糎糒糖糘糜糞糟糠糢糧糯糲糴糶糸糺系糾紀紂約紅紆紊紋納紐純紕紗紘紙級紛紜素紡索紫紬紮累細紲紳
紵紹紺紿終絃組絅絆絈絋経絎絏結絖絛絜絞絡絢絣給絨絮統絲絳絵絶絹絽綉綏經継続綛綜綟綠綢綣綫綬維綮綯
綰綱網綴綵綷綸綺綻綽綾綿緇緊緋総緑緒緕緖緘線緜緝緞締緡緤編緩緬緯緲練緻縁縄縅縉縊縋縒縛縞縟縡縢縣
縦縫縮縱縲縵縷縹縺縻總績繁繃繆繊繋繍繒織繕繖繙繚繝繞繦繧繩繪繭繰繹繻繼繽繿纂纃纈纉纊續纎纏纐纒纓
纔纖纛纜缶缸缺罅罇罌罍罎罐网罔罕罘罟罠罧罨罩罪罫置罰署罵罷罸罹羂羃羅羆羇羈羊羌美羔羚羝羞羡羣群羨
義羮羯羲羶羸羹羽翁翅翆翊翌習翔翕翠翡翦翩翫翰翳翹翻翼耀老考耄者耆耋而耐耒耕耗耘耙耜耡耨耳耶耻耽耿
聆聊聒聖聘聚聞聟聡聢聨聯聰聲聳聴聶職聹聽聾聿肄肅肆肇肉肋肌肓肖肘肚肛肝股肢肥肩肪肬肭肯肱育肴肺胃
胄胆背胎胖胙胚胛胝胞胡胤胥胯胱胴胸胼能脂脅脆脇脈脉脊脚脛脣脩脯脱脳脹脾腆腋腎腐腑腓腔腕腟腥腦腫腮
腰腱腴腸腹腺腿膀膂膃膈膊膏膓膕膚膜膝膠膣膤膨膩膰膳膵膸膺膽膾膿臀臂臆臈臉臍臑臓臘臙臚臟臠臣臥臧臨
自臭至致臺臻臼臾舁舂舅與興舉舊舌舍舎舐舒舖舗舘舛舜舞舟舩航舫般舮舳舵舶舷舸船艀艇艘艙艚艝艟艢艤艦
艨艪艫艮良艱色艶艷艸艾芋芍芒芙芝芟芥芦芫芬芭芯花芳芸芹芻芽苅苑苒苓苔苗苙苛苜苞苟苡苣若苦苧苫英苳
苴苹苺苻茁茂范茄茅茆茉茎茖茗茘茜茣茨茫茯茱茲茴茵茶茸茹荀荅草荊荏荐荒荘荢荳荵荷荻荼荿莅莇莉莊莎莓
莖莚莞莟莠莢莨莪莫莱莵莽菁菅菇菊菌菎菓菖菘菜菟菠菩菫華菰菱菲菴菶菷菻菽萃萄萇萋萌萍萎萓萠萢萩萪萬
萱萵萸萼落葆葈葉葎著葛葡葢董葦葩葫葬葭葮葯葱葵葷葹葺蒂蒄蒋蒐蒔蒙蒜蒟蒡蒭蒲蒴蒸蒹蒻蒼蒿蓁蓄蓆蓉蓊
蓋蓍蓐蓑蓖蓙蓚蓜蓬蓮蓴蓼蓿蔀蔆蔑蔓蔔蔕蔗蔘蔚蔟蔡蔦蔬蔭蔵蔽蕀蕁蕃蕈蕉蕊蕋蕎蕓蕕蕗蕘蕙蕚蕣蕨蕩蕪蕫
蕭蕷蕾薀薄薇薈薊薐薑薔薗薙薛薜薤薦薨薩薪薫薬薮薯薰薹薺藁藉藍藏藐藕藜藝藤藥藩藪藷藹藺藻藾蘂蘆蘇蘊
蘋蘓蘖蘗蘚蘢蘭蘯蘰蘿虍虎虐虔處虚虜虞號虧虫虱虹虻蚊蚋蚌蚓蚕蚣蚤蚩蚪蚫蚯蚰蚶蛄蛆蛇蛉蛋蛍蛎蛔蛙蛛蛞
蛟蛤蛩蛬蛭蛮蛯蛸蛹蛻蛾蜀蜂蜃蜆蜈蜉蜊蜍蜑蜒蜘蜚蜜蜥蜩蜴蜷蜻蜿蝉蝋蝌蝎蝓蝕蝗蝙蝟蝠蝣蝦蝨蝪蝮蝴蝶蝸
蝿螂融螟螢螫螯螳螺螻螽蟀蟄蟆蟇蟋蟐蟒蟠蟯蟲蟶蟷蟹蟻蟾蠅蠇蠍蠎蠏蠑蠕蠖蠡蠢蠣蠧蠱蠶蠹蠻血衂衄衆行衍
衒術街衙衛衝衞衡衢衣表衫衰衲衵衷衽衾衿袁袂袈袋袍袒袖袗袙袞袢袤被袮袰袱袴袵袷袿裁裂裃裄装裏裔裕裘
裙補裝裟裡裨裲裳裴裵裸裹裼製裾褂褄複褊褌褐褒褓褜褝褞褥褪褫褶褸褻襁襃襄襌襍襖襞襟襠襤襦襪襭襯襲襴
襷襾西要覃覆覇覈覊見規覓視覗覘覚覡覦覧覩親覬覯覲観覺覽覿觀角觚觜觝解触觧觴觸言訂訃計訊訌討訐訒訓
訖託記訛訝訟訣訥訪設許訳訴訶訷診註証詁詆詈詐詑詒詔評詛詞詠詢詣試詩詫詬詭詮詰話該詳詹詼誂誄誅誇誉
誌認誑誓誕誘誚語誠誡誣誤誥誦誧誨説読誰課誹誼誾調諂諄談請諌諍諏諒論諚諛諜諞諟諠諡諢諤諦諧諫諭諮諱
諳諶諷諸諺諾謀謁謂謄謇謌謎謐謔謖謗謙謚講謝謠謡謦謨謫謬謳謹謾譁證譌譎譏譓譖識譚譛譜譟警譫譬譯議譱
譲譴護譽譿讀讃變讌讎讐讒讓讖讙讚谷谺谿豁豆豈豊豌豎豐豕豚象豢豪豫豬豸豹豺豼貂貅貉貊貌貍貎貔貘貝貞
負財貢貧貨販貪貫責貭貮貯貰貲貳貴貶買貸費貼貽貿賀賁賂賃賄資賈賊賍賎賑賓賚賛賜賞賠賢賣賤賦質賭賰賴
賺賻購賽贄贅贇贈贊贋贍贏贐贒贓贔贖赤赦赧赫赭走赱赳赴赶起趁超越趙趣趨足趺趾跂跋跌跏跖跚跛距跟跡跣
跨跪跫路跳践跼跿踈踉踊踏踐踝踞踟踪踰踴踵蹂蹄蹇蹈蹉蹊蹌蹐蹕蹙蹟蹠蹣蹤蹲蹴蹶蹼躁躄躅躇躊躋躍躑躓躔
躙躡躪身躬躯躰躱躾軅軆軈車軋軌軍軏軒軛軟転軣軫軸軻軼軽軾較輅載輊輌輒輓輔輕輙輛輜輝輟輦輩輪輯輳輸
輹輻輾輿轂轄轅轆轉轌轍轎轗轜轟轡轢轣轤辛辜辞辟辣辧辨辭辮辯辰辱農辷辺辻込辿迂迄迅迎近返迚迢迥迦迩
迪迫迭迯述迴迷迸迹迺追退送逃逅逆逋逍逎透逐逑逓途逕逖逗這通逝逞速造逡逢連逧逮週進逵逶逸逹逼逾遁遂
遅遇遉遊運遍過遏遐遑遒道達違遖遘遙遜遞遠遡遣遥遧遨適遭遮遯遲遵遶遷選遺遼遽避邀邁邂邃還邇邉邊邏邑
那邦邨邪邯邱邵邸郁郊郎郛郞郡郢郤部郭郵郷都鄂鄒鄕鄙鄧鄭鄰鄲酉酊酋酌配酎酒酔酖酘酢酣酥酩酪酬酲酳酵
酷酸醂醇醉醋醍醐醒醗醜醢醤醪醫醯醴醵醸醺釀釁釆采釈釉釋里重野量釐金釖釗釘釚釛釜針釞釟釡釣釤釥釦釧
釭釮釵釶釼釿鈆鈊鈍鈎鈐鈑鈔鈕鈞鈩鈬鈴鈷鈹鈺鈼鈿鉀鉄鉅鉈鉉鉋鉎鉐鉑鉗鉙鉚鉛鉞鉢鉤鉦鉧鉱鉷鉸鉾銀銃銅
銈銑銓銕銖銘銚銛銜銧銭銷銹鋏鋐鋒鋓鋕鋗鋙鋠鋤鋧鋩鋪鋭鋲鋳鋸鋹鋺鋻鋼鋿錂錆錏錐錘錙錚錝錞錠錡錢錣錥
錦錨錫錬錮錯録錵錺錻鍄鍈鍋鍍鍔鍖鍗鍛鍜鍠鍬鍮鍰鍵鍼鍾鎌鎔鎖鎗鎚鎤鎧鎬鎭鎮鎰鎹鏃鏆鏈鏐鏑鏖鏗鏘鏝鏞
鏡鏤鏥鏨鏸鐃鐇鐐鐓鐔鐘鐙鐚鐡鐫鐱鐵鐶鐸鐺鑁鑄鑅鑈鑑鑒鑓鑚鑛鑞鑠鑢鑪鑰鑵鑷鑼鑽鑾鑿钁長門閂閃閇閉閊
開閏閑閒間閔閖閘閙閠関閣閤閥閧閨閭閲閹閻閼閾闃闇闊闌闍闔闕闖闘關闡闢闥阜阡阨阪阮阯防阻阿陀陂附陋
陌降陏限陛陜陝陞陟院陣除陥陦陪陬陰陲陳陵陶陷陸険陽隅隆隈隊隋隍階随隔隕隗隘隙際障隝隠隣隧隨險隯隰
隱隲隴隶隷隸隹隻隼雀雁雄雅集雇雉雋雌雍雎雑雕雖雙雛雜離難雨雪雫雰雲零雷雹電需霄霆震霈霊霍霎霏霑霓
霖霙霜霞霤霧霪霰露霳霸霹霻霽霾靂靃靄靆靈靉靍靏靑青靕靖静靜非靠靡面靤靦靨革靫靭靱靴靹靺靼鞁鞄鞅鞆
鞋鞍鞏鞐鞘鞜鞠鞣鞦鞨鞫鞭鞳鞴韃韆韈韋韓韜韭韮韲音韵韶韻響頁頂頃項順須頌頏預頑頒頓頗領頚頡頤頬頭頴
頷頸頻頼頽顆顋題額顎顏顔顕顗願顛類顥顧顫顯顰顱顳顴風颪颯颱颶飃飄飆飛飜食飢飩飫飭飮飯飲飴飼飽飾餃
餅餉養餌餐餒餓餔餘餝餞餠餡餤餧館餬餮餽餾饂饅饉饋饌饐饑饒饕饗首馗馘香馞馥馨馬馭馮馳馴馼駁駄駅駆駈
駐駑駒駕駘駛駝駟駢駭駮駱駲駸駻駿騁騅騎騏騒験騙騨騫騰騷騾驀驂驃驅驍驎驕驗驚驛驟驢驤驥驩驪驫骨骭骰
骸骼髀髄髏髑髓體高髙髜髞髟髢髣髦髪髫髭髮髯髱髴髷髻鬆鬘鬚鬟鬢鬣鬥鬧鬨鬩鬪鬮鬯鬱鬲鬻鬼魁魂魃魄魅魍
魎魏魑魔魘魚魯魲魴魵鮃鮎鮏鮑鮒鮓鮖鮗鮟鮠鮨鮪鮫鮭鮮鮱鮴鮹鮻鯀鯆鯉鯊鯏鯑鯒鯔鯖鯛鯡鯢鯣鯤鯨鯰鯱鯲鯵
鰀鰄鰆鰈鰉鰊鰌鰍鰐鰒鰓鰔鰕鰛鰡鰤鰥鰭鰮鰯鰰鰲鰹鰺鰻鰾鱆鱇鱈鱒鱗鱚鱠鱧鱶鱸鳥鳧鳩鳫鳬鳰鳳鳴鳶鴃鴆鴇
鴈鴉鴎鴒鴕鴛鴟鴣鴦鴨鴪鴫鴬鴻鴾鴿鵁鵄鵆鵈鵐鵑鵙鵜鵝鵞鵠鵡鵤鵫鵬鵯鵰鵲鵺鶇鶉鶏鶚鶤鶩鶫鶯鶲鶴鶸鶺鶻
鷁鷂鷄鷆鷏鷓鷙鷦鷭鷯鷲鷸鷹鷺鷽鸙鸚鸛鸞鹵鹸鹹鹽鹿麁麈麋麌麑麒麓麕麗麝麟麥麦麩麪麭麸麹麺麻麼麾麿黄
黌黍黎黏黐黑黒黔默黙黛黜黝點黠黥黨黯黴黶黷黹黻黼黽鼇鼈鼎鼓鼕鼠鼡鼬鼻鼾齊齋齎齏齒齔齟齠齡齢齣齦齧
齪齬齲齶齷龍龕龜龝龠朗隆﨎﨏塚﨑晴﨓﨔凞猪益礼神祥福靖精羽﨟蘒﨡諸﨣﨤逸都﨧﨨﨩飯飼館鶴
!"#$%&'()*+,-./0123456789:;<=>?@
ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`
abcdefghijklmnopqrstuvwxyz{|}~
。「」、・ヲァィゥェォャュョッーアイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワン゙゚
¢£¬ ̄¦¥
シリアライズ
上記の Shift_JIS.TXT
を一行一文字(一行あたり一文字ずつの意味)に変換するバッチファイルである。最後にソートされて一行にまとめられたファイルを再び一行一文字に戻す場合にも用いる。
@echo off
setlocal enabledelayedexpansion
rem ----------------------------------------------------------------------------
rem ヘルプメッセージ
rem ----------------------------------------------------------------------------
if "%1"=="" goto USAGE
if "%2"=="" goto USAGE
rem ----------------------------------------------------------------------------
rem グローバル変数の初期化
rem ----------------------------------------------------------------------------
set INPUT_FILE=%1
set OUTPUT_FILE=%2
set INPUT_LINE=0
set OUTPUT_LINE=0
rem ----------------------------------------------------------------------------
rem 出力ファイルが存在していれば削除する
rem ----------------------------------------------------------------------------
if exist %OUTPUT_FILE% del %OUTPUT_FILE%
rem ----------------------------------------------------------------------------
rem 一文字ずつ切り出して出力する
rem ----------------------------------------------------------------------------
for /F %%I in ( %INPUT_FILE% ) do (
call :SERIAL %%I
set /a INPUT_LINE+=1
)
echo シリアライズ:%INPUT_FILE%(%INPUT_LINE% 行)→ %OUTPUT_FILE%(%OUTPUT_LINE% 行)
exit /b
rem ----------------------------------------------------------------------------
rem 一文字ずつ切り出して出力する
rem ----------------------------------------------------------------------------
:SERIAL
set STR=%1
:SERIAL_LOOP
if not defined STR goto SERIAL_BREAK
>>%OUTPUT_FILE% echo %STR:~0,1%
set /a OUTPUT_LINE+=1
set STR=%STR:~1%
goto SERIAL_LOOP
:SERIAL_BREAK
exit /b
rem ----------------------------------------------------------------------------
rem ヘルプメッセージ
rem ----------------------------------------------------------------------------
:USAGE
echo テキストファイルをシリアライズ(一文字/行)に変換します。
echo.
echo SERIAL(.CMD) [入力ファイル名(.TXT)] [出力ファイル名(.TXT)]
echo.
echo <前提条件>
echo ・入力ファイルには空行が含まれません。
echo ・入力ファイルにはスペース文字および半角記号は含まれません。
exit /b
マージソート
入力ファイルから二行ずつ読み込み,マージソートによるソート結果を一行にまとめて一行ずつ出力ファイルに書き込む。
@echo off
setlocal enabledelayedexpansion
rem ----------------------------------------------------------------------------
rem ヘルプメッセージ
rem ----------------------------------------------------------------------------
if "%1"=="" goto USAGE
if "%2"=="" goto USAGE
rem ----------------------------------------------------------------------------
rem グローバル変数の初期化
rem ----------------------------------------------------------------------------
set INPUT_FILE=%1
set OUTPUT_FILE=%2
set INPUT_LINE=0
set OUTPUT_LINE=0
rem ----------------------------------------------------------------------------
rem 出力ファイルが存在していれば削除する
rem ----------------------------------------------------------------------------
if exist %OUTPUT_FILE% del %OUTPUT_FILE%
rem ----------------------------------------------------------------------------
rem 二つの行をマージソートして出力ファイルに書き込む
rem ----------------------------------------------------------------------------
set BUF=
for /F %%I in ( %INPUT_FILE% ) do (
call :MERGE %%I
set /a INPUT_LINE+=1
)
if defined BUF (
>> %OUTPUT_FILE% echo %BUF%
set /a OUTPUT_LINE+=1
)
echo マージソート:%INPUT_FILE%(%INPUT_LINE% 行)→ %OUTPUT_FILE%(%OUTPUT_LINE% 行)
rem ----------------------------------------------------------------------------
rem 出力ファイルの行数を終了コードとして返す
rem ----------------------------------------------------------------------------
endlocal&&exit /b %OUTPUT_LINE%
rem ----------------------------------------------------------------------------
rem 二つの行をマージソートして出力ファイルに書き込む
rem ----------------------------------------------------------------------------
:MERGE
if defined BUF goto MERGE_SKIP
set BUF=%1
exit /b
:MERGE_SKIP
set INPUT1=%BUF%
set INPUT2=%1
set OUTPUT=
set BUF=
:MERGE_LOOP
if not defined INPUT1 goto MERGE_BREAK
if not defined INPUT2 goto MERGE_BREAK
if %INPUT1:~0,1% LEQ %INPUT2:~0,1% (
set OUTPUT=%OUTPUT%%INPUT1:~0,1%
set INPUT1=%INPUT1:~1%
) else (
set OUTPUT=%OUTPUT%%INPUT2:~0,1%
set INPUT2=%INPUT2:~1%
)
goto MERGE_LOOP
:MERGE_BREAK
if defined INPUT1 set OUTPUT=%OUTPUT%%INPUT1%
if defined INPUT2 set OUTPUT=%OUTPUT%%INPUT2%
>>%OUTPUT_FILE% echo %OUTPUT%
set /a OUTPUT_LINE+=1
exit /b
rem ----------------------------------------------------------------------------
rem ヘルプメッセージ
rem ----------------------------------------------------------------------------
:USAGE
echo テキストファイルを二行ずつ読み込み,一行ずつマージソートして書き込みます。
echo 書き込んだ行数を終了コードとして返します。
echo.
echo MERGE(.CMD) [入力ファイル名(.TXT)] [出力ファイル名(.TXT)]
echo.
echo <前提条件>
echo ・入力ファイルには空行が含まれません。
echo ・入力ファイルにはスペース文字および半角記号は含まれません。
echo ・入力ファイルの各行の文字列は既にソート済みとします。
exit /b
並列化
一行一文字にシリアライズされたファイルは読みにくいので,適当なカテゴリ別,適当な文字数で改行を入れるようにした。
@echo off
setlocal enabledelayedexpansion
rem ----------------------------------------------------------------------------
rem ヘルプメッセージ
rem ----------------------------------------------------------------------------
if "%1"=="" goto USAGE
if "%2"=="" goto USAGE
rem ----------------------------------------------------------------------------
rem グローバル変数の初期化
rem ----------------------------------------------------------------------------
set INPUT_FILE=%1
set OUTPUT_FILE=%2
set INPUT_LINE=0
set OUTPUT_LINE=0
set SEPARATORS=' ¢ ⊂ ─ § 0 ⅰ a m α а ァ ヶ ッ フ ョ ㍉ 仝 ー
rem ----------------------------------------------------------------------------
rem 出力ファイルが存在していれば削除する
rem ----------------------------------------------------------------------------
if exist %OUTPUT_FILE% del %OUTPUT_FILE%
rem ----------------------------------------------------------------------------
rem 入力ファイルから一行ずつ読み込む
rem ----------------------------------------------------------------------------
set STR=
set LEN=0
set PREV=0
set ZONE=1
for /F %%I in ( %INPUT_FILE% ) do (
call :PARALLEL %%I
set /a INPUT_LINE+=1
)
if defined STR (
>> %OUTPUT_FILE% echo !STR!
set /a OUTPUT_LINE+=1
)
echo 並列化:%INPUT_FILE%(%INPUT_LINE% 行)→ %OUTPUT_FILE%(%OUTPUT_LINE% 行)
exit /b
rem ----------------------------------------------------------------------------
rem ZONE 別に文字を一行にまとめる
rem 区切り文字 SEPARATORS と一致すれば改行し,ZONE を一つ進める
rem ZONE が 17(漢字の領域)のとき,一行内の文字数を 44 に制限する
rem ----------------------------------------------------------------------------
:PARALLEL
set COUNT=0
for %%J in ( %SEPARATORS% ) do (
if /I %%I==%%J set ZONE=!COUNT!
set /a COUNT+=1
)
if !PREV! EQU !ZONE! (
set FLAG=0
) else (
set FLAG=1
)
set PREV=!ZONE!
if !ZONE!==17 if !LEN! GEQ 44 set FLAG=1
if !FLAG!==1 if defined STR (
>> %OUTPUT_FILE% echo !STR!
set STR=
set LEN=0
set /a OUTPUT_LINE+=1
)
set STR=!STR!%1
set /a LEN+=1
exit /b
rem ----------------------------------------------------------------------------
rem ヘルプメッセージ
rem ----------------------------------------------------------------------------
:USAGE
echo テキストファイルを並列化(最大44文字/行)し,カテゴリー別に改行します。
echo.
echo PARALLEL(.CMD) [入力ファイル名(.TXT)] [出力ファイル名(.TXT)]
echo.
echo <前提条件>
echo ・入力ファイルには空行が含まれません。
echo ・入力ファイルにはスペース文字および半角記号は含まれません。
echo ・入力ファイルには一行につき一文字ずつ含まれます。
exit /b
重複文字の削除
単にソートするだけだと照合順番が異なるのか同じなのか分からないため,照合順番が同じ文字は削除するようにした。
比較する文字にはスペースが含まれておらず,またエスケープが必要な記号類も含まれていないため,基本的に二重引用符で囲んで比較する必要はない。しかし,コマンドプロンプトの if
文は比較すべき二つの文字列が数値のみから構成される場合,文字ではなく数値として比較することから,文字列として比較するためには二重引用符で囲んで比較する必要がある。一方(詳しくは後述するが)アポストロフィーや踊り字は直前の文字の照合順番を引き継ぐことが分かっている。二重引用符で囲んだ場合は二重引用符の照合順番を引き継いでしまうので二重引用符を外して比較する。
@echo off
setlocal enabledelayedexpansion
rem ----------------------------------------------------------------------------
rem ヘルプメッセージ
rem ----------------------------------------------------------------------------
if "%1"=="" goto USAGE
if "%2"=="" goto USAGE
rem ----------------------------------------------------------------------------
rem グローバル変数の初期化
rem ----------------------------------------------------------------------------
set INPUT_FILE=%1
set OUTPUT_FILE=%2
set INPUT_LINE=0
set OUTPUT_LINE=0
set SPECIALS=' - ‐ ー ゝ 々 ヽ ヾ ― ゞ ー
rem ----------------------------------------------------------------------------
rem 出力ファイルが存在していれば削除する
rem ----------------------------------------------------------------------------
if exist %OUTPUT_FILE% del %OUTPUT_FILE%
rem ----------------------------------------------------------------------------
rem 重複行を削除する
rem ----------------------------------------------------------------------------
set BUF=
for /F %%I in ( %INPUT_FILE% ) do (
call :UNIQUE %%I
set /a INPUT_LINE+=1
)
echo 重複行を削除:%INPUT_FILE%(%INPUT_LINE% 行)→ %OUTPUT_FILE%(%OUTPUT_LINE% 行)
exit /b
rem ----------------------------------------------------------------------------
rem 重複行を削除する
rem ----------------------------------------------------------------------------
:UNIQUE
if not defined BUF goto UNIQUE2
set FLAG=0
for %%I in ( %SPECIALS% ) do if "%1"=="%%I" set FLAG=1
if %FLAG%==0 if "%BUF%" == "%1" goto UNIQUE3
if %FLAG%==1 if %BUF% == %1 goto UNIQUE3
:UNIQUE2
>> %OUTPUT_FILE% echo %1
set /a OUTPUT_LINE+=1
:UNIQUE3
set BUF=%1
exit /b
rem ----------------------------------------------------------------------------
rem ヘルプメッセージ
rem ----------------------------------------------------------------------------
:USAGE
echo テキストファイルの前後行を比較して一致したら削除します。
echo.
echo UNIQUE(.CMD) [入力ファイル名(.TXT)] [出力ファイル名(.TXT)]
echo.
echo <前提条件>
echo ・入力ファイルには空行が含まれません。
echo ・入力ファイルは既にソート済みとします。
exit /b
全体処理
全体処理を示す。今回作成した MERGE.CMD
はマージソートのため安定ソートであるのに対し,sort
コマンドは不安定ソートである。つまり,入力ファイルが同じでもソート結果が異なる可能性もある。このため sort
コマンドの出力に対して MERGE.CMD
による再ソートを行うことにした。なお sort
コマンドの非公開オプションである /case
(大文字・小文字を区別する)と等価であることが分かったので,sort /case
コマンドの出力に対して MERGE.CMD
による再ソートを行うようにした。
@echo off
setlocal
rem ----------------------------------------------------------------------------
rem シリアライズ
rem ----------------------------------------------------------------------------
call SERIAL.CMD Shift_JIS.TXT STEP000.TXT
rem ----------------------------------------------------------------------------
rem SORT.EXE によるソート
rem ----------------------------------------------------------------------------
sort STEP000.TXT > STEP100.TXT
sort /case STEP000.TXT > STEP200.TXT
rem ----------------------------------------------------------------------------
rem マージソート
rem ----------------------------------------------------------------------------
set PREV_NO=200
set NEXT_NO=201
:MAIN_LOOP
call MERGE.CMD STEP%PREV_NO%.TXT STEP%NEXT_NO%.TXT
if not errorlevel 2 goto MAIN_BREAK
set /a PREV_NO+=1
set /a NEXT_NO+=1
goto MAIN_LOOP
:MAIN_BREAK
rem ----------------------------------------------------------------------------
rem 再シリアライズ
rem ----------------------------------------------------------------------------
call SERIAL.CMD STEP%NEXT_NO%.TXT SORT_BATCH.TXT
rem ----------------------------------------------------------------------------
rem 並列化
rem ----------------------------------------------------------------------------
call PARALLEL.CMD STEP100.TXT RESULT_DEFAULT.TXT
call PARALLEL.CMD STEP200.TXT RESULT_CASE.TXT
call PARALLEL.CMD SORT_BATCH.TXT RESULT_BATCH.TXT
rem ----------------------------------------------------------------------------
rem 重複行の削除
rem ----------------------------------------------------------------------------
sort /case /unique STEP000.TXT > UNIQ_CASE.TXT
call UNIQUE.CMD SORT_BATCH.TXT UNIQ_BATCH.TXT
実行経過
上記の全体処理のバッチファイル GOGO.CMD
の実行経過を示す。ちなみに筆者の環境では約4分かかった。
c:\qiita>gogo
シリアライズ:Shift_JIS.TXT(160 行)→ STEP000.TXT(7451 行)
マージソート:STEP200.TXT(7451 行)→ STEP201.TXT(3726 行)
マージソート:STEP201.TXT(3726 行)→ STEP202.TXT(1863 行)
マージソート:STEP202.TXT(1863 行)→ STEP203.TXT(932 行)
マージソート:STEP203.TXT(932 行)→ STEP204.TXT(466 行)
マージソート:STEP204.TXT(466 行)→ STEP205.TXT(233 行)
マージソート:STEP205.TXT(233 行)→ STEP206.TXT(117 行)
マージソート:STEP206.TXT(117 行)→ STEP207.TXT(59 行)
マージソート:STEP207.TXT(59 行)→ STEP208.TXT(30 行)
マージソート:STEP208.TXT(30 行)→ STEP209.TXT(15 行)
マージソート:STEP209.TXT(15 行)→ STEP210.TXT(8 行)
マージソート:STEP210.TXT(8 行)→ STEP211.TXT(4 行)
マージソート:STEP211.TXT(4 行)→ STEP212.TXT(2 行)
マージソート:STEP212.TXT(2 行)→ STEP213.TXT(1 行)
シリアライズ:STEP213.TXT(1 行)→ SORT_BATCH.TXT(7451 行)
並列化:STEP100.TXT(7451 行)→ RESULT_DEFAULT.TXT(171 行)
並列化:STEP200.TXT(7451 行)→ RESULT_CASE.TXT(171 行)
並列化:SORT_BATCH.TXT(7451 行)→ RESULT_BATCH.TXT(171 行)
重複行を削除:SORT_BATCH.TXT(7451 行)→ UNIQ_BATCH.TXT(7442 行)
実行結果
ソート結果を以下に示す。
RESULT_BATCH.TXT
'-‐゛゙゚゜!"#$%&()*,、、.。。/:;?@@[\]^_`{|}~¦¨ ̄´‘’“”′″〈〉《
¢£》¥「「」」『』【】〔〕〝〟〃〆+<=≠>±≪≫×÷∀∂∃∇∈∋∑√∝∟∠∥∧∨∩∪∫∮∴∵∽≒≡≦≧
⊂⊃⊆⊇⊥⊿⌒■□▲△◯▼▽◆◇○◎●↑→⇒↓←⇔
─━│┃┌┏┐┓└┗┘┛├┝┠┣┤┥┨┫┬┯┰┳┴┷┸┻┼┿╂╋
§¬°¶・・‥…∬〒〓☆★♀♂♪♭♯†‡‰※
00〇11①22②33③44④55⑤66⑥77⑦88⑧99⑨⑩⑪⑫⑬⑭⑮⑯⑰⑱⑲⑳
ⅰⅠⅱⅡⅲⅢⅳⅣⅴⅤⅵⅥⅶⅦⅷⅧⅸⅨⅹⅩ∞
aaAAÅbbBBccCC℃㏄㎝ddDDeeEEffFFggGGhhHHiiIIjjJJkkKK㎏㏍㎞llLL
mmMM㎡㎎㎜nnNN№ooOOppPPqqQQrrRRssSSttTT℡uuUUvvVVwwWWxxXXyyYYzzZZ
αΑβΒγΓδΔεΕζΖηΗθΘιΙκΚλΛμΜνΝξΞοΟπΠρΡσΣτΤυΥφΦχΧψΨωΩ
аАбБвВгГдДеЕёЁжЖзЗиИйЙкКлЛмМнНоОпПрРсСтТуУфФхХцЦчЧшШщЩъЪыЫьЬэЭюЮяЯ
ァァぁアアあィィぃイイいゥゥぅウウうヴェェぇエエえォォぉオオおヵカカかガがキキきギぎククくグぐ
ヶケケけゲげココこゴごササさザざシシしジじススすズずセセせゼぜソソそゾぞタタたダだチチちヂぢ
ッッっツツつヅづテテてデでトトとドどナナなニニにヌヌぬネネねノノのハハはバばパぱヒヒひビびピぴ
フフふブぶプぷヘヘへベべペぺホホほボぼポぽママまミミみムムむメメめモモもャャゃヤヤやュュゅユユゆ
ョョょヨヨよララらリリりルルるレレれロロろヮゎワワわヰゐヱゑヲヲをンンん
㍉㌔㌢㍍㌘㌧㌃㌶㍑㍗㌍㌦㌣㌫㍊㌻
仝㍾㍽㍼㍻亜唖娃阿哀愛挨姶逢葵茜穐悪握渥旭葦芦鯵梓圧斡扱宛姐虻飴絢綾鮎或粟袷安庵按暗案闇
鞍杏以伊位依偉囲夷委威尉惟意慰易椅為畏異移維緯胃萎衣謂違遺医井亥域育郁磯一壱溢逸稲茨芋鰯
允印咽員因姻引飲淫胤蔭院陰隠韻吋右㊨宇烏羽迂雨卯鵜窺丑碓臼渦嘘唄欝蔚鰻姥厩浦瓜閏噂云運雲
荏餌叡営嬰影映曳栄永泳洩瑛盈穎頴英衛詠鋭液疫益駅悦謁越閲榎厭円園堰奄宴延怨掩援沿演炎焔煙
燕猿縁艶苑薗遠鉛鴛塩於汚甥凹央奥往応押旺横欧殴王翁襖鴬鴎黄岡沖荻億屋憶臆桶牡乙俺卸恩温穏
音下㊦化仮何伽価佳加可嘉夏嫁家寡科暇果架歌河火珂禍禾稼箇花苛茄荷華菓蝦課嘩貨迦過霞蚊俄峨
我牙画臥芽蛾賀雅餓駕介会解回塊壊廻快怪悔恢懐戒拐改魁晦械海灰界皆絵芥蟹開階貝凱劾外咳害崖
慨概涯碍蓋街該鎧骸浬馨蛙垣柿蛎鈎劃嚇各廓拡撹格核殻獲確穫覚角赫較郭閣隔革学岳楽額顎掛笠樫
橿梶鰍潟割喝恰括活渇滑葛褐轄且鰹叶椛樺鞄株㈱兜竃蒲釜鎌噛鴨栢茅萱粥刈苅瓦乾侃冠寒刊勘勧巻
喚堪姦完官寛干幹患感慣憾換敢柑桓棺款歓汗漢澗潅環甘監看竿管簡緩缶翰肝艦莞観諌貫還鑑間閑関
陥韓館舘丸含岸巌玩癌眼岩翫贋雁頑顔願企伎危喜器基奇嬉寄岐希幾忌揮机旗既期棋棄機帰毅気汽畿
祈季稀紀徽規記貴起軌輝飢騎鬼亀偽儀妓宜戯技擬欺犠疑祇義蟻誼議掬菊鞠吉吃喫桔橘詰砧杵黍却客
脚虐逆丘久仇休及吸宮弓急救朽求汲泣灸球究窮笈級糾給旧牛去居巨拒拠挙渠虚許距鋸漁禦魚亨享京
供侠僑兇競共凶協匡卿叫喬境峡強彊怯恐恭挟教橋況狂狭矯胸脅興蕎郷鏡響饗驚仰凝尭暁業局曲極玉
桐粁僅勤均巾錦斤欣欽琴禁禽筋緊芹菌衿襟謹近金吟銀九倶句区狗玖矩苦躯駆駈駒具愚虞喰空偶寓遇
隅串櫛釧屑屈掘窟沓靴轡窪熊隈粂栗繰桑鍬勲君薫訓群軍郡卦袈祁係傾刑兄啓圭珪型契形径恵慶慧憩
掲携敬景桂渓畦稽系経継繋罫茎荊蛍計詣警軽頚鶏芸迎鯨劇戟撃激隙桁傑欠決潔穴結血訣月件倹倦健
兼券剣喧圏堅嫌建憲懸拳捲検権牽犬献研硯絹県肩見謙賢軒遣鍵険顕験鹸元原厳幻弦減源玄現絃舷言
諺限乎個古呼固姑孤己庫弧戸故枯湖狐糊袴股胡菰虎誇跨鈷雇顧鼓五互伍午呉吾娯後御悟梧檎瑚碁語
誤護醐乞鯉交佼侯候倖光公功効勾厚口向后喉坑垢好孔孝宏工巧巷幸広庚康弘恒慌抗拘控攻昂晃更杭
校梗構江洪浩港溝甲皇硬稿糠紅紘絞綱耕考肯肱腔膏航荒行衡講貢購郊酵鉱砿鋼閤降項香高鴻剛劫号
合壕拷濠豪轟麹克刻告国穀酷鵠黒獄漉腰甑忽惚骨狛込此頃今困坤墾婚恨懇昏昆根梱混痕紺艮魂些佐
叉唆嵯左㊧差査沙瑳砂詐鎖裟坐座挫債催再最哉塞妻宰彩才採栽歳済災采犀砕砦祭斎細菜裁載際剤在
材罪財冴坂阪堺榊肴咲崎埼碕鷺作削咋搾昨朔柵窄策索錯桜鮭笹匙冊刷察拶撮擦札殺薩雑皐鯖捌錆鮫
皿晒三傘参山惨撒散桟燦珊産算纂蚕讃賛酸餐斬暫残仕仔伺使刺司史嗣四士始姉姿子屍市師志思指支
孜斯施旨枝止死氏獅祉私糸紙紫肢脂至視詞詩試誌諮資賜雌飼歯事似侍児字寺慈持時次滋治爾璽痔磁
示而耳自蒔辞汐鹿式識鴫竺軸宍雫七叱執失嫉室悉湿漆疾質実蔀篠偲柴芝屡蕊縞舎写射捨赦斜煮社紗
者謝車遮蛇邪借勺尺杓灼爵酌釈錫若寂弱惹主取守手朱殊狩珠種腫趣酒首儒受呪寿授樹綬需囚収周宗
就州修愁拾洲秀秋終繍習臭舟蒐衆襲讐蹴輯週酋酬集醜什住充十従戎柔汁渋獣縦重銃叔夙宿淑祝縮粛
塾熟出術述俊峻春瞬竣舜駿准循旬楯殉淳準潤盾純巡遵醇順処初所暑曙渚庶緒署書薯藷諸助叙女序徐
恕鋤除傷償勝匠升召哨商唱嘗奨妾娼宵将小少尚庄床廠彰承抄招掌捷昇昌昭晶松梢樟樵沼消渉湘焼焦
照症省硝礁祥称章笑粧紹肖菖蒋蕉衝裳訟証詔詳象賞醤鉦鍾鐘障鞘上㊤丈丞乗冗剰城場壌嬢常情擾条
杖浄状畳穣蒸譲醸錠嘱埴飾拭植殖燭織職色触食蝕辱尻伸信侵唇娠寝審心慎振新晋森榛浸深申疹真神
秦紳臣芯薪親診身辛進針震人仁刃塵壬尋甚尽腎訊迅陣靭笥諏須酢図厨逗吹垂帥推水炊睡粋翠衰遂酔
錐錘随瑞髄崇嵩数枢趨雛据杉椙菅頗雀裾澄摺寸世瀬畝是凄制勢姓征性成政整星晴棲栖正清牲生盛精
聖声製西誠誓請逝醒青静斉税脆隻席惜戚斥昔析石積籍績脊責赤跡蹟碩切拙接摂折設窃節説雪絶舌蝉
仙先千占宣専尖川戦扇撰栓栴泉浅洗染潜煎煽旋穿箭線繊羨腺舛船薦詮賎践選遷銭銑閃鮮前善漸然全
禅繕膳糎噌塑岨措曾曽楚狙疏疎礎祖租粗素組蘇訴阻遡鼠僧創双叢倉喪壮奏爽宋層匝惣想捜掃挿掻操
早曹巣槍槽漕燥争痩相窓糟総綜聡草荘葬蒼藻装走送遭鎗霜騒像増憎臓蔵贈造促側則即息捉束測足速
俗属賊族続卒袖其揃存孫尊損村遜他多太汰詑唾堕妥惰打柁舵楕陀駄騨体堆対耐岱帯待怠態戴替泰滞
胎腿苔袋貸退逮隊黛鯛代㈹台大第醍題鷹滝瀧卓啄宅托択拓沢濯琢託鐸濁諾茸凧蛸只叩但達辰奪脱巽
竪辿棚谷狸鱈樽誰丹単嘆坦担探旦歎淡湛炭短端箪綻耽胆蛋誕鍛団壇弾断暖檀段男談値知地弛恥智池
痴稚置致蜘遅馳築畜竹筑蓄逐秩窒茶嫡着中㊥仲宙忠抽昼柱注虫衷註酎鋳駐樗瀦猪苧著貯丁兆凋喋寵
帖帳庁弔張彫徴懲挑暢朝潮牒町眺聴脹腸蝶調諜超跳銚長頂鳥勅捗直朕沈珍賃鎮陳津墜椎槌追鎚痛通
塚栂掴槻佃漬柘辻蔦綴鍔椿潰坪壷嬬紬爪吊釣鶴亭低停偵剃貞呈堤定帝底庭廷弟悌抵挺提梯汀碇禎程
締艇訂諦蹄逓邸鄭釘鼎泥摘擢敵滴的笛適鏑溺哲徹撤轍迭鉄典填天展店添纏甜貼転顛点伝殿澱田電兎
吐堵塗妬屠徒斗杜渡登菟賭途都鍍砥砺努度土奴怒倒党冬凍刀唐塔塘套宕島嶋悼投搭東桃梼棟盗淘湯
涛灯燈当痘祷等答筒糖統到董蕩藤討謄豆踏逃透鐙陶頭騰闘働動同堂導憧撞洞瞳童胴萄道銅峠鴇匿得
徳涜特督禿篤毒独読栃橡凸突椴届鳶苫寅酉瀞噸屯惇敦沌豚遁頓呑曇鈍奈那内乍凪薙謎灘捺鍋楢馴縄
畷南楠軟難汝二尼弐迩匂賑肉虹廿日乳入如尿韮任妊忍認濡禰祢寧葱猫熱年念捻撚燃粘乃廼之埜嚢悩
濃納能脳膿農覗蚤巴把播覇杷波派琶破婆罵芭馬俳廃拝排敗杯盃牌背肺輩配倍培媒梅楳煤狽買売賠陪
這蝿秤矧萩伯剥博拍柏泊白箔粕舶薄迫曝漠爆縛莫駁麦函箱硲箸肇筈櫨幡肌畑畠八鉢溌発醗髪伐罰抜
筏閥鳩噺塙蛤隼伴判半反叛帆搬斑板氾汎版犯班畔繁般藩販範釆煩頒飯挽晩番盤磐蕃蛮匪卑否妃庇彼
悲扉批披斐比泌疲皮碑秘緋罷肥被誹費避非飛樋簸備尾微枇毘琵眉美鼻柊稗匹疋髭彦膝菱肘弼必畢筆
逼桧姫媛紐百謬俵彪標氷漂瓢票表評豹廟描病秒苗錨鋲蒜蛭鰭品彬斌浜瀕貧賓頻敏瓶不付埠夫婦富冨
布府怖扶敷斧普浮父符腐膚芙譜負賦赴阜附侮撫武舞葡蕪部封楓風葺蕗伏副復幅服福腹複覆淵弗払沸
仏物鮒分吻噴墳憤扮焚奮粉糞紛雰文聞丙併兵塀幣平弊柄並蔽閉陛米頁僻壁癖碧別瞥蔑箆偏変片篇編
辺返遍便勉娩弁鞭保舗鋪圃捕歩甫補輔穂募墓慕戊暮母簿菩倣俸包呆報奉宝峰峯崩庖抱捧放方朋法泡
烹砲縫胞芳萌蓬蜂褒訪豊邦鋒飽鳳鵬乏亡傍剖坊妨帽忘忙房暴望某棒冒紡肪膨謀貌貿鉾防吠頬北僕卜
墨撲朴牧睦穆釦勃没殆堀幌奔本翻凡盆摩磨魔麻埋妹昧枚毎哩槙幕膜枕鮪柾鱒桝亦俣又抹末沫迄侭繭
麿万慢満漫蔓味未魅巳箕岬密蜜湊蓑稔脈妙粍民眠務夢無牟矛霧鵡椋婿娘冥名命明盟迷銘鳴姪牝滅免
棉綿緬面麺摸模茂妄孟毛猛盲網耗蒙儲木黙目杢勿餅尤戻籾貰問悶紋門匁也冶夜爺耶野弥矢厄役約薬
訳躍靖柳薮鑓愉愈油癒諭輸唯佑優勇友宥幽悠憂揖有㈲柚湧涌猶猷由祐裕誘遊邑郵雄融夕予余与誉輿
預傭幼妖容庸揚揺擁曜楊様洋溶熔用窯羊耀葉蓉要謡踊遥陽養慾抑欲沃浴翌翼淀羅螺裸来莱頼雷洛絡
落酪乱卵嵐欄濫藍蘭覧利吏履李梨理璃痢裏裡里離陸律率立葎掠略劉流溜琉留硫粒隆竜龍侶慮旅虜了
亮僚両凌寮料梁涼猟療瞭稜糧良諒遼量陵領力緑倫厘林淋燐琳臨輪隣鱗麟瑠塁涙累類令伶例冷励嶺怜
玲礼苓鈴隷零霊麗齢暦歴列劣烈裂廉恋憐漣煉簾練聯蓮連錬呂魯櫓炉賂路露労婁廊弄朗楼榔浪漏牢狼
篭老聾蝋郎六麓禄肋録論倭和話歪賄脇惑枠鷲亙亘鰐詫藁蕨椀湾碗腕弌丐丕个丱丶丼丿乂乖乘亂亅豫
亊舒弍于亞亟亠亢亰亳亶从仍仄仆仂仗仞仭仟价伉佚估佛佝佗佇佶侈侏侘佻佩佰侑佯來侖儘俔俟俎俘
俛俑俚俐俤俥倚倨倔倪倥倅伜俶倡倩倬俾俯們倆偃假會偕偐偈做偖偬偸傀傚傅傴傲僉僊傳僂僖僞僥僭
僣僮價僵儉儁儂儖儕儔儚儡儺儷儼儻儿兀兒兌兔兢竸兩兪兮冀冂囘册冉冏冑冓冕冖冤冦冢冩冪冫决冱
冲冰况冽凅凉凛几處凩凭凰凵凾刄刋刔刎刧刪刮刳刹剏剄剋剌剞剔剪剴剩剳剿剽劍劔劒剱劈劑辨辧劬
劭劼劵勁勍勗勞勣勦飭勠勳勵勸勹匆匈甸匍匐匏匕匚匣匯匱匳匸區卆卅丗卉卍凖卞卩卮夘卻卷厂厖厠
厦厥厮厰厶參簒雙叟曼燮叮叨叭叺吁吽呀听吭吼吮吶吩吝呎咏呵咎呟呱呷呰咒呻咀呶咄咐咆哇咢咸咥
咬哄哈咨咫哂咤咾咼哘哥哦唏唔哽哮哭哺哢唹啀啣啌售啜啅啖啗唸唳啝喙喀咯喊喟啻啾喘喞單啼喃喩
喇喨嗚嗅嗟嗄嗜嗤嗔嘔嗷嘖嗾嗽嘛嗹噎噐營嘴嘶嘲嘸噫噤嘯噬噪嚆嚀嚊嚠嚔嚏嚥嚮嚶嚴囂嚼囁囃囀囈
囎囑囓囗囮囹圀囿圄圉圈國圍圓團圖嗇圜圦圷圸坎圻址坏坩埀垈坡坿垉垓垠垳垤垪垰埃埆埔埒埓堊埖
埣堋堙堝塲堡塢塋塰毀塒堽塹墅墹墟墫墺壞墻墸墮壅壓壑壗壙壘壥壜壤壟壯壺壹壻壼壽夂夊夐夛梦夥
夬夭夲夸夾竒奕奐奎奚奘奢奠奧奬奩奸妁妝佞侫妣妲姆姨姜妍姙姚娥娟娑娜娉娚婀婬婉娵娶婢婪媚媼
媾嫋嫂媽嫣嫗嫦嫩嫖嫺嫻嬌嬋嬖嬲嫐嬪嬶嬾孃孅孀孑孕孚孛孥孩孰孳孵學斈孺宀它宦宸寃寇寉寔寐寤
實寢寞寥寫寰寶寳尅將專對尓尠尢尨尸尹屁屆屎屓屐屏孱屬屮乢屶屹岌岑岔妛岫岻岶岼岷峅岾峇峙峩
峽峺峭嶌峪崋崕崗嵜崟崛崑崔崢崚崙崘嵌嵒嵎嵋嵬嵳嵶嶇嶄嶂嶢嶝嶬嶮嶽嶐嶷嶼巉巍巓巒巖巛巫已巵
帋帚帙帑帛帶帷幄幃幀幎幗幔幟幢幤幇幵并幺麼广庠廁廂廈廐廏廖廣廝廚廛廢廡廨廩廬廱廳廰廴廸廾
弃弉彝彜弋弑弖弩弭弸彁彈彌彎弯彑彖彗彙彡彭彳彷徃徂彿徊很徑徇從徙徘徠徨徭徼忖忻忤忸忱忝悳
忿怡恠怙怐怩怎怱怛怕怫怦怏怺恚恁恪恷恟恊恆恍恣恃恤恂恬恫恙悁悍惧悃悚悄悛悖悗悒悧悋惡悸惠
惓悴忰悽惆悵惘慍愕愆惶惷愀惴惺愃愡惻惱愍愎慇愾愨愧慊愿愼愬愴愽慂慄慳慷慘慙慚慫慴慯慥慱慟
慝慓慵憙憖憇憬憔憚憊憑憫憮懌懊應懷懈懃懆憺懋罹懍懦懣懶懺懴懿懽懼懾戀戈戉戍戌戔戛戞戡截戮
戰戲戳扁扎扞扣扛扠扨扼抂抉找抒抓抖拔抃抔拗拑抻拏拿拆擔拈拜拌拊拂拇抛拉挌拮拱挧挂挈拯拵捐
挾捍搜捏掖掎掀掫捶掣掏掉掟掵捫捩掾揩揀揆揣揉插揶揄搖搴搆搓搦搶攝搗搨搏摧摯摶摎攪撕撓撥撩
撈撼據擒擅擇撻擘擂擱擧舉擠擡抬擣擯攬擶擴擲擺攀擽攘攜攅攤攣攫攴攵攷收攸畋效敖敕敍敘敞敝敲
數斂斃變斛斟斫斷旃旆旁旄旌旒旛旙无旡旱杲昊昃旻杳昵昶昴昜晏晄晉晁晞晝晤晧晨晟晢晰暃暈暎暉
暄暘暝曁暹曉暾暼曄暸曖曚曠昿曦曩曰曵曷朏朖朞朦朧霸朮朿朶杁朸朷杆杞杠杙杣杤枉杰枩杼杪枌枋
枦枡枅枷柯枴柬枳柩枸柤柞柝柢柮枹柎柆柧檜栞框栩桀桍栲桎梳栫桙档桷桿梟梏梭梔條梛梃檮梹桴梵
梠梺椏梍桾椁棊椈棘椢椦棡椌棍棔棧棕椶椒椄棗棣椥棹棠棯椨椪椚椣椡棆楹楷楜楸楫楔楾楮椹楴椽楙
椰楡楞楝榁楪榲榮槐榿槁槓榾槎寨槊槝榻槃榧樮榑榠榜榕榴槞槨樂樛槿權槹槲槧樅榱樞槭樔槫樊樒櫁
樣樓橄樌橲樶橸橇橢橙橦橈樸樢檐檍檠檄檢檣檗蘗檻櫃櫂檸檳檬櫞櫑櫟檪櫚櫪櫻欅蘖櫺欒欖鬱欟欸欷
盜欹飮歇歃歉歐歙歔歛歟歡歸歹歿殀殄殃殍殘殕殞殤殪殫殯殲殱殳殷殼毆毋毓毟毬毫毳毯麾氈氓气氛
氤氣汞汕汢汪沂沍沚沁沛汾汨汳沒沐泄泱泓沽泗泅泝沮沱沾沺泛泯泙泪洟衍洶洫洽洸洙洵洳洒洌浣涓
浤浚浹浙涎涕濤涅淹渕渊涵淇淦涸淆淬淞淌淨淒淅淺淙淤淕淪淮渭湮渮渙湲湟渾渣湫渫湶湍渟湃渺湎
渤滿渝游溂溪溘滉溷滓溽溯滄溲滔滕溏溥滂溟潁漑灌滬滸滾漿滲漱滯漲滌漾漓滷澆潺潸澁澀潯潛濳潭
澂潼潘澎澑濂潦澳澣澡澤澹濆澪濟濕濬濔濘濱濮濛瀉瀋濺瀑瀁瀏濾瀛瀚潴瀝瀘瀟瀰瀾瀲灑灣炙炒炯烱
炬炸炳炮烟烋烝烙焉烽焜焙煥煕熈煦煢煌煖煬熏燻熄熕熨熬燗熹熾燒燉燔燎燠燬燧燵燼燹燿爍爐爛爨
爭爬爰爲爻爼爿牀牆牋牘牴牾犂犁犇犒犖犢犧犹犲狃狆狄狎狒狢狠狡狹狷倏猗猊猜猖猝猴猯猩猥猾獎
獏默獗獪獨獰獸獵獻獺珈玳珎玻珀珥珮珞璢琅瑯琥珸琲琺瑕琿瑟瑙瑁瑜瑩瑰瑣瑪瑶瑾璋璞璧瓊瓏瓔珱
瓠瓣瓧瓩瓮瓲瓰瓱瓸瓷甄甃甅甌甎甍甕甓甞甦甬甼畄畍畊畉畛畆畚畩畤畧畫畭畸當疆疇畴疊疉疂疔疚
疝疥疣痂疳痃疵疽疸疼疱痍痊痒痙痣痞痾痿痼瘁痰痺痲痳瘋瘍瘉瘟瘧瘠瘡瘢瘤瘴瘰瘻癇癈癆癜癘癡癢
癨癩癪癧癬癰癲癶癸發皀皃皈皋皎皖皓皙皚皰皴皸皹皺盂盍盖盒盞盡盥盧盪蘯盻眈眇眄眩眤眞眥眦眛
眷眸睇睚睨睫睛睥睿睾睹瞎瞋瞑瞠瞞瞰瞶瞹瞿瞼瞽瞻矇矍矗矚矜矣矮矼砌砒礦砠礪硅碎硴碆硼碚碌碣
碵碪碯磑磆磋磔碾碼磅磊磬磧磚磽磴礇礒礑礙礬礫祀祠祗祟祚祕祓祺祿禊禝禧齋禪禮禳禹禺秉秕秧秬
秡秣稈稍稘稙稠稟禀稱稻稾稷穃穗穉穡穢穩龝穰穹穽窈窗窕窘窖窩竈窰窶竅竄窿邃竇竊竍竏竕竓站竚
竝竡竢竦竭竰笂笏笊笆笳笘笙笞笵笨笶筐筺笄筍笋筌筅筵筥筴筧筰筱筬筮箝箘箟箍箜箚箋箒箏筝箙篋
篁篌篏箴篆篝篩簑簔篦篥籠簀簇簓篳篷簗簍篶簣簧簪簟簷簫簽籌籃籔籏籀籐籘籟籤籖籥籬籵粃粐粤粭
粢粫粡粨粳粲粱粮粹粽糀糅糂糘糒糜糢鬻糯糲糴糶糺紆紂紜紕紊絅絋紮紲紿紵絆絳絖絎絲絨絮絏絣經
綉絛綏絽綛綺綮綣綵緇綽綫總綢綯緜綸綟綰緘緝緤緞緻緲緡縅縊縣縡縒縱縟縉縋縢繆繦縻縵縹繃縷縲
縺繧繝繖繞繙繚繹繪繩繼繻纃緕繽辮繿纈纉續纒纐纓纔纖纎纛纜缸缺罅罌罍罎罐网罕罔罘罟罠罨罩罧
罸羂羆羃羈羇羌羔羞羝羚羣羯羲羹羮羶羸譱翅翆翊翕翔翡翦翩翳翹飜耆耄耋耒耘耙耜耡耨耿耻聊聆聒
聘聚聟聢聨聳聲聰聶聹聽聿肄肆肅肛肓肚肭冐肬胛胥胙胝胄胚胖脉胯胱脛脩脣脯腋隋腆脾腓腑胼腱腮
腥腦腴膃膈膊膀膂膠膕膤膣腟膓膩膰膵膾膸膽臀臂膺臉臍臑臙臘臈臚臟臠臧臺臻臾舁舂舅與舊舍舐舖
舩舫舸舳艀艙艘艝艚艟艤艢艨艪艫舮艱艷艸艾芍芒芫芟芻芬苡苣苟苒苴苳苺莓范苻苹苞茆苜茉苙茵茴
茖茲茱荀茹荐荅茯茫茗茘莅莚莪莟莢莖茣莎莇莊荼莵荳荵莠莉莨菴萓菫菎菽萃菘萋菁菷萇菠菲萍萢萠
莽萸蔆菻葭萪萼蕚蒄葷葫蒭葮蒂葩葆萬葯葹萵蓊葢蒹蒿蒟蓙蓍蒻蓚蓐蓁蓆蓖蒡蔡蓿蓴蔗蔘蔬蔟蔕蔔蓼
蕀蕣蕘蕈蕁蘂蕋蕕薀薤薈薑薊薨蕭薔薛藪薇薜蕷蕾薐藉薺藏薹藐藕藝藥藜藹蘊蘓蘋藾藺蘆蘢蘚蘰蘿虍
乕虔號虧虱蚓蚣蚩蚪蚋蚌蚶蚯蛄蛆蚰蛉蠣蚫蛔蛞蛩蛬蛟蛛蛯蜒蜆蜈蜀蜃蛻蜑蜉蜍蛹蜊蜴蜿蜷蜻蜥蜩蜚
蝠蝟蝸蝌蝎蝴蝗蝨蝮蝙蝓蝣蝪蠅螢螟螂螯蟋螽蟀蟐雖螫蟄螳蟇蟆螻蟯蟲蟠蠏蠍蟾蟶蟷蠎蟒蠑蠖蠕蠢蠡
蠱蠶蠹蠧蠻衄衂衒衙衞衢衫袁衾袞衵衽袵衲袂袗袒袮袙袢袍袤袰袿袱裃裄裔裘裙裝裹褂裼裴裨裲褄褌
褊褓襃褞褥褪褫襁襄褻褶褸襌褝襠襞襦襤襭襪襯襴襷襾覃覈覊覓覘覡覩覦覬覯覲覺覽覿觀觚觜觝觧觴
觸訃訖訐訌訛訝訥訶詁詛詒詆詈詼詭詬詢誅誂誄誨誡誑誥誦誚誣諄諍諂諚諫諳諧諤諱謔諠諢諷諞諛謌
謇謚諡謖謐謗謠謳鞫謦謫謾謨譁譌譏譎證譖譛譚譫譟譬譯譴譽讀讌讎讒讓讖讙讚谺豁谿豈豌豎豐豕豢
豬豸豺貂貉貅貊貍貎貔豼貘戝貭貪貽貲貳貮貶賈賁賤賣賚賽賺賻贄贅贊贇贏贍贐齎贓賍贔贖赧赭赱赳
趁趙跂趾趺跏跚跖跌跛跋跪跫跟跣跼踈踉跿踝踞踐踟蹂踵踰踴蹊蹇蹉蹌蹐蹈蹙蹤蹠踪蹣蹕蹶蹲蹼躁躇
躅躄躋躊躓躑躔躙躪躡躬躰軆躱躾軅軈軋軛軣軼軻軫軾輊輅輕輒輙輓輜輟輛輌輦輳輻輹轅轂輾轌轉轆
轎轗轜轢轣轤辜辟辣辭辯辷迚迥迢迪迯邇迴逅迹迺逑逕逡逍逞逖逋逧逶逵逹迸遏遐遑遒逎遉逾遖遘遞
遨遯遶隨遲邂遽邁邀邊邉邏邨邯邱邵郢郤扈郛鄂鄒鄙鄲鄰酊酖酘酣酥酩酳酲醋醉醂醢醫醯醪醵醴醺釀
釁釉釋釐釖釟釡釛釼釵釶鈞釿鈔鈬鈕鈑鉞鉗鉅鉉鉤鉈銕鈿鉋鉐銜銖銓銛鉚鋏銹銷鋩錏鋺鍄錮錙錢錚錣
錺錵錻鍜鍠鍼鍮鍖鎰鎬鎭鎔鎹鏖鏗鏨鏥鏘鏃鏝鏐鏈鏤鐚鐔鐓鐃鐇鐐鐶鐫鐵鐡鐺鑁鑒鑄鑛鑠鑢鑞鑪鈩鑰
鑵鑷鑽鑚鑼鑾钁鑿閂閇閊閔閖閘閙閠閨閧閭閼閻閹閾闊濶闃闍闌闕闔闖關闡闥闢阡阨阮阯陂陌陏陋陷
陜陞陝陟陦陲陬隍隘隕隗險隧隱隲隰隴隶隸隹雎雋雉雍襍雜霍雕雹霄霆霈霓霎霑霏霖霙霤霪霰霹霽霾
靄靆靈靂靉靜靠靤靦靨勒靫靱靹鞅靼鞁靺鞆鞋鞏鞐鞜鞨鞦鞣鞳鞴韃韆韈韋韜韭齏韲竟韶韵頏頌頸頤頡
頷頽顆顏顋顫顯顰顱顴顳颪颯颱颶飄飃飆飩飫餃餉餒餔餘餡餝餞餤餠餬餮餽餾饂饉饅饐饋饑饒饌饕馗
馘馥馭馮馼駟駛駝駘駑駭駮駱駲駻駸騁騏騅駢騙騫騷驅驂驀驃騾驕驍驛驗驟驢驥驤驩驫驪骭骰骼髀髏
髑髓體髞髟髢髣髦髯髫髮髴髱髷髻鬆鬘鬚鬟鬢鬣鬥鬧鬨鬩鬪鬮鬯鬲魄魃魏魍魎魑魘魴鮓鮃鮑鮖鮗鮟鮠
鮨鮴鯀鯊鮹鯆鯏鯑鯒鯣鯢鯤鯔鯡鰺鯲鯱鯰鰕鰔鰉鰓鰌鰆鰈鰒鰊鰄鰮鰛鰥鰤鰡鰰鱇鰲鱆鰾鱚鱠鱧鱶鱸鳧
鳬鳰鴉鴈鳫鴃鴆鴪鴦鶯鴣鴟鵄鴕鴒鵁鴿鴾鵆鵈鵝鵞鵤鵑鵐鵙鵲鶉鶇鶫鵯鵺鶚鶤鶩鶲鷄鷁鶻鶸鶺鷆鷏鷂
鷙鷓鷸鷦鷭鷯鷽鸚鸛鸞鹵鹹鹽麁麈麋麌麒麕麑麝麥麩麸麪麭靡黌黎黏黐黔黜點黝黠黥黨黯黴黶黷黹黻
黼黽鼇鼈皷鼕鼡鼬鼾齊齒齔齣齟齠齡齦齧齬齪齷齲齶龕龜龠堯槇遙瑤凜熙纊褜鍈銈蓜俉炻昱棈鋹曻彅
丨仡仼伀伃伹佖侒侊侚侔俍偀倢俿倞偆偰偂傔僴僘兊兤冝冾凬刕劜劦勀勛匀匇匤卲厓厲叝﨎咜咊咩哿
喆坙坥垬埈埇﨏塚增墲夋奓奛奝奣妤妺孖寀甯寘寬尞岦岺峵崧嵓﨑嵂嵭嶸嶹巐弡弴彧德忞恝悅悊惞惕
愠惲愑愷愰憘戓抦揵摠撝擎敎昀昕昻昉昮昞昤晥晗晙晴晳暙暠暲暿曺朎朗杦枻桒柀栁桄棏﨓楨﨔榘槢
樰橫橆橳橾櫢櫤毖氿汜沆汯泚洄涇浯涖涬淏淸淲淼渹湜渧渼溿澈澵濵瀅瀇瀨炅炫焏焄煜煆煇凞燁燾犱
犾猤猪獷玽珉珖珣珒琇珵琦琪琩琮瑢璉璟甁畯皂皜皞皛皦益睆劯砡硎硤硺礰礼神祥禔福禛竑竧靖竫箞
精絈絜綷綠緖繒罇羡羽茁荢荿菇菶葈蒴蕓蕙蕫﨟薰蘒﨡蠇裵訒訷詹誧誾諟諸諶譓譿賰賴贒赶﨣軏﨤逸
遧郞都鄕鄧釚釗釞釭釮釤釥鈆鈐鈊鈺鉀鈼鉎鉙鉑鈹鉧銧鉷鉸鋧鋗鋙鋐﨧鋕鋠鋓錥錡鋻﨨錞鋿錝錂鍰鍗
鎤鏆鏞鏸鐱鑅鑈閒隆﨩隝隯霳霻靃靍靏靑靕顗顥飯飼餧館馞驎髙髜魵魲鮏鮱鮻鰀鵰鵫鶴鸙黑
ーゝ々ヽヾ―ゞー
sort コマンドの結果との比較
sort
コマンドの結果と比較するため差分をとった。なお差分には拙作の下記コマンドを用いた。
WindowsのdiffコマンドをC#でささっと作る - Qiita
拙作の diff
コマンドは不一致行に対して前後の一致行を含めて出力する。Windows 付属の FC
コマンドと同様である。不一致行はアルファベット文字のみ(ローマ数字やギリシャ文字・キリル文字を含む)であり,大文字・小文字に差異があることに気づく。
c:\qiita>diff RESULT_BATCH.TXT RESULT_DEFAULT.TXT
ファイル RESULT_BATCH.TXT と RESULT_DEFAULT.TXT を比較しています
***** RESULT_BATCH.TXT
00〇11①22②33③44④55⑤66⑥77⑦88⑧99⑨⑩⑪⑫⑬⑭⑮⑯⑰⑱⑲⑳
ⅰⅠⅱⅡⅲⅢⅳⅣⅴⅤⅵⅥⅶⅦⅷⅧⅸⅨⅹⅩ∞
aaAAÅbbBBccCC℃㏄㎝ddDDeeEEffFFggGGhhHHiiIIjjJJkkKK㎏㏍㎞llLL
mmMM㎡㎎㎜nnNN№ooOOppPPqqQQrrRRssSSttTT℡uuUUvvVVwwWWxxXXyyYYzzZZ
αΑβΒγΓδΔεΕζΖηΗθΘιΙκΚλΛμΜνΝξΞοΟπΠρΡσΣτΤυΥφΦχΧψΨωΩ
аАбБвВгГдДеЕёЁжЖзЗиИйЙкКлЛмМнНоОпПрРсСтТуУфФхХцЦчЧшШщЩъЪыЫьЬэЭюЮяЯ
ァァぁアアあィィぃイイいゥゥぅウウうヴェェぇエエえォォぉオオおヵカカかガがキキきギぎククくグぐ
***** RESULT_DEFAULT.TXT
00〇11①22②33③44④55⑤66⑥77⑦88⑧99⑨⑩⑪⑫⑬⑭⑮⑯⑰⑱⑲⑳
ⅠⅰⅱⅡⅲⅢⅣⅳⅤⅴⅵⅥⅦⅶⅧⅷⅨⅸⅹⅩ∞
aAAaÅBbbBcCCc℃㏄㎝dDDdEeeEFfFfgGGghHHhiIiIJjjJKkkK㎏㏍㎞LlLl
MmMm㎡㎎㎜NnnN№oOOoPppPQqqQrRrRSssSTttT℡uUuUVvvVWwWwXxXxyYyYzZZz
αΑβΒγΓΔδΕεζΖΗηθΘΙιΚκΛλμΜνΝΞξοΟΠπρΡσΣτΤυΥφΦχΧΨψωΩ
аАбБВвГгДдеЕёЁЖжзЗиИЙйКкЛлмМнНоОПпРрсСтТУуФфхХцЦЧчШшщЩъЪыЫьЬэЭюЮяЯ
ァァぁアアあィィぃイイいゥゥぅウウうヴェェぇエエえォォぉオオおヵカカかガがキキきギぎククくグぐ
*****
Windows 付属の FC
コマンドを用いなかったのは一行あたりの文字数制限に抵触したからである。
sort /case コマンドの結果との比較
ということで sort /case
コマンドの結果と比較すると両者は完全に一致した。
c:\qiita>diff RESULT_BATCH.TXT RESULT_CASE.TXT
ファイル RESULT_BATCH.TXT と RESULT_case.TXT を比較しています。
DIFF: 相違点は検出されませんでした。
sort /case /unique コマンドの結果との比較
ただし,重複文字を削除すると僅かな差異が生じた。コマンドプロンプトの if
文では濁音記号・半濁点記号の全角・半角を区別していないが,sort
コマンドでは区別している。また,コマンドプロンプトの if
文では全角・半角の長音記号およびダッシュ記号,そして踊り字を全て同じ照合順番にしているが,sort
コマンドでは半角の長音記号のみ区別しているためだ。
c:\qiita>diff UNIQ_BATCH.TXT UNIQ_CASE.TXT
ファイル UNIQ_BATCH.TXT と UNIQ_CASE.TXT を比較しています。
***** UNIQ_BATCH.TXT
゛
゚
***** UNIQ_CASE.TXT
゛
゙
゚
*****
***** UNIQ_BATCH.TXT
゚
!
***** UNIQ_CASE.TXT
゚
゜
!
*****
***** UNIQ_BATCH.TXT
ー
***** UNIQ_CASE.TXT
ー
ー
*****
踊り字と長音記号の仕様
Shift_JIS には踊り字(繰り返し記号)や長音記号は下記8種類存在する。
文字 | Shift_JIS | Unicode | 意味 |
---|---|---|---|
ー |
815B | U+30FC | 全角の長音記号 |
ゝ |
8154 | U+309D | ひらがなの繰返し記号(清音) |
々 |
8158 | U+3005 | 同上記号 |
ヽ |
8152 | U+30FD | カタカナの繰返し記号(清音) |
ヾ |
8153 | U+30FE | カタカナの繰返し記号(濁音) |
― |
815C | U+2015 | ダッシュ記号 |
ゞ |
8155 | U+309E | ひらがなの繰返し記号(濁音) |
ー |
B0 | U+FF70 | 半角の長音記号 |
踊り字や長音記号は直前の文字の照合順番を引き継ぐなど特殊なルールがある。このルールを調べるバッチファイルを作成した。8種類ある踊り字や長音記号に対して,$8^2 = 64$ 通りの全組み合わせによる大小比較を行い,大小関係に応じて <
,>
または =
を出力するようにした。
@echo off
setlocal enabledelayedexpansion
set SYMBOLS=ー ゝ 々 ヽ ヾ ― ゞ ー
echo 二重引用符なしの場合
echo %SYMBOLS%
for %%I in ( %SYMBOLS% ) do (
set RESULT=%%I
for %%J in ( %SYMBOLS% ) do (
if %%I GTR %%J set RESULT=!RESULT! >
if %%I EQU %%J set RESULT=!RESULT! =
if %%I LSS %%J set RESULT=!RESULT! <
)
echo !RESULT!
)
echo 二重引用符有りの場合
echo %SYMBOLS%
for %%I in ( %SYMBOLS% ) do (
set RESULT=%%I
for %%J in ( %SYMBOLS% ) do (
if "%%I" GTR "%%J" set RESULT=!RESULT! >
if "%%I" EQU "%%J" set RESULT=!RESULT! =
if "%%I" LSS "%%J" set RESULT=!RESULT! <
)
echo !RESULT!
)
echo 「あ」に続く場合
echo %SYMBOLS%
for %%I in ( %SYMBOLS% ) do (
set RESULT=%%I
for %%J in ( %SYMBOLS% ) do (
if あ%%I GTR あ%%J set RESULT=!RESULT! >
if あ%%I EQU あ%%J set RESULT=!RESULT! =
if あ%%I LSS あ%%J set RESULT=!RESULT! <
)
echo !RESULT!
)
echo 「ザ」に続く場合
echo %SYMBOLS%
for %%I in ( %SYMBOLS% ) do (
set RESULT=%%I
for %%J in ( %SYMBOLS% ) do (
if ザ%%I GTR ザ%%J set RESULT=!RESULT! >
if ザ%%I EQU ザ%%J set RESULT=!RESULT! =
if ザ%%I LSS ザ%%J set RESULT=!RESULT! <
)
echo !RESULT!
)
上記バッチファイルの実行結果を以下に示す。
c:\qiita>iterator
二重引用符なしの場合
ー ゝ 々 ヽ ヾ ― ゞ ー
ー = = = = = = = =
ゝ = = = = = = = =
々 = = = = = = = =
ヽ = = = = = = = =
ヾ = = = = = = = =
― = = = = = = = =
ゞ = = = = = = = =
ー = = = = = = = =
二重引用符有りの場合
ー ゝ 々 ヽ ヾ ― ゞ ー
ー = = < = < = < =
ゝ = = < = < = < =
々 > > = > > > > >
ヽ = = < = < = < =
ヾ > > < > = > = >
― = = < = < = < =
ゞ > > < > = > = >
ー = = < = < = < =
「あ」に続く場合
ー ゝ 々 ヽ ヾ ― ゞ ー
ー = > < > < = < >
ゝ < = < = < < < <
々 > > = > > > > >
ヽ < = < = < < < <
ヾ > > < > = > = >
― = > < > < = < >
ゞ > > < > = > = >
ー < > < > < < < =
「ザ」に続く場合
ー ゝ 々 ヽ ヾ ― ゞ ー
ー = < < < < = < >
ゝ > = < = < > < >
々 > > = > > > > >
ヽ > = < = < > < >
ヾ > > < > = > = >
― = < < < < = < >
ゞ > > < > = > = >
ー < < < < < < < =
以上の結果を整理すると下記のようになる。要するに8種類の記号は下記の5つのグループに分けられ,直前の文字によって照合順番が変わるのだ。
- 半角の長音記号
ー
- 全角の長音記号とダッシュ
ー―
- 清音の繰り返し記号
ゝヽ
- 濁音の繰り返し記号
ゞヾ
- 同上記号
々
比較条件 | 照合順番 |
---|---|
二重引用符無しの場合 |
ー = ー― = ゝヽ = ゞヾ = 々
|
二重引用符有りの場合 |
ー = ー― = ゝヽ < ゞヾ < 々
|
「あ」に続く場合 |
ゝヽ < ー < ー― < ゞヾ < 々
|
「ザ」に続く場合 |
ー < ー― < ゝヽ < ゞヾ < 々
|
ハイフンとアポストロフィーの仕様
踊り字や長音記号は直前の文字によって照合順番が影響されるため,今回作成したバッチファイルでは基本的に文字列を比較する際に二重引用符で囲わないように心掛けた。その副作用として二重引用符が必要なスペースや半角記号をソート対象から外さざるを得なかったのだ。
しかし,踊り字や長音記号以外にも前の文字によって照合順番を変える記号がある。それがハイフンとアポストロフィーだ。照合順番でいうと最上位に入る下記の6種類の記号に対して,二重引用符で囲んだ場合と囲わない場合で照合順番が変わるかどうかチェックするバッチファイルを作成した。
文字 | Shift_JIS | Unicode | 意味 |
---|---|---|---|
' |
FA56 | U+0027 | 全角のアポストロフィー |
- |
817C | U+FF0D | 全角のハイフンマイナス |
‐ |
815D | U+2010 | ハイフン |
! |
8149 | U+30FD | 全角のエクスクラメーションマーク |
" |
FA57 | U+FF02 | 全角の引用符 |
# |
8194 | U+FF70 | 全角のナンバー記号 |
6つの記号に対して, $6^2=36$ 通りの全組み合わせによる大小比較を行い,大小関係に応じて <
,>
または =
を出力するようにした。
@echo off
setlocal enabledelayedexpansion
set SYMBOLS=' - ‐ ! " #
echo 二重引用符なしの場合
echo %SYMBOLS%
for %%I in ( %SYMBOLS% ) do (
set RESULT=%%I
for %%J in ( %SYMBOLS% ) do (
if %%I GTR %%J set RESULT=!RESULT! >
if %%I EQU %%J set RESULT=!RESULT! =
if %%I LSS %%J set RESULT=!RESULT! <
)
echo !RESULT!
)
echo 二重引用符有りの場合
echo %SYMBOLS%
for %%I in ( %SYMBOLS% ) do (
set RESULT=%%I
for %%J in ( %SYMBOLS% ) do (
if "%%I" GTR "%%J" set RESULT=!RESULT! >
if "%%I" EQU "%%J" set RESULT=!RESULT! =
if "%%I" LSS "%%J" set RESULT=!RESULT! <
)
echo !RESULT!
)
上記のバッチファイルの実行結果を以下に示す。
二重引用符なしの場合
' - ‐ ! " #
' = < < < < <
- > = < < < <
‐ > > = < < <
! > > > = < <
" > > > > = <
# > > > > > =
二重引用符有りの場合
' - ‐ ! " #
' = < < > < <
- > = < > < <
‐ > > = > < <
! < < < = < <
" > > > > = <
# > > > > > =
以上の結果を整理すると下記のようになる。二重引用符で囲った場合と囲わない場合で感嘆符 !
の順番が変わったように見えるが,実際変わったのはアポストロフィー '
とハイフン -‐
のほうだ。アポストロフィやハイフンは直前の文字の照合順番に準ずるため,半角の二重引用符で囲うと半角の二重引用符の次の照合順番となる。半角の二重引用符は全角二重引用符よりも前に来るので下記の順番となる。
比較条件 | 照合順番 |
---|---|
二重引用符無しの場合 |
' <- <‐ <! <" <#
|
二重引用符有りの場合 |
! <' <- <‐ <" <#
|
まとめ
コマンドプロンプトの if
文にて文字列の比較を行う際の照合順番は sort
コマンドの非公開オプション /case
を用いた場合と*ほぼ*同じである。濁音・半濁音記号および踊り字・長音記号には僅かな差異が見られ,まとめると以下のようになっている。
濁音・半濁点記号 | 踊り字・長音記号 | |
---|---|---|
if 文 |
゙ =゛ <゚ =゜
|
ー =ゝ =々 =ヽ =ヾ =― =ゞ =ー
|
sort コマンド |
゙ <゛ <゚ <゜
|
ー =ゝ =々 =ヽ =ヾ =― =ゞ <ー
|
なお,これらの順番は記号単独(あるいは文字列の先頭)で用いられた場合のものであり,二番目以降に用いられた場合は直前の文字の影響を受けて照合順番が変わる。
おまけ
この記事を99%書き終えた時点で友人から一言。
わざわざバッチファイルでソートしなくても良くね?
比較関数だけバッチファイルで作り,それをソート関数を標準ライブラリで提供している言語(JavaScript とか)から呼び出せば良いのでは?
そういうことは一週間前に言って欲しいものだ。
うん,確かにこれなら一瞬でコーディングできる。ちなみに呼び出されるバッチファイル(比較関数)のほうはコチラ。
@echo off
if %1 GTR %2 exit /b 1
if %1 LSS %2 exit /b -1
exit /b 0
WSH (JavaScript)で書いたメイン処理がコチラ。
//------------------------------------------------------------------------------
// ヘルプメッセージ
//------------------------------------------------------------------------------
var args = WScript.Arguments.Unnamed;
if(args.Count == 0) {
WScript.StdErr.WriteLine("Usage: jsort(.js) [filename(.txt)]");
WScript.Quit(-1);
}
//------------------------------------------------------------------------------
// ファイルの存在チェック
//------------------------------------------------------------------------------
var filename = args(0);
var fs = WScript.CreateObject("Scripting.FileSystemObject");
if(!fs.FileExists(filename)) {
WScript.StdErr.WriteLine("ファイル " + filename + " が見つかりません!!");
WScript.Quit(-1);
}
//------------------------------------------------------------------------------
// ファイルの一括読み込み
//------------------------------------------------------------------------------
var ts = fs.OpenTextFile(filename);
var buf = ts.ReadAll();
ts.Close();
//------------------------------------------------------------------------------
// 改行コードを削除する
//------------------------------------------------------------------------------
buf = buf.replace(/[\r\n]/g, "");
//------------------------------------------------------------------------------
// 文字列を配列に変換する
//------------------------------------------------------------------------------
var a = [];
for(var i = 0; i < buf.length; i++)
a.push(buf.charAt(i));
//------------------------------------------------------------------------------
// ソートの実行(比較関数=バッチファイルの呼び出し)
//------------------------------------------------------------------------------
var shell = WScript.CreateObject("WScript.Shell");
a = a.sort(function(p, q) {
var command = "CMD /C COMPARE.CMD " + p + " " + q;
var proc = shell.Exec(command);
while(proc.Status == 0)
WScript.Sleep(10);
return proc.ExitCode;
});
//------------------------------------------------------------------------------
// 比較結果の出力
//------------------------------------------------------------------------------
for(var i = 0; i < a.length; i++)
WScript.StdOut.WriteLine(a[i]);
ちなみに上記のプログラムを実行すると1時間以上かかる。一文字ずつコマンドプロンプトを起動して比較するので呼び出しのオーバーヘッドが半端ないのだ。
参考文献
- JIS X 4061:1996 日本語文字列照合順番
- 日本語文字列照合順番 - wikipedia
- 日本語文字列照合順番の一部を整理整頓してみる - Qiita
- 日本語文字列照合順番の一部を整理整頓してみる (2) - Qiita