0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

製作中新言語「B012(ボルズ)」組込み用辞書作成(前編)

Last updated at Posted at 2018-10-15

拙記ブログ

辞書作成
https://b012.hateblo.jp/entry/2018/10/16/080127

でも少し書いたとおり、言語で使用するためのカタカナ辞書を作成するまでの過程を記す。

#元データ

私立PDD図書館/百科辞書
http://pddlib.v.wol.ne.jp/japanese/index.htm

フリー公開され、五十音の行別にlzh形式で置いてあるという優れもの。
何故かアスキー関係者にだけ冷遇しているが、過去ひどい目にあったんだろうなぁ。

ただこの辞書データ、例えば
キャプチャ2.PNG
というように非常に細分化されすぎてて、内容はテキストなんだけどtxt拡張子もないため若干使い勝手が悪い。加えて辞書の内容が

-------- あ ----------------------------------------------------
[1]あ
【ア】
◇[英]a-/(母音の前で)an-
○[接頭辞]詞につけて副詞または形容詞を形成する要素。
◎アフット(afoot):進行中で。
 アショア(ashore):浜へ・浜に。
 アウェイク(asleep):眠らずに。
 アスリープ(asleep):眠って。
★[2]あ
【ア】
◇[英]a-/(母音の前で)an-
○[接頭辞]「非・無」を表す語形成要素。
◎アジリア(agyria):脳回欠損。
 アタクシア(ataxia):運動失調。
 アグノージア(agnosia):失認。
 アカルキュリア(acalculia):失算。

という形式になっており、とりあえず必要なのはカタカナの一覧なので、
必要な部分だけ加工していくことにする。

#最初のステップ
まず個々のデータを解凍したのち、数字+各五十音行のローマ字名でフォルダ作成。
こんなかんじ。
キャプチャ2.PNG

で最初に試したのはコマンドプロンプトからベタ打ちで
キャプチャ.PNG
で試してみた。

が、さすがにこれを回数分繰り返すのは効率悪いのと、頭のカタカナ一文字で検索するのを想定してバッチファイルを作る。

dic.bat
cd 1ka
type*.* >ka.txt
type*.* >ki.txt
type*.* >ku.txt
type*.* >ke.txt
type*.* >ko.txt

次回は各txtの加工だが、何言語でやるか悩み中。
普段使ってるphpかhsp、いっそexcelマクロかなぁ。

(↑ちょっとだけ予告。その後上述のプログラムを使わず処理しました。)
後編に続く。
https://qiita.com/kairi-sakusaku/items/4d9cd1bd5189c35234e3#_reference-bee9e5fda4574dd241da

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?