はじめに
こんにちは。細々とプログラミングをしているsotanengelです。
Rustの勉強を兼ねて、
- 英単語のタイポを検出するクレートの作成
- 作ったクレートをcrates.ioで公開
までやったので公開までの流れを本投稿で記載します。
個人的にクレート公開することで勉強のモチベ上がったので、もし興味ある人はチャレンジしてみてください!
具体のコードが気になる方は、以下にリンクを貼っておくのでまずそっちをご覧くださいませ。
以下、作成したクレートの使い方・やったことをまとめていきます👀
使い方
1. クレートをインストールする
以下のコマンドでクレートをインストール。
cargo add typo_checker
2. Rustのコード内部で実行する
クレート内のcheck_a_word
関数に確認したい単語を入れる。
use typo_checker;
fn main() {
let a = ;
let typo_chec_result = typo_checker::check_a_word(a.to_string(), Some(2), 5, None);
println!("typo_chec_result: {:?}", typo_chec_result);
}
上記のコードであれば、以下の出力が得られます。
出力はTypoCheckResult型という独自の型で出力されます。
もしも正しい単語であればmatch_word
部分に値が挿入されますが、一致するものがない場合はsimilar_word_list
フィールドに類似した単語が格納されます。
具体的なフィールドの説明についてはドキュメントをご覧ください。
typo_chec_result: TypoCheckResult { match_word: None, similar_word_list: Some([SimilarWord { spelling: "type", levenshtein_length: 1, typo_type: MissingCharacters { character: 'e', position: Tail } }, SimilarWord { spelling: "gyp", levenshtein_length: 1, typo_type: CloseKeyboardPlacement }, SimilarWord { spelling: "tup", levenshtein_length: 1, typo_type: CloseKeyboardPlacement }, SimilarWord { spelling: "tap", levenshtein_length: 1, typo_type: UndefinedType }, SimilarWord { spelling: "tip", levenshtein_length: 1, typo_type: UndefinedType }]) }
やったこと
1. cargoでクレート作成用のコマンドを実行する
一番最初にcargo
使ってプロジェクト作ろうとしたんですが、そもそもクレート作成用の引数あるの知らんかったのでちょっと手戻り。。。
以下のように--lib
をつけるとlib作成用のフォルダ群が作成されます(公式ドキュメント)。
cargo new typo_checker --lib
2. ミニマムのコードを書いてみる
単語同士の「似ているかどうか」の指標はレーベンシュタイン距離で判断すると決めていたので、まずは正しい英単語の情報の格納とレーベンシュタイン距離を計算する実装を行いました。
※ 1. レーベンシュタイン距離(wiki)
※ 2. 正しい英単語はEJDictさんがパブリックドメインで公開されている『English-Japanese Dictionary "ejdict-hand"(GitHub)』を使用しました。ありがとうございます🙇
3. Rustのドキュメントを書いてみる
外部に公開するということは「大勢の人が見ても仕様を理解できないといけない」ということと同義なので、Docs.rsでわかりやすくなるようにコメントなどの追加を行いました。
4. crate.ioのアカウントを作成する
ちょっと古い記事ですが、以下の記事を参考にして設定を行いました。
結構網羅的にやるべきことが書かれていて、いい記事でした👀
5. Cargo.tomlに必要事項を書き込み、初投稿する
crate.ioに投稿する際にはCargo.tomlのpackage
に最低限書かなければいけないメタデータがあるので、それらを追記しコマンドを実行しました。
cargo publish
※ 1. Cargo.tomlに記載できるメタデータ一覧(公式)
6. 機能追加する
最初に作成したものはミニマムだった&投稿するとモチベが湧いてきたので、機能をどんどん追加していきました。初投稿時のやつはベータ版だったので、この時点でテストなども追加。
7. バージョンアップする
Cargo.tomlのversionフィールドを記載しなおして、正式版を投稿!!
頑張った点
1. 自分なりのロジックで実装した
今回作ったクレートは将来的に「英語の文章中のタイポを見つけ、類似単語を提案する」ことを目標にしていたので、できるだけ処理を早くしたいと思っていました。
そのため以下のようなロジックを組んで、その通りに動くものが作れたのでよかったです。
【ロジック】
- チェックする単語の文字数と同じ文字数の単語を比較(完全一致すれば処理を終了)
- 完全一致しなければレーベンシュタイン距離を計算し、チェックする単語の文字数に近い文字数の英単語のレーベンシュタイン距離を計算する
2. タイポの種類を自分で定義した
一番最初に実装した時は「レーベンシュタイン距離が近い順にソートして結果を出力するだけ」だったのですが、思ったよりも同じレーベンシュタイン距離の単語が多かったので出力が味気なくなってしまいました。。。。
typo_chec_result: TypoCheckResult { match_word: None, similar_word_list:
Some([SimilarWord { spelling: "hypo", levenshtein_length: 1 }, SimilarWord { 〜〜〜〜〜〜
そこで「どんな種類のタイポか」を定義することで、タイポ文字があった場合にユーザーにわかりやすく指摘できるようにしました(docs.rs)。
typo_chec_result: TypoCheckResult { match_word: None, similar_word_list:
Some([SimilarWord { spelling: "type", levenshtein_length: 1, typo_type: MissingCharacters { character: 'e', position: Tail } }, SimilarWord { 〜〜〜
悩んだところ
1. docs.rsに即した書き方
一応、公式ドキュメントがあるっちゃあるんですが「構造体はこう書く」みたいなものが見つけられなかったので、途中まで表記が安定しませんでした。
最終的にダウンロード数も多く、昔からあるimageクレートのdocs.rsと実際のコードを見比べながら真似っこして書いていきました。
2. バージョンの定義の仕方
セマンティックバージョニングに基本的に配慮する必要があるらしいんですが、最初はイマイチよく分からず更新したいときに適当にバージョン上げてしまってました・・・・
個人的には以下のサイトの説明がしっくりきました。
3. コンパイル時間が遅い・・・・・
Rustだから&今回の実装では英単語を結構な数ハードコーディングしちゃってるので仕方がないのかなと思うんですが、実装できる機能に対して10分もコンパイルに時間かかるのもちょっとなと・・・・・
(誰か詳しい人いたらissueからアドバイスいただけると嬉しいです🙇)
さいごに
せっかく作ったクレートなので、もしも要望だったり改善ポイントがあれば以下のissueよりコメントいただけると助かります!!!!(スキマ時間に対応するかも...)。