#はじめに
サーバレスアーキテクチャでアプリを作る中で、Azure Functions上にてMecabを実行するにあたりちょっと面倒だったので手段について投稿します。
#Mecabとは
ググればいくらでもありますがとりあえず以下参照。
【技術解説】形態素解析とは?MeCabインストール手順からPythonでの実行例まで
#ざっくりやりたいこと
- Azure Functions上でMecabを動かしたい
- システム辞書は頻繁に更新しないので埋め込む
- ユーザー辞書は適度に追加したいので外部から読み込みたい
Mecabの辞書はファイルパスを指定する方式なのでTMPに書き出す必要がありました。
- ユーザー辞書はAzure Storageに置いておく
- Logic Appsの繰り返しトリガーで発動(別にトリガーは何でも良い)
- Logic AppsのBLOBコンテンツの取得アクションを用いてAzure Functionsにつなげる
(Azure Functions上から取得しても良いけど柔軟性がなくなる気がする) - base64で入力される文字列をファイルで生成してTMPに格納
- 埋め込みリソースからsys.dic(etc)を取得しファイルを生成してTMPに格納
#TMPに置いたら毎回置き直す必要あるんじゃない?
にて挙動を調査していた記事がありました。(以下引用)
インスタンス間では共有されない
kuduのdebug consoleでは関数で作ったtemp fileは見えない
再起動すれば消える
同一Function App内であれば他関数とTMPディレクトリは共通(他関数が作ったファイルが参照できる)
再起動しなければ結構残ってる(いつ消えるか検証中。再デプロイくらいでは消えない)
容量は500MBまで。
実際に初回の起動は25秒程度かかりましたが即座に二回目を起動すると4秒程度でした。
もちろん、TMPに存在していたらファイルを生成しない、とかしてます。
ユーザー辞書は毎回置き直してます。
#ユーザー辞書毎回HttpRequestに載せたらお金かかるんじゃない?
そこはなんともです。頻度とかユーザー辞書の大きさによるかなと思っています。
- WebAppとしてリリース
- コンテナ化してリリース
- 埋め込みリソースにしてユーザー辞書更新の度にAzure Functions再配置
等々いくつか手段は考えられます。
#まとめ
他に良い方法ありましたらご教示願います。
#ソース例
githubに上げたいんですけどまだ整ってないので抜粋です。必要なところだけ抜いただけでこの状態で動かしていないので動かなかったらごめんなさい。
環境
public static class Function1
{
[FunctionName("Function1")]
public static async Task<IActionResult> Run(
[HttpTrigger(AuthorizationLevel.Function, "get", "post", Route = null)] HttpRequest req,
ILogger log)
{
string requestBody = await new StreamReader(req.Body).ReadToEndAsync();
dynamic data = JObject.Parse(requestBody);
string userdicpath = ConvertUserDic(data);
await Program.Main(new[] { (string)data.exec, "-userdic", userdicpath });
return (ActionResult)new OkObjectResult("OK");
}
private static string ConvertUserDic(dynamic data)
{
if ((data is JObject j) && (j["userdic"]["$content"].Value<string>() is string s))
{
var dic = System.IO.Directory.CreateDirectory(Path.Combine(Environment.GetEnvironmentVariable("TMP"), "dic"));
var userdic = Path.Combine(dic.FullName, "user.dic");
using (var stream = new MemoryStream(System.Convert.FromBase64String(s)))
{
using (var file = File.Create(userdic))
{
stream.CopyTo(file);
file.Close();
}
}
return userdic;
}
else
{
throw new ArgumentException("userdic", data?.userdic);
}
}
}
public class Program
{
public static async Task Main(string[] args)
{
await BatchHost.CreateDefaultBuilder().RunBatchEngineAsync(args);
}
}
という風に埋め込みリソースがあるとして
public class MecabBatch : BatchBase
{
private ILogger<MecabBatch> Logger { get; }
private string DicPath { get; }
public MecabBatch(ILogger<MecabBatch> _logger)
{
Logger = _logger;
DicPath = Path.Combine(Environment.GetEnvironmentVariable("TMP"), "dic");
Task.WaitAll(new[] {
CreateFileAsync(DicPath, "char.bin"),
CreateFileAsync(DicPath, "dicrc"),
CreateFileAsync(DicPath, "matrix.bin"),
CreateFileAsync(DicPath, "sys.dic"),
CreateFileAsync(DicPath, "unk.dic"),
});
}
public void Execute(
[Option("userdic", "user dictionary path.")]string userdic
)
{
using (var m = MeCabTagger.Create(
new MeCabParam
{
DicDir = DicPath,
UserDic = new[] { userdic },
}
))
{
getMeCabNode(m.ParseToNode("本日も晴天なり"))
.Where(n => String.IsNullOrEmpty(n.Feature) == false)
.ToList()
.ForEach(n => Logger.LogInformation(n.Feature));
}
}
private async Task CreateFileAsync(string dicPath, string fileName)
{
if (File.Exists(Path.Combine(dicPath, fileName)))
return;
Directory.CreateDirectory(dicPath);
var assembly = Assembly.GetExecutingAssembly();
using (var stream = assembly.GetManifestResourceStream("MecabImpl.dic." + fileName))
{
using (var file = File.Create(Path.Combine(dicPath, fileName)))
{
await stream.CopyToAsync(file);
file.Close();
}
}
}
private IEnumerable<MeCabNode> getMeCabNode(MeCabNode n)
{
yield return n;
while (n.Next != null)
{
n = n.Next;
yield return n;
}
}
}
したら
名詞,副詞可能,*,*,*,*,本日,ホンジツ,ホンジツ
助詞,係助詞,*,*,*,*,も,モ,モ
名詞,一般,*,*,*,*,晴天,セイテン,セイテン
助動詞,*,*,*,文語・ナリ,基本形,なり,ナリ,ナリ
とできました。