More than 5 years have passed since last update.

iOSで文章の言語を判定する[NSLinguisticTagger]

Last updated at 2017-09-20Posted at 2017-07-13

はじめに

NSLinguisticTaggerを使って、クライアントだけで、文章・文・節の言語を判定する方法を紹介します。（単語も場合により可能です）

NSLinguisticTagger

NSLinguisticTaggerを使うと、形態素解析などを行うことができます。（日本語の精度は低いですが）
他の機能の一つとして、言語を判定する事ができます。

let text = "Rom ist nicht an einem Tag erbaut worden"
let tagger = NSLinguisticTagger(tagSchemes: [NSLinguisticTagSchemeLanguage], options: 0)
tagger.string = text
let result = tagger.tag(at: 0, scheme: NSLinguisticTagSchemeLanguage, tokenRange: nil, sentenceRange: nil) ?? LanguageDetector.notDetermined

// de
print(result)

ここでde、はドイツ語を表す言語コードです。
言語コードは、BCP-47に準拠した値が返ります。

判定不能な場合は　"und" (undetermined) が返されます。

displayNameは、

// ドイツ語
Locale.current.localizedString(forIdentifier: "de")
Locale.current.localizedString(forLanguageCode: "de")

のようにすると取得できます。
IdentifierとLanguageCodeはどちらを使ってもほぼ同じ値が返ってきますが、 zh-Hans や zh-Hant について、LanguageCodeだと「中国語」、Identifierを使うと「中国語（繁体字）」「中国語（簡体字）」のようになるという違いがあります。

Gist

こんな感じでラップしました。MITライセンスです(gistにあります)

gist: ha1f/LanguageDetector.swift

LanguageDetector.swift

import Foundation

struct LanguageDetector {
    
    static let notDetermined = "und"
    
    private let tagger = NSLinguisticTagger(tagSchemes: [NSLinguisticTagSchemeLanguage], options: 0)
    
    // returns BCP-47 format
    func detect(_ text: String) -> String {
        guard !text.isEmpty else {
            return LanguageDetector.notDetermined
        }
        tagger.string = text
        return tagger.tag(at: 0, scheme: NSLinguisticTagSchemeLanguage, tokenRange: nil, sentenceRange: nil) ?? LanguageDetector.notDetermined
    }
}

Swift4版

public struct LanguageDetector {
    
    static let undetermined = "und"
    
    private let tagger = NSLinguisticTagger(tagSchemes: [.language], options: 0)
    
    // returns BCP-47 format
    func detect(_ text: String) -> String {
        guard !text.isEmpty else {
            return LanguageDetector.undetermined
        }
        tagger.string = text
        return tagger.tag(at: 0, scheme: .language, tokenRange: nil, sentenceRange: nil)?.rawValue ?? LanguageDetector.undetermined
    }
}

iOS 11では、dominantLanguageを使うことができます。

return tagger.dominantLanguage ?? tagger.tag(at: 0, scheme: .language, tokenRange: nil, sentenceRange: nil)?.rawValue ?? LanguageDetector.undetermined

動作

一文字、一単語などは、たとえひらがななど固有の文字であってもなかなか認識してくれません。
「サーターアンダギー」は正しくjaと判定できますが、「パソコン」はundになります。

逆に判定条件が厳しい分、ちゃんと値が返ってきた場合はだいたい正しい気がします。

以下テストです（タイ語のみ見つからなかったので似たような意味の文です）

LanguageDetectorTests.swift

func testDetect() {
    let de = "Rom ist nicht an einem Tag erbaut worden"
    let ja = "ローマは一日にして成らず"
    let fr = "Paris ne s'est pas fait en un jour"
    let en = "Rome was not built in a day"
    let it = "Roma non fu fatta in un giorno, Roma non è stata costruita in un giorno"
    let el = "Η Ρώμη δεν χτίστηκε σε μια μέρα"
    let ru = "Москва не сразу строилась"
    let zh_Hant = "羅馬非朝夕建成的"
    let zh_Hans = "罗马不是一日建成的"
    let ko = "로마는 하루아치메 이루어지지 아낟따"
    let th = "และจะมีคุณค่า'มากขึ้น'เมื่อเราทำความดีนั้นอย่างสม่ำเสมอ"
    
    XCTAssertEqual(detector.detect(de), "de")
    XCTAssertEqual(detector.detect(ja), "ja")
    XCTAssertEqual(detector.detect(en), "en")
    XCTAssertEqual(detector.detect(fr), "fr")
    XCTAssertEqual(detector.detect(it), "it")
    XCTAssertEqual(detector.detect(el), "el")
    XCTAssertEqual(detector.detect(ru), "ru")
    XCTAssertEqual(detector.detect(zh_Hant), "zh-Hant")
    XCTAssertEqual(detector.detect(zh_Hans), "zh-Hans")
    XCTAssertEqual(detector.detect(ko), "ko")
    XCTAssertEqual(detector.detect(th), "th")
}

func testDetectUnd() {
    XCTAssertEqual(detector.detect(""), LanguageDetector.notDetermined)
    XCTAssertEqual(detector.detect("a"), LanguageDetector.notDetermined)
    XCTAssertEqual(detector.detect("大"), LanguageDetector.notDetermined)
}

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up