望月新一 ABC予想論文を読む 。新人にお勧めの基本動作。pdftotext処理編
を始め、英語論文、英語規格、英語文学などを読む場合に必ず単語帳を作成している。
主な4つの場合と、16の意味について記録する。
新規分野(読むとき)
辞書を引く順番
新規分野では、知らない単語が多く、単語を辞書で引くことがある。
頻度の高い単語から引けば、全体を流し読みするのに、1度目は頻度の高い単語だけでよいことが経験上多い。
類似語の識別
似たようなspellingの単語で違う意味の言葉を、同一として誤解して読むことがある。
単語帳を作って、少なくとも頻度が高い、似たspellingの言語を同一と誤解して読むこと減る経験即がある。
固有名詞の識別
一般名詞と同じspellingの固有名詞が存在する。先頭が大文字であれば固有名詞だという判断もできるが、文頭にあると大文字であるから固有名詞と決めつけることができない。固有名詞の頻度と一般名詞の頻度を推測する前処理として総数を確認しておくと便利である。
短縮名の確認
辞書を引いても出てこない単語がしばしば存在する。何かの短縮名の場合があり、full spellingを探すのに、頻度の高い短縮名から実施すると、概要理解の効率が上がる。
参考文献読むとき
100文献ぐらいあるときは、まずどの論文から読むかを決めるときに、単語帳を100個作って並べて見て、どれから読むかを決めることがある。
分類(classification)
同じような用語が上に並んでいる文献と、違う用語が並んでいる文献を分類し、多い類型から3つまず読んでみる。
特定の類型が重要そうでなければ、その分類は後回しにする。
木構造(thesaurus)
全部を合計して、一般用語以外の上位100を上位語、下位語の木構造を表す。一つの木にならない場合には、抽象的な用語を入れて木を生成する場合と、複数の木を眺めて、どの木に集中するかを決める。
同じ表現で二つ以上の意味で用いる場合は、木構造に複数箇所登場させる。
訳語
日本語訳をつけてみる。
100から10選ぶ
分布の違いを理解するためだけに読む
規格(読むとき、書くとき)
辞書確認
規格では、特定の辞書に掲載している英語を用いることを原則としている場合がある。
それらの用語を範囲を、どういう単語が逸脱しているかを確認するのに、頻度の多いものから実施すると効率がよい。
用語頻度・空間設計
なんども長い単語が出現し、文章中の該当単語の閉める割合が高いが、文書中の重要度が低い場合は、短縮名を使ったり、呼び方を変えたりとの用語の頻度設計を行うことにより、文章の目的が理解しやすくなることがある。「大事なことなので三度いいました。」のように、大事な単語が空間を閉める割合を高くするという方法です。
大事な単語なのに頻度が少ないと、その単語を使った説明文、事例文などを書き足すと、わかりやすい文章になるという経験があります。
定義
用語定義をしているが一度も定義以外で出現しない単語が存在することがある。
定義した後で、本文の変更があり、その単語を使った定義が不要になったのに、定義を削除していない場合である。
その逆の場合もみつかることがある。他の規格では定義があるのに、定義を参照せずに用いている場合などである。
新しく取り組むプログラム言語(読むとき、書くとき)
定数、変数、関数
プログラム中で、定数、変数、関数をどうかき分けるかは、言語によって考え方が違います。
そのため、新しく取り組むプログラミング言語の場合には、用語一覧を作り、定数、変数、関数の名前の付け方がどうなっているかを確認するのに、頻度の高い方から作業します。
類似名確認
現在ではプログラミングツールに、似た名前を警告する機能がついている場合があります。
似た名前の警告をしない場合には、一文字違いの定数、変数、関数がないことを確認するのに使うことがあります。
頻度*文字数
頻度*文字数/全文字数が、その単語が文章中に占める割合です。
その順番を眺めながら、どの単語が占有する割合を高めることによって、その単語の持つ雰囲気を文章全体にばらまく感じ。
頻度順番
頻度の順番を眺めながら、どの単語をもっと引き上げお湯と、文章を追加してみると
参考資料
Splits compound words, like German "Effektivitätsberechnung
TimKam/compound-word-splitter
SECOS - SEmantic COmpound Splitter
Two become one: compound words and how to use them
How to split compound word in pandas?
Corpus-Driven Splitting of Compound Words - Carnegie
A Joint Approach to Compound Splitting and Idiomatic Compound Detection
Kvistur 2.0: a BiLSTM Compound Splitter for Icelandic
Chasing the Perfect Splitter: A Comparison of Different Compound Splitting Tools
Chasing the Perfect Splitter: A Comparison of Different Compound
Splitting Tools, Carla Parra Escartín
Empirical Methods for Compound Splitting Philipp Koehn Kevin Knight
Splitting Compounds by Semantic Analogy
Joachim Daiber∗ Lautaro Quiroz† Roger Wechsler† Stella Frank∗
複合語における解釈の問題についての考察
理工系学生のための英語語彙リスト策定に向けた基礎資料 井村 誠
<この記事は個人の過去の経験に基づく個人の感想です。現在所属する組織、業務とは関係がありません。>
文書履歴(document history)
ver. 0.01 初稿 20220423
ver. 0.02 ありがとう追記 20230504
最後までおよみいただきありがとうございました。
いいね 💚、フォローをお願いします。
Thank you very much for reading to the last sentence.
Please press the like icon 💚 and follow me for your happy life.