AUTOSAR CountdownAdvent Calendar 2022

@kaizen_nagoya(Dr. Kiyoshi Ogawa)

文書分析　出現頻度　英語(20)

Last updated at 2024-11-17Posted at 2019-04-30

英文を読むときに，単語帳を作ります。

1 文字飾りのない，文字ファイル(text file)を作る。

ソフトウェアによっては，文字ファイル出力ができないものがあります。
そういう場合には，文字を複写し，貼付ける方法を取ることがあります。
貼付ける際に，対応する文字コードが違うと，文字化けすることがあります。

2　大文字を小文字に変換する。

固有名詞かどうかはひとまず気にせずに，綴りだけを識別したいので，大文字を小文字に変換します。

tr(translate characters)コマンドを使います。unix, linux, mac osxに標準同梱しています。
Windowsの場合はcygwinを導入します。

ファイル内の大文字・小文字を変換するには
http://www.atmarkit.co.jp/flinux/rensai/linuxtips/237cngl2s.html
【 tr 】文字を一括変換する
http://itpro.nikkeibp.co.jp/article/COLUMN/20060227/230906/
OS Xとかで"tr: Illegal byte sequence"とか怒られちゃう場合
http://d.hatena.ne.jp/pasela/20120710/random

1 tr [:upper:] [:lower:] T.txt
説明が出る。

2 tr [:upper:] [:lower:] t2.txt
tr: Illegal byte sequence

3 tr A-Z a-z t2.txt

4 LC_CTYPE=C tr -A-Z a-z t2.txt
tr: illegal option -- A

5 LC_TYPE=C tr A-Z a-z t2.txt

3.　不要な文字を除去しながら単語を計数

プログラミング言語AWK
プログラミング言語AWK (新紀元社情報工学シリーズ)
http://www.amazon.co.jp/dp/4775302493

A. V. エイホ, P. J. ワインバーガー, B. W. カーニハン, Alfred V. Aho, Peter J. Weinberger, Brian W. Kernighan, 足立高徳
新紀元社(2004/01)

fw.awk

{ 
gsub(/[`'&%$-/.,:;!?^*_~=|@\\\#<>(){}0123456789\[\]"]/," ") 
for (i=1;i<=NF;i++) 
count[$i]++ 
} 
END {for (w in count) 
print w,count[w] | "sort -f" 
}

wf.awkというファイルに保存。

$ awk -f wf.awk t2.txt

awk -f wf.awk t2.txt

awk: nonterminated character class [`'&%$-
 source line number 2 source file wf.awk
 context is
>>> gsub(/[`'&%$-/. <<< ,:;!?^*_~=|@\\\#<>(){}0123456789\[\]"]/," ")

/を削除(/.を削除とかいていたそれだと.が残る）

awk -f wf.awk t2.txt 
sort: string comparison failed: Illegal byte sequence
sort: Set LC_ALL='C' to work around the problem.

LC_TYPE=C　awk -f wf.awk t2.txt
more t2.txt
で，制御文字を見て，削るか変換する。
例えば，'が制御文字であれば，'に置換する。
"が制御文字の場合に"に空白を入れて置換する。

^Mがついた文字がある。
エディタで保存をMacintosh CR　から
Windows CR LF
に変更して保存。

参考文献(reference)

文字列の出現回数を調べるawk
https://qiita.com/oshiro/items/11b6833aa41627723059

英語論文・規格・特許を読むときの作業記録
https://researchmap.jp/jorteykhj-51292/

GCC コメント除去、単語計算
https://researchmap.jp/joo4thhg9-1778110/

文書分析　出現頻度と共出現率
https://researchmap.jp/jo34x0vvk-45644/

<この項は書きかけです。順次追記します。>
This article is not completed. I will add some words and/or centences in order.

自己記事一覧

Qiitaで逆リンクを表示しなくなったような気がする。時々、スマフォで表示するとあらわっることがあり、完全に削除したのではなさそう。

４月以降、せっせとリンクリストを作り、統計を取って確率を説明しようとしている。
2025年２月末を目標にしている。

一覧の一覧( The directory of directories of mine.) Qiita(100)
https://qiita.com/kaizen_nagoya/items/7eb0e006543886138f39

仮説（0）一覧（目標100現在40）
https://qiita.com/kaizen_nagoya/items/f000506fe1837b3590df

Qiita(0)Qiita関連記事一覧（自分）
https://qiita.com/kaizen_nagoya/items/58db5fbf036b28e9dfa6

Error一覧 error(0)
https://qiita.com/kaizen_nagoya/items/48b6cbc8d68eae2c42b8

C++ Support(0)　
https://qiita.com/kaizen_nagoya/items/8720d26f762369a80514

Coding(0) Rules, C, Secure, MISRA and so on
https://qiita.com/kaizen_nagoya/items/400725644a8a0e90fbb0

Ethernet 記事一覧　Ethernet(0)
https://qiita.com/kaizen_nagoya/items/88d35e99f74aefc98794

Wireshark 一覧 wireshark(0)、Ethernet(48)
https://qiita.com/kaizen_nagoya/items/fbed841f61875c4731d0

線網（Wi-Fi）空中線(antenna)(0) 記事一覧(118/300目標)
https://qiita.com/kaizen_nagoya/items/5e5464ac2b24bd4cd001

Raspberrpy PI(0) 記事見直し
https://qiita.com/kaizen_nagoya/items/b242287666c453a3d5d7

なぜdockerで機械学習するか書籍・ソース一覧作成中 (目標100)
https://qiita.com/kaizen_nagoya/items/ddd12477544bf5ba85e2

プログラムちょい替え（0）一覧:4件
https://qiita.com/kaizen_nagoya/items/296d87ef4bfd516bc394

言語処理100本ノックをdockerで。python覚えるのに最適。:10+12
https://qiita.com/kaizen_nagoya/items/7e7eb7c543e0c18438c4

Python(0)記事をまとめたい。
https://qiita.com/kaizen_nagoya/items/088c57d70ab6904ebb53

安全（0）安全工学シンポジウムに向けて: 21
https://qiita.com/kaizen_nagoya/items/c5d78f3def8195cb2409

プログラマによる、プログラマのための、統計(0)と確率のプログラミングとその後
https://qiita.com/kaizen_nagoya/items/6e9897eb641268766909

転職(0)一覧
https://qiita.com/kaizen_nagoya/items/f77520d378d33451d6fe

技術士(0)一覧
https://qiita.com/kaizen_nagoya/items/ce4ccf4eb9c5600b89ea

Reserchmap(0) 一覧
https://qiita.com/kaizen_nagoya/items/506c79e562f406c4257e

物理記事　上位100
https://qiita.com/kaizen_nagoya/items/66e90fe31fbe3facc6ff

量子(0) 計算機, 量子力学
https://qiita.com/kaizen_nagoya/items/1cd954cb0eed92879fd4

数学関連記事１００
https://qiita.com/kaizen_nagoya/items/d8dadb49a6397e854c6d

coq(0) 一覧
https://qiita.com/kaizen_nagoya/items/d22f9995cf2173bc3b13

統計(0)一覧
https://qiita.com/kaizen_nagoya/items/80d3b221807e53e88aba

図(0) state, sequence and timing. UML and お絵描き
https://qiita.com/kaizen_nagoya/items/60440a882146aeee9e8f

色(0) 記事100書く切り口
https://qiita.com/kaizen_nagoya/items/22331c0335ed34326b9b

品質一覧
https://qiita.com/kaizen_nagoya/items/2b99b8e9db6d94b2e971

言語・文学記事　１００
https://qiita.com/kaizen_nagoya/items/42d58d5ef7fb53c407d6

医工連携関連記事一覧
https://qiita.com/kaizen_nagoya/items/6ab51c12ba51bc260a82

水の資料集(0)　方針と成果
https://qiita.com/kaizen_nagoya/items/f5dbb30087ea732b52aa

自動車　記事　１００
https://qiita.com/kaizen_nagoya/items/f7f0b9ab36569ad409c5

SDV 一覧　
https://qiita.com/kaizen_nagoya/items/49aba886ad208e2aa70f

通信記事１００
https://qiita.com/kaizen_nagoya/items/1d67de5e1cd207b05ef7

日本語（０）一欄
https://qiita.com/kaizen_nagoya/items/7498dcfa3a9ba7fd1e68

英語(0) 一覧
https://qiita.com/kaizen_nagoya/items/680e3f5cbf9430486c7d

音楽　一覧(0)
https://qiita.com/kaizen_nagoya/items/b6e5f42bbfe3bbe40f5d

「@kazuo_reve 新人の方によく展開している有益な情報」確認一覧
https://qiita.com/kaizen_nagoya/items/b9380888d1e5a042646b

鉄道（０）鉄道のシステム考察はてっちゃんがてつだってくれる
https://qiita.com/kaizen_nagoya/items/faa4ea03d91d901a618a

OSEK OS設計の基礎　OSEK(100)
https://qiita.com/kaizen_nagoya/items/7528a22a14242d2d58a3

coding (101) 一覧を作成し始めた。omake:最近のQiitaで表示しない5つの事象
https://qiita.com/kaizen_nagoya/items/20667f09f19598aedb68

官公庁・学校・公的団体（NPOを含む）システムの課題、官（０）
https://qiita.com/kaizen_nagoya/items/04ee6eaf7ec13d3af4c3

「はじめての」シリーズ　ベクタージャパン　
https://qiita.com/kaizen_nagoya/items/2e41634f6e21a3cf74eb

AUTOSAR(0)Qiita記事一覧, OSEK(75)
https://qiita.com/kaizen_nagoya/items/89c07961b59a8754c869

プログラマが知っていると良い「公序良俗」
https://qiita.com/kaizen_nagoya/items/9fe7c0dfac2fbd77a945

LaTeX(0) 一覧　
https://qiita.com/kaizen_nagoya/items/e3f7dafacab58c499792

自動制御、制御工学一覧（０）
https://qiita.com/kaizen_nagoya/items/7767a4e19a6ae1479e6b

Rust(0) 一覧　
https://qiita.com/kaizen_nagoya/items/5e8bb080ba6ca0281927

文書分析　出現頻度　英語(20)

1 文字飾りのない，文字ファイル(text file)を作る。

2　大文字を小文字に変換する。

3.　不要な文字を除去しながら単語を計数

参考文献(reference)

自己記事一覧

関連資料

Engineering Festa 2024前に必読記事一覧

文書履歴(document history)

最後までおよみいただきありがとうございました。

Thank you very much for reading to the last sentence.

最後までおよみいただきありがとうございました。

Thank you very much for reading to the last sentence.

文書分析 出現頻度 英語(20)

1 文字飾りのない，文字ファイル(text file)を作る。

2 大文字を小文字に変換する。

3. 不要な文字を除去しながら単語を計数

参考文献(reference)

自己記事一覧

関連資料

Engineering Festa 2024前に必読記事一覧

文書履歴(document history)

最後までおよみいただきありがとうございました。

Thank you very much for reading to the last sentence.

最後までおよみいただきありがとうございました。

Thank you very much for reading to the last sentence.

文書分析　出現頻度　英語(20)

2　大文字を小文字に変換する。

3.　不要な文字を除去しながら単語を計数