1-1 Python入門
Pythonのいいところの1つは、対話型インタプリタに直接入力できることです。
対話型インタプリタとは、一つ質問したら一つ回答が返ってくるように、プログラミング言語で書かれたコードを、一行読んでは機械語に翻訳し実行、また一行読んでは翻訳し実行という逐次翻訳の手法のことである。
Interactive DeveLopment Environment(IDLE)と呼ばれるシンプルなグラフィカルインターフェイスを使用して、Pythonインタプリタにアクセスできます。 Macでは[アプリケーション]→[MacPython]で、Windowsでは[すべてのプログラム]→[Python]で見つけることができます。
Pythonインタープリターを実行できない場合は、おそらくPythonが正しくインストールされていない可能性があります。詳細な手順については、こちらをご覧ください。
Pythonで演算
インタプリタが回答の計算と表示を完了すると、プロンプトが再び表示されます。これは、Pythonインタプリタが別の命令を待っていることを意味します。(プロンプトとは、">"のこと)
>>>1 + 5 * 2 - 3
8
>>>
乗算にはアスタリスク(*)、除算にはスラッシュ(/)を使用し、式を括弧で囲むには( )を使用dできます。
上記の例は、Pythonインタプリタを使用して対話的に作業し、言語のさまざまな式を試して、その機能を確認する方法を示しています。
エラー文の例
>>> 1 +
File "<stdin>", line 1
1 +
^
SyntaxError: invalid syntax
>>>
これにより、構文エラーが発生しました。 Pythonでは、命令をプラス記号で終了することは意味がありません。 Pythonインタプリタは、エラーが発生した行を line 1と示し、1行目にエラーが出ましたよ。と教えてくれます。
Pythonインタプリタを使用できるようになったので、言語データの操作を開始する準備ができました。
1-2 NLTK入門
NLTKインストール方法
さらに先に進む前に、こちらから無料でダウンロード可能なNLTK 3.0をインストールする必要があります。そこにある指示に従って、プラットフォームに必要なバージョンをダウンロードします。
NLTKとは、Natural Language Tool Kit の略であり、自然言語処理のための Python で実装されたライブラリである。デフォルトで英語をいじれるのが特徴。
NLTKをインストールしたら、Pythonインタプリタを起動し、Pythonプロンプトで次の2つのコマンドを入力して本に必要なデータをインストールし、図1.1に示すように本のコレクションを選択します。
図1.1:NLTKブックコレクションのダウンロード:nltk.download()を使用して利用可能なパッケージを参照します。ダウンローダーの[コレクション]タブには、パッケージがセットにグループ化される方法が表示されます。本というラベルの行を選択して、この本の例と演習に必要なすべてのデータを取得する必要があります。
NLTKの使い方
データがPCにダウンロードされると、Pythonインタプリタを使用してその一部をロードできます。最初のステップは、Pythonプロンプトで特別なコマンドを入力することです。
:from nltk.book import *。
これは、インタプリタに、探索するためのテキストを読み込むように指示していて、「NLTKのブックモジュールから、すべてのアイテムをロードする」と言います。本モジュールには、この章を読むときに必要なすべてのデータが含まれています。ここに表示される出力とともに、コマンドを再度示します。スペルと句読点を正しく取得するように注意してください。
>>> from nltk.book import *
*** Introductory Examples for the NLTK Book ***
Loading text1, ..., text9 and sent1, ..., sent9
Type the name of the text or sentence to view it.
Type: 'texts()' or 'sents()' to list the materials.
text1: Moby Dick by Herman Melville 1851
text2: Sense and Sensibility by Jane Austen 1811
text3: The Book of Genesis
text4: Inaugural Address Corpus
text5: Chat Corpus
text6: Monty Python and the Holy Grail
text7: Wall Street Journal
text8: Personals Corpus
text9: The Man Who Was Thursday by G . K . Chesterton 1908
>>>
text1: ハーマン・メルヴィル1851年作「モビー・ディック」
text2: ジェーン・オースティン1811による感覚と感性
text3: 創世記
text4: 就任住所コーパス
text5: チャットコーパス
text6: モンティ・パイソンと聖杯
text7: ウォールストリートジャーナル
text8: パーソナルコーパス
text9: Gによる木曜日の男。 K。チェスタトン1908
これらのテキストについて知りたいときはいつでも、Pythonプロンプトで名前を入力するだけで調べることができます。
>>> text1
<Text: Moby Dick by Herman Melville 1851>
>>> text2
<Text: Sense and Sensibility by Jane Austen 1811>
>>>
Pythonインタープリターを使用して、いくつかのデータを処理できるようになりました。