0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

IT技術書紹介/IT Tech books introduction:Pythonスクレイピング&クローリング データ収集マスタリングハンドブック

0
Posted at

image.png

  • 出版社/Publisher: 秀和システム新社/Shuwasystem-Shinsha Co., Ltd.
  • 発行日/Date of issue: 2023.02.22 第1版第1刷/Initial edition Initial print
  • 著者/Author: 宮本圭一郎/Keiichiro Miyamoto

■書評/Book Review
この本はかなり厳しかった。手厳しい評価になるが書かせてもらいたい。まず大前提として「初心者は絶対に手を出してはいけない」本となる。理由は下記の通り。

This book was so tough. It might be caustic but I dare to write a comment of this book. As a major premise, this is "Beginners must not absolutely open" book. Reasons are followed:

1.Seleniumドライバ

これが本当に厳しかった。この本執筆時のドライバインストール・使用方法と、私が実際にコーディングした時で大分相違しており、最初かなり手間取った。何が厳しいかと言うと、まずFirefoxなりChromeなりのWebdriverダウンロードサイトにて、どのドライバを選んだらいいのかわからない。もしくはどこに該当ドライバがあるのかわからない。
本を読み進めながら調査しながら、次の章にいくくらいでようやく適切な使用方法に辿り着く。

1.Selenium Driver

This was so hard. How to install and use driver between in writing this book and in my actual coding has big difference, then it took tough time in stargin this book. What is difficult is which deriver I should select can't be determined at first stage on a download site of Webdriver for Firefox or Chrome. Or proper driver link location can't be cleared.
Along with reading and investigating it, I managed to reach the proper use of Webdriver in a timing of going to a next chapter.

2.Pythonの基礎文法かじったくらいでは難しい

対象読者には「Pythonの基礎文法を一通り終えた人」のような文言があったが、実際はそんなレベルでは太刀打ちできない。Pythonの辞書の使い方などかなり勉強にはなるが応用せねばならず、読んで理解して使えるようになるまでそれなりに時間がかかる。「ハンドブック」という性質上、あまり詳細な解説が期待できない。
あまりにも難しいため、「いまにゅ」さんというプログラミングYoutuberの方が出している動画で基礎から一通り学んでからこの本を再開したくらいだった。

2.Only finishing basic grammer of Python is impossible to read.

There is phrase something like a target reader is for "those who finished a basic set of Python basic grammer", but nobody can be equival to this book in such the level. We can newly obtain how to use Python dictionary to much extent, but applying Python basic grammer is "MUST" and it takes comparable time to get to read, understand, and use them. Under the character of "Handbook", a detail explanation can't be expected so much.
It was sof tough for me that I must study a set of Python scraping from basic by a movie createdy by a programming Youtuber called "Imanyu" and restart this book again.

3.対象サイト更新

この本に掲載されている該当サイトだが、構成が更新されており、本の通りにソースを打ち込んでもまともに動かない。自分でWebブラウザの開発ツールを立ち上げ、取得対象のタグを調べて、地道にソース修正しながら進めるしかない。

3.Target site renewal

Target sites that are introduced in this book are consisted of renewal style and source codes same as this book can't work normally. We must run a development tool on Web browser by ouserlf, investigate target objection tag, and progress with modifying source step by step.

4. スクレイピングが許されない

この本執筆時には許されていたかもしれないが、私がスクレイピングした時には、サイトによっては企業側がスクレイピングを許していない場合もあった。特に、書籍に掲載されている不動産屋については試しにスクレイピングしてみたらそのサイトへのアクセスを禁じられて二度と表示できなくなった。
時間経過だから仕方ないのかもしれないが。そのような「スクレピングお断り」という企業のサイトを書籍に収録しないでもらいたいと強く思った。
この本を読みながらスクレイピングを実施していた時、あまりにもスクレイピング禁止の企業が多くて、この本は残念ながら途中で断念した。

4.Scraping is prohibited.

Though it might be allowed in writing this book, when I run scraping, several sites does not allow it. Among them, on a real esteates company written in this book, I scraped as giving it a try, then I was banned to access the site and my browser can never show the page of the company again.
There might be no avoidable way by time lapse, but I strongly expected not to include in this book the corporate sites whose policy is "Seal off from scraping".
During reading this book and scraping, there are more scraping prohibitation sites than my guess and it's sorry to say but I gave up this book on half way.

5. ソースコードの校訂ができていない

仮に上記の問題点が全て解消されていたとしても、ソースコードの綴りミスはもちろんのこと、必要なソース箇所がごっそり抜けており、自分で補強せねばならない。

5.Recension has not been fisnihed.

Even though above all problems are resolved, of course, adding to source code spell error, a whole essential source part is utterly lost, then we must fortify them by ourselves.

こんなひどいIT本初めてだと思い調査したところ、どうやら秀和システム社自体がその当時、会社買収が合併か何かで不安定な状況にあったようで、その会社の状況がそのまま書籍に出たかな、と思わされる。

This is first time that I encountered the terrible IT book like this and I investigated the reason, then I found Shuwa system company itself seems to be volatile at that time for somethig like company aquisition or merge and that situation of the company is considered to reflect the book.

まとめると、この本の対象読者は、

  1. Pythonの初級を卒業して簡単な数十行のプログラミングで何か作ったことがある
  2. スクレイピングの基礎は問題なく頭に入っている
  3. スクレイピングしていいサイトとしてはいけないサイトを事前に確実に確認できる
  4. Webドライバやソースコードの「間違いが多々あったとしても自分で修正することにより力をつけたい」くらいの意気込みを持つ
    となる。

Summrising shows the target reader for this book is those who:

  1. have graduated Python beginner level and created something easy consisted of several lines programming
  2. have memorized basic Scraping normally
  3. can surely discern beforehand sites that scraping is allowed or not
  4. are challenger that have motivated heart to "obtain skills by modifying codes by myself even if there are many errors" of Web drivers or source codes
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?