Beautiful-soup-installation
美しいスープ-インストール
BeautifulSoupは標準のPythonライブラリではないため、最初にインストールする必要があります。 最新のBeautifulSoup 4ライブラリ(別名BS4)をインストールします。
既存のセットアップを妨害しないように作業環境を分離するには、まず仮想環境を作成します。
仮想環境の作成(オプション)
仮想環境では、外部の設定に影響を与えることなく、特定のプロジェクト用に分離されたpythonの作業コピーを作成できます。
Pythonパッケージマシンをインストールする最良の方法は、pipを使用することですが、pipがまだインストールされていない場合(コマンドまたはシェルプロンプトで–“ pip –version”を使用して確認できます)、以下のコマンドを実行してインストールできます-
Linux環境
Windows環境
Windowsにpipをインストールするには、次のようにします-
- [[1]]
- コマンドプロンプトを開き、get-pip.pyファイルを含むフォルダーに移動します。
- 次のコマンドを実行します-
以上で、pipがWindowsマシンにインストールされました。
以下のコマンドを実行して、インストールされているpipを確認できます-
仮想環境のインストール
コマンドプロンプトで以下のコマンドを実行します-
実行すると、以下のスクリーンショットが表示されます-
以下のコマンドは、現在のディレクトリに仮想環境(「myEnv」)を作成します-
スクリーンショット
仮想環境をアクティブ化するには、次のコマンドを実行します-
上のスクリーンショットでは、仮想環境「myEnv」の下にいることを示す接頭辞として「myEnv」があることがわかります。
仮想環境を終了するには、deactivateを実行します。
仮想環境の準備ができたら、beautifulsoupをインストールしましょう。
BeautifulSoupのインストール
BeautifulSoupは標準ライブラリではないため、インストールする必要があります。 BeautifulSoup 4パッケージ(bs4として知られています)を使用します。
Linuxマシン
システムパッケージマネージャーを使用してDebianまたはUbuntu Linuxにbs4をインストールするには、次のコマンドを実行します-
easy_installまたはpipを使用してbs4をインストールできます(システムパッケージャを使用したインストールで問題が発生した場合)。
(python3を使用している場合は、easy_install3またはpip3をそれぞれ使用する必要がある場合があります)
Windowsマシン
Windowsにbeautifulsoup4をインストールするのはとても簡単です。特に、pipが既にインストールされている場合はそうです。
これで、beautifulsoup4がマシンにインストールされました。 インストール後に発生するいくつかの問題について話しましょう。
インストール後の問題
あなたが遭遇する可能性のあるWindowsマシンでは、間違ったバージョンがインストールされているエラーが主に-
- エラー: _ImportError“ HTMLParserという名前のモジュールはありません” _ 。Python 3でpython 2バージョンのコードを実行している必要があります。
- エラー: _ImportError“ html.parserという名前のモジュールはありません” _ エラー。Python2でPython 3バージョンのコードを実行している必要があります。
上記の2つの状況から抜け出す最善の方法は、BeautifulSoupを再インストールして、既存のインストールを完全に削除することです。
ROOT_TAG_NAME = u ’[document]’の行に _SyntaxError“ Invalid syntax” _ が表示された場合、パッケージをインストールするだけで、python 2コードをpython 3に変換する必要があります-
またはbs4ディレクトリでpythonの2から3への変換スクリプトを手動で実行する-
パーサーのインストール
デフォルトでは、Beautiful SoupはPythonの標準ライブラリに含まれているHTMLパーサーをサポートしますが、lxmlパーサーやhtml5libパーサーなどの多くの外部サードパーティpythonパーサーもサポートします。
lxmlまたはhtml5libパーサーをインストールするには、コマンドを使用します-
Linuxマシン
Windowsマシン
一般に、ユーザーは速度のためにlxmlを使用します。古いバージョンのpython 2(2.7.3バージョンより前)またはpython 3(3.2.2より前)を使用している場合は、Pythonの組み込みHTMLパーサーがlxmlまたはhtml5libパーサーであることが推奨されます。古いバージョンの処理にはあまり適していません。
美しいスープを実行する
HTMLページの1つ(Webページを取得– [[2]]
以下のコードでは、ウェブページからタイトルを抽出しようとしています-
出力
一般的なタスクの1つは、Webページ内のすべてのURLを抽出することです。 そのためには、以下のコード行を追加する必要があります-
出力
同様に、beautifulsoup4を使用して有用な情報を抽出できます。
上記の例の「スープ」についてさらに理解しましょう。