Uipath-studio-data-scraping-and-screen-scraping
データスクレイピングとスクリーンスクレイピング
この章では、Uipathでのデータスクレイピングとスクリーンスクレイピングについて詳しく学びましょう。
データスクレイピングとは
データスクレイピングは、構造化されたデータをWebまたは任意のアプリケーションから抽出し、データベースまたはスプレッドシートまたは.CSVファイルに保存できる技術です。 UiPath studioは、スクレイピングウィザードを使用してデータスクレイピングの機能も提供します。 スクレイピングウィザードは[デザイン]タブにあります。
以下は同じためのスクリーンショットです-
例でデータスクレイピングウィザードを使用する手順
UiPathデータスクレイピングウィザードを使用するには、次の手順に従うことができます-
- ステップ1 *-最初に、データを抽出するWebページまたはアプリケーションを開きます。 例として、Googleの連絡先からデータを抽出しています。
- ステップ2 *-次に、[デザイン]タブの[データスクレイピング]ボタンをクリックします。 あなたは次のメッセージボックスを取得します-
ステップ3 *- *'次' ボタンをクリックすると、データを抽出するWebページの最初と最後のフィールドを選択するオプションが表示されます。 この例では、Googleコンタクトページから選択できます。
- ステップ4 *-最初の要素の選択が終了すると、次のように2番目の要素を選択するためのダイアログボックスが表示されます-
- ステップ5 *-[次へ]をクリックして2番目の要素を選択すると、別のダイアログボックスが表示され、列ヘッダーをカスタマイズしてURLを抽出するかどうかを選択できます。
要件に応じて、テキスト列の名前を変更できます。 column1の名前を「Name」に変更しました。
- ステップ6 *-次に、UiPath studioはデータをプレビューするための抽出ウィザードを提供します。 相関データを抽出するか、ここで抽出を終了するかを選択します。 相関データを抽出すると、データの抽出元のWebページに再び移動します。
- ステップ7 *-抽出が完了すると、「複数のページにまたがるデータですか?」という質問が表示されます。複数のページからデータを抽出する場合は、[はい]をクリックします。 ここでのデータ抽出は単一ページからのみ行われるため、[いいえ]をクリックしました。
- ステップ8 *-最後に、デザイナータブで次のようにアクティビティシーケンスを作成します-
[デザイナータブのアクティビティシーケンス]
スクリーンスクレイピングとは
UiPath studioは、指定されたUI要素またはドキュメントからデータを抽出するメソッドを提供します。 これらのメソッドは、画面スクレイピングまたは出力メソッドと呼ばれます。 [デザイン]タブに画面スクレイピングウィザードがあります。
スクリーンスクレイピング方法
UiPath studioの画面スクレイピングウィザードには、指定されたUI要素からデータをスクレイピングするための3つの方法があります。 メソッドはUiPath Studioによって自動的に選択され、スクリーンスクレイピングウィンドウの上部に表示されます。
ここで、メソッドが自動的に選択された場合、要件に従ってメソッドを変更できるかという疑問が生じます。 はい、*スクレイピング方法*が書き込まれているオプションパネルから変更でき、*更新*ボタンを押します。
[更新]ボタンをクリックすると、UiPath Studioは* Designerパネル*に情報を保存します。 反対側で、情報をクリップボードにコピーする場合は、*完了ボタン*をクリックします。
デスクトップの記録の場合に見られるように、画面のスクレイピングは、各アクティベートのアクティビティと部分セレクターを含むコンテナを生成します。 次のスクリーンショットを参照できます-
3つの方法はすべて異なる機能が付属しており、以下は3つの画面スクレイピング方法すべての説明とその機能です-
ネイティブ-ネイティブスクリーンスクレイピングメソッドを選択すると、次の機能が得られます。
フォーマットなし-名前が示すように、このオプションはテキストからフォーマット情報を抽出しません。
*Get Words Info* -このオプションは、各単語の画面座標を抽出します。
カスタムセパレータ-このオプション/フィールドを使用すると、セパレータとして使用される文字を指定できます。 このフィールドを空にすると、すべての既知のテキスト区切り文字が使用されます。
フルテキスト-フルテキスト画面のスクレイピング方法を選択すると、次の機能が得られます-
- 非表示を無視-名前が示すように、このオプションを選択すると、選択したUI要素の非表示テキストはコピーされません。
*Google OCR* -Google OCR画面スクレイピング方法を選択すると、次の機能が得られます-
- * OCRエンジン*-デフォルトでは、オプションのGoogle OCRが表示されます。
- 言語:デフォルトでは、オプションの英語が表示されます。
- 文字-このオプションを使用すると、抽出する文字の種類を選択できます:任意の文字、数字のみ、文字、大文字、小文字、電話番号、通貨、日付、および*カスタム*は選択可能なオプションです。
- Invert -このオプションを使用すると、スクレイピングの前に、背景がテキストの色よりも暗い場合にUI要素の色を反転できます。
- Scale -名前が示すように、このオプションは選択したUI要素または画像を拡大縮小します。 スケーリング係数が大きいほど、画像を拡大できるため、小さい画像を使用することをお勧めします。
- Get Words Info -このオプションを使用すると、スクレイプされたすべての単語の画面上の位置を取得できます。
例でスクリーンスクレイピングウィザードを使用する手順
UiPath画面スクレイピングウィザードを使用するために、所定の手順に従うことができます-
- ステップ1 *-まず、Ui要素を開きます。PDFファイル、Wordファイル、またはデータを抽出する他のファイルを使用できます。 ここでは、PDFファイルに実装しています。
- ステップ2 *-ここで、[デザイン]タブの[スクリーンスクレイピング]オプションをクリックします。
- ステップ3 *-次に、情報を抽出するUi要素をクリックします。この例では、PDFドキュメントをクリックします。
- ステップ4 *-次の画面が表示されます-
UiPath studioはデフォルトでスクリーンスクレイピングメソッドを提供しますが、要件に応じて変更できます。 これについては以前にも説明しました。
- ステップ5 *-最後に、[更新]ボタンまたは[完了]ボタンをクリックできます。 [完了]ボタンをクリックすると、[デザイナー]パネルに保存されます。
前述のように、スクリーンスクレイピングは、アクティビティと各アクティベートの部分セレクターを含むコンテナを生成します。
次のスクリーンショットで出力を確認できます-