Uipath-studio-data-scraping-and-screen-scraping

提供:Dev Guides
移動先:案内検索

データスクレイピングとスクリーンスクレイピング

この章では、Uipathでのデータスクレイピングとスクリーンスクレイピングについて詳しく学びましょう。

データスクレイピングとは

データスクレイピングは、構造化されたデータをWebまたは任意のアプリケーションから抽出し、データベースまたはスプレッドシートまたは.CSVファイルに保存できる技術です。 UiPath studioは、スクレイピングウィザードを使用してデータスクレイピングの機能も提供します。 スクレイピングウィザードは[デザイン]タブにあります。

以下は同じためのスクリーンショットです-

データスクレイピング

例でデータスクレイピングウィザードを使用する手順

UiPathデータスクレイピングウィザードを使用するには、次の手順に従うことができます-

  • ステップ1 *-最初に、データを抽出するWebページまたはアプリケーションを開きます。 例として、Googleの連絡先からデータを抽出しています。
  • ステップ2 *-次に、[デザイン]タブの[データスクレイピング]ボタンをクリックします。 あなたは次のメッセージボックスを取得します-

データスクレイピングメッセージボックス

ステップ3 *- *'次' ボタンをクリックすると、データを抽出するWebページの最初と最後のフィールドを選択するオプションが表示されます。 この例では、Googleコンタクトページから選択できます。

  • ステップ4 *-最初の要素の選択が終了すると、次のように2番目の要素を選択するためのダイアログボックスが表示されます-

データスクレイピングメッセージボックス

  • ステップ5 *-[次へ]をクリックして2番目の要素を選択すると、別のダイアログボックスが表示され、列ヘッダーをカスタマイズしてURLを抽出するかどうかを選択できます。

データスクレイピングメッセージボックス3

要件に応じて、テキスト列の名前を変更できます。 column1の名前を「Name」に変更しました。

  • ステップ6 *-次に、UiPath studioはデータをプレビューするための抽出ウィザードを提供します。 相関データを抽出するか、ここで抽出を終了するかを選択します。 相関データを抽出すると、データの抽出元のWebページに再び移動します。

データスクレイピングメッセージボックス4

  • ステップ7 *-抽出が完了すると、「複数のページにまたがるデータですか?」という質問が表示されます。複数のページからデータを抽出する場合は、[はい]をクリックします。 ここでのデータ抽出は単一ページからのみ行われるため、[いいえ]をクリックしました。

データスクレイピングメッセージボックス5

  • ステップ8 *-最後に、デザイナータブで次のようにアクティビティシーケンスを作成します-

[デザイナータブのアクティビティシーケンス]

スクリーンスクレイピングとは

UiPath studioは、指定されたUI要素またはドキュメントからデータを抽出するメソッドを提供します。 これらのメソッドは、画面スクレイピングまたは出力メソッドと呼ばれます。 [デザイン]タブに画面スクレイピングウィザードがあります。

スクリーンスクレイピング

スクリーンスクレイピング方法

UiPath studioの画面スクレイピングウィザードには、指定されたUI要素からデータをスクレイピングするための3つの方法があります。 メソッドはUiPath Studioによって自動的に選択され、スクリーンスクレイピングウィンドウの上部に表示されます。

ここで、メソッドが自動的に選択された場合、要件に従ってメソッドを変更できるかという疑問が生じます。 はい、*スクレイピング方法*が書き込まれているオプションパネルから変更でき、*更新*ボタンを押します。

[更新]ボタンをクリックすると、UiPath Studioは* Designerパネル*に情報を保存します。 反対側で、情報をクリップボードにコピーする場合は、*完了ボタン*をクリックします。

デスクトップの記録の場合に見られるように、画面のスクレイピングは、各アクティベートのアクティビティと部分セレクターを含むコンテナを生成します。 次のスクリーンショットを参照できます-

Screen Scraping2

3つの方法はすべて異なる機能が付属しており、以下は3つの画面スクレイピング方法すべての説明とその機能です-

ネイティブ-ネイティブスクリーンスクレイピングメソッドを選択すると、次の機能が得られます。

フォーマットなし-名前が示すように、このオプションはテキストからフォーマット情報を抽出しません。

*Get Words Info* -このオプションは、各単語の画面座標を抽出します。

カスタムセパレータ-このオプション/フィールドを使用すると、セパレータとして使用される文字を指定できます。 このフィールドを空にすると、すべての既知のテキスト区切り文字が使用されます。

フルテキスト-フルテキスト画面のスクレイピング方法を選択すると、次の機能が得られます-

  • 非表示を無視-名前が示すように、このオプションを選択すると、選択したUI要素の非表示テキストはコピーされません。

スクリーンスクレイピング方法1

スクリーンスクレイピング方法2

*Google OCR* -Google OCR画面スクレイピング方法を選択すると、次の機能が得られます-
  • * OCRエンジン*-デフォルトでは、オプションのGoogle OCRが表示されます。
  • 言語:デフォルトでは、オプションの英語が表示されます。
  • 文字-このオプションを使用すると、抽出する文字の種類を選択できます:任意の文字、数字のみ、文字、大文字、小文字、電話番号、通貨、日付、および*カスタム*は選択可能なオプションです。
  • Invert -このオプションを使用すると、スクレイピングの前に、背景がテキストの色よりも暗い場合にUI要素の色を反転できます。
  • Scale -名前が示すように、このオプションは選択したUI要素または画像を拡大縮小します。 スケーリング係数が大きいほど、画像を拡大できるため、小さい画像を使用することをお勧めします。
  • Get Words Info -このオプションを使用すると、スクレイプされたすべての単語の画面上の位置を取得できます。

スクリーンスクレイピング方法3

例でスクリーンスクレイピングウィザードを使用する手順

UiPath画面スクレイピングウィザードを使用するために、所定の手順に従うことができます-

  • ステップ1 *-まず、Ui要素を開きます。PDFファイル、Wordファイル、またはデータを抽出する他のファイルを使用できます。 ここでは、PDFファイルに実装しています。
  • ステップ2 *-ここで、[デザイン]タブの[スクリーンスクレイピング]オプションをクリックします。
  • ステップ3 *-次に、情報を抽出するUi要素をクリックします。この例では、PDFドキュメントをクリックします。
  • ステップ4 *-次の画面が表示されます-

スクリーンスクレイピングウィザードの例1

UiPath studioはデフォルトでスクリーンスクレイピングメソッドを提供しますが、要件に応じて変更できます。 これについては以前にも説明しました。

  • ステップ5 *-最後に、[更新]ボタンまたは[完了]ボタンをクリックできます。 [完了]ボタンをクリックすると、[デザイナー]パネルに保存されます。

前述のように、スクリーンスクレイピングは、アクティビティと各アクティベートの部分セレクターを含むコンテナを生成します。

次のスクリーンショットで出力を確認できます-

スクリーンスクレイピングウィザードの例2