Webスクレイピング(IE, Selenium, XMLHTTP)

1. 概要と手法の選び方

  • Webスクレイピングとは?対象ページに応じた手法の選定基準
  • IE(Internet Explorer)操作のメリット・デメリット
  • SeleniumによるChrome操作のメリットとセットアップ概要
  • XMLHTTPによる軽量・高速な取得の利点と制約

2. Internet Explorer(IE)によるスクレイピング

  • IEを起動してページを開く基本コード
  • ページの読み込み完了を待機する処理
  • getElementById や getElementsByClassName で要素を取得
  • フォームに値を入力・ボタンをクリックして遷移する方法
  • 注意点:IEサポート終了の影響と今後の対応

3. Seleniumによるスクレイピング(Chrome操作)

  • Selenium + VBA の環境構築(SeleniumBasicの導入手順)
  • ChromeDriverを使ってブラウザを操作する基本コード
  • クラス名・ID・タグ名を指定して要素を取得する方法
  • JavaScriptで生成された要素を確実に取得するコツ(待機処理)
  • 表形式データを読み取ってシートに出力する方法

4. XMLHTTPによるスクレイピング(HTMLの直接取得)

  • XMLHTTPでGETリクエストを送ってHTMLソースを取得
  • タグ解析に使える基本の文字列処理(InStr, Mid など)
  • 正規表現を使ったHTMLタグの抽出(VBScript.RegExp)
  • POSTリクエストでログインが必要なページにアクセスする方法
  • 注意点:JavaScriptで動的に生成されるページは対象外

5. その他

  • Cookieを保持した状態でのアクセス(IE・Selenium)
  • iframe内のデータ取得(IE/Seleniumの違い)
  • ページ内のテーブルを2次元配列として取得して処理
  • スクレイピング対象の構造が変わった場合のリスク対策
  • 法的・倫理的な注意点(robots.txtと利用規約の確認)

5. まとめ:どの方法をいつ使う?

手法適したケース短所
IE簡易的な自動操作、古い社内システムサポート終了、遅い
SeleniumJavaScript対応が必要な一般サイト導入がやや複雑、外部DLL必要
XMLHTTP静的なデータ取得、API風のページJS依存ページに非対応

コメント

タイトルとURLをコピーしました