目次
1. 概要と手法の選び方
- Webスクレイピングとは?対象ページに応じた手法の選定基準
- IE(Internet Explorer)操作のメリット・デメリット
- SeleniumによるChrome操作のメリットとセットアップ概要
- XMLHTTPによる軽量・高速な取得の利点と制約
2. Internet Explorer(IE)によるスクレイピング
- IEを起動してページを開く基本コード
- ページの読み込み完了を待機する処理
getElementById
やgetElementsByClassName
で要素を取得- フォームに値を入力・ボタンをクリックして遷移する方法
- 注意点:IEサポート終了の影響と今後の対応
3. Seleniumによるスクレイピング(Chrome操作)
- Selenium + VBA の環境構築(SeleniumBasicの導入手順)
- ChromeDriverを使ってブラウザを操作する基本コード
- クラス名・ID・タグ名を指定して要素を取得する方法
- JavaScriptで生成された要素を確実に取得するコツ(待機処理)
- 表形式データを読み取ってシートに出力する方法
4. XMLHTTPによるスクレイピング(HTMLの直接取得)
- XMLHTTPでGETリクエストを送ってHTMLソースを取得
- タグ解析に使える基本の文字列処理(InStr, Mid など)
- 正規表現を使ったHTMLタグの抽出(VBScript.RegExp)
- POSTリクエストでログインが必要なページにアクセスする方法
- 注意点:JavaScriptで動的に生成されるページは対象外
5. その他
- Cookieを保持した状態でのアクセス(IE・Selenium)
- iframe内のデータ取得(IE/Seleniumの違い)
- ページ内のテーブルを2次元配列として取得して処理
- スクレイピング対象の構造が変わった場合のリスク対策
- 法的・倫理的な注意点(robots.txtと利用規約の確認)
5. まとめ:どの方法をいつ使う?
手法 | 適したケース | 短所 |
---|---|---|
IE | 簡易的な自動操作、古い社内システム | サポート終了、遅い |
Selenium | JavaScript対応が必要な一般サイト | 導入がやや複雑、外部DLL必要 |
XMLHTTP | 静的なデータ取得、API風のページ | JS依存ページに非対応 |
コメント