かつては以下のウェブサイト全体をクロールする: Pythonスクリプトです。 劇作家かセレニウムか。 代理ローテーション。 レートリミットの論理。 エラーハンドリング。 なぜ47ページが403を返したのか、3時間もデバッグしました。 今ではAPIコールは1つだけです。 この問題を解決するために何百万ドルも集めたウェブスクレイピングのスタートアップは、結局一つのエンドポイントになってしまいました。 「ウェブサイトデータの抽出」に500ドルを請求するフリーランサーは、/crawlコマンドでビジネスモデル全体を失ってしまいました。 HTMLです。値下げ。JSON。フォーマットを選んでください。台本はなし。ブラウザも使えません。頭痛もありません。 ウェブスクレイピング業界全体が一行のコードに縮小されてしまいました。 誰かがこれを使って金曜日までに全ての競合他社のウェブサイトをクローンするだろう。💀