スクレイプレスクローリング:スケールウェブデータのスクレイピングとクローリングのソリューション

Senior Web Scraping Engineer
ScrapelessはCrawlを発表することに興奮しています。この機能は、大規模なデータスクレイピングと処理のために特別に設計されています。Crawlは、インテリジェント再帰スクレイピング、バルクデータ処理能力、および柔軟なマルチフォーマット出力というコアの利点を備えており、企業や開発者が膨大なウェブデータを迅速に取得し処理できるよう支援します。これにより、AIトレーニング、市場分析、ビジネス意思決定などのアプリケーションが促進されます。
💡近日公開: AI LLM Gatewayを介したデータ抽出と要約が登場し、オープンソースフレームワークやビジュアルワークフロー統合のシームレスな統合が行われ、AI開発者向けのウェブコンテンツの課題を解決します。
Crawlとは

Crawlは単なるデータスクレイピングツールではなく、スクレイピングとクロール機能を統合した総合プラットフォームです。
-
バルククロール: 大規模なシングルページクロールおよび再帰的クロールをサポートします。
-
マルチフォーマット配信: JSON、Markdown、メタデータ、HTML、リンク、およびスクリーンショット形式に対応しています。
-
アンチ検出スクレイピング: 独自に開発したChromiumカーネルにより、高度なカスタマイズ、セッション管理、および検出防止機能(フィンガープリンテイル設定、CAPTCHA解決、ステルスモード、プロキシローテーション)を実現し、ウェブサイトのブロックを回避します。
-
自社開発のChromium駆動: 自社のChromiumカーネルによって高いカスタマイズ性、セッション管理、そして自動CAPTCHA解決を可能にします。
1. 自動CAPTCHA解決: 一般的なCAPTCHAタイプ(reCAPTCHA v2およびCloudflare Turnstile/Challengeを含む)を自動的に処理します。
2. セッション録画と再生: セッション再生により、記録した再生を介してアクションやリクエストを簡単に確認し、問題解決やプロセス改善のために手順を追ってレビューできます。
3. 同時実行の利点: 厳しい同時実行制限のある他のクローラーとは異なり、Crawlのベーシックプランは50の同時実行をサポートし、プレミアムプランでは無制限の同時実行を提供します。
4. コスト削減: アンチクロール対策が施されたウェブサイトでの競合他社を上回り、無料のCAPTCHA解決で大きな優位性を提供します—70%のコスト削減が期待されます。
高度なデータスクレイピングと処理能力を活用し、Crawlは構造化されたリアルタイム検索データの提供を保証します。これにより、企業や開発者は常に市場のトレンドに先んじて、データ駆動の自動化ワークフローを最適化し、市場戦略を迅速に調整することができます。
Crawlで複雑なデータ課題を解決する: より速く、賢く、より効率的に
信頼できる規模のウェブデータが必要な開発者や企業のために、Crawlは以下を提供します。
✔ 高速データスクレイプ – 複数のウェブページから数秒以内にデータを取得
✔ シームレスな統合 – 近日中にオープンソースフレームワークやビジュアルワークフロー統合(Langchain、N8n、Clay、Pipedream、Makeなど)と統合予定
✔ 地理ターゲティングプロキシ – 195カ国のプロキシサポートを搭載
✔ セッション管理 – インテリジェントにセッションを管理し、リアルタイムでLiveURLセッションを表示
Crawlの使い方
Crawl APIは、特定のコンテンツをウェブページから単一の呼び出しで取得するか、サイト全体とそのリンクを再帰的にクロールしてすべての利用可能なデータを収集することでデータスクレイピングを簡素化します。複数のフォーマットに対応しています。
Scrapelessはスクレイプリクエストを開始し、そのステータス/結果を確認するためのエンドポイントを提供します。デフォルトではスクレイピングは非同期であり、最初にジョブを開始し、完了するまでそのステータスを監視します。ただし、SDKにはプロセス全体を処理し、ジョブが完了したときにデータを返すシンプルな関数が含まれています。
インストール
NPMを使用してScrapeless SDKをインストールします:
Bash
npm install @scrapeless-ai/sdk
PNPMを使用してScrapeless SDKをインストールします:
Bash
pnpm add @scrapeless-ai/sdk
シングルページのクロール
ウェブページから特定のデータ(例: 商品詳細、レビュー)を1回の呼び出しでクロールします。
使い方
JavaScript
import { Scrapeless } from "@scrapeless-ai/sdk";
// クライアントを初期化
const client = new Scrapeless({
apiKey: "your-api-key", // https://scrapeless.com からAPIキーを取得
});
(async () => {
const result = await client.scrapingCrawl.scrape.scrapeUrl(
"https://example.com"
);
console.log(result);
})();
ブラウザ設定
プロキシの使用など、スクレイピングのためのセッション設定をカスタマイズできます。新しいブラウザセッションを作成するのと同じように行います。
Scrapelessは、reCAPTCHA v2やCloudflare Turnstile/Challengeを含む一般的なCAPTCHAを自動的に処理します。追加の設定は不要です。詳細については、CAPTCHA解決を参照してください。
すべてのブラウザパラメータを探索するには、APIリファレンスまたはブラウザパラメータを確認してください。
JavaScript
import { Scrapeless } from "@scrapeless-ai/sdk";
// クライアントの初期化
const client = new Scrapeless({
apiKey: "your-api-key", // APIキーは https://scrapeless.com から取得してください
});
(async () => {
const result = await client.scrapingCrawl.scrapeUrl(
"https://example.com",
{
browserOptions: {
proxy_country: "ANY",
session_name: "Crawl",
session_recording: true,
session_ttl: 900,
},
}
);
console.log(result);
})();
スクレイプ設定
スクレイプジョブのオプションパラメータには、出力形式、メインページコンテンツのみを返すようにフィルタリング、ページナビゲーションの最大タイムアウト設定が含まれます。
JavaScript
import { ScrapingCrawl } from "@scrapeless-ai/sdk";
// クライアントの初期化
const client = new ScrapingCrawl({
apiKey: "your-api-key", // APIキーは https://scrapeless.com から取得してください
});
(async () => {
const result = await client.scrapeUrl(
"https://example.com",
{
formats: ["markdown", "html", "links"],
onlyMainContent: false,
timeout: 15000,
}
);
console.log(result);
})();
スクレイプエンドポイントの完全なリファレンスは、APIリファレンスを確認してください。
バッチスクレイプ
バッチスクレイプは通常のスクレイプと同じ動作をしますが、単一のURLの代わりに、一度にスクレイプするURLのリストを提供できます。
JavaScript
import { ScrapingCrawl } from "@scrapeless-ai/sdk";
// クライアントの初期化
const client = new ScrapingCrawl({
apiKey: "your-api-key", // APIキーは https://scrapeless.com から取得してください
});
(async () => {
const result = await client.batchScrapeUrls(
["https://example.com", "https://scrapeless.com"],
{
formats: ["markdown", "html", "links"],
onlyMainContent: false,
timeout: 15000,
browserOptions: {
proxy_country: "ANY",
session_name: "Crawl",
session_recording: true,
session_ttl: 900,
},
}
);
console.log(result);
})();
サブページをクローリング
クローリングAPIは、ウェブサイトとそのリンクを再帰的にクローリングして、すべての利用可能なデータを抽出できます。使用の詳細については、クローリングのAPIリファレンスを確認してください。
使用法
再帰的なクローリングを使用して、ドメイン全体とそのリンクを探索し、アクセス可能なデータをすべて抽出します。
JavaScript
import { ScrapingCrawl } from "@scrapeless-ai/sdk";
// クライアントの初期化
const client = new ScrapingCrawl({
apiKey: "your-api-key", // APIキーは https://scrapeless.com から取得してください
});
(async () => {
const result = await client.crawlUrl(
"https://example.com",
{
limit: 2,
scrapeOptions: {
formats: ["markdown", "html", "links"],
onlyMainContent: false,
timeout: 15000,
},
browserOptions: {
proxy_country: "ANY",
session_name: "Crawl",
session_recording: true,
session_ttl: 900,
},
}
);
console.log(result);
})();
レスポンス
JavaScript
{
"success": true,
"status": "completed",
"completed": 2,
"total": 2,
"data": [
{
"url": "https://example.com",
"metadata": {
"title": "Example Page",
"description": "サンプルウェブページ"
},
"markdown": "# Example Page\nこのコンテンツは...",
...
},
...
]
}
各クローリングされたページには、completed
またはfailed
の独自のステータスがあり、独自のエラーフィールドを持つ可能性があるため、その点に注意してください。
完全なスキーマを見るには、APIリファレンスを確認してください。
ブラウザ設定
スクレイプジョブ用のセッション設定をカスタマイズするプロセスは、新しいブラウザセッションを作成するプロセスと同じです。利用可能なオプションには、プロキシ設定が含まれます。サポートされているすべてのセッションパラメータを表示するには、APIリファレンスまたはブラウザパラメータを参照してください。
JavaScript
import { ScrapingCrawl } from "@scrapeless-ai/sdk";
// クライアントの初期化
const client = new ScrapingCrawl({
apiKey: "your-api-key", // APIキーは https://scrapeless.com から取得してください
});
(async () => {
const result = await client.crawlUrl(
"https://example.com",
{
limit: 2,
browserOptions: {
proxy_country: "ANY",
session_name: "Crawl",
session_recording: true,
session_ttl: 900,
},
}
);
console.log(result);
})();
スクレイプ設定
パラメータには、出力形式、メインページコンテンツのみを返すためのフィルタ、ページナビゲーションの最大タイムアウト設定が含まれる場合があります。
JavaScript
import { ScrapingCrawl } from "@scrapeless-ai/sdk";
// クライアントの初期化
const client = new ScrapingCrawl({
apiKey: "your-api-key", // APIキーは https://scrapeless.com から取得してください
});
apiKey: "あなたのAPIキー", // APIキーはhttps://scrapeless.comから取得してください
});
(async () => {
const result = await client.crawlUrl(
"https://example.com",
{
limit: 2,
scrapeOptions: {
formats: ["markdown", "html", "links"],
onlyMainContent: false,
timeout: 15000,
}
}
);
console.log(result);
})();
クロールエンドポイントの完全なリファレンスについては、[APIリファレンス](https://apidocs.scrapeless.com/api-17509010)を確認してください。
## **クロールの多様な使用例を探る**
開発者がコードをテストしデバッグするための組み込みのプレイグラウンドが用意されており、Crawlはさまざまなスクレイピングニーズに利用できます。例えば:
- **製品情報のスクレイピング**
Eコマースウェブサイトでのスクレイピングにより、製品名、価格、ユーザー評価、およびレビュー数などの重要データを抽出します。製品モニタリングを完全にサポートし、企業が情報に基づいた意思決定を行うのに役立ちます。

- **フォーラム投稿のクロール**
コミュニティディスカッションから包括的な洞察を得るために、深さと広さを正確に制御しながら、主要な投稿コンテンツとサブページのコメントをキャプチャします。

## **今すぐCrawlとScrapeを楽しもう!**
***コスト効率が高く、どんなニーズにも手頃な価格:1.8ドル/GBから、ページごとではありません***
プロキシボリュームと時間単価を組み合わせた価格モデルを特徴とするChromiumベースのスクレイパーで競合他社を上回り、ページカウントモデルと比較して大規模データプロジェクトで**最大70%のコスト削減**を実現します。
[今すぐトライアルに登録](https://app.scrapeless.com/passport/login?utm_source=official&utm_medium=blog&utm_campaign=crawl-release)して、強力なWebツールキットを手に入れましょう。
> 💡ハイボリュームユーザーの方は、カスタマイズ価格についてお問い合わせください – あなたのニーズに合わせた競争力のある料金です。
Scrapelessでは、適用される法律、規制、およびWebサイトのプライバシーポリシーを厳密に遵守しながら、公開されているデータのみにアクセスします。 このブログのコンテンツは、デモンストレーションのみを目的としており、違法または侵害の活動は含まれません。 このブログまたはサードパーティのリンクからの情報の使用に対するすべての責任を保証せず、放棄します。 スクレイピング活動に従事する前に、法律顧問に相談し、ターゲットウェブサイトの利用規約を確認するか、必要な許可を取得してください。