🥳Junte-se à Comunidade Scrapeless e reivindique sua avaliação gratuita para acessar nossa poderosa ferramenta de raspagem da web!
De volta ao blog

Como construir um pipeline alimentado por IA usando o Scrapeless no n8n?

Emily Chen
Emily Chen

Advanced Data Extraction Specialist

19-May-2025

Introdução

No cenário orientado por dados de hoje, as organizações precisam de maneiras eficientes para extrair, processar e analisar conteúdo da web. A raspagem de dados tradicional enfrenta inúmeros desafios: proteções contra bots, renderização complexa em JavaScript e a necessidade de manutenção constante. Além disso, fazer sentido de dados da web não estruturados requer processamento sofisticado.

Este guia demonstra como construir um pipeline completo de dados da web usando a automação de fluxos de trabalho n8n, raspagem da web Scrapeless, Claude AI para extração inteligente e banco de dados vetorial Qdrant para armazenamento semântico. Seja para construir uma base de conhecimento, realizar pesquisas de mercado ou desenvolver um assistente de IA, este fluxo de trabalho fornece uma base poderosa.

O que você irá construir

Nosso fluxo de trabalho n8n combina várias tecnologias de ponta:

  • Scrapeless Web Unlocker: Raspagem avançada da web com renderização JavaScript
  • Claude 3.7 Sonnet: Extração e estruturação de dados impulsionadas por IA
  • Embeddings Ollama: Geração de embeddings vetoriais locais
  • Banco de Dados Vetorial Qdrant: Armazenamento e recuperação semânticos
  • Sistema de Notificação: Monitoramento em tempo real via webhooks

Este pipeline de ponta a ponta transforma dados da web desordenados em informações estruturadas e vetorizadas, prontas para busca semântica e aplicações de IA.
Construindo um Pipeline de Dados da Web Impulsionado por IA com n8n, Scrapeless e Claude

Instalação e Configuração

Instalando o n8n

O n8n requer Node.js v18, v20 ou v22. Se você encontrar problemas de compatibilidade de versão:

Copy
# Verifique sua versão do Node.js
node -v

# Se você tem uma versão mais nova não suportada (por exemplo, v23+), instale o nvm
curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.39.5/install.sh | bash
# Ou para Windows, use o instalador NVM para Windows

# Instale uma versão compatível do Node.js
nvm install 20

# Use a versão instalada
nvm use 20

# Instale o n8n globalmente
npm install n8n -g

# Execute o n8n
n8n

Sua instância do n8n agora deve estar disponível em http://localhost:5678.

Configurando a API do Claude

  1. Visite o Console da Anthropic e crie uma conta
  2. Navegue até a seção de Chaves da API
  3. Clique em "Criar Chave" e defina as permissões apropriadas
  4. Copie sua chave da API para uso no fluxo de trabalho n8n (No AI Data Checker, extrator de dados Claude e agente AI Claude)
Configurando a API do Claude

Configurando o Scrapeless

  1. Visite Scrapeless e crie uma conta
  2. Navegue até a seção de API de Raspagem Universal em seu painel https://app.scrapeless.com/exemple/overview
Configurando o Scrapeless
  1. Copie seu token para uso no fluxo de trabalho n8n
Copie seu token para uso no fluxo de trabalho n8n

Você pode personalizar sua solicitação de raspagem web Scrapeless usando este comando curl e importá-lo diretamente para o nó de Solicitação HTTP no n8n:

Copy
curl -X POST "https://api.scrapeless.com/api/v1/unlocker/request" \
  -H "Content-Type: application/json" \
  -H "x-api-token: scrapeless_api_key" \
  -d '{
    "actor": "unlocker.webunlocker",
    "proxy": {
      "country": "ANY"
    },
    "input": {
      "url": "https://www.scrapeless.com",
      "method": "GET",
      "redirect": true,
      "js_render": true,
      "js_instructions": [{"wait":100}],
      "block": {
        "resources": ["image","font","script"],
        "urls": ["https://example.com"]
      }
    }
  }'
Você pode personalizar sua solicitação de raspagem web Scrapeless

Instalando o Qdrant com Docker

Copy
# Baixar imagem do Qdrant
docker pull qdrant/qdrant

# Executar contêiner Qdrant com persistência de dados
docker run -d \
  --name qdrant-server \
  -p 6333:6333 \
  -p 6334:6334 \
  -v $(pwd)/qdrant_storage:/qdrant/storage \
  qdrant/qdrant

Verifique se o Qdrant está em execução:

Copy
curl http://localhost:6333/healthz

Instalando o Ollama

macOS:

Copy
brew install ollama

Linux:

Copy
curl -fsSL https://ollama.com/install.sh | sh

Windows: Baixe e instale do site do Ollama.

Inicie o servidor Ollama:

Copy
ollama serve

Instale o modelo de embedding necessário:

Copy
ollama pull all-minilm

Verifique a instalação do modelo:

Copy
ollama list

Configurando o Fluxo de Trabalho do n8n

Visão Geral do Fluxo de Trabalho

Nosso fluxo de trabalho consiste nestes componentes principais:

  1. Gatilho Manual/Agendado: Inicia o fluxo de trabalho
  2. Verificação de Coleta: Verifica se a coleção do Qdrant existe
  3. Configuração de URL: Define a URL e os parâmetros de destino
  4. Solicitação Web Scrapeless: Extrai conteúdo HTML
  5. Extração de Dados do Claude: Processa e estrutura os dados
  6. Embeddings Ollama: Gera embeddings vetoriais
  7. Armazenamento Qdrant: Salva vetores e metadados
  8. Notificação: Envia atualizações de status via webhook

Etapa 1: Configurar Gatilho de Fluxo de Trabalho e Verificação de Coleta

Comece adicionando um nó de Gatilho Manual, depois adicione um nó de Requisição HTTP para verificar se sua coleção Qdrant existe. Você pode personalizar o nome da coleção nesta etapa inicial - o fluxo de trabalho criará automaticamente a coleção se ela não existir.

Nota Importante: Se você quiser usar um nome de coleção diferente do padrão "hacker-news", certifique-se de alterá-lo consistentemente em TODOS os nós que fazem referência ao Qdrant.

Etapa 2: Configurar Requisição Web Scrapeless

Adicione um nó de Requisição HTTP para web scraping Scrapeless. Configure o nó utilizando o comando curl fornecido anteriormente como referência, substituindo YOUR_API_TOKEN pelo seu token de API Scrapeless real.

Você pode configurar parâmetros de scraping mais avançados no Scrapeless Web Unlocker.

Etapa 3: Extração de Dados com Claude

Adicione um nó para processar o conteúdo HTML usando Claude. Você precisará fornecer sua chave de API Claude para autenticação. O extrator Claude analisa o conteúdo HTML e retorna dados estruturados em formato JSON.

Etapa 4: Formatar Saída do Claude

Este nó pega a resposta do Claude e a prepara para vetorização, extraindo as informações relevantes e formatando-as adequadamente.

Etapa 5: Geração de Embeddings Ollama

Este nó envia o texto estruturado para o Ollama para geração de embeddings. Certifique-se de que seu servidor Ollama está em funcionamento e que o modelo all-minilm está instalado.

Etapa 6: Armazenamento de Vetores Qdrant

Este nó pega os embeddings gerados e os armazena em sua coleção Qdrant, juntamente com metadados relevantes.

Etapa 7: Sistema de Notificação

O nó final envia uma notificação com o status da execução do fluxo de trabalho via seu webhook configurado.

Solução de Problemas Comuns

Problemas de Versão do Node.js do n8n

Se você ver um erro como:

Copy
Sua versão do Node.js X não é atualmente suportada pelo n8n.  
Por favor, use Node.js v18.17.0 (recomendado), v20 ou v22 ao invés!  

Corrija instalando o nvm e usando uma versão compatível do Node.js conforme descrito na seção de configuração.

Problemas de Conexão com a API Scrapeless

  • Verifique se seu token de API está correto
  • Verifique se você está atingindo os limites de taxa da API
  • Garanta a formatação adequada da URL

Erros de Embedding Ollama

Erro comum: connect ECONNREFUSED ::1:11434

Correção:

  • Certifique-se de que o Ollama está em funcionamento: ollama serve
  • Verifique se o modelo está instalado: ollama pull all-minilm
  • Use o IP direto (127.0.0.1) em vez de localhost
  • Verifique se outro processo está usando a porta 11434

Cenários de Uso Avançado

Processamento em Lote de Múltiplas URLs

Para processar várias URLs em uma execução de fluxo de trabalho:

  1. Use um nó Split In Batches para processar URLs em paralelo
  2. Configure o tratamento de erros adequado para cada lote
  3. Use o nó Merge para combinar os resultados

Atualizações de Dados Programadas

Mantenha seu banco de dados vetorial atualizado com atualizações programadas:

  1. Substitua o gatilho manual pelo nó Schedule
  2. Configure a frequência de atualização (diária, semanal, etc.)
  3. Use o nó If para processar apenas conteúdo novo ou alterado

Modelos de Extração Personalizados

Adapte a extração do Claude para diferentes tipos de conteúdo:

  1. Crie prompts específicos para artigos de notícias, páginas de produtos, documentação, etc.
  2. Use o nó Switch para selecionar o prompt apropriado
  3. Armazene os modelos de extração como variáveis de ambiente

Conclusão

Este fluxo de trabalho n8n cria um poderoso pipeline de dados combinando as forças do web scraping Scrapeless, extração de IA Claude, embeddings vetoriais e armazenamento Qdrant. Ao automatizar esses processos complexos, você pode se concentrar em usar os dados extraídos em vez dos desafios técnicos de obtê-los.

A natureza modular do n8n permite que você estenda este fluxo de trabalho com etapas de processamento adicionais, integração com outros sistemas ou lógica personalizada para atender às suas necessidades específicas. Seja construindo uma base de conhecimento em IA, realizando análise competitiva ou monitorando conteúdo da web, este fluxo de trabalho fornece uma base sólida.

Na Scorretless, acessamos apenas dados disponíveis ao público, enquanto cumprem estritamente as leis, regulamentos e políticas de privacidade do site aplicáveis. O conteúdo deste blog é apenas para fins de demonstração e não envolve atividades ilegais ou infratoras. Não temos garantias e negamos toda a responsabilidade pelo uso de informações deste blog ou links de terceiros. Antes de se envolver em qualquer atividade de raspagem, consulte seu consultor jurídico e revise os termos de serviço do site de destino ou obtenha as permissões necessárias.

Artigos mais populares

Catálogo