Como Raspar o Google Notícias com Python

Advanced Data Extraction Specialist
O que é o Google Notícias?
O Google Notícias é um serviço de agregação de notícias lançado pelo Google. Ele coleta, organiza e exibe os últimos boletins de notícias de importantes sites de notícias do mundo todo. Os usuários podem filtrar por palavras-chave, tópicos, regiões, fontes de publicação etc., e o algoritmo do Google Notícias recomendará conteúdo de notícias personalizado com base nos interesses e hábitos de navegação dos usuários.
Os dados do Google Notícias vêm principalmente de organizações de notícias oficiais, blogs, anúncios governamentais etc., por isso é uma fonte importante de informações globais em tempo real.
Quais dados você pode obter do Google Notícias?
-
Título da notícia (título) – o conteúdo principal do artigo
-
Link da notícia (link) – a URL da fonte original do artigo
-
Data de publicação (data) – a hora em que o artigo foi publicado (há alguns minutos, há algumas horas ou um horário específico)
-
Trecho da notícia (trecho) – uma breve prévia do conteúdo do artigo
-
Fonte da notícia (fonte) – a organização de mídia onde o artigo foi publicado, como CNN, BBC, NYTimes
-
Categoria da notícia (categoria) – a categoria à qual o artigo pertence, como tecnologia, esportes, finanças, saúde etc.
-
Link da imagem (miniatura) – o link para a imagem que acompanha o artigo
-
Notícia relacionada (notícias relacionadas) – links para relatórios semelhantes ou relacionados
-
Conteúdo de vídeo (vídeo) – notícias em vídeo incluídas
....
Por que rastrear dados do Google Notícias?
Existem muitos cenários de aplicação prática para rastrear dados do Google Notícias. Aqui estão alguns dos usos mais comuns:
- Análise de mercado e inteligência de negócios
- Análise financeira e de investimentos
- SEO e marketing de conteúdo
- Pesquisa de aprendizado de máquina e IA
- Aplicações de agregação de mídia e notícias
Como raspar dados do Google Notícias com Python
Etapa 1: Crie um ambiente de rastreamento de dados do Google Notícias
Primeiro, precisamos criar um ambiente de rastreamento de dados e preparar as seguintes ferramentas:
- Python: https://www.python.org/downloads/ Este é o software principal para executar o Python. Você pode baixar a versão que precisamos no link do site oficial, conforme mostrado na figura abaixo, mas é recomendável não baixar a versão mais recente. Você pode baixar 1-2 versões anteriores à versão mais recente.

- IDE Python: Qualquer IDE que suporte Python serve, mas recomendamos o PyCharm, que é um software de ferramenta de desenvolvimento IDE projetado especificamente para Python. Quanto à versão do PyCharm, recomendamos a edição gratuita do PyCharm Community.

- Pip: Você pode usar o Python Package Index para instalar as bibliotecas necessárias para executar seus programas com um único comando.

Nota: Se você for um usuário do Windows, não se esqueça de marcar a opção "Adicionar python.exe ao PATH" no assistente de instalação. Isso permitirá que o Windows use o Python e os comandos no terminal. Como o Python 3.4 ou posterior o inclui por padrão, você não precisa instalá-lo manualmente.

Por meio das etapas acima, o ambiente para rastrear dados do Google Notícias está configurado. Em seguida, você pode usar o PyCharm baixado combinado com o Scrapeless para rastrear dados do Google Notícias.
Etapa 2: Use o PyCharm e o Scrapeless para raspar dados do Google Notícias
- Inicie o PyCharm e selecione Arquivo>Novo projeto… na barra de menu.

- Em seguida, na janela que aparecer, selecione Pure Python no menu à esquerda e configure seu projeto da seguinte forma:
Nota: Na caixa vermelha abaixo, selecione o caminho de instalação do Python baixado na primeira etapa da configuração do ambiente

- Você pode criar um projeto chamado python-scraper, marcar a opção "Criar script de boas-vindas main.py na pasta" e clicar no botão "Criar". Depois que o PyCharm configurar o projeto por um tempo, você deve ver o seguinte:

- Em seguida, clique com o botão direito para criar um novo arquivo Python.

- Para verificar se tudo está funcionando corretamente, abra a guia Terminal na parte inferior da tela e digite: python main.py. Após executar este comando, você deve obter: Olá, PyCharm.
Etapa 3: Obtenha a chave da API Scrapeless
Agora você pode copiar diretamente o código Scrapeless para o PyCharm e executá-lo, para que possa obter os dados em formato JSON do Google Notícias. No entanto, você precisa obter primeiro a chave da API Scrapeless. As etapas são as seguintes:
Se você ainda não tem uma conta, por favor, cadastre-se no Scrapeless. Após o cadastro, faça login no seu painel.

No seu painel Scrapeless, navegue até Gerenciamento de chave API e clique em Criar chave API. Você receberá sua chave API. Basta colocar o mouse sobre ela e clicar para copiá-la. Esta chave será usada para autenticar sua solicitação ao chamar a API Scrapeless.
Etapa 4: Como integrar a API Scrapeless à sua ferramenta de rastreamento
Assim que você tiver a chave da API, poderá começar a integrar a API Scrapeless à sua própria ferramenta de rastreamento. Aqui está um exemplo de como chamar a API Scrapeless e recuperar dados usando Python e solicitações.
Código de exemplo para rastrear informações do Google Notícias usando a API Scrapeless:
import json
import requests
class Payload:
def __init__(self, actor, input_data):
self.actor = actor
self.input = input_data
def send_request():
host = "api.scrapeless.com"
url = f"https://{host}/api/v1/scraper/request"
token = "seu_token"
headers = {
"x-api-token": token
}
input_data = {
"engine": "google_news",
"q": "pizza",
"gl": "us",
"hl": "en",
}
payload = Payload("scraper.google.news", input_data)
json_payload = json.dumps(payload.__dict__)
response = requests.post(url, headers=headers, data=json_payload)
if response.status_code != 200:
print("Erro:", response.status_code, response.text)
return
print("corpo", response.text)
if __name__ == "__main__":
send_request()
Cansado de lidar com bloqueios de IP, CAPTCHA e estruturas HTML em constante mudança?
Com a API do Google Notícias Scrapeless, você pode contornar as restrições, extrair dados de notícias em tempo real e economizar horas de tempo de desenvolvimento — tudo com uma simples chamada de API!
Por que escolher Scrapeless em vez de raspar você mesmo?

✅ Preço super baixo, apenas US$ 0,1 por 1.000 consultas
Em comparação com a construção do seu próprio rastreador, a manutenção de IP proxy e a violação de mecanismos anti-rastreamento, o preço do SerpApi é muito competitivo, apenas US$ 0,1 por 1.000 consultas, o que reduz muito o custo da aquisição de dados.
✅ Resposta super rápida, retorno de dados em 3 segundos
O Scrapeless possui capacidades de rastreamento de dados super rápidas e pode retornar dados JSON estruturados em 3 segundos após a solicitação, o que é muito mais rápido do que a velocidade de processamento de rastreadores tradicionais.
✅ Livre de manutenção, sem necessidade de se preocupar com bloqueio de IP e mecanismos anti-rastreamento
O Google detectará tráfego anormal e bloqueará IPs e até mesmo exigirá verificação de código de verificação. O Scrapeless lida com todos os problemas anti-rastreamento para garantir que as solicitações da API estejam sempre disponíveis e não acionarão CAPTCHA ou proibições de IP.
✅ Pesquisa precisa, filtre dados de notícias sob demanda
Você pode filtrar notícias por palavras-chave, hora de lançamento, fonte de notícias e outras condições para obter os dados mais relevantes e evitar interferências de informações inúteis.
API do Google Notícias Scrapeless
🔹 Preço super baixo – apenas US$ 0,1 por 1.000 consultas
🔹 Velocidade super rápida – dados retornados em 3 segundos
🔹 Estável e eficiente – sem bloqueio de IP, sem manutenção necessária
👉 Experimente o Scrapeless agora para raspar facilmente os dados do Google Notícias!
Scrapeless Deep SerpAPI: Uma solução de rastreamento de dados mais rápida e ampla

Se você precisar de uma solução de aquisição de dados mais abrangente e eficiente, o Scrapeless Deep SerpAPI definitivamente vale a pena experimentar!
✅ Cobertura de dados mais ampla – mais de 20 interfaces de cenário da API de pesquisa do Google
✅ Atualizações de dados em tempo real – Dados das últimas 24 horas estão disponíveis a qualquer momento
✅ Custo ultrabaixo – apenas US$ 0,10 por 1.000 consultas
✅ Resposta super rápida – os dados são retornados em 1 a 2 segundos, superando em muito as APIs tradicionais
👉 Experimente Scrapeless Deep SerpAPI agora e rastreie facilmente os dados de pesquisa do Google!
Suporte para desenvolvedores gratuito:
Integre o Scrapeless Deep SerpApi à sua ferramenta de IA, aplicativo ou projeto (já suportamos Dify e daremos suporte a Langchain, Langflow, FlowiseAI e outras estruturas no futuro).
Compartilhe os resultados da sua integração nas redes sociais e você receberá de 1 a 12 meses de suporte gratuito para desenvolvedores, até 500 mil usos por mês.
Aproveite esta oportunidade para melhorar seu projeto e desfrutar de mais suporte para desenvolvimento!
Conclusão
Neste artigo, exploramos como raspar o Google Notícias usando Python. Deve-se notar que, ao raspar conteúdo, você deve seguir as políticas e restrições de uso do Google para garantir a conformidade legal.
Recursos relacionados
Como raspar dados de voo do Kayak
Como usar o Selenium com o PowerShell
Raspe vagas no Google para criar facilmente listas de vagas usando o Scrapeless
Na Scorretless, acessamos apenas dados disponíveis ao público, enquanto cumprem estritamente as leis, regulamentos e políticas de privacidade do site aplicáveis. O conteúdo deste blog é apenas para fins de demonstração e não envolve atividades ilegais ou infratoras. Não temos garantias e negamos toda a responsabilidade pelo uso de informações deste blog ou links de terceiros. Antes de se envolver em qualquer atividade de raspagem, consulte seu consultor jurídico e revise os termos de serviço do site de destino ou obtenha as permissões necessárias.