🥳हमारे शक्तिशाली वेब स्क्रैपिंग टूलकिट तक पहुंचने के लिए स्क्रैपलेस समुदाय में शामिल हों और अपने निःशुल्क परीक्षण का दावा करें!
ब्लॉग पर वापस जाएँ

पायथॉन में वेब स्क्रैपिंग के लिए BeautifulSoup का उपयोग कैसे करें

Sophia Martinez
Sophia Martinez

Specialist in Anti-Bot Strategies

05-Nov-2024

वेब स्क्रॅपिंग हा वेबसाइट्समधून डेटा गोळा करण्याचा आणि विश्लेषण, ऑटोमेशन किंवा तुमच्या कल्पनेतील कोणत्याही डेटा-ड्रिव्हन कार्यासाठी वापरण्याचा एक शक्तिशाली मार्ग आहे. पायथॉनचा BeautifulSoup लायब्ररी, requests सोबत वापरला जातो, तो वेब डेटा स्क्रॅप करण्यासाठी सोपा आणि सहज वापरण्याजोगा बनवतो. या मार्गदर्शकात, आम्ही BeautifulSoup वापरून वेब स्क्रॅपिंग बद्दल तुम्हाला जाणून घेण्याची गरज असलेली प्रत्येक गोष्ट कव्हर करू, सेटअप ते अ‍ॅडव्हान्स तंत्रे, मार्गावर तपशीलवार कोड उदाहरणांसह.

BeautifulSoup म्हणजे काय?

BeautifulSoup हा एक पायथॉन लायब्ररी आहे जो वेब स्क्रॅपिंगसाठी डिझाइन केलेला आहे, विशेषतः HTML आणि XML डॉक्युमेंट्स पार्स करण्यासाठी. ते पेज सोर्स कोडमधून पार्स ट्री तयार करते, ज्यामुळे आपण सामग्रीशी संवाद साधू शकतो आणि त्यात बदल करू शकतो, ज्यामुळे ते डेटा एक्सट्रॅक्शनसाठी एक महत्त्वाचा साधन बनते. BeautifulSoup बहुतेकदा पार्सिंग करण्यापूर्वी वेबपेज सामग्री मिळवण्यासाठी requests सोबत जोडला जातो.

BeautifulSoup कसे काम करते?

BeautifulSoup HTML किंवा XML डॉक्युमेंट्सला एक ट्री स्ट्रक्चरमध्ये रूपांतरित करण्यासाठी पार्सरचा वापर करते ज्याचे सोपे शोध आणि संशोधन करता येते. उदाहरणार्थ, BeautifulSoup ने, तुम्ही करू शकता:

  1. HTML सामग्री पार्स करा: html.parser सारख्या पार्सरचा वापर करून BeautifulSoup मध्ये पेज सामग्री लोड करा.
  2. DOM वर फिरवा: BeautifulSoup च्या पद्धती तुम्हाला HTML मध्ये विशिष्ट घटकांना, गुणधर्मांना आणि मजकूरांना प्रवेश देऊ देतात.
  3. डेटा एक्सट्रॅक्ट करा आणि बदल करा: एकदा तुम्ही लक्ष्य डेटा शोधल्यानंतर, तुम्ही ते एक्सट्रॅक्ट करू शकता, त्यात बदल करू शकता किंवा अतिरिक्त क्रिया करू शकता.

हे BeautifulSoup ला उत्पादन माहिती, वेब डेटा एक्सट्रॅक्ट करणे किंवा पेजवर पुनरावृत्ती करणारे कार्ये स्वयंचलित करणे यासारख्या कार्यांसाठी आदर्श बनवते.

BeautifulSoup ची इतर पायथॉन लायब्ररीजशी तुलना

अनेक पायथॉन लायब्ररीज वेब स्क्रॅपिंग करू शकतात, प्रत्येकचे स्वतःचे एकमेव सामर्थ्य आहे. चला पाहू की BeautifulSoup इतर लोकप्रिय पर्यायांसह कसे तुलना करते:

BeautifulSoup विरुद्ध Scrapy

सुविधा BeautifulSoup Scrapy
सर्वात उत्तम सोपी स्क्रॅपिंग कार्ये, HTML पार्सिंग मोठ्या प्रमाणावरील स्क्रॅपिंग प्रकल्पे
शिकण्याची वक्र कमी, नवशिक्यांसाठी अनुकूल मध्यम, काही सेटअप आवश्यक आहे
डेटा एक्सट्रॅक्शन सरळ, लहान प्रकल्पांसाठी उत्तम डेटा एक्सट्रॅक्शन पाइपलाइनसाठी डिझाइन केलेले
कार्यक्षमता हळू, गतीसाठी ऑप्टिमाइझ केलेले नाही जलद, अतुल्यकालिक स्क्रॅपिंग
बिल्ट-इन क्रॉलिंग नाही होय (बिल्ट-इन क्रॉलिंग आणि शेड्यूलिंग क्षमता)
बिल्ट-इन मिडलवेअर नाही होय, विस्तृत अनुकूलन आणि ऑटोमेशनची परवानगी देते

महत्वाचा निष्कर्ष: BeautifulSoup लहान ते मध्यम प्रमाणावरील प्रकल्पांसाठी आणि वेब स्क्रॅपिंग मूलभूत गोष्टी शिकण्यासाठी आदर्श आहे, तर Scrapy अतिरिक्त अनुकूलन पर्यायांसह उच्च-कार्यक्षमता, मोठ्या प्रमाणावरील स्क्रॅपिंगसाठी बनवलेले आहे.

BeautifulSoup विरुद्ध Selenium

सुविधा BeautifulSoup Selenium
सर्वात उत्तम स्थिर HTML स्क्रॅपिंग JavaScript-समृद्ध वेबसाइट्स
संवादक्षमता मर्यादित, घटकांसह संवाद साधू शकत नाही पूर्ण ब्राउझर ऑटोमेशन
कार्यक्षमता जलद, कारण ते फक्त HTML पार्स करते हळू, ब्राउझर इन्स्टान्स चालवण्याची आवश्यकता असते
आदर्श वापर प्रकरण स्थिर सामग्री स्क्रॅपिंग जावास्क्रिप्ट-रेंडर केलेल्या सामग्रीसह साइट्स
शिकण्याची वक्र कमी मध्यम

महत्वाचा निष्कर्ष: BeautifulSoup स्थिर साइट्ससाठी एक उत्तम पर्याय आहे, तर Selenium जावास्क्रिप्ट-रेंडर केलेल्या सामग्रीसह साइट्ससाठी आवश्यक आहे, जिथे गतिमान संवाद (उदाहरणार्थ, बटणे क्लिक करणे) आवश्यक आहेत.

BeautifulSoup विरुद्ध lxml

सुविधा BeautifulSoup lxml
सर्वात उत्तम सोपे HTML/XML पार्सिंग उच्च-कार्यक्षमता XML पार्सिंग
पार्सिंग गती मध्यम खूप जलद
पार्सर लवचिकता विविध पार्सरसह सुसंगत lxml पार्सरवर लक्ष केंद्रित करते, जो जलद आहे पण मर्यादित आहे
त्रुटी हाताळणी मजबूत त्रुटी हाताळणी, कमकुवत स्वरूपात HTML साठी आदर्श वाईट स्वरूपात HTML सह कमी क्षमाशील
वाक्यरचना सोपे आणि वाचण्यायोग्य थोडी अधिक जटिल वाक्यरचना आवश्यक आहे

महत्वाचा निष्कर्ष: XML पार्सिंग आणि गती-क्रिटीकल कार्यांसाठी, lxml BeautifulSoup पेक्षा चांगले कामगिरी देते. तथापि, HTML सह मानक वेब स्क्रॅपिंगसाठी, BeautifulSoup एक सोपे, अधिक वाचण्यायोग्य वाक्यरचना प्रदान करते.

BeautifulSoup कधी वापरायचे

BeautifulSoup त्या कार्यांसाठी सर्वात योग्य आहे जिथे:

  • वेबपेज संरचना तुलनेने सोपी आणि स्थिर आहे (म्हणजे, कोणतेही जावास्क्रिप्ट रेंडरिंग नाही).
  • डेटा HTML स्रोतात सहजपणे उपलब्ध आहे, कोणत्याही महत्त्वाच्या संवादक्षमते किंवा गतिमान लोडिंगशिवाय.
  • गती प्राधान्य नाही आणि लक्ष वापरण्यास सोपेपणा आणि लवचिकतेवर आहे.

ज्या प्रकल्पांना मोठ्या प्रमाणावरील स्क्रॅपिंगची आवश्यकता असते किंवा जटिल आवश्यकता असतात, त्यांच्यासाठी तुम्ही Scrapy किंवा Selenium सारख्या अधिक अ‍ॅडव्हान्स सोल्यूशन्सचा शोध घेऊ शकता.

BeautifulSoup मध्ये योग्य पार्सर निवडणे

BeautifulSoup HTML पार्स करू शकतो विविध पार्सर वापरून, प्रत्येकाचे स्वतःचे फायदे आणि तोटे आहेत:

  • html.parser: पायथॉनचा बिल्ट-इन HTML पार्सर, जो वापरण्यास सोपा आणि डिफॉल्टने उपलब्ध आहे. ते इतर पार्सरपेक्षा हळू आहे पण बहुतेक BeautifulSoup प्रकल्पांसाठी पुरेसे आहे.
  • lxml: जलद आणि विश्वासार्ह, lxml गती-क्रिटीकल कार्यांसाठी आदर्श आहे. जर तुम्ही मोठ्या डेटासेट्सशी व्यवहार करत असाल आणि जलद पार्सिंगची आवश्यकता असेल तर ते एक चांगला पर्याय आहे.
  • html5lib: हा पार्सर जटिल HTML5 आणि वाईट स्वरूपात HTMLला असाधारणपणे चांगले हाताळतो, परंतु ते हळू आहे. जर तुम्हाला HTML5 सह जास्तीत जास्त अचूकता हवी असेल तर ते वापरा.

उदाहरण: BeautifulSoup ऑब्जेक्ट तयार करताना पार्सर निर्दिष्ट करणे:

python Copy
from bs4 import BeautifulSoup

html_content = "<html><body><h1>Hello, World!</h1></body></html>"
soup = BeautifulSoup(html_content, 'lxml')  # गतीसाठी lxml पार्सर वापरून

वेब स्क्रॅपिंगसाठी BeautifulSoup का निवडा?

BeautifulSoup HTML पार्सिंगसाठी एक हलका, सरळ पर्याय आहे, ज्यामुळे ते नवशिक्यांसाठी आणि जलद डेटा एक्सट्रॅक्शनची आवश्यकता असलेल्या डेव्हलपर्ससाठी आदर्श बनते. BeautifulSoup निवडण्यासाठी येथे काही कारणे आहेत:

  • नवशिक्यांसाठी अनुकूल: सोपी, वाचण्यायोग्य वाक्यरचनेसह, BeautifulSoup वापरकर्त्यांना जटिल कोडबद्दल चिंता न करता डेटा एक्सट्रॅक्शनवर लक्ष केंद्रित करण्यास अनुमती देते.
  • बहुमुखी आणि लवचिक: BeautifulSoup HTML पार्स आणि शोधू शकतो, ज्यामुळे ते ब्लॉग्स, उत्पादन पुनरावलोकने किंवा लहान डेटासेट स्क्रॅपिंग सारख्या विविध अनुप्रयोगांसाठी योग्य बनते.
  • उच्च सुसंगतता: BeautifulSoup requests सोबत सहजपणे काम करते, ज्यामुळे तुम्ही फक्त काही ओळी कोडमध्ये डेटा मिळवू शकता आणि पार्स करू शकता.

सोपेपणा, शक्ती आणि वापरण्यास सोपेपणा यांच्या संतुलनासह, BeautifulSoup वेब स्क्रॅपिंग कार्यांसाठी एक लोकप्रिय पर्याय राहतो जिथे गती आणि जावास्क्रिप्ट संवाद प्राधान्य नाहीत. BeautifulSoup कधी आणि कसे प्रभावीपणे वापरायचे हे समजून घेणे पायथॉनमध्ये वेब स्क्रॅपिंगमध्ये प्रभुत्व मिळवण्यासाठी महत्वाचे आहे. BeautifulSoup च्या दायर्‍याबाहेरच्या कार्यांसाठी, अ‍ॅडव्हान्स स्क्रॅपिंग गरजांदेखील Scrapy किंवा जावास्क्रिप्ट-रेंडर केलेल्या पृष्ठांसाठी Selenium सारख्या इतर लायब्ररीजचा शोध घ्या.

वेब स्क्रॅपिंगसाठी BeautifulSoup सेट अप करणे

आपण सुरू करण्यापूर्वी, चला BeautifulSoup आणि requests स्थापित करूया, आणखी एक लायब्ररी जी आपल्याला वेब पृष्ठे डाउनलोड करण्यास मदत करते. टर्मिनल किंवा कमांड प्रॉम्प्ट उघडा आणि चालवा:

bash Copy
pip install beautifulsoup4 requests

हे स्थापित करते:

  • beautifulsoup4: BeautifulSoup लायब्ररी स्वतः.
  • requests: HTTP विनंत्या करण्यासाठी एक लोकप्रिय पायथॉन लायब्ररी.

requests सोबत वेब पृष्ठे मिळवणे

वेबपेजमधून डेटा स्क्रॅप करण्यासाठी, आम्हाला प्रथम HTML सामग्री मिळवावी लागेल. requests लायब्ररी आपल्याला हे सहजपणे करण्यास अनुमती देते. हे कसे काम करते ते येथे आहे:

python Copy
import requests

url = 'https://example.com'
response = requests.get(url)

# तपासा की विनंती यशस्वी झाली की नाही
if response.status_code == 200:
    html_content = response.text
    print("पेज यशस्वीरित्या मिळाले!")
else:
    print("पेज पुनर्प्राप्त करण्यात अपयशी ठरले.")

हा कोड https://example.com ला एक GET विनंती पाठवतो आणि HTTP स्थिती कोड सत्यापित करून तपासतो की विनंती यशस्वी झाली की नाही.

BeautifulSoup सोबत HTML पार्स करणे

HTML सामग्री हातात असताना, आपण ते पार्स करण्यासाठी BeautifulSoup वापरू शकतो.

python Copy
from bs4 import BeautifulSoup

soup = BeautifulSoup(html_content, 'html.parser')
print(soup.prettify())  # पेज संरचनेचा जलद आढावा घेण्यासाठी स्वरूपित HTML प्रिंट करा

html.parser वापरून, BeautifulSoup HTML डॉक्युमेंट प्रोसेस करते, एक नेव्हिगेटेबल ट्री स्ट्रक्चर तयार करते.

DOM नेव्हिगेट करणे आणि शोधणे

पेजमधून विशिष्ट डेटा एक्सट्रॅक्ट करण्यासाठी, आपल्याला DOM (डॉक्युमेंट ऑब्जेक्ट मॉडेल) नेव्हिगेट करणे आवश्यक आहे आणि HTML घटकांना शोधणे आवश्यक आहे.

टॅग आणि त्यांच्या गुणधर्मांना प्रवेश देणे

BeautifulSoup टॅग आणि गुणधर्मांना सहज प्रवेश देण्यास अनुमती देते. येथे काही उदाहरणे आहेत:

python Copy
# शीर्षक टॅग मिळवा
title_tag = soup.title
print("शीर्षक:", title_tag.string)

# एक गुणधर्म प्रवेश करा (उदाहरणार्थ, लिंकचा href गुणधर्म)
first_link = soup.find('a')
print("पहिली लिंक URL:", first_link.get('href'))

DOM शोधणे

BeautifulSoup घटकांसाठी शोधण्यासाठी विविध पद्धती प्रदान करते:

  • find(): टॅगचा पहिला इन्स्टान्स शोधतो.
  • find_all(): टॅगचे सर्व इन्स्टान्स शोधतो.
  • select(): CSS सिलेक्टर्स वापरून घटक निवडतो.
python Copy
# पहिला परिच्छेद टॅग शोधा
first_paragraph = soup.find('p')
print("पहिला परिच्छेद:", first_paragraph.text)

# सर्व लिंक्स शोधा
all_links = soup.find_all('a')
for link in all_links:
    print("लिंक:", link.get('href'))

# CSS सिलेक्टर्स वापरून घटक शोधा
important_divs = soup.select('.important')
print("महत्वाचे divs:", important_divs)

वर्ग आणि ID गुणधर्मांसह उदाहरण

python Copy
# विशिष्ट वर्गासह घटक शोधा
items = soup.find_all('div', class_='item')
for item in items:
    print("आयटम:", item.text)

# विशिष्ट ID असलेला घटक शोधा
main_content = soup.find(id='main')
print("मुख्य सामग्री:", main_content.text)

वेब पृष्ठांमधून डेटा एक्सट्रॅक्ट करणे

एकदा तुम्ही घटक शोधल्यानंतर, तुम्ही त्यांमधून डेटा एक्सट्रॅक्ट करू शकता.

मजकूर एक्सट्रॅक्ट करणे

python Copy
# परिच्छेदातून मजकूर एक्सट्रॅक्ट करा
paragraph = soup.find('p')
print("परिच्छेद मजकूर:", paragraph.get_text())

लिंक्स एक्सट्रॅक्ट करणे

python Copy
# पेजवरील सर्व लिंक्स एक्सट्रॅक्ट करा
links = soup.find_all('a', href=True)
for link in links:
    print("URL:", link['href'])

प्रतिमा एक्सट्रॅक्ट करणे

python Copy
# प्रतिमा स्रोत एक्सट्रॅक्ट करा
images = soup.find_all('img', src=True)
for img in images:
    print("प्रतिमा URL:", img['src'])

BeautifulSoup साठी अ‍ॅडव्हान्स तंत्रे

स्क्रॅपिंग अधिक कार्यक्षम आणि प्रभावी बनविण्यासाठी, येथे काही अ‍ॅडव्हान्स BeautifulSoup तंत्रे आहेत:

नियमित अभिव्यक्ती वापरणे

BeautifulSoup अधिक लवचिक शोधांसाठी नियमित अभिव्यक्ती वापरून टॅगशी जुळवू शकतो.

python Copy
import re

# 'h' ने सुरू होणारे टॅग शोधा (उदाहरणार्थ, h1, h2, h3, इ.)
headings = soup.find_all(re.compile('^h[1-6]$'))
for heading in headings:
    print("शीर्षक:", heading.text)

पार्स ट्री नेव्हिगेट करणे

BeautifulSoup चे ट्री नेव्हिगेशन पालक, भाऊ आणि मुलांच्या नोड्स दरम्यान हालचाल करण्यास अनुमती देते:

python Copy
# पालक, मुले आणि भाऊंना प्रवेश द्या
parent = first_paragraph.parent
print("पालक टॅग:", parent.name)

next_sibling = first_paragraph.next_sibling
print("पुढचा भाऊ:", next_sibling)

children = list(parent.children)
print("मुलांची संख्या:", len(children))

सामान्य वेब स्क्रॅपिंग आव्हानांना हाताळणे

JavaScript-रेंडर केलेल्या सामग्रीशी व्यवहार करणे

जर सामग्री जावास्क्रिप्टने लोड केली असेल, तर BeautifulSoup स्वतः पुरेसे नसेल. अशा प्रकरणांसाठी, Scrapeless किंवा हेडलेस ब्राउझर (उदाहरणार्थ, Puppeteer, Playwright) सारखी उपकरणे गतिमान सामग्री स्क्रॅप करण्यास अनुमती देतात.

IP ब्लॉकिंग टाळणे

स्क्रॅपिंग करताना ब्लॉक केले जाणे टाळण्यासाठी, विचार करा:

  • रोटेटिंग प्रॉक्सी वापरणे: विविध IP मध्ये विनंत्या वितरीत करा.
  • विश्रांती जोडणे: विनंत्यांमध्ये मानवीसारखे अंतराळे अनुकरण करा.

एकत्रित करणे: एक पूर्ण वेब स्क्रॅपिंग उदाहरण

चला एक पूर्ण उदाहरण पाहू जे एका काल्पनिक ब्लॉगमधून लेखांची यादी स्क्रॅप करते.

python Copy
import requests
from bs4 import BeautifulSoup

# चरण 1: वेबपेज मिळवा
url = 'https://example-blog.com'
response = requests.get(url)
html_content = response.text

# चरण 2: BeautifulSoup सोबत पेज पार्स करा
soup = BeautifulSoup(html_content, 'html.parser')

# चरण 3: सर्व लेख शोधा
articles = soup.find_all('div', class_='article')

# चरण 4: लेख तपशील एक्सट्रॅक्ट करा आणि प्रदर्शित करा
for article in articles:
    title = article.find('h2').text
    summary = article.find('p', class_='summary').text
    read_more_url = article.find('a', href=True)['href']
    
    print(f"शीर्षक: {title}")
    print(f"सारांश: {summary}")
    print(f"अधिक वाचा: {read_more_url}\n")

या उदाहरणात:

  1. आम्ही ब्लॉगमधून HTML सामग्री मिळवतो.
  2. आम्ही BeautifulSoup सोबत पेज पार्स करतो.
  3. आम्ही प्रत्येक लेख शोधतो आणि त्याचे शीर्षक, सारांश आणि लिंक एक्सट्रॅक्ट करतो.

निष्कर्ष

BeautifulSoup पायथॉनसह वेब स्क्रॅपिंगसाठी एक मौल्यवान साधन आहे, जे वेब पृष्ठांमधून डेटा मिळवण्यासाठी आणि एक्सट्रॅक्ट करण्यासाठी सोपी प्रवेश देते. या मार्गदर्शकात दिलेल्या कौशल्यांसह, तुम्ही स्थिर HTML सामग्री स्क्रॅप करण्यास सुरुवात करण्यासाठी सुसज्ज आहात. अधिक जटिल साइट्ससाठी, गतिमान किंवा जावास्क्रिप्ट-समृद्ध पृष्ठे स्क्रॅप करण्यास मदत करण्यासाठी Scrapeless सारखी उपकरणे तपासा. आनंददायी स्क्रॅपिंग!

स्क्रैपलेस में, हम लागू कानूनों, विनियमों और वेबसाइट गोपनीयता नीतियों का सख्ती से पालन करते हुए केवल सार्वजनिक रूप से उपलब्ध डेटा तक पहुंचते हैं। इस ब्लॉग की सामग्री केवल प्रदर्शन उद्देश्यों के लिए है और इसमें कोई भी अवैध या उल्लंघनकारी गतिविधियां शामिल नहीं हैं। हम इस ब्लॉग या तृतीय-पक्ष लिंक से जानकारी के उपयोग के लिए कोई गारंटी नहीं देते हैं और सभी दायित्व से इनकार करते हैं। किसी भी स्क्रैपिंग गतिविधियों में शामिल होने से पहले, अपने कानूनी सलाहकार से परामर्श लें और लक्ष्य वेबसाइट की सेवा की शर्तों की समीक्षा करें या आवश्यक अनुमतियाँ प्राप्त करें।

सर्वाधिक लोकप्रिय लेख

सूची