Web Scraping czyli jak zebrać dane ze stron internetowych?

Web scraping to technika, która pozwala na automatyczne pozyskiwanie danych ze stron internetowych. Zamiast kopiować informacje ręcznie, możemy użyć programów, które zrobią to za nas. Scraping może być przydatny w różnych sytuacjach między innymi przy zbieraniu cen produktów, recenzji czy innych danych dostępnych w Internecie.

Jak działa Web Scraping?

Web scraping opiera się na dwóch głównych etapach:

Pobranie strony – Program wysyła zapytanie do strony internetowej, która odpowiada jej zawartością w HTML. W przypadku użycia biblioteki
Ekstrakcja danych – Po pobraniu strony, program „wyciąga” z niej interesujące nas informacje, np. teksty, linki, obrazy itp.

Cały proces odbywa się za pomocą bibliotek i narzędzi, które ułatwiają pracę. Narzędzia te mogą zostać wykorzystane w skryptach automatyzujących cały ten proces.

Narzędzia do Web Scrapingu

Do scrapowania danych można używać różnych bibliotek, w zależności od języka programowania. Poniżej przestawione są przykłady kodu w dwóch językach Python i JavaScript. Wymagane jest zainstalowanie poszczególnych bibliotek gdyż nie występują one domyślnie w tych językach. Można to zrobić używając menedżerów pakietów pip i npm.

Scrapy

Scrapy to framework w Pythonie, który ułatwia pobieranie wielu stron jednocześnie. Jest szybki i pozwala na łatwe zbieranie danych.

Przykład

Ten przykład zbiera cytaty i ich autorów ze strony quotes.toscrape.com.

Puppeteer

Puppeteer to narzędzie dostępne w Node.js, które umożliwia scrapowanie stron dynamicznych. Dzięki niemu możemy widzieć stronę tak, jakbyśmy otwierali ją w przeglądarce. W rzeczywistości biblioteka steruje prawdziwą przeglądarką zainstalowaną w systemie. Puppeteer ogranicza się wyłącznie do Google Chrome. Całość procesu odbywa się poprzez Webdriver czyli interfejs API do interakcji z przeglądarką.

Przykład

Ten fragment kodu podobnie jak poprzedni pobiera cytaty oraz wyświetla je w konsoli.

BeautifulSoup i Requests

Dwie ciekawe biblioteki w Pythonie. Requests pobiera stronę wysyłając żądanie HTTP, a BeautifulSoup analizuje (parsuje) HTML, wyciągając interesujące nas dane.

Przykład

Ten przykład tak jak dwa poprzednie robi to samo lecz tutaj praca jest podzielona między dwie biblioteki.

Prawo a Web Scraping

Choć web scraping jest bardzo ciekawym tematem, warto pamiętać o kwestiach prawnych. Wiele stron internetowych zabrania scrapowania swoich danych w swoich warunkach użytkowania. Właściciele witryn mogą blokować dostęp do swoich stron, używając pliku robots.txt lub CAPTCHA. Dodatkowo, zbieranie danych osobowych bez zgody właściciela strony może naruszać przepisy o ochronie danych osobowych. Pamiętaj, by zawsze sprawdzać, czy scraping nie łamie regulaminu danej strony oraz prawa.

Sprawdź co jeszcze czeka na Ciebie w Collegium Da Vinci

Blog

Okiem eksperta

Web Scraping czyli jak zebrać dane ze stron internetowych?

Jak działa Web Scraping?

Narzędzia do Web Scrapingu

Scrapy

Puppeteer

BeautifulSoup i Requests

Prawo a Web Scraping

Sprawdź co jeszcze czeka na Ciebie w Collegium Da Vinci

Rola terapii kreatywnych w procesie arteterapeutycznym w pracy z pacjentem/klientem

“Podróż jako waluta społeczna w kontekście pokoleniowym” ~ o tym, jak przemieszczamy się, by być (bardziej) widzialnymi

Copilot dla bezpieczeństwa – nowa era wsparcia analityków SOC dzięki AI

Detoks od smartfona – kilka dni nad jeziorem bez ekranu

5 aplikacji, które pomogą ci ogarnąć życie w wakacje (i nie tylko)

Bezpieczeństwo aplikacji webowych: CORS, SOP, CSP - Jak chronią Twoją stronę przed zagrożeniami

5 miejsc, które rozbudzą wyobraźnię i nie rozwalą studenckiego portfela

Nowoczesny sposób na szukanie pracy: kontakt przez media społecznościowe zamiast tradycyjnych metod

Vendor lock-in w AI: jak go rozpoznać i skutecznie się przed nim chronić?

Formaty wymiany danych – część 2: YAML, CSV i PHP Serialize

Wyjazd na Targi Salone del Mobile – oczami studentki zarządzania kreatywnego

Performance support w dydaktyce akademickiej, czyli uczyć (się) każdy może