Lo Scraping è una tecnica utilizzata da svariati software per estrarre dati dall'output generato da un altro programma.
Il Web Scraping ovviamente si riferisce all'estrazione automatizzata di dati dall'output di un sito web, ed è la normale tecnica utilizzata dai crawler dei motori di ricerca per recuperare informazioni al fine di realizzare un indice dei siti web, anche se un crawler indica espressamente la propria finalità a differenza di uno "scraper".
Scraping
Il programma che si occupa di analizzare il sito web al fine di estrarre informazioni invia una richiesta HTTP GET al sito e quindi analizza il documento HTML alla ricerca di sequenze specifiche di dati. Una volta estrapolati i dati vengono poi convertiti per le finalità stabilite da chi opera lo scraping. Quindi possiamo avere uno scraping dei contenuti, dei prezzi o anche di contatti.
Spesso tale tecnica è utilizzata al fine di creare un nuovo prodotto (sito web) che replica (e quindi va in concorrenza) il sito dal quale estrae dati, quindi per acquisire vantaggi competitivi. Per questo motivo il web scraping automatizzato è talvolta considerato pericoloso, e quindi molti siti cercano di attuare delle misure di limitazione dello scraping. In genere ciò è piuttosto difficile in quanto i contenuti che il visitatore di un sito web visualizza devono essere trasferiti sul dispositivo del visitatore, per cui tali informazioni sono certamente accessibili ad esso, e quindi anche allo scraper.
Tuttavia è possibile attuare delle limitazioni della frequenza delle richieste, in modo da impedire che un bot possa raccogliere una grande quantità di informazioni. Altra tecnica è quella di modificare a intervalli regolari la formattazione del sito, così che i bot, che generalmente fanno affidamento su una formattazione omogenea del sito, interrompano la loro attività. Oppure si possono usare dei captcha per impedire l'accesso al sito ad un bot. Infine si fa uso di testi inseriti direttamente in immagini che, ovviamente, non possono essere letti dal bot (se non con un OCR).
Lo Scraping è legale?
Il web scraping è legale fintanto che le informazioni estratte siano liberamente accessibili, e siano usate per scopi statistici e di monitoraggio dei contenuti. Lo scraping diventa illecito se i dati vengono utilizzati per finalità illecite, per esempio in violazione del copyright, in contrasto con le regole per la concorrenza, o in violazione delle norme in materia di protezione dei dati personali.
A questo proposito un provvedimento del Garante italiano si è occupato di scraping con riferimento alla raccolta di dati di contatti da diverse fonti per pubblicarle su un singolo sito web a fini di telemarketing, come un unico elenco telefonico consultabile online. Il Garante (provv. 14 gennaio 2016) ha vietato tale pratica ritenendo che, sebbene le informazioni siano ricavate da una fonte “pubblica”, è da considerarsi illegittima la raccolta e l’impiego delle stesse per finalità ultronee rispetto a quelle che hanno giustificato la pubblicazione. Analogamente il Garante ha vietato (provv. 1 febbraio 2018) ad una società commerciale di utilizzare gli indirizzi di posta elettronica e PEC dei professionisti (che ovviamente sono pubblici per finalità di trasparenza e non certo per ricevere spam) prelevati da elenchi di pubblico dominio ma senza consenso.
In linea di massima il Garante ritiene illecito l'utilizzo di dati raccolti tramite web scraping per finalità incompatibili con quelle iniziali, cioé le finalità di pubblicazione. In tale quadro nel 2022 ha sanzionato Clearview, che invocava la base giuridica del legittimo interesse, per aver raccolto le immagini online contenenti volti di persone per addestrare il sistema di riconoscimento facciale dell'azienda. In tale caso, infatti, la pubblicazione delle foto non aveva la finalità di addestrare sistemi di intelligenza artificiale e quindi la raccolta e l'utilizzo è stato ritenuto illecito in assenza di consenso.
Occorre però anche precisare che, invece, il tribunale di Roma (ordinanza 2019) ha dato ragione alla società Trenit nella controversia con Trenitalia, ritenento lecito lo scraping dei contenuti del sito Trenitalia in quanto l'estrazione dei dati era limitata in relazione alla specifica richiesta dell'utente e quindi non riguardava l'intero database dei contenuti, ed era acquisita di volta in volta.
Nel 2022 anche una corte d'appello americana ha ritenuto che lo scraping dei dati pubblici fosse legale.
In linea di massima, quindi, il web scraping si può considerare legale se i dati sono accessibili pubblicamente. Di conseguenza deve ritenersi illecito lo scraping di dati visibili solo a seguito di un Login e posti in un'area riservata. Occorre anche fare riferimento ai termini di servizio del sito per verificare se i dati sono soggetti a copyright o comunque a limitazioni giuridiche, e comunque controllare se i termini di servizio del sito vietano la diffusione dei dati o lo stesso scraping (accedendo al sito tramite Login vuol dire che si accettano i termini di servizio del sito).