Memoria digitale a rischio: perché i principali organi di stampa stanno bloccando l’archivio Internet

La documentazione digitale della nostra storia sta affrontando una contrazione silenziosa ma significativa. Un numero crescente di importanti organizzazioni mediatiche e piattaforme social stanno bloccando attivamente la Wayback Machine di Internet Archive, uno strumento che è diventato un pilastro essenziale del giornalismo responsabile e della conservazione storica.

L’ironia del blocco

La tensione tra editori e Internet Archive ha raggiunto un punto critico. Una recente indagine di USA Today costituisce un perfetto esempio di questo paradosso: i giornalisti hanno utilizzato la Wayback Machine per monitorare come l’Immigration and Customs Enforcement (ICE) degli Stati Uniti ha ritardato la divulgazione delle statistiche sulla detenzione.

L’ironia, notata dal direttore di Internet Archive Mark Graham, è che mentre USA Today Co. si è affidata alla Wayback Machine per creare il proprio rapporto, la società, insieme a molti altri giganti dei media, si è simultaneamente mossa per impedire allo strumento di archiviare i propri contenuti.

Una tendenza in crescita per i muri digitali

Il movimento per limitare la Wayback Machine non è isolato in un unico sbocco. Secondo i dati della startup Originality AI, almeno 23 principali siti di notizie stanno attualmente bloccando ia_archiverbot, il crawler specifico utilizzato da Internet Archive.

  • The New York Times: Ha implementato dei blocchi, citando la preoccupazione che il suo contenuto venga utilizzato da società di intelligenza artificiale per addestrare modelli in violazione della legge sul copyright.
  • Reddit: Ha anche bloccato il crawler, citando preoccupazioni simili legate all’intelligenza artificiale.
  • The Guardian: Pur non bloccando completamente il crawler, limita l’accesso escludendo i contenuti dall’API di Internet Archive e filtrando gli articoli dall’interfaccia di Wayback Machine, rendendone il recupero più difficile per il pubblico.
  • USA Today Co.: Sostiene che le sue restrizioni fanno parte di una strategia più ampia per bloccare tutti i “bot di scraping” piuttosto che prendere di mira specificamente l’Archivio.

Il conflitto dell’IA: preservazione contro protezione

Il motore principale di questa tendenza è la guerra legale ed economica in corso tra editori e società di intelligenza artificiale.

Gli sviluppatori di intelligenza artificiale necessitano di enormi set di dati per addestrare modelli linguistici di grandi dimensioni. Poiché la Wayback Machine contiene un trilione di pagine web archiviate, è una miniera d’oro per lo scraping dei dati. Gli editori sostengono che consentire all’Archivio di eseguire la scansione dei propri siti fornisce una “porta di servizio” per le società di intelligenza artificiale per importare materiale protetto da copyright senza compenso, creando potenzialmente strumenti che competono direttamente con i mezzi di informazione originali.

L’impatto sul giornalismo e sulla responsabilità

Mentre gli editori lottano per proteggere la loro proprietà intellettuale, molti giornalisti sostengono che queste restrizioni stanno danneggiando le fondamenta stesse di una stampa libera.

Una coalizione di oltre 100 giornalisti, tra cui figure di alto profilo come Rachel Maddow, si è mobilitata a sostegno dell’Internet Archive. Sostengono che, man mano che i giornali locali chiudono e i resoconti solo digitali diventano la norma, la Wayback Machine è l’unica “biblioteca pubblica” affidabile rimasta per salvaguardare la documentazione storica.

Le conseguenze di questi blocchi vanno oltre la semplice nostalgia:
Verifica dei fatti: i giornalisti utilizzano l’Archivio per verificare vecchie affermazioni e far emergere audio o testo cancellati.
Diritti del lavoro: gli organizzatori sindacali utilizzano elenchi di lavoro archiviati per tenere traccia dei cambiamenti nei doveri e delle fluttuazioni salariali nel tempo.
Giornalismo da guardia: The Wayback Machine è stata utilizzata per denunciare quando le testate giornalistiche cambiano titoli o contenuti dopo la pubblicazione (come visto in una controversia del 2016 che coinvolge The New York Times ).
Prove legali: le pagine archiviate vengono spesso citate come prove nei contenziosi statunitensi; perdere questo accesso potrebbe indebolire la capacità del sistema legale di verificare le verità digitali.

“Il blocco generale di una parte sempre maggiore del web pubblico sta influenzando la capacità della società di comprendere cosa sta succedendo nel nostro mondo.” — Mark Graham, Archivio Internet

Conclusione

La lotta tra la protezione del diritto d’autore nell’era dell’intelligenza artificiale e la preservazione di una storia digitale trasparente sta creando un conflitto fondamentale. Se i principali organi di informazione continuano a bloccare i propri contenuti, il mondo rischia di perdere la capacità di seguire l’evoluzione della verità, lasciando alle generazioni future una comprensione frammentata e incompleta della nostra era digitale.