L’Internet di superficie, cioè quella a cui accediamo tutti i giorni, è la parte della Rete che viene mappata dai motori di ricerca tradizionali, come Google o Bing. In pratica, utilizzando browser e web crawler, cioè dei software che acquisiscono una copia testuale dei documenti online visitati e la inseriscono in un indice con le relative informazioni: questa è una pagina internet, parla di tale persona e così via. Il Deep Web, invece, è la porzione di Internet che non viene indicizzata dai motori di ricerca, per cui non la troveremo mai tramite Google. Secondo alcune stime, questa parte costituisce tra l’89 e il 96 percento del web. Quello che vediamo della Rete è, quindi, una frazione piccolissima.
Nel calderone dei contenuti non indicizzati dai motori di ricerca, finisce quasi paradossalmente tutto ciò che del Web usiamo più spesso: i messaggi diretti, le email, e le transazioni bancarie. Inoltre, fanno parte della categoria le pagine Internet a cui per accedere è necessario autenticarsi o fare il login. Come, per esempio, i forum o gli indirizzari universitari. Ma anche i contenuti dinamici, i siti appena nati, quelli privati di atenei o aziende, le pagine pubblicate da poco. Inoltre, bisogna considerare che il materiale della Rete più facilmente indicizzato è il testo. Mentre video e immagini contengono informazioni e conoscenze che, tuttavia, oggi non vengono estratte molto semplicemente. A molti contenuti del Deep Web, conoscendone l’indirizzo, si può accedere con un normale browser. Alcuni siti che provano a creare un catalogo di database e pagine web non indicizzate da Google e compagnia, sono raccolti nel sito Weitzenegger e tra i principali abbiamo: The WWW Virtual Library; Surfwax e Stumpedia.
sito di DOMENICO DE MAGISTRIS