Según la accesibilidad, podemos diferenciar la Internet superficial (surface web), porción de Internet que es indexada por los buscadores, la Internet profunda (deep web), parte de Internet que no forma parte de la Internet superficial, y la Internet oscura (dark web), hosts de la red inaccesibles, a los que no se puede acceder a través de medios convencionales.
Qué es Internet superficial, Internet profunda
Internet superficial, Internet profunda e Internet oscura son
conceptos sobre internet, que hacen referencia básicamente a la
accesibilidad a los contenidos web, que se materializa en la posibilidad
de acceso a los mismos por parte de los motores de búsqueda.
Internet superficial
La Internet superficial (surface web) es la porción de Internet
indexada en los motores de búsqueda, a través de sus arañas o spider.
Estas arañas son programas que ejecutan la función de buscar, clasificar
e indexar los contenidos web, almacenando la información en bases de
datos. Cualquier enlace que encuentren los spider es seguido e indexado a
su vez, por lo que eventualmente todas las páginas web enlazadas
mediante hipervínculos serán en un momento u otro indexadas.
Por diferentes motivos, como enlaces generados por JavaScript y
Flash, sitios protegidos con clave o ficheros excluidos mediante
robots.txt, una gran parte del contenido de la web no puede ser
capturada por los buscadores, lo que impide a los buscadores indexarlas.
Estas páginas forman la denomina Internet profunda, que se estima
constituye el 95% de los contenidos web.
Internet profunda
La Internet profunda o invisible (deep web, invisible web, hidden
web) es la porción de Internet cuyos contenidos no pueden ser indexados
por los motores de búsqueda, y se estima que representa en torno al 95%
de los contenidos web, de tal manera que la Internet profunda es varios
órdenes de magnitud más grande que la Internet superficial.
La Internet profunda está compuesta por aquellos sitios web a los que
no pueden acceder los motores de búsqueda, por diversos motivos como:
- Contenido privado protegido con contraseña.
- Documentos en formatos no indexables.
- Enlaces generados mediante JavaScript o Flash.
- Contenidos que usan protocolos diferentes a HTTP o HTTPS.
- Contenidos no enlazados.
- Contenido que varía según el dispositivo que accede.
- Contenido dinámico generado como respuesta a un formulario.
- Restricciones de acceso a documentos mediante robots.txt o captchas.
- Información a la que sólo se puede acceder consultando bases de datos.