lunes, 29 de febrero de 2016

Caracterización de la Web Superficial y la Web Profunda

Según la accesibilidad, podemos diferenciar la Internet superficial (surface web), porción de Internet que es indexada por los buscadores, la Internet profunda (deep web), parte de Internet que no forma parte de la Internet superficial, y la Internet oscura (dark web), hosts de la red inaccesibles, a los que no se puede acceder a través de medios convencionales.

Qué es Internet superficial, Internet profunda
Internet superficial, Internet profunda e Internet oscura son conceptos sobre internet, que hacen referencia básicamente a la accesibilidad a los contenidos web, que se materializa en la posibilidad de acceso a los mismos por parte de los motores de búsqueda.

Internet superficial
La Internet superficial (surface web) es la porción de Internet indexada en los motores de búsqueda, a través de sus arañas o spider. Estas arañas son programas que ejecutan la función de buscar, clasificar e indexar los contenidos web, almacenando la información en bases de datos. Cualquier enlace que encuentren los spider es seguido e indexado a su vez, por lo que eventualmente todas las páginas web enlazadas mediante hipervínculos serán en un momento u otro indexadas.
Por diferentes motivos, como enlaces generados por JavaScript y Flash, sitios protegidos con clave o ficheros excluidos mediante robots.txt, una gran parte del contenido de la web no puede ser capturada por los buscadores, lo que impide a los buscadores indexarlas. Estas páginas forman la denomina Internet profunda, que se estima constituye el 95% de los contenidos web.

Internet profunda
La Internet profunda o invisible (deep web, invisible web, hidden web) es la porción de Internet cuyos contenidos no pueden ser indexados por los motores de búsqueda, y se estima que representa en torno al 95% de los contenidos web, de tal manera que la Internet profunda es varios órdenes de magnitud más grande que la Internet superficial.
La Internet profunda está compuesta por aquellos sitios web a los que no pueden acceder los motores de búsqueda, por diversos motivos como:
  • Contenido privado protegido con contraseña.
  • Documentos en formatos no indexables.
  • Enlaces generados mediante JavaScript o Flash.
  • Contenidos que usan protocolos diferentes a HTTP o HTTPS.
  • Contenidos no enlazados.
  • Contenido que varía según el dispositivo que accede.
  • Contenido dinámico generado como respuesta a un formulario.
  • Restricciones de acceso a documentos mediante robots.txt o captchas.
  • Información a la que sólo se puede acceder consultando bases de datos.

No hay comentarios:

Publicar un comentario