tengo una respuesta interesante pero no me permite el sistema por lo larga
Estrategias y mecanismos de búsqueda en la web invisible
Pilar María Moreno Jiménez
Mayo, 2003. Última actualización: mayo, 2005.
Resumen
Se denomina web invisible o profunda a la información que no puede recuperarse con los mecanismos de búsqueda comunes. Estos mecanismos tratan de abarcar toda la web, pero se calcula que los mayores motores de búsqueda alcanzan a indizar sólo entre un tercio y la mitad de los documentos disponibles. La web invisible no sólo es de mayor tamaño que la web visible o superficial sino que crece a mayor velocidad. Asimismo, mucha información disponible en la web profunda, como la que se encuentra en bases de datos, tiene un alto valor potencial para el usuario..
La multiplicidad de mecanismos de rastreo, indización, recuperación y organización de documentos en la web puede causar confusión al usuario común. Además, el número de motores de búsqueda, así como los híbridos resultado de la combinación de diferentes mecanismos, ha aumentado. Esto hace necesario clasificar y diferenciar los tipos de herramientas disponibles.
En este documento recomiendo algunas estrategias útiles para la búsqueda en la web y presento una compilación de recursos de búsqueda en la web invisible o profunda.
Tabla de contenido
Introducción
1. Mecanismos de búsqueda en la web
* Buscadores
* Metabuscadores
* Directorios
* Guías
* Tutoriales
* Software especializado
2. Estrategias de búsqueda en la web
* Estrategias generales
* Selección de herramientas
* Objetivo de la búsqueda
* Forma de búsqueda
* Especialización de la búsqueda
* Precisión de la búsqueda
* Mucha información recuperada
* Selección de recursos
* Poca información recuperada
3. Caracterización de la web invisible o profunda
* La web opaca
* La web privada
* La web propietaria
* La web realmente invisible
4. Herramientas de búsqueda en la web profunda
* Buscadores
* Metabuscadores
* Directorios
* Guías
* Tutoriales
* Motores avanzados
5. Estrategias de búsqueda en la web profunda
* Información especializada
* Búsquedas avanzadas
* Evaluación de la información
* Información en bases de datos
6. Compilación de recursos de búsqueda en la web profunda
* Recursos de búsqueda ordenados alfabéticamente
* Recursos de búsqueda ordenados por tipo de recurso
7. ¿Qué tan invisible es hoy la web invisible?
* La web opaca
* La web privada
* La web propietaria
* La web realmente invisible
8. Bibliografía
Introducción
El término “web invisible” fue utilizado por primera vez por la Dra. Jill Ellsworth para denominar la información que resultaba “invisible” para las maquinarias de búsqueda convencionales en la web (Ellsworth, 1995). También se la denomina “web profunda” (deep web), por oposición a la “web superficial” (surface web)cuya información puede recuperarse con los buscadores de Internet (Bergman, 2000). Un buscador es un sitio web cuyo propósito principal consiste en que el público pueda encontrar información. Estos mecanismos y el software que los apoya tratan de indizar toda la web, por lo que generan y mantienen enormes bases de datos recuperables. A pesar de su pretendida exhaustividad, se calcula que los mayores motores de búsqueda indizan sólo entre un tercio y la mitad de los documentos disponibles al público en la Red (Turner, 2003). Un estudio muy citado de Bright Planet ha estimado que la información contenida en la web invisible es aproximadamente 550 veces mayor que la de la web superficial y crece a mucha mayor velocidad (Bergman, 2000). Un estudio posterior de Cyveillance calcula que el tamaño de la web profunda es 275 veces mayor que el de la web visible (Murray, 2000, citado en Ouf, 2001). Estimaciones posteriores, en cambio, señalan que el tamaño de la web invisible es sólo entre 2 y 50 veces mayor que el de la web visible (Sherman y Price, 2001b). Las diferencias en las cifras se deben a las diferentes metodologías utilizadas por los autores. En cualquier caso, el valor de la información contenida en la llamada web profunda justifica su estudio y el de sus formas de acceso.
1. Mecanismos de búsqueda en la web
La multiplicidad de términos con que se alude a los mecanismos de rastreo, indización, recuperación y organización de documentos en la web puede causar confusión al usuario común. Lo cierto es que cada herramienta de búsqueda funciona y tiene un propósito y alcance diferentes, pero cada vez más las diferentes herramientas se combinan dando lugar a híbridos, que pueden dificultar la comprensión del funcionamiento interno de estos mecanismos. Una dificultad adicional es el número creciente de mecanismos disponibles, lo que hace aún más necesario clasificarlos y diferenciarlos.
Buscadores
A los softwares que usan los llamados buscadores, motores o maquinarias de búsqueda (search engines) para localizar páginas agregables a sus bases de datos también se les denomina indistintamente “arañas” (spiders), “rastreadores” (crawlers) o robots (en el contexto web). Estos rastrean e indizan de forma automática páginas web, así como todos los documentos referenciados en ellas. Los buscadores también añaden a sus bases de datos las páginas de cuya existencia son informados directamente por sus autores, así como los documentos referenciados en las mismas. Los buscadores presentan interfaces para el público, que consisten en cuadros donde realizar búsquedas de forma sencilla. Altavista, Ask Jeeves y Google, entre otros, son buscadores.
Los buscadores arrojan resultados sobre las búsquedas realizadas en sus propios índices y no sobre la web directamente. Esto último sería imposible debido al volumen de información y al tiempo requerido para realizar la búsqueda. El rastreo de páginas web que efectúan los robots se realiza con periodicidad variable y, por economía, tiende a no ser muy frecuente. Por ello, siempre existe una diferencia entre lo que pueden recuperar los buscadores y lo que realmente se encuentra en la web.
Aparte del volumen y frecuencia de indización de documentos, la diferencia más notoria entre los buscadores es su fórmula para calcular la relevancia de la información recuperada y ordenar así su presentación. Algunos buscadores se basan en un análisis estadístico de frecuencia de palabras en el texto, otros en el análisis de la frecuencia con que las páginas están ligadas a otras. En algunos casos, los buscadores muestran los resultados indicando el grado de relevancia de cada documento, mediante signos como estrellas, o bien con porcentajes.
Un estudio del 2000 (Notess, citado por Sherman y Price, 2001b) demostró que existe poco solapamiento entre buscadores, lo cual tal vez justifica su proliferación, ya que cada uno va cubriendo diferentes áreas del espacio web, sin que por ahora sea posible técnicamente que ninguno sea exhaustivo.
Metabuscadores
Los metabuscadores (metasearch engines) son servidores web que realizan búsquedas en muchos buscadores y/o directorios y presentan un resumen de los resultados, eliminando duplicaciones. Los metabuscadores no se sirven de robots, sino que van a buscar directamente a los índices de cada buscador. Dogpile,Mamma, Metacrawler o InfoSpace son ejemplos de metabuscadores.
Los metabuscadores, al igual que los buscadores, suelen presentar los resultados ordenados por relevancia y muchas veces indican de qué buscadores específicos se ha recuperado cada documento.
Una limitación de los metabuscadores es que no suelen presentar opciones de búsqueda avanzada, con lo cual se sacrifica la precisión en los resultados de las búsquedas.
Existen sitios web concentradores de buscadores y/o directorios, donde es posible realizar búsquedas sucesivas en varios de ellos, seleccionándolos de listas preestablecidas. A veces, en estos directorios los buscadores y/o directorios se encuentran clasificados por especialidad o cobertura geográfica. En otros casos, como en Metasearch por ejemplo, existe un mecanismo que "traduce" la fórmula de búsqueda y permite realizar búsquedas sucesivas en varios buscadores y/o directorios.
Directorios
Los directorios (directories) son organizados manualmente a partir del registro de páginas por parte de sus autores e implican una selección editorial y un proceso de categorización jerarquizada. LookSmart y Yahoo! son algunos de los directorios más conocidos.
Muchos directorios se especializan en un conjunto específico de recursos, los cuales generalmente son cuidadosamente seleccionados y descritos por los editores. Los editores de un directorio pueden ser empleados por la empresa que lo realiza y entonces hablamos de un modelo cerrado (closed model directories), que implica un mayor costo, pero también un mayor grado de calidad. Si los editores del directorio son voluntarios, entonces se habla de un modelo abierto (open model directories), lo que significa un costo y calidad inferiores. Los criterios de selección de recursos pueden ser explícitos o no, y variar según los editores, especialmente en los modelos abiertos.
Las categorías en las que se organiza el directorio pueden tener un número variable de recursos asociados, con lo cual algunas veces unas categorías resultan saturadas y otras muy poco representadas. En ocasiones, razones como la falta de tiempo, conocimientos o habilidades de los editores, limitan la cobertura de los directorios. Por otro lado, la política de solicitar un cargo por incluir páginas, que han adoptado algunos directorios, puede desalentar la inclusión de recursos potencialmente valiosos.
En