¿Cuán diferente es la web profunda de la web normal que rastrean los motores de búsqueda como Google?

Natesh utiliza una gran analogía para responder sus preguntas. La respuesta de Norbert es correcta en algunos aspectos, sin embargo, advierto que los SERP no están necesariamente ‘formados’ por expertos en SEO,

Los algoritmos de Google (especialmente después de las últimas actualizaciones de Panda y Penguin) dan forma a estos SERP de acuerdo con el valor que tienen para los buscadores. Si bien el “seo técnico” tradicional (trucos, por así decirlo, por ejemplo, la rotación de artículos) podría hacer que los sitios se clasifiquen en la primera página, esto tiende a no funcionar más, y cuando lo hace, no es sostenible.

Los “expertos en SEO” que están dando forma a los SERP ahora solo lo están haciendo de tal manera que sus consultas con sus clientes giran en torno a la creación de estrategias / cronogramas de contenido con planes de distribución optimizados para la industria del cliente. Efectivamente, lo que lo clasificará es un excelente contenido que se puede descubrir fácilmente con un alto grado de compartibilidad. Los SEO ahora son vendedores entrantes y, por lo tanto, nuestros objetivos son trabajar con nuestros clientes para crear contenido significativo.

Esto no quiere decir que ya no hay elementos importantes de SEO técnico que sean altamente efectivos (y sugeridos por Google). Lo que es diferente es que antes los SEO simplemente rellenaban palabras clave, reproducían el anclaje de coincidencia exacta, etc. La optimización en la página ahora se ocupa con la creación de contenido adaptado a sus palabras clave, pero de manera natural e intuitiva. Si desea clasificar para una empresa de marketing de Toronto, una de las estrategias que una empresa podría adoptar sería realizar una encuesta de la industria con empresas con sede en Toronto, optimizar su contenido en la página y luego compartirlo en la web. Si es de alta calidad, se recogerá de forma natural y se clasificará bien para las palabras clave de enfoque.

Una compañía que realiza el nivel más básico de optimización en la página pero que constantemente publica contenido de calidad que es altamente compartido, casi siempre se clasificará mejor que el que se enfoca únicamente en optimizar sus títulos, encabezados y contenido para palabras clave.

Por supuesto, asegurarse de que los aspectos de su sitio como profundidad, IA, canonicalización, falta de errores del servidor, velocidad de la página, redirecciones efectivas, mapas del sitio, etc., estén en su lugar, le dará muchas más posibilidades de ser visto en primer lugar y posteriormente clasificando mejor que sus competidores.

Para abordar la pregunta original, existe una gran variación entre la imagen de la web en su conjunto y la representación presentada por los SERP. El mejor ejemplo es un poco oscuro pero se usa con fines ilustrativos. Es probable que nunca encuentre sitios afiliados a terroristas a través de un SERP, pero existen y las autoridades los controlan en busca de inteligencia. Del mismo modo, hay muchos sitios de blackhat que no quieren ser seguidos o indexados por SERPs, por lo que la única forma de acceder a ellos es a través de una conexión directa.

Con respecto a los que están indexados, es realmente una cuestión de cómo los motores de búsqueda ven el valor de la página y esto es típicamente a través de métricas del sitio, como visitantes únicos, compromiso, señales sociales, etc.

Marc @ http://www.poweredbysearch.com

Mientras acuñaba la palabra web invisible o web profunda, Mike Bergman dijo que la búsqueda en Internet hoy en día se puede comparar con arrastrar una red a través de la superficie del océano: una gran cantidad puede quedar atrapada en la red, pero hay una gran cantidad de información eso es profundo y por lo tanto perdido. La mayor parte de la información de la Web está enterrada en sitios generados dinámicamente, y los motores de búsqueda estándar no la encuentran. Se puede encontrar más sobre esto en http://en.wikipedia.org/wiki/Dee

También hay un hilo interesante que habla sobre aspectos técnicos del mismo. Habla sobre los problemas asociados con los rastreadores que utilizan los motores de búsqueda como Google, Yahoo, etc. y por qué no están en condiciones de buscar en la web profunda. Más en esta URL: http://magicmethod.ning.com/foru

La principal diferencia entre la web profunda y la web de superficie son los formularios. Googlebot y otros no suelen interactuar con los formularios. Tenga en cuenta cómo es necesario realizar una búsqueda en Pipl.com para ver los datos. Del mismo modo, debe enviar un formulario cuando inicie sesión en la intranet de su empresa, por ejemplo.

Como mencionó Nitesh, hay una porción mucho mayor de contenido en la Web que no está disponible para los rastreadores de superficie. Para acceder a estos datos más profundos, es necesario proporcionar un rastreador con los datos que se utilizarán durante el envío de formularios o la autenticación.

Yo trabajo para screen-scraper.com. Todos los días se nos pide construir raspadores personalizados para acceder a la web profunda. Podemos construir raspadores tan complejos como el siguiente escenario.

Digamos que estaba interesado en agregar texto de revistas médicas para un grupo de médicos. Tiene una lista de los nombres de los médicos y desea saber si han escrito sobre la malaria en el Congo. Desea encontrar estos datos en los siguientes sitios.

pubmed.gov,
highwire.stanford.edu
scholar.google.com
wiley.com
jbc.org

El raspador de pantalla puede tomar a cada médico de su lista y realizar una búsqueda en cada sitio buscando referencias a la malaria en el Congo. Una vez que se encuentran todas las coincidencias, los datos se eliminan de duplicados y se combinan en una gran base de datos lista para el análisis.

http://en.wikipedia.org/wiki/Dee