¿Cómo buscan las compañías como Digital Shadows en el “Internet oscuro”, los sitios de redes sociales, Pastebin, etc. ¿Hay lagunas en estas búsquedas web más profundas y cómo podría uno llenarlas?

Creo que te refieres a la ‘web profunda’: son los sitios que los motores de búsqueda no suelen rastrear. La ‘web oscura’ son servidores que ya no están disponibles a través de Internet.

Pero eso es solo semántica. La mayor parte de su rastreo simplemente ignora nofollows y directivas de robots, por lo que rastrean contenido que Google podría ignorar. También tienden a excluir el contenido por el tipo de razones por las que Google / Bing podría: Baja calidad, casi duplicación, perfiles de enlaces spam, etc.

También hay páginas desvinculadas. No sé el método exacto que usan para rastrearlos, o si incluso se molestan. Es probable que solo esperen a que aparezca un enlace en los foros de discusión.

El trabajo más duro que hacen es rastrear contenido detrás de formularios o inicios de sesión, renderizados a través de secuencias de comandos y entregados de otra manera que los motores de búsqueda no pueden manejar. DeepPeep solía ser un ejemplo de esto, pero no puedo acceder a él en este momento y puede haber desaparecido.

BrightPlanet – BrightPlanet | Deep Web Intelligence: puede ser lo que estás buscando.

Hola, en Digital Shadows monitoreamos una amplia gama de fuentes en nombre de nuestros clientes, incluidas las redes sociales, material indexado por los motores de búsqueda, Internet de dispositivos que filtran contenido y, de hecho, lo que se puede llamar la ‘web oscura’. Esto incluye datos sobre servicios ocultos a los que acceden los ciberdelincuentes. Para hacer esto, utilizamos una variedad de técnicas y tecnologías que incluyen el rastreo web a medida, el uso de API cuando sea apropiado y la adquisición masiva de datos de terceros en algunos casos, entre otros.

Registramos todos los activos de su organización, incluidas las marcas, las filiales, los empleados clave, el logotipo, la cadena de suministro, los formatos de documentos, las aplicaciones móviles, etc., y luego proporcionamos alertas cuando hay un incidente de nota relacionado con esos activos. Utilizamos una combinación de procesamiento de lenguaje natural y aprendizaje automático entre otras técnicas para identificar los incidentes de interés para nuestros clientes en todos los datos que recopilamos, en tiempo real.

Esto se puede usar para detectar problemas de protección de la marca mientras habla, pero nuestros casos de uso principales son para detectar la pérdida de datos y las amenazas cibernéticas para nuestros clientes.

Junto con las corporaciones de nivel 1, actualmente trabajamos con organizaciones sin fines de lucro y podemos aplicar tarifas especiales si esto suena de interés, sin embargo, como dice el usuario de Quora, si su interés es puramente una violación de marca registrada, entonces la web oscura / web profunda probablemente no lo sea. su principal preocupación y es mejor que utilice un servicio especializado en esta área. Estaremos encantados de discutir más si desea ponerse en contacto.

Si su objetivo es monitorear las violaciones de marcas registradas, entonces realmente no le importa la web oscura o la web profunda, le importa la web que las personas realmente miran.