¿Es legal el raspado web para hacer aprendizaje automático?

Para responder a su pregunta, debemos dejar de lado temporalmente el aspecto del aprendizaje automático, ya que eso no afecta en absoluto nuestro análisis.

Sin más detalles sobre lo que quiere decir con “web scraping”, tengo que considerar los diferentes métodos que podría utilizar. La primera opción que veré es usar una API oficial de primera parte.

Cada API que he usado tiene unos términos de servicio / términos de uso que debe aceptar antes de que se le otorgue su clave API / token / etc. Estos TOS son a lo que la ley se refiere genéricamente como acuerdos click-wrap . Un acuerdo de ajuste de clics es un contrato que el usuario final acepta afirmativamente antes de poder acceder a un servicio en particular. Debido a que debe aceptar activamente los términos (ya sea que los lea o no, y confíe en mí, sé que nadie los lee) se le ha dado una notificación constructiva a los términos del contrato. Por lo general, esos TOS son muy estrictos sobre cómo y para qué fines puede usar la API en cuestión, y eso generalmente le impide usarla para raspar datos. Por lo tanto, si usa esa API para su proyecto de scraping, está incumpliendo el contrato. Es probable que se revoque su acceso, y es probable que también sea demandado.

Alternativamente, en lugar de usar una API oficial de primera parte, tal vez intente crear su propio raspador de pantalla personalizado que use la misma interfaz web que usa un visitante estándar del sitio. La mayoría de los sitios web públicos también tienen términos de servicio. Sin embargo, a diferencia de nuestro ejemplo de API, estos TOS existen simplemente como un enlace en el pie de página. No hay un llamado a la acción o un requisito para la mayoría de los visitantes del sitio para leerlos o aceptarlos. Estos tipos de acuerdos se conocen como acuerdos de ajuste de navegación . Los acuerdos de ajuste de exploración son distintos de los acuerdos de ajuste de clic en que los primeros no requieren el consentimiento afirmativo del usuario final. Y sin este asentimiento afirmativo, no hay aviso constructivo. La jurisprudencia no está completamente resuelta en este tema, pero los tribunales se están moviendo constantemente hacia la interpretación de que estos acuerdos NO son aplicables contra los usuarios finales.

Hay una gran e importante excepción en el escenario de raspado de pantalla. Si estamos tratando con un sitio que requiere un inicio de sesión para tener acceso completo (por ejemplo, Facebook, Twitter, Quora), entonces probablemente estemos tratando con un sitio que tiene un acuerdo de ajuste de clic y NO un acuerdo de ajuste de exploración. Recuerde, la distinción es si el usuario final tiene que aceptar los términos para usar la plataforma. Cuando se registra para obtener una cuenta en la mayoría de los sitios de redes sociales, hace exactamente eso.

Finalmente, es importante tener en cuenta que para todos los escenarios anteriores, si una cabeza de huevo legal como yo pensaría que estás en el lado correcto de la ley, aún podrías estar en mayor riesgo si te metes con las personas equivocadas. En teoría, de lo que estamos hablando es de un reclamo por incumplimiento de contrato y, por lo general, para tal reclamo, su responsabilidad se limitará a los daños que la parte perjudicada pueda probar. Sin embargo, gracias a la aberrable CFAA, estas infracciones de contrato pueden tratarse como delitos federales que lo ponen en riesgo de varios años de prisión.

Entonces, a menos que desee ser un mártir y defender a los investigadores y científicos de datos, es posible que desee evitar esto por completo.

En general, la forma aceptada de rastrear una página web es revisar el archivo robots.txt y el uso de los datos extraídos se puede confirmar a través de los términos del servicio.

En cuanto al aprendizaje automático, no hay restricciones en su aplicación siempre que la página web pueda rastrearse legalmente. Actualmente estamos utilizando técnicas de aprendizaje automático para una de nuestras soluciones llamada JobsPikr que extrae diariamente datos de trabajo de miles de sitios.

A menos que cumplamos con las reglas. Al raspar debemos tener en cuenta algunas cosas.

  • En primer lugar, debemos verificar si /robots.txt lo permite. Consulte esta página para obtener más información Robots.txt. Si esto dice Ok para rastrear una página en particular, podemos raspar y también es legal.
  • En segundo lugar, incluso cuando el archivo robots.txt permite el raspado, debemos mantener la máxima cortesía, debemos mantener el retraso entre las solicitudes, para que no afecte el tráfico normal al sitio web. Si enviamos toneladas de solicitudes al sitio web, puede equivaler a un escenario similar a DDos y se vuelve ilegal.
  • Tercero, identifíquese mientras rastrea, asigne un nombre de bot adecuado e incluso UserAgent. En caso de cualquier problema o inquietud, la autoridad del sitio web correspondiente puede acercarse a usted.

Las cosas anteriores son para raspar el sitio web normal. Los sitios web de redes sociales como Facebook, Twitter y Google proporcionan Api y definen varios límites. Espero que esta información sea suficiente …

El raspado no tiene nada que ver con el aprendizaje automático. Se trata de términos y condiciones de cada sitio web. Si raspa datos sin aceptar los términos y los usa para su propósito, no es legal. Por ejemplo, Quora no permite el raspado de datos. Puede usar datos abiertos o conjuntos de datos proporcionados libremente en línea.

Depende. La mayoría de los sitios como quora tiene un límite de velocidad para el raspado web como no más de 1 solicitud por segundo.

Muchos sitios proporcionan API para acceder a sus datos. Facebook tiene una API. El desbordamiento de pila tiene una API. Muchos otros sitios tiene. Úsalos siempre que sea posible. De lo contrario, no intente atacar la privacidad de esos sitios.