¿Es legal el raspado web para hacer aprendizaje automático?

Para responder a su pregunta, debemos dejar de lado temporalmente el aspecto del aprendizaje automático, ya que eso no afecta en absoluto nuestro análisis.

Sin más detalles sobre lo que quiere decir con “web scraping”, tengo que considerar los diferentes métodos que podría utilizar. La primera opción que veré es usar una API oficial de primera parte.

Cada API que he usado tiene unos términos de servicio / términos de uso que debe aceptar antes de que se le otorgue su clave API / token / etc. Estos TOS son a lo que la ley se refiere genéricamente como acuerdos click-wrap . Un acuerdo de ajuste de clics es un contrato que el usuario final acepta afirmativamente antes de poder acceder a un servicio en particular. Debido a que debe aceptar activamente los términos (ya sea que los lea o no, y confíe en mí, sé que nadie los lee) se le ha dado una notificación constructiva a los términos del contrato. Por lo general, esos TOS son muy estrictos sobre cómo y para qué fines puede usar la API en cuestión, y eso generalmente le impide usarla para raspar datos. Por lo tanto, si usa esa API para su proyecto de scraping, está incumpliendo el contrato. Es probable que se revoque su acceso, y es probable que también sea demandado.

Alternativamente, en lugar de usar una API oficial de primera parte, tal vez intente crear su propio raspador de pantalla personalizado que use la misma interfaz web que usa un visitante estándar del sitio. La mayoría de los sitios web públicos también tienen términos de servicio. Sin embargo, a diferencia de nuestro ejemplo de API, estos TOS existen simplemente como un enlace en el pie de página. No hay un llamado a la acción o un requisito para la mayoría de los visitantes del sitio para leerlos o aceptarlos. Estos tipos de acuerdos se conocen como acuerdos de ajuste de navegación . Los acuerdos de ajuste de exploración son distintos de los acuerdos de ajuste de clic en que los primeros no requieren el consentimiento afirmativo del usuario final. Y sin este asentimiento afirmativo, no hay aviso constructivo. La jurisprudencia no está completamente resuelta en este tema, pero los tribunales se están moviendo constantemente hacia la interpretación de que estos acuerdos NO son aplicables contra los usuarios finales.

Hay una gran e importante excepción en el escenario de raspado de pantalla. Si estamos tratando con un sitio que requiere un inicio de sesión para tener acceso completo (por ejemplo, Facebook, Twitter, Quora), entonces probablemente estemos tratando con un sitio que tiene un acuerdo de ajuste de clic y NO un acuerdo de ajuste de exploración. Recuerde, la distinción es si el usuario final tiene que aceptar los términos para usar la plataforma. Cuando se registra para obtener una cuenta en la mayoría de los sitios de redes sociales, hace exactamente eso.

Finalmente, es importante tener en cuenta que para todos los escenarios anteriores, si una cabeza de huevo legal como yo pensaría que estás en el lado correcto de la ley, aún podrías estar en mayor riesgo si te metes con las personas equivocadas. En teoría, de lo que estamos hablando es de un reclamo por incumplimiento de contrato y, por lo general, para tal reclamo, su responsabilidad se limitará a los daños que la parte perjudicada pueda probar. Sin embargo, gracias a la aberrable CFAA, estas infracciones de contrato pueden tratarse como delitos federales que lo ponen en riesgo de varios años de prisión.

Entonces, a menos que desee ser un mártir y defender a los investigadores y científicos de datos, es posible que desee evitar esto por completo.