Para su ejemplo de correo no deseado, considere las posibles respuestas a la pregunta “por qué” y luego considere cómo podría haberse descubierto al leer el correo electrónico no deseado.
Una respuesta podría ser: “su correo electrónico se encontró en un sitio web utilizando un raspador web en la fecha xx2013 y en la fecha xx2014 se vendió a varios spammers como parte de una gran lista de direcciones”.
El spam en sí mismo mostraría picos en ciertas fechas, podría haber algunas compañías o enlaces a algunos servidores comprometidos que componen la mayor parte del spam. Incluso la similitud en la prevención del filtro de correo no deseado podría apuntar a una sola fuente.
Otra respuesta podría ser “Recibo más spam porque mi filtro de spam está desactualizado”. En este caso, esperaría un aumento gradual en el correo no deseado y que las nuevas técnicas para evitar el filtro de correo no deseado estén sobrerrepresentadas en los correos no deseados posteriores.
Note lo que hicimos aquí. Establecimos una hipótesis y luego hicimos predicciones sobre qué estadísticas o aprendizaje automático podrían ayudarnos a verificar o refutar. Las nociones de similitud entre textos es un tema clásico de aprendizaje automático. Pero si comienza su análisis de datos de aprendizaje automático sin una hipótesis inicial, no obtendrá ninguna respuesta porque no ha formulado una pregunta que el análisis de datos pueda responder.
- Cómo manejar grandes cantidades de datos generados a partir de varias fuentes de datos
- ¿Cuáles son algunos proyectos interesantes de Clojure para Big Data y Data Science?
- ¿Se considera que R no es adecuado para Big Data en comparación con Python?
- ¿Cuál es la diferencia entre los archivos .zip, .rar, .deb y .tar?
- ¿Cuáles son las aplicaciones de big data y Hadoop en educación?