¿Se puede utilizar el aprendizaje automático para explicar las tendencias de datos históricos?

Para su ejemplo de correo no deseado, considere las posibles respuestas a la pregunta “por qué” y luego considere cómo podría haberse descubierto al leer el correo electrónico no deseado.
Una respuesta podría ser: “su correo electrónico se encontró en un sitio web utilizando un raspador web en la fecha xx2013 y en la fecha xx2014 se vendió a varios spammers como parte de una gran lista de direcciones”.
El spam en sí mismo mostraría picos en ciertas fechas, podría haber algunas compañías o enlaces a algunos servidores comprometidos que componen la mayor parte del spam. Incluso la similitud en la prevención del filtro de correo no deseado podría apuntar a una sola fuente.
Otra respuesta podría ser “Recibo más spam porque mi filtro de spam está desactualizado”. En este caso, esperaría un aumento gradual en el correo no deseado y que las nuevas técnicas para evitar el filtro de correo no deseado estén sobrerrepresentadas en los correos no deseados posteriores.

Note lo que hicimos aquí. Establecimos una hipótesis y luego hicimos predicciones sobre qué estadísticas o aprendizaje automático podrían ayudarnos a verificar o refutar. Las nociones de similitud entre textos es un tema clásico de aprendizaje automático. Pero si comienza su análisis de datos de aprendizaje automático sin una hipótesis inicial, no obtendrá ninguna respuesta porque no ha formulado una pregunta que el análisis de datos pueda responder.

More Interesting

¿Cómo hizo el experto en aprendizaje automático Michael Jordan, de UC Berkeley, la transición de una licenciatura en psicología a las matemáticas y la informática, y qué motivó estas transiciones?

¿Cómo aportamos el tipo de credibilidad a nuestra implementación y análisis de big data que disfrutan las prácticas tradicionales de gestión de la información basadas en modelos canónicos?

¿Qué clases debo tomar en CMU si quiero ser un científico de datos?

Si puedo tomar Introducción al aprendizaje automático o un segundo curso de Estadísticas, pero no ambos, ¿cuál es mejor para la ciencia de datos?

(MS en ciencia de datos) VS. (Maestría en certificación CS + en ciencia de datos), ¿qué ruta es mejor?

¿Qué necesitaría para configurar una arquitectura de Big Data?

¿Qué MOOCs en matemáticas y estadísticas existen para la ciencia de datos y el aprendizaje automático?

¿Cuáles son los conceptos clave en la clasificación de datos?

¿Qué es el software Tally? ¿Cómo ayuda a capturar los datos del canal?

¿Qué opinas sobre la plataforma de ciencia de datos de Domino?

¿Conoces una herramienta que te permita dibujar flujos ponderados en un mapa desde un conjunto de datos?

¿Se reemplazará la econometría por la ciencia de datos?

¿Cómo afectaría exactamente la falta de experiencia en programación Java a la competencia de uno en Hadoop y su pila de tecnología?

¿Qué campo es mejor (para el crecimiento profesional en TI y seguridad laboral en los próximos cinco años), RPA (Robotics Process Automation) o Data Science?

Cómo convertirse en un desarrollador de Big Data a los 33 años sin experiencia previa en esta área