¿Cuál es la parte científica de la ciencia de datos?

¡El método científico es la parte científica! No hay nada sobre el método científico que impida su uso en los datos:

  • Haz una observación. Analiza los datos. Vea si tiene grupos o patrones. Observe la media, la mediana, la distribución, los valores atípicos, etc. Existen algunas herramientas de software que pueden ayudarlo con esto.
  • Formular una hipótesis. Esto está en tu cabeza al analizar los datos. A medida que observa los patrones del paso anterior, puede comenzar a ver cosas. O, a veces, existen herramientas de creación de perfiles que pueden proponerle hipótesis, pero rara vez un costo le saca de la necesidad de conocer el dominio de su problema.
  • Realizar un experimento. Este no es tan obvio. Pero usa algunos de sus datos para entrenar un modelo matemático que se ejecuta en los datos. Luego ejecuta datos de prueba a través de ese modelo y ve cómo funciona. Esto trae a colación todo el tema del aprendizaje automático, que analizo muy brevemente a continuación.
  • Obtener una conclusión. Esta es la fase de puntuación del proceso de aprendizaje automático. Te dice si tu modelo predice algo con precisión.
  • Repetir. Si su conclusión no es útil, comience nuevamente desde arriba.
  • Publicar. En ciencia “pura”, esto significa algo así como publicar un artículo. Como la mayoría de la ciencia de datos ocurre en los negocios, esto significa incluirlo en algún tipo de software de producción.

El aprendizaje automático es fundamental para todo esto. Por ejemplo:

Supongamos que tiene una lista de todos los jugadores de béisbol de este año. Tienes su peso, altura, edad y registro de bateo. Usted hace la observación de que los jugadores más jóvenes y más fornidos tienden a hacerlo mejor, y plantea la hipótesis de que esto se repetirá en los próximos años.

Pide a un algoritmo de aprendizaje automático que vea cómo su peso, altura y edad predicen su historial de bateo. Luego, desea predecir los registros de bateo del próximo año, que aún no tiene. Pero sí tienes su peso, altura y edad para el año nuevo. Entonces le dices al algoritmo esas tres cosas, y hace una predicción sobre el récord de bateo para el próximo año. Luego realiza un experimento con estas predicciones apostando sus ahorros de por vida en los resultados del próximo año.

Rápidamente pierde todo su dinero porque esta era una hipótesis terrible, pero era un experimento muy legítimo, y llega a la conclusión de que hay más para hacer predicciones que simples algoritmos de aprendizaje automático (¡tiene que conocer el dominio del problema!) y que estas entradas no son lo suficientemente predictivas.

Decide no repetir este esfuerzo, y publica sus resultados en su blog donde le dice a la gente que el aprendizaje automático no es su actuación y pregunta si alguien tiene algún trabajo de hamburguesa que pueda recomendarle.