¿Qué deben saber todos sobre la ciencia de datos?

La ciencia de datos es el arte y la ciencia de hacer predicciones dentro de un dominio basado en la aplicación de técnicas estadísticas y de aprendizaje automático. El objetivo de un científico de datos es construir un modelo predictivo para que si se nos da un conjunto de variables de entrada X, hagamos predicciones comprobables sobre algún otro conjunto de variables Y. Por lo general, se nos dará X como entradas e Y puede llegar a ser conocido más adelante .

Todos necesitan saber algunas cosas básicas sobre ciencia de datos:

  1. Basura adentro, basura afuera: si las entradas X son inestables, sus predicciones pueden ser malas, incluso si el modelo es bueno.
  2. Imprevisibilidad: el hecho de que pueda hacer predicciones no significa que el tema sea predecible. Nate Silver cubre esto muy bien en su libro La señal y el ruido: por qué la mayoría de las predicciones fallan pero algunas no (9781594204111): Nate Silver.
  3. Los expertos pueden fallar: medimos la calidad de los modelos por la calidad de sus predicciones sobre los datos a partir de los cuales no se construyeron. No por el currículum o la “credibilidad” de sus creadores. No evaluando la capacidad de favor o la frescura de las técnicas que utilizan.
  4. Modelos evolucionan: el modelo no es la verdad. Si surge un nuevo modelo que hace mejores predicciones, los modelos antiguos y obsoletos deben descartarse (o mejorarse).
  5. Margen de error limitado: todas las predicciones y todas las mediciones tienen un margen de error. Si alguien no puede o no quiere poner una barra de error en su predicción, es inestable y, por lo tanto, inútil.