¿Qué conceptos puedo aprender sobre ciencia de datos en 15-20 minutos?

Bueno, con 15 minutos no vamos a hablar de pensamientos técnicos profundos o incluso de sintaxis CS en absoluto; Así que mencionaré un consejo de visualización rápida ya que a menudo tenemos que mostrar nuestros datos a las personas:

Personalice todos sus trazados en el entorno en el que los va a mostrar. Las opciones de trazado predeterminadas en casi todos los paquetes de visualización son MUY MALAS.

Un gran infractor es Excel, las líneas de la cuadrícula son muy ruidosas y terminan abruptamente sin un borde de gráfico, y las fuentes del eje son demasiado pequeñas. Otros delincuentes incluyen MATLAB, R y matplotlib. Estas son todas herramientas hermosas una vez configuradas correctamente, y pueden hacer gráficos de primer nivel, es una pena que los valores predeterminados sean tan malos.

Debería poder leer las fuentes en cualquier gráfico que vaya a mostrar desde la fila de atrás de cualquier habitación en la que se presente.

El algoritmo de vecinos K más cercanos: ha etiquetado los datos de entrenamiento (muestras que comprenden “características” que pertenecen a una determinada clase). Desea predecir la etiqueta de una nueva muestra sin etiquetar. Usted elige una medida de distancia entre muestras (para características numéricas, esta podría ser la distancia euclidiana, es decir, la raíz cuadrada de la suma de las diferencias al cuadrado entre las características). Luego elige las K muestras en el conjunto de entrenamiento con la distancia más pequeña a su muestra sin etiquetar y le asigna la etiqueta más común entre las K muestras de entrenamiento más cercanas. Acaba de usar K vecinos más cercanos para clasificar una nueva muestra, y el algoritmo seguramente tomó menos de 15 minutos para aprender.