¿Cuáles son las dificultades comunes para los nuevos desarrolladores en aprendizaje automático?

Algunos de los errores comunes cometidos por los nuevos ingenieros de Machine Learning son:

  1. Reinventar soluciones a problemas comunes: antes de comenzar a desarrollar un nuevo algoritmo para resolver un problema, realice una búsqueda rápida para ver si ya se ha resuelto un problema similar. Esto puede ahorrarle tiempo y recursos valiosos.
  2. Saltarse la teoría: solo leer algunos artículos en el periódico sobre Machine Learning lo actualizará sobre las últimas herramientas que puede utilizar para aumentar su eficiencia. Sin embargo, no lo prepara para resolver problemas del mundo real utilizando Machine Learning (también conocido como ML). Asegúrese de leer buenos libros sobre los conceptos básicos de ML. También repase las matemáticas involucradas.
  3. Manejo de datos incorrecto : necesita mejorar sus habilidades de manejo de datos para ML. Debe limpiar los datos de manera eficiente, visualizarlos para facilitar la interpretación por parte de personal no técnico y almacenarlos de manera efectiva, para que cualquiera pueda acceder a ellos.
  4. Falta de conocimiento de las herramientas: debe mantenerse actualizado sobre las últimas tendencias y herramientas para el aprendizaje automático. Esto puede ayudarlo a ahorrar tiempo en proyectos. Configure una alerta de Google para estar al tanto de los últimos desarrollos en ML.

Hola,

Quiero resaltar que no hablaría de mí mismo como experto en aprendizaje automático, pero me topé con algunas trampas que creo que me hacen un buen candidato para responder a esta pregunta.

Iré con: usando las herramientas incorrectas . Mucha gente dice “haré aprendizaje automático, el periódico me dice que el aprendizaje profundo es una cosa”. Piden un montón de libros sobre aprendizaje profundo, etc. y varios cientos de dólares y muchas horas después, se dan cuenta de que no necesitan un aprendizaje profundo (yo mismo tuve este escollo). Al final (en mi opinión), la mayoría de los problemas de aprendizaje automático con los que se topan las personas se pueden resolver utilizando técnicas bastante simples. Entonces, debe comenzar a aprender sobre el aprendizaje automático desde abajo, no comience con las técnicas más complicadas.

Segundo problema: la maldición de la dimensionalidad . En la mayoría de los casos (que encontré), el problema principal es que muchas técnicas necesitan una gran cantidad de conjuntos de muestras de datos de aprendizaje. Por ejemplo, Googles AlphaGo usó más de 100k juegos de aficionados para aprender las reglas de Go. Sin embargo, en situaciones de la vida real, el problema es en su mayoría difícil de evaluar o hay “solo” varios cientos de conjuntos disponibles, lo que hace que la función de transmisión de su modelo no sea realmente única. Sin embargo, darse cuenta de que su modelo no es único y que está submuestreado (o tal vez sobremuestreado) requiere algo de experiencia.

  1. Asumiendo que los buenos resultados son realmente válidos
  2. No extraer datos de prueba y separarlos de su entrenamiento
  3. Usar datos de prueba durante el entrenamiento
  4. No saber qué hacer con los valores perdidos o asumir que no tiene ninguno
  5. No limpiar sus datos de manera efectiva o eficiente
  6. No escalar valores antes de entrenar una regresión (el descenso del gradiente sufre cuando las escalas de sus datos son muy diferentes)
  7. Asumiendo que su modelo es perfecto y que el modelo rara vez se equivoca en casi cualquier situación
  8. Aplicar el aprendizaje automático en situaciones en las que no es apropiado o ineficiente.
  9. Uso de datos de prueba durante el ajuste de parámetros (es una forma de entrenamiento)