¿Debería darse más reconocimiento a las personas que hacen el trabajo de limpiar conjuntos de datos para que puedan ser utilizadas por personas que ejecutan algoritmos de aprendizaje automático?

Bueno, echemos un vistazo. ¿En qué consiste realmente la limpieza de los datos? Si estamos hablando de formatear datos para que sean legibles por máquina, ese es realmente un trabajo de manipulación de datos. Las personas que lo hacen merecen muchos elogios como ingenieros de software, no como científicos de datos.

Si estamos hablando de la preparación de datos para algoritmos de ML, eso requiere las mismas habilidades de ciencia de datos, y generalmente al mismo nivel, que aquellos que desarrollan y usan los algoritmos.

En otras palabras, hay dos carreras para científicos de datos: analistas de datos y analistas de dominio.

Ambos merecen reconocimiento, pero seamos sinceros: los analistas de dominio no solo tienen análisis de datos, sino también experiencia en el dominio. Hablan con las PYME su idioma y con los estadísticos, el suyo; Por supuesto, obtienen más visibilidad en los niveles superiores.

No conozco ningún ejemplo de esto. En cualquier caso, se me ocurre que la persona que analiza los datos también es responsable de limpiarlos.

Aunque definitivamente es una parte subestimada del proceso. Especialmente cuando se trabaja con conjuntos de datos muy grandes que no pueden verificarse manualmente, asegurarse de que los datos sean precisos y estén formateados correctamente a menudo requiere mucha resolución creativa de problemas.

More Interesting

Cómo explicar la complejidad algorítmica a la abuela en términos simples

¿Cuáles son los mini proyectos que se pueden hacer en el algoritmo para el procesamiento de imágenes y videos?

Cómo combinar la ordenación por fusión y la ordenación por peine

Cómo hacer una selección aleatoria ponderada discreta en tiempo constante

¿Cuál es el mejor sitio para aprender la estructura de datos y el algoritmo?

¿Por qué no puede haber un algoritmo de clasificación que tenga el mejor y el peor caso de N tiempo de ejecución (por ejemplo, lineal)?

Dada una lista de enlaces con punteros derechos, cada elemento de la lista tiene un enlace descendente que contiene otra lista de enlaces con punteros descendentes, de modo que cada lista derecha y abajo están ordenadas. ¿Cuál es la forma más rápida de aplanar la lista de enlaces de forma ordenada?

¿Qué escenario aplica algoritmo y estructura de datos?

¿Por qué la complejidad temporal no devuelve el tiempo de ejecución exacto de un algoritmo?

¿Con qué tipo de algoritmo debo comenzar desde el principio?

¿Existen algoritmos que estructuran datos previamente no estructurados utilizando 'etiquetas' definidas por el usuario?

Cómo dominar las estructuras de datos y los algoritmos (DSA) para mejorar mis habilidades de resolución de problemas que eventualmente serán útiles en las entrevistas

¿Por qué prácticamente todos los algoritmos de ascensor son tan ineficientes y cuáles son las razones por las que aún no se han optimizado?

¿Qué algoritmos de programación utiliza cada sistema operativo común?

¿Cuál es un ejemplo de un problema causado por la escritura dinámica en la programación?