¿Cuáles son los errores más comunes que cometen los nuevos científicos de datos?

Pensar en el aprendizaje profundo y los grandes datos es la solución para todo.

Este es el error más común que veo entre los nuevos científicos de datos. Si bien el aprendizaje profundo ha demostrado un rendimiento de vanguardia en algunos dominios problemáticos, como la visión por computadora, existen muchos otros algoritmos que son más apropiados en otros casos. La regresión lineal y los árboles de decisión simples todavía se encuentran entre los algoritmos más útiles en la ciencia de datos. Hay metaheurísticas, varias técnicas de simulación y un montón de otras clases de algoritmos de los que casi nadie habla nunca más. Los científicos de datos sin experiencia a menudo pensarán que son “obsoletos”. Bueno, eso simplemente no es cierto.

En cuanto a Big Data, es más un problema que una solución. La mayoría de las veces, tratamos de mantener los datos en un volumen manejable, solo recurriendo a las tecnologías de big data cuando es necesario. Además, más datos no significa automáticamente más valor. Anteriormente he discutido esto en la respuesta de Håkon Hapnes Strand a ¿Los científicos de datos necesariamente trabajan con grandes datos?

Prefiere soluciones complejas a las simples.

Los científicos de datos sin experiencia adoran los algoritmos complejos, porque suenan geniales. Puede sentirse bien consigo mismo cuando está trabajando en una topología de aprendizaje profundo altamente compleja y esotérica, pero si puede lograr el mismo resultado con una regresión lineal, solo está perdiendo el tiempo. En igualdad de condiciones, la solución más simple es la mejor. Recuerda la navaja de Occam [1]. Sé que has oído hablar de eso.

Modelado antes de entender.

Todo científico de datos en ciernes debería analizar detenidamente el Proceso estándar de la industria cruzada para la minería de datos o el CRISP-DM [2]. Es un acrónimo horrible, pero hay una razón por la cual este ha sido el estándar de la industria durante dos décadas. Un proyecto de ciencia de datos comienza con la comprensión empresarial, la comprensión de datos y la preparación de datos. Esto es realmente importante Un científico de datos sin experiencia puede verse tentado a saltar directamente al modelado, pero eso solo será contraproducente.

Ver patrones donde no hay ninguno.

Los humanos tienen un talento increíble para encontrar patrones en los datos, incluso donde no los hay. Incluso hay una palabra para eso, se llama apofenia [3]. Hemos observado los cielos y hemos visto figuras y constelaciones en las estrellas desde los albores del hombre, sin embargo, las estrellas son solo puntos al azar. Los científicos de datos sin experiencia a menudo se sienten tentados a poner demasiado en series de datos correlacionadas. Recuerde, niños y niñas, la correlación no es lo mismo que la causalidad [4].

No pasar suficiente tiempo en ingeniería de características.

Aquí es donde Kaggle puede enseñarnos algo. La ingeniería de características sólidas puede obtener una puntuación muy alta en la tabla de clasificación con un algoritmo de aprendizaje relativamente simple. Los científicos de datos sin experiencia pueden pensar que el apilamiento de modelos sofisticados y el ajuste de hiperparámetros es donde se debe tener toda la ventaja, pero esas son principalmente técnicas en las que los ganadores de las competiciones de Kaggle dedican mucho tiempo para obtener esos últimos pocos puntos decimales en la puntuación. En un entorno del mundo real, esta fantasía no es rentable y solo contribuye a una mayor complejidad. Sin embargo, la ingeniería de características puede mejorar enormemente los resultados.

No pasar suficiente tiempo hablando con expertos en dominios.

Cada proyecto exitoso de ciencia de datos consta de tres personas clave: un científico de datos, un experto en dominios y un experto en datos. El experto en dominios es alguien con una buena comprensión del negocio, mientras que el experto en datos es idealmente un ingeniero de datos que está íntimamente familiarizado con los datos. Muchos científicos de datos sin experiencia intentan ser los tres a la vez. A menos que esté trabajando en un problema dentro de su propia organización y haya trabajado allí durante varios años, necesita ayuda.

Ser descuidado con la prueba de hipótesis.

Si usa el mismo conjunto de datos para validación cruzada y pruebas, su modelo estará sujeto a sesgos de selección. Los científicos de datos que recién están comenzando parecen amar la buena y antigua división de tren / prueba 70/30, pero esto no es lo suficientemente bueno. Debe probar su modelo correctamente en producción para evaluar realmente su rendimiento.

Notas al pie

[1] Navaja de Occam – Wikipedia

[2] Proceso estándar de la industria cruzada para la minería de datos – Wikipedia

[3] Apophenia – Wikipedia

[4] 15 cosas locas que se correlacionan entre sí

Ciencia de datosCientíficos de datostrabajos y carreras en ciencia de datos

¿Qué se puede inferir de esta gráfica de función de autocorrelación con pendiente descendente totalmente positiva?

¿Cuál es el objetivo principal de la minería de datos con big data?

¿Cuáles son los casos de uso que aprovechan la tecnología Big data y Blockchain en los servicios financieros?

¿Por qué hay muchos módulos en el ecosistema hadoop en lugar de un solo módulo?

¿Cuáles son los fundamentos de la ciberseguridad?

¿Cuál es el equilibrio entre técnica e intuición para un científico de datos exitoso?

Ahora es realmente un buen momento para que florezcan los nuevos científicos de datos, hay sitios web muy buenos en auge con muy buen contenido y el proceso de cómo ascender en la escala se está volviendo mucho más claro de lo que era hace un par de años.

Pocos errores cuando estaba en mi vida temprana como científico de datos podrían ayudarlo a conectarse.

Muy poca comprensión de los datos directamente salta al modelado

Cuando se familiarice con muchos problemas de aprendizaje automático, una vez que tenga los datos en lugar de comprender los datos y cómo se distribuyen, utilizo para ir directamente a construir un bosque aleatorio / Xgboost y verificar qué tan bueno es el modelo y ajustar los hiperparámetros para llegar al final.
La regla del golpe sería pasar suficiente tiempo en la comprensión de los datos, pasar tiempo en gráficos uni-variantes, diagrama bivariante con la variable objetivo y todas las variables independientes , gastar tiempo en comprender si tiene alguna colinealidad múltiple en los datos e intentar caer variables altamente correlacionadas Hasta que no pase el tiempo suficiente para comprender los datos, nunca mejorará su confianza como científico de datos.

Comprender los fundamentos

En el mundo actual, donde las técnicas de refuerzo / caja negra están superando casi todo el problema del aprendizaje automático. No nos esforzamos por comprender las matemáticas detrás, sino que trabajamos en ajustar el modelo.
La pregunta que debemos hacernos es por qué estos parámetros de ajuste funcionaron y qué matemática realmente ha hecho que estos parámetros de ajuste sean los mejores (esto lo ayudará cuando encuentre datos similares en el futuro). También comprender los fundamentos de cómo funciona cada algoritmo de aprendizaje automático ayuda a explicar los resultados (cuando tiene solo unos pocos puntos de aumento de datos puede funcionar bien, pero SVM puede superarlo y puede comprender el modelo observando vectores de soporte, bosque aleatorio para importancia variable)

Definición de problemas de ciencia de datos y creación de datos

Como parte de las competiciones en línea, todos hemos dado la declaración del problema, los datos de entrenamiento y los datos de prueba, pero en el mundo real el escenario es diferente, debe decidir cómo dividir los datos qué datos elegir y esto cambiaría por completo en comparación con la competencia.
Tomemos un escenario, tengo un artículo que quiero saber si ese artículo será popular o no. Tengo datos de todos los artículos de quora con votos positivos y comentarios. Cuando construyo un modelo, los votos positivos y los comentarios podrían reunir buenas características para comprender la popularidad, pero cronológicamente todos obtendrían 0 votos positivos 0 comentarios. Por lo tanto, elegir las variables independientes correctas al resolver un problema será extremadamente importante.

Gracias por la pregunta, tuvo una revisión de todo mi viaje.

Feliz aprendizaje 🙂

Gilbert Doan

Hola:

Aquí hay algunos errores comunes que he visto.

No entender el problema del negocio: Definir el problema del negocio y obtener la aceptación de los interesados en la comprensión del problema del negocio es absolutamente imprescindible.
Falta de contexto empresarial: los científicos de datos exitosos deben centrarse en desarrollar suficiente experiencia en el dominio.
No seguir el proceso de pensamiento estructurado: los marcos de resolución de problemas como MECE (Mutuamente Exclusivo Colectivo Exhaustivo) ayudan enormemente.
Análisis- Parálisis- Solo haga el análisis que se requiera. No lo conviertas en un proyecto de doctorado.
Soluciones complejas innecesarias : no haga que el análisis y la solución sean muy complejos a menos que sea necesario. Lo simple es más hermoso
Mala comunicación : la mayoría de los científicos de datos luchan con la forma de tomar una solución estadística compleja y traducirla al inglés simple para que todos los interesados puedan entender.

Aquí están mis 10 indicadores principales para ser un científico de datos exitoso.

Aprende tanto como sea posible. Pase de 4 a 5 horas cada semana en el aprendizaje y el desarrollo y conozca lo último en la industria
Desafío del status quo. Nunca suponga que lo que se está haciendo está siguiendo el enfoque más efectivo
Cree que eres igual a todos los demás en la jerarquía. No tengas miedo de decir lo que piensas
Concéntrese en la innovación y salga con la tierra rompiendo ideas en lugar de hacer el negocio como de costumbre.
Concéntrese en desarrollar excelentes habilidades de comunicación y habilidades blandas, ya que esta es una de las mayores brechas que he visto en los profesionales de análisis
No te conviertas en un pony de un solo truco. trate de obtener exposición en diferentes industrias y diferentes áreas funcionales.
Participe en competiciones y eventos como Kaggle, para saber cuál es su posición frente a su grupo de compañeros.
Intente escribir libros blancos y blogs sobre su experiencia en el tema.
Desarrollar experiencia en el dominio ya que sin ese análisis no es efectivo.
Finalmente, mantenga siempre una visibilidad clara de su fortaleza y oportunidades y de cualquier punto ciego. Busque activamente comentarios de su grupo de pares y sus superiores.

Espero que esto ayude.

¡Salud!

Gracias por sus votos a favor de antemano. Me mantienen en marcha! ¡Gracias!

Descargo de responsabilidad: las opiniones expresadas aquí son únicamente las del escritor en su capacidad privada

Gilbert Doan

¿Cuáles son los errores más comunes que cometen los nuevos científicos de datos?

Todos cometen errores en su trabajo. Especialmente si eres un analista de consultoría. Por lo general, no comprende completamente el alcance de un proyecto y no trabaja lo suficientemente cerca del propietario del negocio para responder las preguntas que no hicieron (sé que parece que no sería su culpa, pero confíe en mí , será). Esos errores no se pueden evitar.

Sin embargo, en lo que respecta a su carrera, recientemente me di cuenta del error n. ° 1 que cometen los estudiantes y los nuevos científicos de datos.

Enseño a tiempo parcial y el primer día de clase, un estudiante se me acercó y me preguntó: “¿Vamos a aprender SAS este semestre?” Lo cual, me han hecho preguntas similares antes, y las respondo sinceramente, sí o no, dependiendo del curso que esté impartiendo. Pero esta clase fue un poco diferente, o tal vez yo soy un poco diferente ahora. Era la primera vez que enseñaba un curso de MBA, y estaba destinado a tener un alcance un poco más amplio que los cursos de estadística que enseño normalmente. Mi respuesta fue: “No importa”. Y lo dije en serio.

El peor error n. ° 1 es centrarse en una sola habilidad técnica, ya sea un lenguaje de programación o escribir un algoritmo de tipo específico. Lo único que importa es “responder la pregunta”. Si eso se puede hacer en Excel … genial. Si tiene que aprender a escribir expresiones regulares en Perl para analizar el texto y luego implementar su modelo en una base de datos SAP, eso es lo que debe hacer. Algunas cosas se pueden hacer en SAS (o R, Python, Knime, etc.), otras no. A menudo, puede resolver un problema en SAS, pero luego necesita descubrir cómo ponerlo en funcionamiento en Access, porque eso es con lo que el cliente está familiarizado. Aprender un solo paquete de software eventualmente lo limitará, especialmente si está buscando trabajar para una empresa que no usa esa herramienta. Y si se especializa en una herramienta con licencia como SAS o Matlab, entonces su empleador potencial debe tener en cuenta el costo de la licencia.

No te especialices … generaliza (tanto en tu carrera como en tus modelos). Aprenda a responder preguntas de varias maneras. Y enfóquese en los fundamentos: comprenda el problema comercial, comprenda los datos, cree el modelo, repita con el negocio, valide e implemente (CRISP-DM). El software estadístico solo constituye una pequeña parte de ese proceso.

Michael Stansky

Creo que todas las otras respuestas son bastante buenas, solo quería agregar un par más que no se han mencionado hasta ahora:

Sin conocer los límites de sus métodos : EL CUARTO CUADRANTE: UN MAPA DE LOS LÍMITES DE ESTADÍSTICAS / Cuidado con los grandes errores de ‘Big Data’
Pensando que saber cómo ejecutar / codificar alguna prueba estadística o alguna herramienta de aprendizaje automático es mejor que comprender las matemáticas o incluso la razón detrás de ellas : he escuchado a muchas personas que “quieren aprender R o Python”, pero casi ninguna “Quiero aprender cómo funciona una cópula o la distancia KL-distancia”. Esto también se conecta al # 1: todos pueden crear un modelo de regresión lineal, pero pocos realmente lo entienden.
No tener aspecto en el juego : si no saben dónde y cómo se rompen sus modelos, es fácil para ellos “pasar la culpa” a los usuarios de sus modelos si algo sale mal, posiblemente afirmando que “no es lo que el modelo hace para “o algo similar.

Dean Inada

Cualquiera puede tocar la guitarra. La guitarra hará algo de sonido si se toca. Sin embargo, el sonido que genera no será mejor que un ruido si el jugador no es competente. Se necesitan varios años de práctica para convertirse en una tonelada de estas.

Cualquiera puede hacer trabajo de ciencia de datos. El trabajo de ciencia de datos hará algunos informes si se intenta. Sin embargo, los informes que genera no serán mejores que un ruido si el científico de datos no es competente. Se necesitan varios años de práctica para convertirse en un científico de datos indiscutiblemente bueno.

Algunos errores comunes cometidos por algunos científicos de datos:

DS no presta atención al objetivo del juego. El objetivo es analizar la rentabilidad, pero el DS solo analiza los ingresos.
DS no presta atención a la materialidad de varios proyectos. El proyecto A puede alcanzar $ 1K y el proyecto B puede alcanzar $ 1M, pero DS se enfoca más en el proyecto A.
DS no cumple con los plazos. Se necesita un informe dentro de una hora, pero DS tarda una semana.
DS no proporciona informes comprensibles. El equipo de marketing necesita un gráfico simple, pero DS prepara un informe de 100 páginas.
DS comienza con herramientas incorrectas. Se puede hacer un cálculo simple en Excel, pero DS usa TensorFlow. Una tarea complicada necesita TensorFlow, pero DS usa Excel.

Gilbert Doan

Data Science todavía está en los bloques y tiene un largo camino por recorrer. Sin embargo, aquí es donde los científicos que trabajan con datos tienden a cometer algunos errores. Estos son algunos de los errores comunes que suelen cometer en su trabajo, lo que conlleva mayores implicaciones.

No priorizan la comunicación; también lo he dicho en algunas de mis otras respuestas. La comunicación es la clave del éxito. Especialmente para un profesional de la ciencia de datos, es fundamental comunicarse bien con las partes interesadas. Por lo general, no hacen eso y mantienen sus comunicaciones insatisfactorias (para las partes interesadas). Los científicos de datos deben darse cuenta de que las ideas que derivan de su análisis deben estar en línea con el objetivo de las organizaciones.

A menudo se centran más en los datos y menos en los negocios. De nuevo, esto es una extensión del primer punto. Aparentemente, los científicos de datos son hombres que son geniales con los números y que derivan las ideas de un patrón. Sin embargo, el trabajo no termina allí y se extiende mucho más allá de eso. La idea de obtener información de los datos es implementarlos en el negocio y hacerlo más rentable. Esto es algo que muchos científicos de datos no se dan cuenta y creen que su tarea termina solo después de extraer un patrón de los datos.

Estos son dos puntos cruciales que creo que los aspirantes y jóvenes científicos de datos deben tener en cuenta para crecer y convertirse en una parte integral del éxito de sus negocios. También le encantaría leer este blog sobre 5 errores comunes de ciencia de datos y formas de evitarlos.

Michael Stansky

Asumir que los datos de entrenamiento son perfectos.

Si las etiquetas tienen errores, el modelo será imperfecto. Si los datos de validación provienen de la misma fuente que los datos de entrenamiento, aunque el modelo nunca haya visto estos datos, ¡funcionará bastante bien! Pero cuando este modelo pasa a producción, los errores de los datos de entrenamiento vuelven de manera extraña, lo que hace que la precisión del sistema sea más baja de lo que podría haber imaginado en todo el análisis.

Aprendí este punto de la manera difícil.

Michael Stansky

Indagación de datos https://work.caltech.edu/library …

Gilbert Doan

More Interesting

¿Qué es el soporte y la confianza en la minería de datos?

¿Cuáles son los mejores campos de arranque de ciencia de datos en términos de inserción laboral?

¿Cuál es el mejor MOOC para comenzar en Data Science?

¿Cuál es su opinión sobre el Programa Insight Data Science Fellows?

¿Cómo debe medirse el rendimiento de un equipo de ciencia de datos como una unidad? Por ejemplo, si lideraba el equipo de ciencia de datos de LinkedIn, ¿cómo debería evaluar mi desempeño el CEO?

¿Cuál es el vínculo entre el análisis web y el aprendizaje automático? Fui entrevistado para un rol de ciencia de datos / aprendizaje automático y me ofrecieron el trabajo de analista web. ¿Es similar?

¿Cuál es el mejor instituto de ciencia de datos en la India?