¿Cómo aborda un científico de datos experto un problema de aprendizaje automático? ¿Puedes explicar paso a paso?

Contestaré la pregunta en el contexto de Data Science en el mundo comercial / empresarial, ya que esto es lo que probablemente quiera decir.

  1. Comprenda el problema comercial extremadamente bien. Esto es muy importante y a menudo se pasa por alto. Si los científicos de datos no lo entienden completamente, entonces el proyecto puede desviarse fácilmente del curso (y resultar en partes interesadas insatisfechas / insatisfechas) o desperdicio de dinero.
  2. Obtenga datos relevantes para el problema.
  3. Limpia los datos.
  4. Realizar EDA. A menudo, esto no lo hacen científicos de datos aficionados / novatos, ya que se considera innecesario. Realice tantos gráficos y visualizaciones para comprender bien los datos con los que está trabajando. Además, esto puede y debe dar como resultado algunas ideas de qué algoritmos y técnicas intentar utilizar para resolver el problema.
  5. Entrenar a una modelo.
  6. Prueba, prueba, prueba.
  7. Revise y modifique si es necesario.

El mejor plan para la ciencia de los detalles:

Aprenda lenguaje de desarrollo: ¡Sí! necesitas entender los ‘lenguajes’ de programación. Pruebe Python primero, ya que es bastante simple de entender y se encuentra bajo una posible clasificación. Aprenda Python aquí: Tutoriales de Python: Año 1 (No necesita ser Python Ninja, solo se necesitan detalles primarios). Luego intente con sus brazos en la terminología de programación “R”. También es totalmente gratis. Aprenda R aquí: DataCamp: la forma más sencilla de aprender R y tecnología de detalles (es gratis)

El conocimiento de SQL es necesario: como se va a realizar con una gran cantidad de datos, mis sugerencias son entender SQL. Descubra SQL aquí: SQLZOO o del youtube de “Manish Sharma”. canal com: guías SQL para principiantes / guías de fuente de datos de Oracle.

Comprendamos Estadística y Probabilidad: la posibilidad se conoce generalmente como la ciencia de la duda y esa idea es más esencial en el área de DS. Descúbrelo de los programas MIT. Aquí está el youtube. enlace com: Posibilidad e Investigación MIT

Aprendizaje automático: otro tema importante que todos deberían entender es el “Aprendizaje automático”. Necesitas tener información matemática para entender ML. Aquí está la mejor guía del mundo sobre ML: Selección de sesión | Dispositivo de aprendizaje

Aprenda el procesamiento del lenguaje orgánico: aquí están las mejores referencias, manejo del lenguaje orgánico con Python

Complete aquí: ¿Cómo puedo convertirme en un científico de datos paso a paso?

Por lo general, primero miro los objetivos del proyecto, luego qué datos se han recopilado. Esto me da una idea de qué información se necesita y qué técnicas pueden brindar mejor esa información dadas las limitaciones de los datos. A partir de ahí, reviso los resultados y procedo con más análisis / recopilación de datos o entrega de los resultados.

https://www.linkedin.com/pulse/a … es una buena referencia para comenzar.

More Interesting

Cómo pivotar mi carrera en ciencia de datos a los 38 años

¿Cuál es el mejor instituto para aprender ciencia de datos en Hyderabad?

¿Cómo diferenciaría la ciencia de datos y la inteligencia empresarial?

Quiero aprender por mi cuenta Big data / Hadoop. ¿Cuál debería ser el enfoque más eficiente?

Con más de 50 años, ¿cuáles son mis posibilidades de convertirme en un científico de datos exitoso?

¿Por qué Two Sigma diseñó su concurso de Kaggle para eliminar cualquier beneficio del conocimiento del dominio?

¿Existen nuevas empresas de almacenamiento de datos en Pune / Mumbai?

¿Cómo resuelven los problemas los científicos de datos? ¿Cuál es el marco del proceso de pensamiento para enmarcar un problema y trabajar en la solución?

¿Cuál es la forma de explorar mis datos más fácilmente?

Quiero aprender análisis avanzados en 1-2 meses. ¿A qué curso debo unirme para convertirme en un experto en análisis de datos?

¿Crees que el aprendizaje automático / ciencia de datos puede contribuir a resolver los problemas sociales, de salud y económicos del mundo?

¿Cuál es la diferencia entre análisis de datos y análisis de datos? ¿Cómo se refleja esta diferencia en los procedimientos de gestión de datos de una empresa?

¿Cuáles son las razones por las que Pandas aún no puede convertirse en el kit de herramientas más poderoso para el análisis de datos?

¿Cómo se puede construir un conjunto de datos donde podamos consultar la deuda total para cada sección censal?

¿Cómo analizar los datos en R? ¿Cómo hago para el análisis? Tengo datos y quiero analizar, ¿qué debo hacer?