Las personas no entienden qué es la ciencia de datos y solo porque es elegante y la última tendencia, terminan queriendo ese tipo de unicornios que tendrían todo tipo de habilidades. DJ Patil no habría sabido cuando acuñó el término Data Science que va a ser una charla suelta de la ciudad.
Cuando se mencionó que una persona necesita tener muy buenos conocimientos de dominio, una buena habilidad de codificación y una muy buena comprensión de las matemáticas y las estadísticas para ser científico de datos, no significa que tenga que hacer todo desde cero. Hay bibliotecas para el aprendizaje automático como Apache Spark, Bibliotecas en R, Scikit-learn en python, etc. Son herramientas que pueden hacer aprendizaje automático directamente como Rapid Miner, Alpine, etc.
Data Science se trata realmente de las novedades que puede descubrir y la toma de decisiones es parte inherente de ella.
- Cómo usar una PC virtual para el análisis de datos
- Cómo detectar patrones de respuesta de opción múltiple en R
- ¿Todos los científicos de datos participan en la visualización de datos?
- ¿Cuáles son algunos buenos cursos en Hyderabad para Python y R para ciencia de datos?
- Cómo engañar a los algoritmos de 'Big Data' para evitar el perfil y la orientación precisos de mí mismo
Data Science es una extensión natural de análisis, informes y visualización . El analista anterior solía obtener los requisitos del negocio y entregarán lo que se espera. Los codificadores codificarían lo que se requería, hoy hemos llegado a ese punto de saturación, por lo que se cree que una persona que entienda mejor las matemáticas y los negocios debería poder mostrarles el camino. Y por esta misma razón, es un enfoque de ser proactivo, estar por delante de la competencia.
Se trata realmente de tomar la iniciativa del proceso de pensamiento para hacer las cosas bien con los datos en cada etapa, independientemente de la tecnología. Todo esfuerzo de la ciencia de datos debe encontrar una acción para que sea fructífero.
Hay mucho con lo que lidiar al diseñar una tubería de datos o un producto de datos. Siempre es necesario tomar decisiones al hacer ciencia de datos:
1. Debe tomar una decisión si una regla implementada en la base de datos es correcta o incorrecta. ¿Cuál debería ser la mejor manera de hacer esos cambios?
2. ¿Qué plataformas usar, qué infraestructura se necesita usar?
3. Qué bibliotecas se deben usar y qué tipo de desafíos de integración de datos enfrentará
4. Desafíos de calidad de datos y cómo lidiar con ciertas cosas, simplemente no puede esperar a que las cosas se corrijan por sí mismas.
5. Construir el marco de modelado: qué componente del modelado se va a probar, incluso para probar varias cosas, uno tiene que tomar decisiones con mucha frecuencia.
Una vez que el producto de datos / canalización de datos está hecho, es muy importante que se comunique a la empresa en un idioma que entiendan . No se espera de ellos que comprendan Matemáticas y Estadística o Informática. El hecho de que interactúen con usted debe garantizarles lo suficiente como para creer en ello, por lo que definitivamente depende del equipo de ciencia de datos presentar en el lenguaje más simple .
Creo que durante los próximos 5 años, cada científico de datos tendrá que hacer un esfuerzo para simplificar las cosas. Estoy muy seguro de que después de 5 años todos sabrán exactamente qué se puede hacer con la ciencia de datos y qué no. Pero por ahora, tendremos que seguir educando a la contraparte comercial y explicar y, a veces, tomar decisiones por ellos porque la decisión basada en datos es difícil y será difícil por algún tiempo hasta que encontremos otra cosa difícil para que la empresa comprenda .