¿Cuál es el tema de ciencia de datos Preguntas frecuentes?

Aquí están las 3 preguntas más frecuentes más importantes que tuve como principiante y de alguna manera logré encontrar las respuestas también.

# 1: Ciencia de datos o Big Data?
Data Science y Big Data, a veces son confusos para los principiantes
.
Big data es un término popular utilizado para describir el crecimiento exponencial y la disponibilidad de datos, tanto estructurados como no estructurados. Por lo tanto, las personas que trabajan en esto se ocupan principalmente del procesamiento y análisis de grandes cantidades de datos.
Por otro lado, los científicos de datos investigan problemas complejos a través de la experiencia en disciplinas dentro de los campos de las matemáticas, las estadísticas y la informática. Estas áreas representan una gran amplitud y diversidad de conocimiento, y un científico de datos probablemente será experto en solo una o como máximo en dos de estas áreas y meramente competente en las demás.

# 2: ¿Qué lenguaje de programación sería necesario?
El curso de Data Science se imparte por completo en el software R, que es un lenguaje de programación estadística de código abierto y una de las herramientas esenciales que forman parte de cualquier kit de herramientas de Data Scientist. Debido a su extenso repositorio de paquetes en torno a las aplicaciones estadísticas y analíticas, R está creciendo enormemente en popularidad en todo el mundo y muchas empresas están buscando programadores de R.

# 3: ¿Cómo me convierto en un científico de datos?
Hay un curso de 9 sets con un proyecto final, en Coursera proporcionado por la John Hopkins Bloomberg School of Business. Es un curso gratuito y, con mucho, el mejor lugar para comenzar e incluso terminar.

Enlace del curso: Coursera
Lecturas adicionales: Científico de datos: el trabajo más sexy del siglo XXI – HBR

Algunas de las preguntas frecuentes son:

  • ¿Cuál es el conjunto de datos más grande que ha procesado y cómo lo procesó? ¿Cuál fue el resultado?
  • ¿Cuéntame dos historias de éxito sobre tus proyectos analíticos o informáticos? ¿Cómo se midió la elevación (o el éxito)?
  • ¿Cómo optimiza un rastreador web para que funcione mucho más rápido, extraiga mejor información y resuma datos para producir bases de datos más limpias?
  • ¿Qué es la fusión probabilística (AKA fuzzy merging)? ¿Es más fácil de manejar con SQL u otros lenguajes? ¿Y qué idiomas elegiría para la reconciliación de datos de texto semiestructurados?
  • Indique 3 aspectos positivos y negativos sobre su software estadístico favorito.
  • Está a punto de enviar un millón de correos electrónicos (campaña de marketing). ¿Cómo optimizas la entrega y su respuesta? ¿Se pueden hacer ambas cosas por separado?
  • ¿Cómo convertiría los datos no estructurados en datos estructurados? ¿Es realmente necesario? ¿Está bien almacenar datos como archivos de texto plano en lugar de en un RDBMS con SQL?

Puede consultar la lista completa aquí: Preguntas frecuentes de la entrevista de ciencia de datos

Un científico de datos trabajará en el desarrollo de nuevos algoritmos y presentará nuevos patrones e ideas sobre los datos que de otro modo permanecerían ocultos. “Junto con las estadísticas, un científico de datos puede tener una calificación en economía, y definitivamente necesita una docena o más de experiencia trabajando con diez a quince herramientas de BI”, dice Chuck Hollis, vicepresidente de marketing global y CTO, EMC.

un proveedor de servicios de análisis y ciencia de decisiones dice que “los científicos de datos también incursionarán en psicología experimental, antropología y ciencias sociales”. Con la necesidad de establecer centros de excelencia de BI (CoE), los análisis se institucionalizarán. Hadoop All in 1, Data Science, Statistics and Probability – Clases de capacitación de cursos combinados en línea | Hadoop All in 1, ciencia de datos, estadística y probabilidad: cursos combinados en línea

Con la llegada de las redes sociales impactando la mayoría de las facetas de los negocios, las organizaciones esperan integrar la tecnología, el software social y el BI para crear un entorno de toma de decisiones agradable. El científico de datos será responsable de proporcionar un contexto social a la información. BI y análisis bailan a una nueva melodía cuando adoptan nuevos enfoques como Hadoop. No esperan datos estructurados, limpios y prístinos, sino que trabajan con una mezcla de datos para proporcionar un análisis en tiempo real o cercano. La analítica descriptiva, la analítica inquisitiva, la analítica predectiva y prescriptiva son parte del nuevo paradigma, con el científico de datos en el centro.

La curva de evolución se está moviendo del soporte de decisiones a ser cada vez más operacional, con una progresión inminente que llevará la competencia estratégica a un nivel completamente nuevo con los científicos de datos en la imagen. BI entró en escena hace quince años y TI poseía estas iniciativas. Ahora, BI es una función comercial que involucra investigación de mercado con un enfoque central en análisis. Las compañías con grandes volúmenes de datos (internos y externos) irían a The Notion Market sin pestañear, pero las compañías más pequeñas lo pensarían dos veces antes de pagarle a alguien para hacer algo que su proveedor de BI les dijo que haría su producto de BI.

Sin embargo, no es que haya científicos de datos en abundancia, todos clamando por empleos. Por el contrario, como dice Hollis de EMC, “Hay una escasez de talento. Por cada científico de datos, hay treinta trabajos esperando “.

La ciencia de datos es el estudio de datos que implica el desarrollo de métodos de almacenamiento y registro. Algunas de las preguntas frecuentes en las entrevistas son las que se analizan a continuación

1.Te dan un conjunto de datos. El conjunto de datos tiene valores faltantes que se extienden a lo largo de 1 desviación estándar de la mediana. ¿Qué porcentaje de datos no se vería afectado? ¿Por qué?

2.Explica la probabilidad previa, la probabilidad y la probabilidad marginal en el contexto del ingenuo algoritmo de Bayes?

3. ¿Cuándo es favorable la regresión de Ridge sobre la regresión de Lasso?

4. ¿Qué técnica de validación cruzada usaría en el conjunto de datos de series temporales? ¿Es k-fold o LOOCV?

5. Considerando la larga lista de algoritmos de aprendizaje automático, dado un conjunto de datos, ¿cómo decide cuál usar?

6. ¿Cuál es la diferencia entre el aprendizaje artificial y el aprendizaje automático?

Para obtener más información: BEPEC | ¿Por qué ciencia de datos? Bangalore

Consulte ¿Cuál es el tema de ciencia de datos Preguntas frecuentes?

Hola, espero que mis ans ayuden un poco según mi conocimiento, Datascience es el proceso de recopilar o recopilar datos sin procesar y analizar los datos, extraer los datos y colocarlos como conjuntos de datos para facilitar el acceso, lo que reduce el tiempo de búsqueda.

Sugiera que revise estos temas en la lista de trello, está clasificado, seleccionado y mantenido bastante bien

Trello

Pronto habrá un desafío de big data muy interesante. Comienza en un par de semanas. Más información aquí: Concurso | BigData Challenge