Preguntas de la entrevista de Big Data
El Big Data es un conjunto de datos y es tan grande o complejo que el software de aplicación de procesamiento de datos tradicional es inadecuado para manejarlos. Incluye desafíos como análisis, creación de datos, captura, búsqueda, almacenamiento, uso compartido, visualización, transferencia, consulta e información para privacidad. Aquí me he enumerado en las 25 preguntas principales de la entrevista de Big Data.
1. ¿Qué es Big Data?
- ¿Cuándo se usaría un modelo oculto de Markov en lugar de una red neuronal recurrente?
- ¿MATLAB es más popular y útil para la investigación que Python? ¿Por qué?
- ¿Qué es la programación de análisis de datos?
- Cómo aprender ciencia de datos sin conocimientos de matemáticas
- ¿Cuáles son algunas cosas interesantes que la gente ha hecho con Google Refine?
- Describe el gran volumen de datos tanto estructurados como no estructurados.
- El término Big Data se refiere simplemente al uso de análisis predictivo, análisis de comportamiento del usuario y otros métodos avanzados de análisis de datos.
- Es extraer el valor de los datos y rara vez a un tamaño particular al conjunto de datos.
- El desafío incluye captura, almacenamiento, búsqueda, intercambio, transferencia, análisis, creación.
2. ¿Cuáles son las herramientas esenciales de Hadoop para el trabajo efectivo de Big Data?
Las herramientas efectivas son las siguientes
- HBase
- COLMENA
- Sqoop
- Cerdo
- ZooKeeper
- NOSQL
- Cuidador de elefantes
- Lucene / Solr
- Avro
- Oozie
- Herramientas SIG
- Canal artificial
3. ¿Cuáles son los pasos clave en las soluciones de Big Data?
Pasos clave en soluciones de Big Data
Ingestión de datos, almacenamiento de datos (modelado de datos) y procesamiento de datos (discusión de datos, transformaciones de datos y consulta de datos).
Ingestión de datos
- RDBM Sistemas de gestión de bases de datos relacionales como Oracle, MySQL, etc.
- ERP Sistemas de planificación de recursos empresariales (ERP) como SAP.
- Sistemas de gestión de relaciones con los clientes de CRMC como Siebel, Salesforce, etc.
- Fuentes de redes sociales y archivos de registro.
- Archivos planos, documentos e imágenes.
Almacenamiento de datos
- Formatos de almacenamiento de datos
- Modelado de datos
- Gestión de metadatos
- Multi Alquiler
4. Proceso de análisis de datos?
Cinco pasos del proceso de análisis
Paso 1: define tus preguntas
Paso 2: Establecer prioridades claras de medición
Paso 3: recopilar datos
Paso 4: analizar datos
Paso 5: Interpreta los resultados
5. ¿Qué es el análisis de Big Data?
- Se define como el proceso de extraer grandes conjuntos de datos estructurados / no estructurados.
- Ayuda a descubrir patrones subyacentes, información desconocida y otra información útil dentro de los datos que conducen a beneficios comerciales.
6. ¿Nombre algunos productos de Big Data?
- R
- Traqueteo
- Hadoop
- RHadoop
- Cuidador de elefantes
7. ¿De dónde viene Big Data?
Hay tres fuentes de Big Data.
- Datos sociales : proviene de las ideas del canal de redes sociales sobre el comportamiento del consumidor.
- Datos de la máquina: consta de datos en tiempo real generados a partir de sensores y registros web. Realiza un seguimiento del comportamiento del usuario en línea.
- Datos de transacciones : generados por grandes minoristas y empresas B2B de forma frecuente.
8. ¿Cuál es la explicación simple de IBM para las cuatro características críticas de Big Data?
Características de Big Data:
- Volumen : escala de datos
- Velocidad : análisis de transmisión de datos
- Variedad : diferentes formas de datos
- Veracidad : incertidumbre de los datos
9. ¿Cómo podrían beneficiarse las empresas con Big Data?
- El análisis de Big Data ayuda a la empresa a generar datos en tiempo real.
- Puede influir para tomar una decisión crucial sobre las estrategias y el desarrollo de la empresa.
- Big data ayuda a gran escala para diferenciarse en el entorno competitivo.
10. ¿Dónde se almacenarán los datos de Mappers Intermediate?
- La salida del mapeador se almacena en el sistema de archivos local de cada nodo del mapeador individual.
- La ubicación del directorio temporal se puede configurar en la configuración
- Por el administrador de Hadoop.
- Los datos intermedios se limpian una vez que se completa el trabajo de Hadoop.
11. ¿Diferenciar entre datos estructurados y no estructurados?
Datos estructurados
Datos no estructurados
Algoritmos de base
Viejos algoritmos
Hoja de cálculo de sensores de máquina de formulario de datos
Lenguaje humano
SQL
Explorador de Windows, pantalla del buscador de Mac
12. ¿Cómo se controlan los sistemas de archivos en HDFS?
- El sistema de archivos se utiliza para controlar cómo se almacenan y recuperan los datos.
- Cada sistema de archivos tiene una estructura diferente y propiedades lógicas de velocidad, seguridad, flexibilidad, tamaño.
- Tal tipo de sistema de archivos diseñado en hardware. Este archivo incluye NTFS, UFS, XFS, HDFS.
13. ¿Qué es MapReduce?
- Es un componente central, el marco del software Apache Hadoop.
- Es un modelo de programación y una implementación asociada para el procesamiento que genera grandes datos.
- Estos conjuntos de datos con algoritmo paralelo y distribuido en un clúster, cada nodo del clúster incluye almacenamiento propio.
14. ¿Qué es la ejecución especulativa?
- Es una técnica de optimización.
- El sistema informático realiza alguna tarea que puede no ser realmente necesaria.
- Este enfoque se emplea en una variedad de áreas, incluida la predicción de ramificaciones en procesadores canalizados, el control de concurrencia optimista en los sistemas de bases de datos.
15. Pig Latin contiene diferentes operaciones relacionales; ¿nómbralos?
- grupo
- distinto
- unirse
- para cada
- ordenar por
- filtros
- límite
16. ¿Por qué son útiles los contadores en Hadoop?
- Counter es una parte integral de cualquier trabajo de Hadoop.
- Es muy útil recopilar estadísticas relevantes.
- El trabajo particular consta de 150 grupos de nodos con 150 mapeadores.
- Los contadores se pueden usar para mantener un recuento final de todos esos registros y presentar una única salida. Lee mas
Fuente: Preguntas de la entrevista de Big Data – 8 SUJETOS