¿Los científicos de datos piensan que Hadoop tiene errores?

Big data es un término utilizado para describir la colección,
procesamiento y disponibilidad de grandes volúmenes de transmisión de datos en tiempo real. los
tres V son volumen, velocidad y variedad con
crédito a las empresas son
combinando marketing, ventas , https://goo.gl/HI8YEq datos de clientes, datos transaccionales, sociales
conversaciones e incluso datos externos como precios de acciones, clima y noticias para
Identificar modelos estadísticamente válidos de correlación y causalidad para ayudarlos a hacer
Decisiones más precisas.

Big Data es oportuno
El 60% de cada día laboral, los trabajadores del conocimiento pasan intentando encontrar y gestionar
datos.

Big Data es accesible
La mitad de los altos ejecutivos informan que es difícil acceder a los datos correctos.

Big Data es holístico
La información se mantiene actualmente en silos dentro de la organización. Datos de marketing,
por ejemplo, se puede encontrar en la web,
móviles, CRM, herramientas de prueba A / B, sistemas,
y más … cada uno con foco en su silo.

Big Data es confiable
El 29% de las empresas miden el costo monetario de la mala calidad de los datos. Cosas como
simple como monitorear múltiples sistemas para actualizaciones de información de contacto del cliente
Puede ahorrar millones de dólares.

Big Data es relevante : el 43% de las empresas no están satisfechas con sus
capacidad de herramientas para filtrar datos irrelevantes. Algo tan simple como filtrar
los clientes de su analítica web pueden proporcionar una gran cantidad de información sobre su
esfuerzo de adquisición

Trabajo con un proveedor líder de tecnología hadoop. Y como muchos en el espacio, obtienen su distribución de apache, aplican algunos parches y brindan soporte.

En mi opinión, hacen un excelente trabajo, pero dado que la base de código para mapreduce ha estado presente y en desarrollo durante 8 años (más conmovedor que se ha entendido desde 2004), la tendencia de la comunidad hadoop a descartar importantes y cruciales los errores que no se pueden reproducir o que no pueden solucionar me dan ganas de gritar.

Eche un vistazo a MAPREDUCE-6108, cuya solución es: simplemente use un porcentaje de memoria mucho menor para las fusiones aleatorias y puede arrastrar la aplicación.

Hay mucho material sobre entradas abiertas en YARN, MAPREDUCE, HIVE y HDFS para que pueda sacar sus propias conclusiones sobre

  1. cuánto trabajo queda por hacer para que hadoop madure
  2. lo difícil que es escribir software de código abierto
  3. qué tan difícil es el problema de la computación distribuida
  4. qué tan rápido se mueve la industria saboteando y abandonando buenos proyectos (Pig) y persiguiendo ‘caliente’ y ‘sangriento’ (Storm, Tez)
  5. cómo sigue siendo un cambio de juego cuando nos fijamos en el costo de poseer las ofertas de Oracle, Teradata y Microsoft.

Me da un ajuste increíblemente frustrado, leo registros y ejecuto comandos de diagnóstico de Linux en los nodos solo para descubrir que a veces es un error no resuelto.

La naturaleza distribuida de las herramientas en el ecosistema de Hadoop puede requerir un ajuste fino dependiendo de la naturaleza de su carga de trabajo. Por experiencia, con un sistema bien planificado y un administrador experimentado, trabajar con Hadoop es una gran experiencia. Eso no quiere decir que no haya errores, pero creo que esto es de esperar con un ecosistema de código abierto en rápida evolución.

Hola,

Quiero compartir alguna información.

Como mencionaste una serie interminable de problemas como nunca antes.

Estoy seguro de que todos estos problemas serían durante la configuración del clúster hadoop.

y ahí es donde hadoop es muy crítico.

Por lo tanto, no tiene errores, pero su configuración es muy crítica, no como cualquier configuración normal en la que necesite escribir solo una serie de next-next y aceptar los términos y condiciones.

Aparte de eso, si desea aprender conceptos básicos de hadoop, puede visitar este tutorial.

seguramente te ayudará

Introducción a Hadoop y MapReduce para principiantes

mejor suerte 🙂

More Interesting

¿En qué se diferencia el ingeniero de Business Intelligence, el ingeniero de datos, el analista de BI, el analista de datos, el desarrollador de BI, el analista de programadores y el analista de sistemas?

¿Cuáles son algunas ideas o proyectos en Machine Learning o análisis de big data en un hackathon?

¿Es útil el nanogrado de Udacity para cambiar el campo de la ingeniería mecánica a la ciencia de datos?

¿Qué tipo de aprendizaje automático debo usar para la clasificación de varias clases si la longitud de mi entrada es diferente en cada ejemplo de entrenamiento?

¿Alguna vez hay una buena razón para cambiar los datos sin procesar al realizar análisis estadísticos o modelos?

¿Cómo sabemos si los paquetes Python o R son correctos?

¿Cómo se pueden aplicar los grandes datos a los pronósticos económicos?

¿Será el estilo de datos un buen sitio para aprender Big Data y Hadoop?

¿Un científico de datos necesita conocer algoritmos y estructuras de datos, así como un ingeniero de software?

Cómo usar Kaggle, si soy un principiante en el campo de la ciencia de datos y el aprendizaje automático

Aprendizaje automático: ¿cómo puedo obtener eventos y acontecimientos en la vida de las personas a partir de sus estados en Facebook o tweets?

¿Cuáles son las habilidades básicas de un científico de datos?

¿En qué se diferencia el desarrollo de software de aprendizaje automático industrial orientado a productos de la investigación académica de aprendizaje automático o el desarrollo de prototipos de investigación industrial?

¿Qué son los datos de prueba?

¿Qué es la minería de datos y cuál es su alcance?