¿Cuáles son las diferentes formas en que los datos se pueden enviar al HDFS?

En primer lugar está la línea de comando: hadoop fs -put $filename

Existe la API Java nativa para acceder a HDFS.

Existe una API basada en Thrift que se puede usar desde cualquier lenguaje compatible con Thrift (C ++, Perl, Python, Ruby, etc.)

¿Cómo puedo usar el aprendizaje automático en Python?
¿Tenemos una estrategia de control de calidad para satisfacer todos los volúmenes, variedad y velocidad en Big Data?
¿Qué grado es útil para la ciencia de datos?
¿Cómo se puede detener la esclavitud india de TI?
¿Puedo convertirme en un científico de datos sin aprender Python, pero solo con conocimientos de programación Java y aprendiendo el lenguaje R?

WebHDFS proporciona una API RESTful para acceder a HDFS.

Flume es la herramienta clásica para ingerir datos de transmisión en HDFS. Storm and Spark ha reemplazado la mayoría de las veces, que son mejores formas de hacer lo mismo.

MapR Hadoop tiene una puerta de enlace NFS nativa y se puede montar como cualquier otro sistema de archivos remoto. Apache Hadoop (y, por lo tanto, Cloudera y Hortonworks) tiene un puente NFS-HDFS que es funcionalmente similar pero tiene algunas deficiencias técnicas en comparación con la implementación NFS de MapR.

Sqoop es una herramienta muy flexible para mover datos masivos, en una variedad de formatos, dentro y fuera de Hadoop para tareas de tipo ETL.

HBase es una tabla hash ordenada construida sobre HDFS. Existen múltiples API para acceder a él, así como interfaces SQL (Phoenix) para acceder a datos en HBase a través de conexiones JDBC / ODBC. Acumulo es similar; sigue la misma arquitectura básica pero tiene controles de acceso robustos que HBase carece.

Hive y Hawq proporcionan una interfaz SQL para almacenar y recuperar datos en HDFS.

Esos son los únicos en los que puedo pensar fuera de mi cabeza. Probablemente hay otros que no recuerdo.

Big DataBig Data AnalysisDataData AnalysisData Science

Related Content

¿Cuáles son las empresas analíticas de big data que figuran en los EE. UU. Y Europa en el ámbito de la atención médica?

¿Qué hace que un problema de ciencia de datos sea interesante para usted?

¿Por qué la mayoría de los científicos computacionales (p. Ej. Biólogos, astrofísicos) son malos programadores según los estándares de CS?

¿Cuáles son los mejores paquetes de R? ¿Por qué?

Cómo encontrar un candidato apasionado con experiencia de 0 a 1 año para reclutar y capacitarse en ciencia de datos

¿Cuál es la diferencia entre VLAN, VPN, MPLS y MPLS-VPN? Si ambos hacen lo mismo, ¿por qué necesitamos ambos?

Quiero saber sobre la historia de la electrónica. ¿Cuáles son algunas sugerencias sobre libros relevantes?

Además de la respuesta anterior,

use copyFromLocal para mover los datos de local a HDFS

comando distcp mueve los datos entre dos clústeres

use FLUME para mover los datos de streeming a Hadoop

Solaimurugan Vellaipandiyan

Además de las opciones en las respuestas anteriores, también está el conector FUSE-HDFS que permite montar HDFS. Muchas aplicaciones también se programan contra las API de cliente HDFS como read () write ().

Joe Pepersack

More Interesting

Cómo pasar del freelance de ingeniería de software al freelance de machine learning / data science

¿Cuál es la mejor opción para las ciencias de datos: IPython o R?

¿Realmente hace una diferencia entre los programas de EM de uno y dos años en los Estados Unidos, con respecto al campo de la ciencia de datos en términos de conseguir un trabajo también?

¿Qué estudios / clases universitarias son críticos para distinguir un verdadero programa de Ciencia de Datos de Business Analytics?

¿Cuáles son los principios de recopilación y análisis de datos?

¿Cómo hacen las estadísticas clases e intervalos de clase cuando los datos están en decimales?

¿Qué hace un científico de datos?

¿Cuáles son las oportunidades de investigación para MS Data Science en la Universidad de Minnesota, Twin Cities?

Cómo saber si mis datos son linealmente separables

Tengo 28 años y he estado trabajando como auditor financiero durante los últimos 5 años. Quiero saltar al área de ciencia de datos y blockchain y seguir mi carrera en estos campos. ¿Cómo puedo hacer eso?

¿Alguien ha hecho alguna vez el curso de Sliderule (renombrado como Springboard) en Ciencia de Datos, y si es así, ¿qué le quitó a la experiencia?

¿Cuáles son los campos de más rápido crecimiento que involucran estadísticas?

Tengo mi doctorado y trabajo en un observatorio. ¿Debo dejar atrás mi carrera como científico académico? ¿Debo dar el salto a la industria como científico de datos, o la ciencia de datos es solo una moda?

¿Cómo se hace una base de datos que está 'en' el entorno Hadoop?

¿Cuál es la diferencia entre un analista de producto y un científico de datos?

Web Analytics