¿Cuáles son las diferentes formas en que los datos se pueden enviar al HDFS?

En primer lugar está la línea de comando: hadoop fs -put $filename

Existe la API Java nativa para acceder a HDFS.

Existe una API basada en Thrift que se puede usar desde cualquier lenguaje compatible con Thrift (C ++, Perl, Python, Ruby, etc.)

WebHDFS proporciona una API RESTful para acceder a HDFS.

Flume es la herramienta clásica para ingerir datos de transmisión en HDFS. Storm and Spark ha reemplazado la mayoría de las veces, que son mejores formas de hacer lo mismo.

MapR Hadoop tiene una puerta de enlace NFS nativa y se puede montar como cualquier otro sistema de archivos remoto. Apache Hadoop (y, por lo tanto, Cloudera y Hortonworks) tiene un puente NFS-HDFS que es funcionalmente similar pero tiene algunas deficiencias técnicas en comparación con la implementación NFS de MapR.

Sqoop es una herramienta muy flexible para mover datos masivos, en una variedad de formatos, dentro y fuera de Hadoop para tareas de tipo ETL.

HBase es una tabla hash ordenada construida sobre HDFS. Existen múltiples API para acceder a él, así como interfaces SQL (Phoenix) para acceder a datos en HBase a través de conexiones JDBC / ODBC. Acumulo es similar; sigue la misma arquitectura básica pero tiene controles de acceso robustos que HBase carece.

Hive y Hawq proporcionan una interfaz SQL para almacenar y recuperar datos en HDFS.

Esos son los únicos en los que puedo pensar fuera de mi cabeza. Probablemente hay otros que no recuerdo.

Además de la respuesta anterior,

use copyFromLocal para mover los datos de local a HDFS

comando distcp mueve los datos entre dos clústeres

use FLUME para mover los datos de streeming a Hadoop

Además de las opciones en las respuestas anteriores, también está el conector FUSE-HDFS que permite montar HDFS. Muchas aplicaciones también se programan contra las API de cliente HDFS como read () write ().

More Interesting

Cómo pasar del freelance de ingeniería de software al freelance de machine learning / data science

¿Cuál es la mejor opción para las ciencias de datos: IPython o R?

¿Realmente hace una diferencia entre los programas de EM de uno y dos años en los Estados Unidos, con respecto al campo de la ciencia de datos en términos de conseguir un trabajo también?

¿Qué estudios / clases universitarias son críticos para distinguir un verdadero programa de Ciencia de Datos de Business Analytics?

¿Cuáles son los principios de recopilación y análisis de datos?

¿Cómo hacen las estadísticas clases e intervalos de clase cuando los datos están en decimales?

¿Qué hace un científico de datos?

¿Cuáles son las oportunidades de investigación para MS Data Science en la Universidad de Minnesota, Twin Cities?

Cómo saber si mis datos son linealmente separables

Tengo 28 años y he estado trabajando como auditor financiero durante los últimos 5 años. Quiero saltar al área de ciencia de datos y blockchain y seguir mi carrera en estos campos. ¿Cómo puedo hacer eso?

¿Alguien ha hecho alguna vez el curso de Sliderule (renombrado como Springboard) en Ciencia de Datos, y si es así, ¿qué le quitó a la experiencia?

¿Cuáles son los campos de más rápido crecimiento que involucran estadísticas?

Tengo mi doctorado y trabajo en un observatorio. ¿Debo dejar atrás mi carrera como científico académico? ¿Debo dar el salto a la industria como científico de datos, o la ciencia de datos es solo una moda?

¿Cómo se hace una base de datos que está 'en' el entorno Hadoop?

¿Cuál es la diferencia entre un analista de producto y un científico de datos?