En primer lugar está la línea de comando: hadoop fs -put $filename
Existe la API Java nativa para acceder a HDFS.
Existe una API basada en Thrift que se puede usar desde cualquier lenguaje compatible con Thrift (C ++, Perl, Python, Ruby, etc.)
- ¿Cómo puedo usar el aprendizaje automático en Python?
- ¿Tenemos una estrategia de control de calidad para satisfacer todos los volúmenes, variedad y velocidad en Big Data?
- ¿Qué grado es útil para la ciencia de datos?
- ¿Cómo se puede detener la esclavitud india de TI?
- ¿Puedo convertirme en un científico de datos sin aprender Python, pero solo con conocimientos de programación Java y aprendiendo el lenguaje R?
WebHDFS proporciona una API RESTful para acceder a HDFS.
Flume es la herramienta clásica para ingerir datos de transmisión en HDFS. Storm and Spark ha reemplazado la mayoría de las veces, que son mejores formas de hacer lo mismo.
MapR Hadoop tiene una puerta de enlace NFS nativa y se puede montar como cualquier otro sistema de archivos remoto. Apache Hadoop (y, por lo tanto, Cloudera y Hortonworks) tiene un puente NFS-HDFS que es funcionalmente similar pero tiene algunas deficiencias técnicas en comparación con la implementación NFS de MapR.
Sqoop es una herramienta muy flexible para mover datos masivos, en una variedad de formatos, dentro y fuera de Hadoop para tareas de tipo ETL.
HBase es una tabla hash ordenada construida sobre HDFS. Existen múltiples API para acceder a él, así como interfaces SQL (Phoenix) para acceder a datos en HBase a través de conexiones JDBC / ODBC. Acumulo es similar; sigue la misma arquitectura básica pero tiene controles de acceso robustos que HBase carece.
Hive y Hawq proporcionan una interfaz SQL para almacenar y recuperar datos en HDFS.
Esos son los únicos en los que puedo pensar fuera de mi cabeza. Probablemente hay otros que no recuerdo.