¿Cuáles son los modelos de confianza utilizados en la seguridad de big data?

Inicialmente, Hadoop no tenía ninguno.

Yahoo hizo lo siguiente hace unos años:

  • Autenticación mutua con Kerberos RPC (SASL / GSSAPI) en conexiones RPC: se utilizó SASL / GSSAPI para implementar Kerberos y autenticar mutuamente a los usuarios, sus procesos y los servicios de Hadoop en las conexiones RPC.
  • Autenticación “conectable” para las consolas web HTTP , lo que significa que los implementadores de aplicaciones web y consolas web podrían implementar su propio mecanismo de autenticación para las conexiones HTTP. Esto podría incluir (pero no se limitó a) la autenticación HTTP SPNEGO.
  • Cumplimiento de los permisos de archivos HDFS : el control de acceso a los archivos en HDFS podría aplicarse mediante NameNode en función de los permisos de archivos: listas de control de acceso (ACL) de usuarios y grupos.
  • Tokens de delegación para verificaciones de autenticación posteriores: se usaron entre los diversos clientes y servicios después de su autenticación inicial para reducir la sobrecarga de rendimiento y la carga en el KDC de Kerberos después de la autenticación inicial del usuario. Específicamente, los tokens de delegación se usan en comunicación con NameNode para el acceso autenticado posterior sin usar los servidores Kerberos.
  • Bloquear tokens de acceso para el control de acceso al bloque de datos Cuando se necesitaba el acceso a los bloques de datos, NameNode tomaría una decisión de control de acceso en función de los permisos del archivo HDFS y emitiría tokens de acceso de bloque (utilizando HMAC-SHA1) que podrían enviarse al DataNode para bloquear solicitudes de acceso. Debido a que los DataNodes no tienen un concepto de archivos o permisos, esto fue necesario para establecer la conexión entre los permisos HDFS y el acceso a los bloques de datos.
  • Fichas de trabajo para hacer cumplir la autorización de la tarea: JobTracker crea las fichas de trabajo y las pasa a TaskTrackers, lo que garantiza que las tareas solo puedan realizar los trabajos que se les asignan. Las tareas también se pueden configurar para ejecutarse como el usuario que envía el trabajo, lo que simplifica las comprobaciones de control de acceso

Hace un año, Intel intervino y comenzó intel-hadoop / project-rhino

  • Datos cifrados en reposo : las tareas JIRA HADOOP-9331 (Marco de cifrado de cifrado Hadoop e implementación de códec de cifrado) y MAPREDUCE-5025 (Distribución y gestión de claves para admitir el códec de cifrado en MapReduce) están directamente relacionados. El primero se centra en crear un marco de criptografía e implementación para la capacidad de admitir el cifrado y descifrado de archivos en HDFS, y el segundo se centra en un marco de distribución y gestión de claves para que MapReduce pueda cifrar y descifrar datos durante las operaciones de MapReduce. Para lograr esto, se está introduciendo una implementación de códec AES divisible en Hadoop, lo que permite que los datos distribuidos se cifren y descifren del disco. El marco de distribución y administración de claves permitirá la resolución de contextos clave durante las operaciones de MapReduce para que los trabajos de MapReduce puedan realizar el cifrado y descifrado. Los requisitos que han desarrollado incluyen diferentes opciones para las diferentes etapas de los trabajos de MapReduce y admiten una forma flexible de recuperar claves. En una tarea algo relacionada, ZOOKEEPER-1688 proporcionará la capacidad de cifrado transparente de instantáneas y registros de confirmación en el disco, protegiendo contra la fuga de información confidencial de los archivos en reposo.
  • Autenticación basada en tokens y marco de autorización unificada : las tareas JIRA HADOOP-9392 (Autenticación basada en tokens e inicio de sesión único) y HADOOP-9466 (Marco de autorización unificada) también están relacionadas. La primera tarea presenta un marco de autenticación basado en token que no está estrechamente acoplado a Kerberos. La segunda tarea utilizará el marco basado en token para admitir un motor de aplicación de autorización flexible que tiene como objetivo reemplazar (pero ser compatible con versiones anteriores) los enfoques ACL actuales para el control de acceso. Para el marco de autenticación basado en tokens, la primera tarea planea admitir tokens para muchos mecanismos de autenticación, tales como autenticación de nombre de usuario / contraseña LDAP, Kerberos, autenticación de certificado X.509, autenticación SQL (basada en combinaciones de nombre de usuario / contraseña en bases de datos SQL), y SAML La segunda tarea tiene como objetivo admitir un modelo de autorización avanzado, centrándose en el Control de acceso basado en atributos (ABAC) y el estándar XACML.
  • Seguridad mejorada en HBase: la tarea JIRA HBASE-6222 (Agregar seguridad por valor de clave) agrega autorización a nivel de celda a HBase, algo que Apache Accumulo tiene pero HBase no. HBASE-7544 se basa en el marco de cifrado que se está desarrollando, extendiéndolo a HBase, proporcionando cifrado de tabla transparente.

More Interesting

¿Puedes grabar ondas cerebrales en datos?

¿Es muy difícil sobresalir en ciencia de datos? ¿Qué instituto debería considerar para los cursos de ciencia de datos en Pune?

¿Hay un curso sobre Hadoop / data science en ETS, Montreal?

¿Qué tipo de problemas no puede resolver Data Science?

¿Por qué "todo parece estar correlacionado en una escala de log-log"?

Soy un estudiante de biología / psicología, pero quiero entrar en ciencia de datos y aprendizaje automático. Soy un senior, así que no estoy en condiciones de volver a declarar mi especialidad. ¿Cuál sería una buena pista para mí aprender sobre ciencia de datos y programación, y eventualmente conseguir un trabajo en investigación / programación?

¿Cuál es la diferencia entre análisis de datos y análisis de datos? ¿Cómo se refleja esta diferencia en los procedimientos de gestión de datos de una empresa?

¿Cuál es la diferencia entre hacer ciencia de datos en Google, Amazon y WalmartLabs y hacerlo en Mu Sigma, Accenture y Opera Solutions?

¿En qué organización es mejor trabajar para un puesto de pasantía en ciencia de datos, Analytics Vidhya o Sigmaway?

Estoy planeando hacer un estudio independiente usando Machine Learning y Big Data. ¿Hay algún tema interesante como Deep learning para PNL?

¿Cuáles son las mejores compañías de big data en INDIA para un desarrollador de software?

¿Cuáles son las principales tendencias en big data?

Cómo convertir un marco de datos en transacciones para la minería de reglas de asociación

Cómo crear un cuaderno Jupyter en AWS

¿Cuál es el mejor sitio para aprender análisis de datos?