¿Cómo manejan los datos las grandes empresas?

Para cada elemento de datos, el comité y / o los funcionarios de gobierno de datos que tienen la responsabilidad del gobierno de datos y la estrategia de seguridad como práctica dentro de la organización determinan una estrategia antes del almacenamiento del sistema.

La responsabilidad del gobierno de datos depende de toda la organización y de cada empleado o parte que trabaje con ella.

Cada usuario tiene un inicio de sesión único, idealmente centralizado con una capacidad de inicio de sesión único en todos los sistemas distribuidos, pero a menudo este no es el caso y muchas compañías aún operan de esta manera.

Vinculado a esto, se encuentran los criterios obvios de gestión y variación de contraseña (mayúsculas, minúsculas, caracteres especiales, sin palabras reales, sin caracteres repetitivos, sin PII vinculada a un individuo o su red familiar inmediata, contraseña mínima de 12 caracteres, sin contraseñas repetitivas , sin contraseñas similares, sin contraseñas históricas).

Vinculado a estos permisos y autorizaciones para una variedad de niveles de acceso hoy para coexistir en función del rol, departamento, función, persona, nivel de habilidad.

Existe el proceso de registro de cada transacción / interacción con datos para cada sistema. El proceso de ‘ajustar’ los datos de registro y las políticas de retención por tipo de datos, tipo de acceso / tipo de solicitud.

Para las transferencias, el FTP seguro es un estándar típico implementado entre dos partes (internas o externas) para la transferencia de datos para evitar contratiempos (esto no siempre es el caso en la práctica).

Si los datos son particularmente sensibles, esto puede implicar mayores niveles de seguridad, incluido el cifrado, protección sofisticada con contraseña y otras medidas, incluida la ofuscación de datos en espera de la lectura del archivo con una clave de cifrado.

Para los datos en reposo, lo mismo se aplica con valores más altos o datos más confidenciales que se cifran en varios niveles de sofisticación y restricciones de acceso a las partes nominadas (por lo tanto, cuentas).

Existe una política absoluta de no enviar datos por correo electrónico en torno a los datos de identificación personal y también será prudente limitar el intercambio de archivos de cualquiera de los datos que puedan volverse / ser considerados comercialmente sensibles.

En tales circunstancias, los repositorios de gestión del conocimiento y las capacidades de intercambio seguro de archivos se implementan para permitir a los usuarios compartir archivos dentro de un sistema estructurado que controla el acceso, recuperación, transferencia y transporte de archivos de datos solo para los fines previstos y permitidos.

Además, cada organización debe tener políticas y pautas de acceso a datos publicadas para todos sus empleados para asegurarse de que sean plenamente conscientes de sus obligaciones con respecto a los datos.

Personalmente, trabajé en proyectos como consultor en los que se me pidió que emprendiera sus propios programas de educación antes de que me permitieran comenzar a trabajar como un tercero que trabaja con esta organización.

Del mismo modo, me he visto obligado a trabajar en máquinas particulares con solo software autorizado y sistemas operativos y programas bloqueados para limitar la exposición.

Más allá de la estación de trabajo individual, existe el sistema y las políticas de seguridad de red y seguridad de toda la empresa.

En algunos casos únicos, los sistemas bloqueados sin conectividad a Internet pero con conexiones de red directas proporcionadas a través de la tecnología Desktop Shraing, como Citrix y VPN, sin instalaciones de impresión, pueden configurarse para que los trabajadores en el extranjero accedan y trabajen con datos almacenados en otro país con el propósito de análisis pero no recuerdo y visualización a nivel récord. (Por lo general, los agregados se pueden ver, así como los resultados del modelo / estadística, pero no PII en esta circunstancia).

Es necesario que haya procesos dentro de la organización que permitan monitorear todo lo anterior. Informe de acciones o solicitudes sospechosas, así como la capacidad de apagar / bloquear cualquier intento de este tipo y proteger la integridad del sistema en general.

La organización también necesita estar preparada y tener procesos para actuar en caso de violaciones sospechosas, procedimientos de investigación y litigios cuando sea relevante.

Este problema es algo en lo que se están enfocando muchas empresas. Una de esas compañías es Confluent, que tiene una ‘Plataforma de transmisión de datos’ que ayuda a resolver la integración de datos y los desafíos de procesamiento de transmisión al proporcionar un centro central para todos los datos. Hace que todos sus datos estén disponibles como flujos de datos de baja latencia, exactamente la forma requerida para el procesamiento de flujo en tiempo real.

En el corazón de esta plataforma se encuentra el producto desarrollado por Linkedin Kafka. Kafka sobresale en la entrega de datos en tiempo real entre varios dispositivos y, por lo tanto, podría ser una plataforma ideal para enviar notificaciones a dispositivos conectados, como dispositivos portátiles, automóviles conectados o dispositivos inteligentes para resolver el problema de la entrada de datos en un futuro próximo. Confluent mejora Kafka con características avanzadas y soporte empresarial que hace que los datos de una empresa estén disponibles como transmisiones en tiempo real. El sistema funciona a través de los complementos de Kafka, lo que permite a las empresas mejorar su circulación de datos sin modificar sus bases de datos existentes.

Según Cisco, en 2008, ya había más “cosas” conectadas a Internet que personas. Para 2020, la cantidad de cosas conectadas a Internet llegará a 50 mil millones, con $ 19 billones en ganancias y ahorros de costos provenientes de IoT en la próxima década.

LinkedIn reveló recientemente algunos números asombrosos sobre el crecimiento de Kafka. La plataforma ahora maneja más de un billón de mensajes por día, en comparación con mil millones de mensajes diarios solo hace cuatro años. Actualmente procesa 1.34 millones de gigabytes de datos a través de su sistema cada semana. La plataforma funciona recibiendo un mensaje de un sistema y luego enviándolo a otros sistemas que requieren los mismos datos, generalmente en tiempo real. Mirando estas cifras, ¡la figura de Cisco no parece tan asombrosa después de todo!

Todo esto es una excelente noticia para un planeta del futuro más inteligente y altamente conectado. Y ese futuro está bastante cerca, casi a nuestro alcance.
http://flarrio.com/handling-data

Geoff, tienes una gran respuesta de Gareth.

Siempre me ha interesado cómo comenzó Google en Big Data. Brin y Page comenzaron ejecutando su motor de búsqueda “Backrub” en los servidores de Stanford. Luego obtuvieron un poco de capital inicial y en septiembre de 1998 se instalaron en el garaje de Susan Wojcicki en Menlo Park. (Susan ahora dirige You Tube, y tiene cinco hijos pequeños).

Armaron servidores baratos y obtuvieron una capacidad notable por muy poco dinero. A finales de 1998, PC Magazine informó que; ” Google tiene la extraña habilidad de devolver resultados extremadamente relevantes”.

Despegó de allí y Google hoy tiene más de 1,000,000 de servidores. Pero por ese notable esfuerzo inicial, ni siquiera sabríamos el nombre hoy.

Los mejores deseos.

More Interesting

Se dice que algo que funcionó muy bien con los datos de acciones anteriores puede fallar en el futuro. ¿Cómo es eso? ¿En qué formas exactas serán diferentes los datos futuros?

¿Qué es una aplicación de aprendizaje automático y cómo se usa, que no es una de las siguientes: redes sociales, motores de búsqueda, bioinformática, neurociencia, investigación en el CERN, ciencia actuarial y sistemas de recomendación?

Pruebas A / B: ¿Es útil el diseño de una base de datos de esquema en estrella para las empresas tecnológicas que experimentan continuamente?

¿Cuáles son los diferentes métodos de aprendizaje automático que se pueden aplicar a los problemas de ventas y marketing?

¿Cuál es un ejemplo de cómo usaste la ciencia de datos para resolver un problema, tomar una decisión u optimizar algo en tu vida personal?

¿En qué orden deben realizarse estas operaciones de ciencia de datos: munging, limpieza, escalado, transformaciones y modelado?

¿Dónde puedo aprender análisis de datos en Bangalore? ¿Cuánto debería invertir para ello?

Para algoritmos de bandidos con múltiples brazos, ¿tiene sentido dejar de muestrear un brazo si el límite de confianza superior p% es menor que el límite de confianza inferior p% de un brazo de diferencia?

¿Qué es más preferible en el aprendizaje automático, la precisión del modelo A es del 50% en los datos de entrenamiento y del 97% en los datos de las pruebas, o el modelo B tiene una precisión del 80% en los datos del tren y el 75% en los datos de las pruebas? (Más detalles en el comentario abajo) gracias!

¿Cuáles son los diferentes caminos para convertirse en un científico de datos en grandes empresas como Google o Facebook, si acabo de comenzar a trabajar como científico de datos en una startup de análisis de datos en India después de mi graduación en el campo de la electrónica?

¿Qué es el álgebra relacional y para qué se utiliza? ¿Cómo se relaciona con la ciencia de datos?

¿Dónde puedo encontrar grandes conjuntos de datos abiertos al público?

¿Cuáles son las compañías de análisis / ciencia de datos que pagan mucho en Bangalore?

¿Cuáles son los campos donde se utiliza el análisis de big data?

¿Siempre estamos mejor con más datos en Machine Learning en la práctica?