¿Cuáles son los temas candentes y / o importantes en la gestión de datos en la nube y en la investigación de la computación en la nube? Recientemente comencé mis estudios de doctorado y actualmente estoy buscando un problema en la computación en la nube.

Creo que las áreas más grandes en los conceptos de computación en la nube estarán en el ámbito de los grandes datos. También hay muchos problemas interesantes si está buscando crear una startup. Esos problemas se refieren principalmente a la implementación y a cómo trasladar las empresas existentes a modelos de computación más nuevos.

En el lado de Big Data, las áreas que encuentro interesantes son acerca de cómo combinar diferentes conjuntos de datos de manera significativa. Un requisito en el futuro será determinar métodos efectivos y eficientes para usar los datos existentes para actividades de big data sin afectar la forma en que ya se almacenan y usan.

Una de las cosas que ha traído el movimiento NoSQL (y los datos no estructurados en general) es la dependencia de la aplicación para proporcionar contexto y significado a esos datos. Ese contexto y significado no están bien capturados de una manera que pueda transferirse a otros usuarios potenciales de los datos. En un modelo de datos relacionales, puede encontrar mucho significado inherentemente en la estructura de datos en sí.

Otros aspectos son sobre qué tipos de datos se pueden combinar de manera significativa y cuáles no. Veo muchos ejemplos de datos estadísticamente irrelevantes que se usan juntos. Produce un buen tablero o gráfico de información, pero en última instancia no tiene sentido para un análisis real porque los datos en realidad no se combinan de la manera propuesta. Puede ser posible desarrollar modelos para limitar esto o al menos proporcionar alguna información sobre qué datos pueden mostrar causalidad y cuáles pueden mostrar simplemente correlación.

Usted menciona un interés particular en PaaS e IaaS. El lado de la plataforma es rico para explorar los conceptos anteriores, así como para crear métodos y algoritmos más eficientes para combinar múltiples conjuntos de datos dispersos y fuentes. Ifttt.com es un buen ejemplo de esto con los sitios sociales populares, pero me gustaría ver la capacidad de combinar cualquier plataforma con otra más fácilmente.

Por el lado de IaaS, uno de los principales obstáculos que escucho es sobre las inseguridades del hipervisor. Existen métodos para hackear el hipervisor para obtener el control de otra VM que se ejecuta en el mismo hipervisor. Las técnicas actuales no son adecuadas para prevenir o exponer este comportamiento. Otra área que me gustaría ver es la computación verdaderamente distribuida a lo largo de las líneas de cada PC, computadora portátil, servidor y dispositivo en una organización que pueda alimentar partes de la computación total para esa organización. Cada tarea de procesamiento puede procesarse como una que se envía a la organización, convirtiendo efectivamente a toda la oficina en una gran supercomputadora. Hay mucho por hacer con algoritmos, ciencias de la computación y aplicaciones para que esto funcione sin problemas.

Uno de los problemas más acuciantes que hoy no se aborda bien en el almacenamiento en la nube es la creación de almacenes de bloques distribuidos (LAN o WAN) que sean adecuados para su uso con máquinas virtuales. Aquí hay algunos desafíos únicos, incluidos los patrones de E / S de máquinas virtuales típicas (cargas de trabajo de E / S pequeñas y aleatorias que a menudo también requieren durabilidad de orden de escritura y mecánica de sincronización de escritura).

Existen varias soluciones de mercado abierto para tiendas distribuidas (hadoop, muchas otras) que son ideales para grandes conjuntos de datos pero que no funcionan adecuadamente para el uso de máquinas virtuales. Además, las instalaciones de VM para el alojamiento en la nube a menudo también requieren soporte de clonación copia en escritura y copia cero, características que no están adecuadamente representadas en las soluciones del mercado.

Algunas cosas a tener en cuenta son el Sistema de archivos de Google (GFS) y cosas como DRBD. Sin embargo, el verdadero problema a resolver: cómo colocar máquinas virtuales en hardware básico a un bajo costo, de modo que la falla de los nodos individuales no afecte a la máquina virtual.

Encuentro interesantes las pequeñas funciones implementadas independientemente de los servidores fijos, o “aplicaciones sin servidor”. Esto se comercializa en AWS Lambda, pero sería bueno encontrar una investigación independiente o código fuente abierto.

Los problemas de ingeniería de software relacionados con esto son interesantes.

Cómo construir un PaaS adecuado para alojarlo. Cómo apoyarlo con IaaS. Las instalaciones gestionadas, como el almacenamiento y las bases de datos, pueden complementarlo.

More Interesting

¿Cómo son los hitos del proyecto de ciencia de datos y cómo se entrega un proyecto de ciencia de datos?

¿Cuáles son las habilidades clave necesarias para ser un desarrollador de Big Data?

Si mis datos consisten en Hosts e Invitados, ¿cómo estructuraría la base de datos para que no termine con una gran cantidad de datos duplicados?

¿Cuáles son algunas cosas interesantes que la gente ha hecho con Google Refine?

¿Cuáles son los patrones de diseño para proyectos de minería de datos / aprendizaje automático?

¿Cuáles son algunos buenos paquetes de R para el análisis de datos cualitativos?

¿Qué es mejor para un conjunto de habilidades Java / J2EE: análisis de big data o middleware de WebSphere?

¿Cuál es el futuro de la ciencia de datos en los próximos años? ¿Cómo es el mercado laboral en ciencia de datos para los graduados de nivel de entrada? ¿Es fácil de aprender, o necesitamos hacer más y más trabajo duro para conseguir un trabajo de nivel de entrada?

¿Cuáles son las oportunidades interesantes en la industria farmacéutica para emprendedores con experiencia en negocios, economía y ciencia de datos?

¿Cuáles son algunos escenarios de "big data"?

¿Cuál es la utilidad de Big Data?

¿Cuáles son algunas de las nuevas empresas de Big Data en Mumbai?

¿Hay buenos entrenamientos sobre Scrum para Data Science / Agile Data Science?

¿Qué campo tiene la mayor demanda y salario en los Estados Unidos: ingeniería de datos o ciencia de datos?

¿Big Data llegó para quedarse?