Cómo realizar un proyecto de predicción relacionado con la salud utilizando big data y machine learning

El análisis de Big Data es el proceso de examinar grandes conjuntos de datos que contienen una variedad de tipos de datos, es decir, Big Data, para descubrir patrones ocultos, correlaciones desconocidas, tendencias del mercado, preferencias del cliente y otra información comercial útil. Los resultados analíticos pueden conducir a un proceso más efectivo. El proceso de examinar grandes conjuntos de datos ¡Haga clic aquí! Comercialización de nuevas oportunidades de ingresos, mejor servicio al cliente, eficiencia operativa mejorada, ventajas competitivas sobre organizaciones rivales y otros beneficios comerciales.

Big Data Analytics es para ayudar a las empresas a tomar decisiones comerciales más informadas al permitir que DATA Scientist, modeladores predictivos y otros profesionales de análisis analicen grandes volúmenes de datos de transacciones, así como otras formas de datos que pueden ser aprovechadas por los programas convencionales de inteligencia empresarial (BI) .

Eso podría incluir registros del servidor web y datos de Internet Click Stream, contenido de redes sociales e informes de actividad de redes sociales, texto de correos electrónicos de clientes y respuestas de encuestas, registros detallados de llamadas de teléfonos móviles y datos de máquinas capturados por sensores conectados a INTERNET. Algunas personas se asocian exclusivamente Big Data con datos semiestructurados y no estructurados de ese tipo, pero las empresas de consultoría como Gartner Inc. y Forrester Research Inc. también consideran que las transacciones y otros datos estructurados son componentes válidos de las aplicaciones de análisis de Big Data.

Los grandes datos se pueden analizar con las herramientas de software comúnmente utilizadas como parte de las disciplinas de Advance Analytics, como la minería de datos de análisis predictivo, el análisis de texto y el método estadístico. El software de BI convencional y las herramientas de visualización también pueden desempeñar un papel en el proceso de análisis. Pero los datos semiestructurados y no estructurados pueden no encajar bien en el Data Warehouse tradicional basado en la base de datos relacional.

Además, es posible que los almacenes de datos no puedan manejar las demandas de procesamiento que plantean los conjuntos de grandes datos que deben actualizarse con frecuencia o incluso de manera continua, por ejemplo, datos en tiempo real sobre el rendimiento de aplicaciones móviles o de oleoductos y gasoductos. Como resultado, muchas organizaciones que buscan recopilar, procesar y analizar grandes datos han recurrido a una nueva clase de tecnologías que incluye Hadoop y herramientas relacionadas como Yarn Spook, Spark y Pig, así como bases de datos No Sql. Esas tecnologías forman el núcleo de un marco de software de código abierto que admite el procesamiento de conjuntos de datos grandes y diversos en sistemas agrupados.

Hasta donde yo sé, los proyectos de predicción de salud pueden resolverse analizando el conjunto de datos dado y utilizando el proceso del modelo respectivo, los datos en lenguaje R y repítalos por no de iteraciones hasta que obtengamos una precisión. Este es el proceso que I saber y si esto se puede hacer en Big Data y ML, por favor envíeme un mensaje, eso sería apreciable.

More Interesting

¿Cómo trata Apache Spark con los datos de registro que se ejecutan en TeraBytes con memoria limitada (por ejemplo, 8 GB)?

¿Cuáles son los últimos algoritmos de aprendizaje de los vecinos más cercanos? Me refiero a todo lo que se basa en datos, como métodos basados ​​en instancias, kNN, algoritmos de aprendizaje vecinos y métricos, todo en un solo lugar.

¿Qué es diferenciar los bosques aleatorios de otros métodos de conjunto en Data Science y por qué?

¿Es posible construir algo así como una red neuronal recurrente simplemente ingresando los mismos datos a lo largo del tiempo (por ejemplo, si los datos son una aceleración, cada entrada es el acc a la vez T)?

¿Cómo es trabajar en problemas de aprendizaje automático en un entorno empresarial?

¿Es posible combinar dos algoritmos no supervisados ​​en serie para maximizar la precisión?

Cómo numerar los clústeres en la agrupación jerárquica de documentos en Python

En la regresión logística multinomial, ¿por qué el valor p en la prueba de razón de probabilidad es significativo pero en las estimaciones de parámetros no es significativo para cada dimensión?

La mayoría de los profesionales del aprendizaje automático parecen entusiasmarse con el término "aprendizaje profundo". ¿Cuáles son algunas de las aplicaciones prácticas del aprendizaje profundo?

¿Cómo podemos suprimir el ruido de fondo en un teléfono durante una llamada telefónica?

¿Qué es la programación probabilística?

Cómo lidiar con múltiples resultados mutuamente dependientes en el aprendizaje automático

¿Cuándo usan los combatientes la ametralladora / cañón y cuándo usan misiles en el combate aire-aire?

¿Cuál es la mejor manera de implementar un SVM usando Hadoop?

¿Por qué el aprendizaje automático a menudo perpetúa el sesgo?