¿Qué proyectos se pueden implementar usando MapReduce como proyecto del año final?

¿Qué tal construir un sistema de construcción distribuido? Sé que siempre quise hacer uno. Crear grandes proyectos es un problema que se puede resolver realmente bien con MapReduce.

Para grandes proyectos en C, por ejemplo, puede escribir mapeadores para convertir archivos c en archivos de objetos, luego escribir un reductor para convertir un conjunto de archivos de objetos en bibliotecas y uno más para obtener ejecutables de las bibliotecas.

Por supuesto, esto no es tan simple como parece. Tendrás que ocuparte de las dependencias entre libs. Oozie puede ayudar a resolver dependencias, es un motor de flujo de trabajo sobre hadoop que crea un DAG (Gráfico Acíclico Dirigido) de dependencias. donde cada nodo puede ser un mapeador, reductor o un simple programa java.

Tal vez pueda analizar los archivos MAKE para generar un flujo de trabajo de Oozie … Agregue algunas estadísticas sobre cuánto más rápido es en comparación con hacerlo en una sola máquina … No sé, solo algunas ideas … ¡Creo que puede ser un proyecto realmente genial!

Puede crear una aplicación que realice análisis de sentimientos en Twitter en tiempo real y visualizarlos en un mapa para ver el puntaje de sentimientos de la región usando D3.js. Comience con las aplicaciones de Spark Streaming siguiendo los siguientes enlaces:

  • Spark Streaming parte 1: análisis de sentimientos de Twitter en tiempo real
  • Spark streaming parte 2: análisis de sentimientos de Twitter en tiempo real usando Flume
  • Spark streaming parte 3: análisis de sentimientos de twitter en tiempo real usando kafka
  • Garantías de datos en Spark Streaming con integración Kafka

Usando Storm para analizar datos de Twitter e integración con kafka:

  • Procesamiento de flujo en tiempo real usando Apache Storm – Parte 1
  • Procesamiento de flujo en tiempo real usando Apache Storm y Kafka – Parte 2stdatalabs.blogspot.instdatalabs.blogspot.in

También revise mis repositorios de github para el código:

  • aadhaar-dataset-analysis
  • índice invertido
  • secundaria
  • el recuento de palabras
  • stdatalabs / SparkTwitterStreamAnalysis
  • stdatalabs / StormTwitterStreamAnalysis

Espero que esto ayude.

Comience con los datos que tiene o puede tener.

Si hay algo disponible para usted de las clases que está tomando ahora, de la universidad, de su asesor, etc., hágalo.

Si no, puede que tenga que mirar algunas fuentes públicas y recopilar algunos datos relevantes a partir de ahí. (¿Raspar Twitter en el hashtag correcto? ¿Quora tiene una API? Tienes la idea).

Es probable que el problema en sí no sea tan importante para usted en este momento. Dado que tiene mucho tiempo, se presentará después de configurar el marco de MapReduce y comenzar a ejecutar los trabajos.

¡Buena suerte y diviertete!

Tome cualquier algoritmo (que cree que se puede ampliar) y comience a pensar en el patrón Map -Reduce que se aplicará a él. Recientemente hicimos un proyecto en nuestro último año y desarrollamos un algoritmo de aprendizaje automático usando Map – Reduce.

Lea el libro Hadoop In Practice para obtener más información. También siga el blog de Cloudera, ya que también puede darle algunas ideas.

More Interesting

¿Cuáles son los temas candentes actuales para la investigación en redes de computadoras?

¿Qué es la computación perimetral?

¿Cómo proceder si tengo la intención de investigar en Ciencias de la Computación pero de una escuela de posgrado promedio donde la investigación es inexistente incluso para los profesores?

¿Cuáles son los avances importantes en el aprendizaje automático en la última década?

¿Cómo puede uno familiarizarse con la investigación actual en informática?

¿Elo tiene la misma calificación que PageRank?

¿Qué área de investigación debo elegir? Tengo opciones entre "Semántica de lenguajes de programación" y "Algoritmos y criptografía" de investigación para mi tesis de maestría, y estoy extremadamente confundido en las circunstancias.

¿Cuáles son los problemas abiertos en Computer Vision en los que se está investigando mucho?

¿Qué es un buen libro para un tratamiento matemático adecuado del control de red?

¿Cuáles son algunos de los documentos fundamentales sobre movilidad humana?

¿Qué universidades contienen los departamentos de informática más prácticos?

¿Pueden dos estudiantes publicar un artículo de revista de forma independiente?

¿Cuál es la diferencia entre la declaración de variables y la inicialización?

¿Son productivos los investigadores y matemáticos después de los 45? ¿Es práctico hacer un doctorado después de la jubilación?

¿Cuáles son las principales y más prometedoras áreas de investigación en CS en este momento?