¿Cuáles son algunos buenos proyectos sobre aprendizaje automático y minería de datos?

Hola,

Siempre puedes comenzar con Kaggle.

Aparte de estos pocos son:

1. Aprender a comunicarse en un entorno multiagente

Estamos interesados ​​en construir un sistema multiagente (neuronal) donde los agentes resuelvan una tarea juntos mediante el intercambio de información. Un ejemplo es que cada agente lea parte de un artículo y les pida que respondan preguntas en colaboración.

Contacto: Él Él ( [correo electrónico protegido] )

2. Unidad de control motor basado en aprendizaje profundo

El movimiento del cuerpo humano se rige por una unidad de control motor que envía señales para activar los músculos. La tarea de este proyecto es modelar esta unidad utilizando técnicas de aprendizaje automático y aprendizaje profundo. El conjunto de datos de observaciones proviene de un modelo biomecánico (OpenSim). Es preferible un equipo con conocimientos previos de C / C ++ o Python (para interactuar con OpenSim, http: //simtk-confluence.stanford…). El conocimiento de la mecánica / biomecánica es una ventaja.

Contacto: Lukasz Kidzinski ( [correo electrónico protegido] )

3. Localización interior utilizando señal WiFi

Estamos interesados ​​en la localización en interiores a partir de datos de señal WiFi. Ahora estamos tratando de estimar la distancia y el AoA (ángulo de llegada) entre el transceptor Wi-Fi y el receptor. Nos gustaría comparar el rendimiento de los algoritmos de aprendizaje automático y aprendizaje profundo con los algoritmos convencionales.

Contacto: Hirokazu Narui ( [correo electrónico protegido] )

4. Control de congestión multiagente en Internet

El control de congestión es el estudio de * cuándo * enviar datos en Internet, versus cuándo esperar y dejar que alguien más tome un turno. Estos algoritmos se han ajustado a mano durante décadas para optimizar el rendimiento, el retraso y la equidad entre múltiples computadoras independientes. El trabajo reciente ha comenzado a enseñar a las computadoras a sintetizar estos algoritmos a partir de los primeros principios. ¿Qué tan bien puede hacer (y puede vencer el estado actual del arte, tanto humano como generado por computadora) con el aprendizaje automático real? Contacto: Keith Winstein ( [correo electrónico protegido] )

5. Enfoques escalables para la comprensión lectora utilizando la lectura automática

La tarea de este proyecto es realizar la comprensión de lectura automatizada de una manera que se adapte a documentos de texto grandes.

Contacto: Él Él ( [correo electrónico protegido] )

6. Conducción autónoma a través de un mapa desconocido

Yo mismo, con el profesor Marco Pavone en el Departamento de Aeronáutica y Astronáutica, estoy interesado en las comparaciones y extensiones del método propuesto en este documento: (http://groups.csail.mit.edu/rrg/…). El método utiliza el aprendizaje automático con una inclinación bayesiana para predecir la forma más rápida de navegar en un mapa desconocido (por ejemplo, cómo acercarse a una esquina ciega) mientras se mantiene la seguridad. El código utilizado es propiedad del laboratorio que lo propuso, por lo que si el equipo del proyecto elige extender el enfoque sugerido en este documento, primero tendrán que replicar su trabajo.

Contacto: Lucas Janson ( [correo electrónico protegido] )

7. Una base de datos compilada a máquina de enfermedades genéticas
Una gran fracción de las asociaciones conocidas de genes / enfermedades no es fácilmente accesible en forma legible por máquina. trabajando en un sistema de lectura automática para extraer automáticamente esta información y presentarla de manera útil a científicos, médicos y personas interesadas en analizar el genoma (por ejemplo, compañías de interpretación del genoma como 23andMe). El equipo del proyecto trabajará con nosotros para mejorar nuestros algoritmos de clasificación de texto y ayudar a construir un sistema que permita a los usuarios usar nuestra base de datos para la interpretación personal del genoma.

Contacto: Volodymyr Kuleshov ( [correo electrónico protegido] )

8. Métodos de aprendizaje profundo para genética estadística

La genética estadística utiliza grandes cantidades de información genética para hacer inferencias sobre la estructura a nivel de la población de los genomas humanos, particularmente sobre su ascendencia, parentesco y predisposición a la enfermedad. Este proyecto tiene como objetivo diseñar nuevos algoritmos de aprendizaje profundo para algunos de estos problemas, en particular la fase del genoma, la imputación y la estimación de la patogenicidad de las mutaciones. Se prefieren equipos con conocimientos previos de marcos de Deep Learning como Theano y / o Tensorflow. Contacto: Volodymyr Kuleshov ( [correo electrónico protegido] )

9. Ataques adversos al aprendizaje automático

Dado que el aprendizaje automático y el aprendizaje profundo se están generalizando en varias aplicaciones críticas, desde automóviles autónomos hasta autenticación cibernética, su solidez ante los ataques adversos es de suma importancia. En este proyecto, diseñaremos y analizaremos la efectividad de varios tipos de ataques adversos contra algoritmos de aprendizaje automático, en particular en el contexto de ciberseguridad. También estudiaremos cómo estos algoritmos pueden hacerse robustos a tales ataques adversos.

Contacto: Bahman Bahmani ( [correo electrónico protegido] )

10. Aprender buenas subastas de datos

El ajuste de parámetros es una parte importante de las subastas modernas a gran escala (por ejemplo, establecer precios de reserva en subastas de búsqueda patrocinadas). El trabajo reciente ([1506.03684] La pseudo-dimensión de las subastas casi óptimas) establece los fundamentos de aprendizaje estadístico de esta tarea. El proyecto consistiría en desarrollar y probar algoritmos para los correspondientes problemas de minimización de riesgos empíricos (que no son convexos y, por lo tanto, desafiantes).

Contacto: Tim Roughgarden ( [correo electrónico protegido] )

11. Algoritmos para aprender buenas heurísticas

El ajuste de parámetros es una parte importante para que los algoritmos funcionen (como en el descenso de gradiente). El trabajo reciente (http://theory.stanford.edu/~tim/…) establece los fundamentos de aprendizaje estadístico de esta tarea. El proyecto consistiría en desarrollar y probar algoritmos para los correspondientes problemas de minimización de riesgos empíricos (que no son convexos y, por lo tanto, desafiantes).

Contacto: Tim Roughgarden ( [correo electrónico protegido] )

12. retinopatía diabética

Recientemente se ha publicado un conjunto de datos de Kaggle que consta de imágenes de retina de 17,500 pacientes (para un total de aproximadamente 35,000 imágenes) (aquí). Hay una etiqueta asociada con la gravedad del daño causado por la diabetes. El objetivo de este proyecto es clasificar correctamente el grado de retinopatía.

Contacto: Mike Chrzanowski ( [correo electrónico protegido] )

13. Clasificación de tumores malignos

El conjunto de datos DDSM es un conjunto de datos de mamografías que consta de 1.112 pacientes. Hay un archivo csv adjunto que proporciona metadatos para cada foto, incluida la etiqueta (benigna o maligna), su gravedad y la forma del tumor. El conjunto de datos está alojado en Dropbox y se puede encontrar aquí. El objetivo de este proyecto es clasificar los tumores como benignos o malignos.

Contacto: Darvin Yi ( [correo electrónico protegido] )

Fuente: Sugerencias para proyectos de aprendizaje automático, otoño de 2012

Gracias y saludos,

BD