¿Cuáles son los mejores temas de investigación recomendados en bases de datos según las tecnologías de punta y las tendencias de investigación recientes?

  • Según las tendencias de la lista de correo de DBWorld , el tema de investigación más candente en la actualidad son las bases de datos distribuidas (escala tera y escala peta): http://www.cs.wisc.edu/dbworld/
  • Consulte también el programa de la conferencia VLDB : http://www.vldb2010.org/accept.htm y CIDR : http://www.cidrdb.org/cidr2011/p…
  • Consulte los documentos de Google Research sobre sistemas distribuidos: http://research.google.com/pubs/… y Recuperación de información: http://research.google.com/pubs/… y ¿Cuáles son los documentos de Google Research más interesantes?
  • Consulte las publicaciones recientes de Microsoft (empresa) en el campo: http://research.microsoft.com/en… y la lista de las principales conferencias: http: //academic.research.microso…
  • Recomiendo el blog de investigación de Daniel Abadi para algunos temas y tendencias emergentes: http://dbmsmusings.blogspot.com/ y sus publicaciones: http://cs-www.cs.yale.edu/homes/… también vea Quora Respuesta del usuario a ¿Cuáles son los mejores y perspicaces blogs sobre datos, incluida la forma en que las empresas utilizan los datos?
  • Bases de datos comerciales y almacenes de datos como Amazon Dynamo http://en.wikipedia.org/wiki/Dyn…), Google Bigtable (http://en.wikipedia.org/wiki/Big…) y Google Percolator (http: / /research.google.com/pubs/…), kdb + de KX systems (http://kx.com/Products/kdb+.php), C-store de Vertica (empresa) (http://en.wikipedia.org / wiki / Mic …), Times Ten (http://www.oracle.com/timesten/i…) e implementaciones de código abierto como Redis, Cassandra (base de datos), HBase, MongoDB, Riak, MonetDB , Scalaris, H-store (http: // hstore .cs.brown.edu /) Vale la pena explorar en profundidad. Ver también http://en.wikipedia.org/wiki/Dis…
  • La reciente explosión de datos (http://en.wikipedia.org/wiki/Big…) condujo a una revisión importante de la aplicabilidad del modelo relacional en ciertos dominios donde sus restricciones son excesivamente limitantes (ver http://en.wikipedia.org/ wiki / NoSQL). Para obtener una buena descripción general de las bases de datos no relacionales emergentes y los almacenes de valores clave, consulte Varley. Sin relación: las bendiciones mixtas de las bases de datos no relacionales : http://ianvarley.com/UT/MR/Varle…, tesis de Abadi, ejecución de consultas en sistemas de bases de datos orientados a columnas : http: //cs-www.cs.yale .edu / homes / … y Meijer & Bierman, un modelo correlacional de datos para grandes bancos de datos compartidos : http://queue.acm.org/detail.cfm?…
  • Las bases de datos de gráficos (http://scholar.google.com/schola…) son extremadamente importantes en las redes sociales en línea modernas y en muchos otros dominios, este es un tema de investigación activa (por ejemplo, ver Neo4j , HyperGraphDB , InfiniteGraph ), http: //www.graph-database.org/, http://nosql-database.org/
  • Consulte Microsoft Trinity , una base de datos de gráficos sobre la nube de memoria distribuida: http://research.microsoft.com/en… y Google Pregel , un sistema para el procesamiento de gráficos a gran escala: http://portal.acm.org/citation.c …
  • Los sistemas de bases de datos especializados y el almacenamiento de datos en bioinformática podrían ser un buen tema para la investigación aplicada, por ejemplo, ver Atlas : http://www.biomedcentral.com/147… y el ecosistema Bowtie : http: //bowtie-bio.sourceforge.ne…
  • Echa un vistazo a algunos trabajos interesantes realizados por Luis Gravano en búsqueda estructurada y extracción de información de la “web oculta”: http://www.cs.columbia.edu/~grav…
  • Dado que los costos de la memoria de acceso aleatorio disminuyen continuamente, el tema de las bases de datos de memoria principal probablemente atraerá cada vez más atención (consulte http://en.wikipedia.org/wiki/In-…). Echa un vistazo a Memcached, Hazelcast, Membase, MemSQL, FastDB, SciDB y RAMCloud: http://fiz.stanford.edu:8081/display/ramcloud/Home
  • Druida: una tienda OLAP distribuida en memoria: http://metamarketsgroup.com/blog…
  • Google Snappy , http://code.google.com/p/snappy/, una biblioteca de compresión / descompresión utilizada en BigTable.
  • Heroku Doozer : http://xph.us/2011/04/13/introdu… y http://blog.golang.org/2011/04/g…
  • LevelDB : una biblioteca de base de datos de clave / valor rápida y ligera: http://code.google.com/p/leveldb/
  • Otro traductor de SQL a MapReduce: http://www.cse.ohio-state.edu/hp…
  • La proliferación de 10 Gigabit Ethernet, Infiniband / RDMA y otras tecnologías de computación de alto rendimiento en la corriente principal puede requerir repensar algunos supuestos básicos en el diseño de la base de datos (consulte ¿Cuándo superará 10 gigabit Ethernet a 1 gigabit Ethernet en la implementación? Y es hora de baja latencia : http : //www.matt-welsh.blogspot.c…)
  • RethinkDB (http://www.rethinkdb.com/blog/) está haciendo un trabajo interesante en bases de datos basadas en unidades de estado sólido, es posible que desee comprobarlo
  • También creo que faltan algunos productos especializados integrados, o están sobredimensionados, no escalables y / o caros: 1) un motor de análisis db + estrechamente integrado, por ejemplo, para EEG o series de tiempo financieras 2) un marco de mensajes + db estrechamente integrado optimizado para ETL realmente rápido
  • Como consejo general, trataría de evitar temas demasiado especializados en favor de la construcción de un sistema de base de datos para un determinado dominio del mundo real (por ejemplo, vea ¿Cómo comparten los científicos los datos y el código?). También vea Patterson, “Cómo tener una mala carrera en la academia”: http://www.cs.berkeley.edu/~patt…
  • Relacionado: ¿Cuál es la mejor literatura sobre el diseño de plataformas de bases de datos? ¿Por qué?

Hay tres conferencias anuales que atraen la mayor parte de los trabajos de investigación: ICDE [1], SIGMOD [2] y VLDB [3]. También hay un par de conferencias bienales celebradas en años alternos que incluyen más trabajo experimental: HPTS [4] y CIDR [5].

Algunos líderes de la comunidad de investigación de bases de datos se reúnen de manera irregular para resumir el estado del campo. Los ejemplos de informes producidos por estas reuniones incluyen el Informe Asilomar sobre investigación de bases de datos [6] de 1998 y el Informe Claremont sobre investigación de bases de datos [7] de 2008.

Recientemente, se ha publicado una gran cantidad de investigaciones relacionadas con bases de datos en conferencias asociadas tradicionalmente con la investigación de sistemas. Por ejemplo, Google publicó detalles sobre GFS [8] en SOSP [9] en 2003, y sobre BigTable [10] en OSDI [11] en 2006. En reconocimiento de esta tendencia, las comunidades de investigación de bases de datos y sistemas recientemente se unieron para crear una nueva conferencia llamada SoCC [12].

Además de leer detenidamente las actas de estas conferencias, también puede consultar sus publicaciones relacionadas: el Boletín de Ingeniería de Datos de ICDE [13], el Registro SIGMOD [14] y las Actas de la Fundación VLDB [15].

Me detendré aquí; en una fecha posterior, podría extraer algunas de las tendencias relevantes del contenido mencionado anteriormente, pero por ahora, el ejercicio se deja al lector.

[1] http://www.icde2011.org/
[2] http://www.sigmod.org/
[3] http://www.vldb.org/
[4] http://www.hpts.ws/
[5] http://www.cidrdb.org/
[6] http://portal.acm.org/citation.c
[7] http://db.cs.berkeley.edu/clarem
[8] http://labs.google.com/papers/gf
[9] http://sosp.org/
[10] http://labs.google.com/papers/bi
[11] http://www.usenix.org/events/byt
[12] http://cacm.acm.org/blogs/blog-c
[13] http://tab.computer.org/tcde/bul
[14] http://www.sigmod.org/record
[15] http://www.vldb.org/pvldb/

Las bases de datos en el mundo moderno se requieren principalmente para computarizar datos para deshacerse del desorden de papel / archivos. Se requieren en casi todas las secciones empresariales de hoy, como bancos, hospitales, oficinas de correos, restaurantes de comida rápida, agencias de viajes y lo que sea. Una investigación popular de todos los tiempos sobre sistemas de bases de datos en cualquier empresa requiere que los datos sin procesar se almacenen en el back-end y conectarlos con una interfaz (front-end) que oculta el back-end pero extrae la información requerida en el back-end de La interfaz. La interfaz se puede diseñar usando C #, php / javascript o ASP.NET y el back-end usando el servidor mysql / sql. La interfaz debe ser lo más fácil de usar posible y se pueden buscar en Internet varias pautas en la red.
Otra investigación popular en el área de la base de datos es extraer datos (encontrar patrones en) datos en bases de datos grandes o incluso almacenes de datos para el análisis de los datos, por ejemplo, en un sistema de base de datos de supermercados, la minería de datos puede ayudar a encontrar patrones como, si es el último las ganancias generales del año fueron mejores que el año anterior y qué acciones tomar para el año en curso. Para extraer datos, hay varios algoritmos disponibles que puede codificar en un lenguaje de programación adecuado y aplicarlos a los datos del back-end para obtener resultados (patrones en los datos), que luego pueden analizarse según sea necesario.

Si está interesado en la investigación sobre bases de datos, visite nuestro blog Investigación sobre bases de datos

More Interesting

Aprendiendo a programar, académicamente un ingeniero. ¿Llegué tarde?

¿Se puede reducir el problema de la clasificación al problema de unicidad del elemento?

¿Cómo debo comenzar mi preparación para el GATE 2018 en mecánica desde hoy sin entrenamiento?

¿Cuál es el proceso de venta de patentes relacionadas con la informática y la tecnología?

¿Cuál es la diferencia entre global y $ GLOBAL en PHP?

¿Las computadoras empeoran el comportamiento humano?

¿Qué tan limpio es el código base de Apple en relación con el de Google?

¿Qué pueden hacer los hombres blancos heterosexuales que valoran la diversidad para que las comunidades STEM en general sean menos hostiles hacia las mujeres y las minorías?

¿Se necesita la misma cantidad de recursos para que una máquina sume / multiplique dos números pequeños y dos grandes?

¿Por qué las computadoras siempre realizan la suma?

¿Qué RAM debo instalar en mi PC 2005? Ahora corre lento; ¿Es este el resultado de instalar Windows 7? ¿Cómo puedo acelerarlo?

¿Cómo puede cooperar un sistema distribuido para determinar las reglas de su entorno?

¿Cuándo serán los robots de inteligencia artificial lo suficientemente buenos como para hacer un teatro de improvisación adecuado?

¿Cómo funciona el motor de búsqueda Omnity?

¿Es bueno tener más y más parámetros capturados para los datos de calificación crediticia? ¿Los algoritmos comienzan a fallar / se vuelven inexactos si hay demasiados atributos en los datos? ¿Cómo se pueden erradicar los parámetros que no son muy útiles?