¿Cuáles son los problemas interesantes en la ‘automatización de big data’?

Realmente no creo que un análisis como este sea completamente automatizado. Es fácil decir, “aquí están todas estas variables, ¿cuál está correlacionada con cuál?” Esa parte está bien, pero para tener ese proceso, lo más probable es que necesite algún tipo de proceso iterativo (que lo abra a múltiples problemas de prueba) o un gran proceso por lotes con una corrección de importancia conservadora.

El buen análisis de datos, en mi opinión, se trata de responder y probar hipótesis con datos cuantitativos. Estas preguntas deben estar bien definidas, verificables y tener experimentos bien diseñados / pensados para tener la mejor oportunidad de producir una buena ciencia (observe que no dije importancia, un resultado negativo es tan informativo como positivo, como tanto como olvidamos a veces).

Siento que automatizar este proceso es un poco como tomar un robot que apunta a objetos aleatorios en la habitación. A veces apunta a lo que quieres, pero la mayoría de las veces apunta en la dirección opuesta.

Related Content

¿Qué es el etiquetado gráfico?

¿Cuándo es importante utilizar convoluciones cruzadas de canales y cuándo no?

Soy nuevo en la programación de Python. Quiero aprender el aprendizaje automático. ¿Qué libros son buenos?

¿Cuándo usan los combatientes la ametralladora / cañón y cuándo usan misiles en el combate aire-aire?

¿Cuáles son algunas de las ventajas de usar PyTorch sobre TensorFlow?

¿Cuáles son las diferencias entre los árboles de decisión, los métodos de agrupamiento y las redes neuronales?

¿Por qué la máquina de Bolzmann restringida se llama memoria asociativa?

Interesante pregunta.
La respuesta está en tu pregunta misma. Big Data es grande (duh). Sí, es verdad. Considere que los datos son una familia, entonces los grandes datos son una sociedad. Más molestias y en todo el lugar.
La segunda automatización tiene que ver con la consistencia. Puede estar en la pregunta que está haciendo o en los datos que está explorando.

Dado que los grandes datos son enormes, por lo tanto, no hay una manera confiable de decir que la coherencia seguirá durante cada ejecución del trabajo de automatización. Como no se sigue la coherencia, la lógica de su programa o los datos que esperaba no proceden de la fuente.

Traté de automatizar un big data y todavía lo estoy haciendo. No es imposible, pero a medida que su programa original crece, aprende qué esperar o qué no. Las 20 líneas de código se convierten en 200 líneas y todavía no está seguro de que se ejecutará sin fallar durante los próximos 7 días. Árbol de bambú de la frustración.

Es por eso que es difícil poner big data en la automatización.

Michael Zoller

Los datos empresariales crecerán un 650% en los próximos cinco años. Además, hasta 2015, el 85% de las organizaciones Fortune 500 no podrán explotar Big Data para obtener una ventaja competitiva. – Gartner

Los datos son la línea de vida de una organización y cada vez son más grandes. En 2011, los expertos predijeron que Big Data se convertirá en “la próxima frontera de competencia, innovación y productividad”. Hoy, las empresas enfrentan desafíos de datos en términos de volumen, variedad y fuentes.

La tecnología está creciendo y todos luchan por comprender el algoritmo de procesamiento de Big Data . Los probadores de Big Data necesitan comprender a fondo los componentes del ecosistema de Big Data. Hoy, los evaluadores entienden que tienen que pensar más allá de los parámetros regulares de las pruebas automatizadas y las pruebas manuales. Big Data, con su formato inesperado, puede causar problemas que los casos de prueba automatizados no pueden entender. La creación de casos de prueba automatizados para dicho grupo de Big Data requiere experiencia y coordinación entre los miembros del equipo. El equipo de prueba debe coordinarse con el equipo de desarrollo y el equipo de marketing para comprender la extracción de datos de diferentes recursos, el filtrado de datos y los algoritmos de procesamiento previo y posterior.

Michael Zoller

More Interesting

Además de tratar de reconstruir la entrada (como en Autoencoder), ¿qué otras tareas podrían resultar útiles para el aprendizaje no supervisado de redes profundas?

¿Por qué la pila de RBM después de aprender no es una máquina de Boltzmann profunda (DBM)?

¿Cuándo debo coseno similitud? ¿Se puede usar para la agrupación?

Cuál debería ser mi próximo paso, después de cubrir las estadísticas básicas de las estadísticas principales, un curso básico de análisis de datos (preparación de datos, exploración, clasificación, minería de reglas de asociación, agrupación, regresión) y un proyecto en un conjunto de datos SSLC (puede encontrarlo en mi único blog en Quora) usando R?

¿Qué redes neuronales se han diseñado para leer los labios?

Soy candidato a doctorado en una universidad en Irán, tengo experiencias en PNL persa, Spark, Hadoop y aprendizaje profundo. ¿Tengo alguna posibilidad de ingresar a Google?

¿Cuáles son las ideas principales detrás de los principales algoritmos de clasificación de búsqueda?

¿Cuál es una explicación intuitiva de las redes residuales profundas?

¿Cuándo veremos una base teórica y una base matemática para el aprendizaje profundo?

Como científico de datos, ¿qué te inspiró a seguir una carrera en ciencia de datos?