¿Cuál es la mejor manera de automatizar el análisis de datos en línea?

¡Excelente! Está buscando construir su primer producto de datos de autoservicio. Felicidades.

Ahora podría decirle cómo RapidMiner Server simplifica la creación de un proceso así, pero creo que está buscando el desafío de cómo construirlo desde cero.

RapidMiner utiliza Java para todo el sistema y tiene incorporada la seguridad del usuario, pero todas las tecnologías que mencionó pueden hacer lo que necesita JavaScript, PHP, etc. con diversos grados de complejidad.

Comience por elaborar un plan de su sistema (recomiendo diagramas de flujo de datos) para que tenga una idea clara de dónde fluye todo desde y hacia su sistema planificado, también tome nota de lo que ya se ha construido y las precauciones especiales para tomar en cada etapa.

Algunas cosas para pensar:

  1. Seguridad: ¿quién tiene acceso para cargar archivos? ¿Podría alguien cargar un archivo malicioso en su sistema si está abierto en la web?
  2. Manejo de errores: ¿necesita tener un sistema para verificar el formato de los archivos?
  3. Backend: ¿almacena los archivos cargados en cualquier lugar o simplemente los procesa como un análisis de datos?
  4. Resultados: ¿en qué formato presentas la carga al usuario? ¿Devuelve solo un archivo o un tablero?
  5. Modelado: ¿qué tipo de modelado se realizará en los datos? ¿Ya has escrito este código en un idioma y quieres construir un front end?

Para codificar esto desde cero y como no tienes mucha familiaridad con los sistemas, te recomiendo Python. Como funciona como un lenguaje de programación de propósito general que cubre todo, desde servidores web hasta análisis de datos, creo que podría ser ideal para su caso de uso; También es muy fácil de aprender. La seguridad puede hacerte tropezar, pero asegúrate de leer sobre los desafíos a medida que avanzas y eliminarlos.

Es difícil aconsejar algo concreto sin más información sobre lo que significa “análisis de datos automatizado” en su caso; Tengo algo de experiencia en esta área (BI integrado) y puedo recomendar lo siguiente:

  • Si el tamaño del conjunto de datos es bastante pequeño (hasta 100.000 filas), puede realizar todos los cálculos (datos agregados, crear tabla dinámica o gráfico dinámico) en el lado del navegador. Eche un vistazo al plugin jQuery de código abierto pivottable.js que se puede usar como punto de partida. Echa de menos algunas características críticas (como la ordenación definida por el usuario), pero he escrito una extensión que puede hacer eso (extensión pivotable NReco).
  • piénselo dos veces si desea almacenar filas de datos de origen (del archivo CSV / Excel) en la base de datos. Este enfoque parece bueno solo a primera vista; imagine cómo va a insertar 1,000,000 de filas en DB. Incluso si va a utilizar la carga masiva de datos, este proceso lleva una cantidad considerable de tiempo (y recursos del servidor). Y después de eso, piense en la actualización de datos para sus informes: deberá eliminar las filas antiguas e importar las nuevas. Las buenas alternativas son las soluciones NoSQL (MongoDB, Cassandra) o su propia implementación en memoria (que puede proporcionar un rendimiento de procesamiento de datos realmente impresionante).
  • Si decide utilizar el enfoque en memoria, olvídese de PHP.

Puede echar un vistazo a mi proyecto que puede hacer informes de archivos CSV / Excel en un clic: SeekTable.com. Utiliza Backbone.js en el lado del cliente, .NET Core backend e implementa su propio motor de cubo de datos en memoria para los cálculos de datos.

¿Qué análisis necesitas hacer? Esto definitivamente se puede hacer utilizando SQL, JS y un marco web back-end (Rails / Php / Django, etc.), pero aprender todas estas tecnologías llevará mucho tiempo. Debería ver si el análisis que necesita hacer se puede hacer con Excel. Puede usar Excel en línea para permitir que sus colegas también analicen sus datos.

More Interesting

¿Cuál es la importancia de comprender las distribuciones de datos subyacentes en un conjunto de datos antes de aplicar cualquier algoritmo de aprendizaje automático, ya sea un algoritmo de predicción o de clasificación?

¿Cómo ha creado Big Data una mayor demanda de personas con habilidades de investigación?

¿Cuál es exactamente el concepto de big data?

Si puedo tomar Introducción al aprendizaje automático o un segundo curso de Estadísticas, pero no ambos, ¿cuál es mejor para la ciencia de datos?

¿Cuáles son los casos de uso de Docker en Data Science y Machine Learning?

¿Cuál es la diferencia entre el algoritmo K-Nearest Neighbours y el modelo de suavizado exponencial simple en un problema de serie temporal?

¿Cuáles son las fortalezas y debilidades de la plataforma HAVEn de HP para el análisis de big data?

¿Cuáles son las mejores bibliotecas de Python para la ciencia de datos?

¿Cuál es la mejor universidad para la maestría en ciencias de datos en Australia?

¿Por qué RandomForest en R muestra el error 'los vectores largos (argumento 24) no son compatibles con .Fortran'?

¿De qué manera el big data y el aprendizaje automático cambiarán el mundo de los restaurantes?

Qué tan bien se traduce la economía de pregrado (y algunas estadísticas) a trabajar en ciencia de datos. ¿Qué posición (es) debo considerar?

En minería de datos, ¿cómo extraigo los valores monetarios del texto del cupón OCR?

Acabo de regresar de Strata 2017 y todas las demás botas mostraban una plataforma de ciencia de datos (es decir, Domino). ¿Cuál es tu plataforma favorita y por qué?

Cómo restaurar los archivos en mi partición eliminada