Comencemos con el aprendizaje automático
En resumen, los algoritmos de aprendizaje automático son algoritmos que aprenden modelos (a menudo predictivos) de los datos. Es decir, en lugar de formular “reglas” manualmente, un algoritmo de aprendizaje automático aprenderá el modelo por usted.
- ¿Cómo puede ayudar la ciencia de datos a impulsar a los países en desarrollo?
- Cómo acceder a los valores de estas variables MATLAB en base a una matriz que almacena los índices de las columnas requeridas
- ¿Puedes citar un ejemplo de ley escrita usando Big Data?
- ¿Cuál es la forma más eficiente de analizar los datos de transacciones bancarias de Yodlee?
- ¿Qué nuevas ideas puede proporcionar la ciencia de datos en los datos de transporte?
Entonces, déjame darte un ejemplo para ilustrar lo que eso significa. Digamos que está interesado en implementar un filtro de spam. El enfoque probablemente más conservador sería dejar que una persona clasifique estos correos electrónicos manualmente. Ahora, el enfoque de programación “tradicional” sería mirar algunos correos electrónicos de ejemplo (y / o usar su “conocimiento de dominio”) para elaborar una cadena de reglas como
“si este correo electrónico contiene la palabra X, etiquételo como spam, de lo contrario, si el correo electrónico contiene …”
Ahora, los algoritmos de aprendizaje automático lo ayudan a formular estas reglas. O, en otras palabras, los algoritmos de aprendizaje automático (supervisados) analizarán un conjunto de datos de correos electrónicos etiquetados (spam y no spam) y derivarán reglas a partir de ahí para separar las dos clases.
Entonces, ¿qué es la ciencia de datos?
En primer lugar, la ciencia de datos es un término bastante ambiguo, mal definido y un campo interdisciplinario; y las personas quieren decir (esperar) cosas diferentes en diferentes contextos. En mi opinión, en la práctica, la ciencia de datos es más o menos lo que hemos conocido como minería de datos o KDD (Knowledge Discovery in Databases). Las habilidades típicas de un científico de datos son
- Informática: programación, comprensión del hardware, etc.
- Matemáticas: álgebra lineal, cálculo, estadística
- Comunicación: visualización y presentación.
- Conocimiento del dominio
Cuando el aprendizaje automático, en esencia, se trata del uso y desarrollo de estos algoritmos de aprendizaje, la ciencia de datos se trata más de la extracción de conocimiento de los datos para responder preguntas particulares o resolver problemas particulares.
El aprendizaje automático es a menudo una gran parte de un proyecto de “ciencia de datos”, por ejemplo, a menudo se usa mucho para análisis exploratorio y descubrimiento (algoritmos de agrupamiento) y para construir modelos predictivos (algoritmos de aprendizaje supervisado). Sin embargo, en la ciencia de los datos, a menudo también le preocupa la recopilación, las disputas y la limpieza de sus datos (es decir, la ingeniería de datos) y, finalmente, desea sacar conclusiones de sus datos que lo ayuden a resolver un problema en particular.
Existen numerosos ejemplos de aplicaciones de ciencia de datos. Suponga que está trabajando para una compañía de crédito. Su jefe le da la tarea de averiguar si un cliente es solvente o no. Recopila datos de transacciones, tal vez registros de envío y calificaciones de clientes, etc. A continuación, probablemente usará un algoritmo de aprendizaje automático para aprender un modelo predictivo. Por ejemplo, supongamos que eligió hacer crecer un árbol de decisión y concluyó que este cliente en particular no es solvente. Finalmente, prepara una buena presentación visualizando el árbol de decisiones para responder la siguiente pregunta de su jefe: ¿Por qué este cliente no es solvente? …