¿En qué consiste la minería de datos?

La minería de datos implica extraer datos de una fuente, organizarlos en un formulario fácil de analizar y luego descubrir las características / tendencias importantes de los datos.

Una herramienta súper poderosa para la minería de datos en la web es Convertir sitios web en API estructuradas desde su navegador en segundos. Le permite raspar datos de cualquier sitio y luego le brinda las herramientas para modificarlos en la forma que necesita. Desde allí, puede incrustar fácilmente los datos organizados en su propio sitio o aplicación o descargarlos para el análisis estadístico. Por ejemplo, si desea actualizar las tendencias del mercado de valores, puede utilizar la minería de datos con Kimono para obtener toda esa información como una serie temporal. Alguien ha hecho esto antes con el mercado bursátil taiwanés: Taiwan Stock Express – Datos financieros actualizados … – #builtwithkimono También es totalmente gratuito, lo cual es bastante radical.

PD: ¡Trabajo allí, pero en realidad es una configuración súper dulce y fácil de usar! No solo decir eso 🙂

La minería de datos se refiere a un proceso mediante el cual se puede extraer información útil de una masa de datos en bruto, de manera conceptual similar a lo que hacen los mineros reales cuando intentan recuperar cantidades útiles de un mineral valioso de una masa de mineral en bruto.

Es un proceso altamente iterativo, y lo veo como algo que involucra:

1. Recopilación de datos: recopilación de la información básica que necesita
2. Extracción de datos: extraer los datos potencialmente útiles de la masa de datos sin procesar que tiene
3. Evaluación de datos: averiguar lo que ha extraído
4. Refinamiento de datos: en función de lo que tiene, averiguar qué más debe hacer para obtener un mejor producto final

Y cuando haya hecho todo eso, debe poder presentar la información de manera que quede claro que ha descubierto algo de valor.

La mayoría de las herramientas que ve anunciadas tratan de las partes 1 y 2 del proceso. Hadoop, por ejemplo, está diseñado principalmente para ayudar con el proceso de recolección y extracción de datos. Pero las dos últimas partes del proceso son partes importantes: descubrir lo que tienes y refinarlo, y gran parte de este proceso depende de las personas que tienes para evaluar e interpretar la información a la luz de tus necesidades específicas. Existen herramientas de modelado y herramientas estadísticas básicas que pueden ayudar con ese proceso, pero en última instancia necesita personas que puedan pensar lógicamente sobre la información y traducirla a una forma que sus gerentes puedan entender y actuar.

En la mayoría de los esfuerzos para analizar datos, los investigadores utilizarán varias herramientas estadísticas. La técnica de investigación más común consiste en crear una teoría sobre lo que está sucediendo en su población de investigación y diseñar un estudio que pruebe las hipótesis generadas por la teoría.

Por ejemplo, supongamos que tenemos una teoría de que el mundo de las citas en línea está cambiando la forma en que las personas se conocen. A partir de esta teoría, podríamos generar una hipótesis de que las personas tienen más éxito para encontrar una pareja usando citas en línea que en la vida real. Podríamos probar esta hipótesis al encontrar datos sobre el número de personas que se casan después de reunirse en línea en comparación con el porcentaje que se casa después de reunirse en persona.

Debido a que estamos guiados por la teoría y la hipótesis, buscamos variables que puedan ayudarnos a probar nuestra hipótesis. Necesitamos saber cuántas personas participan en cada situación y cuántas encuentran pareja en cada situación. Tenemos que definir un montón de términos, como lo que significa “encontrar pareja” (contamos pareja del mismo sexo, etc.).

El punto principal aquí es que estamos limitando las variables que estamos mirando para probar nuestra hipótesis. Hacemos esto porque en realidad tenemos una hipótesis que queremos probar.

La minería de datos es un enfoque muy diferente. No necesitas teoría. No necesitas hipótesis. Todo lo que necesitas es fuerza bruta. Y las computadoras renuncian a la fuerza bruta. Ahora tenemos la velocidad y el poder para analizar la correlación entre cada variable individual y todas las demás variables junto con todas las combinaciones de variables, y descubrir si hay algún patrón allí.

Nunca pudimos hacer esto antes porque no teníamos la potencia informática necesaria para hacerlo. La minería de datos significa que ya no tiene que pensar ni observar más. Simplemente siéntate, deja que las computadoras se enciendan y corras hacia tu jefe con el resultado en tus manos.

Por supuesto, aún se descubrirán muchas relaciones espurias utilizando la minería de datos. Habrá correlaciones que no tienen una conexión causal. Simplemente están allí. Sin teoría; sin una comprensión profunda de lo que está estudiando, puede fácilmente cometer errores sobre lo que está sucediendo.

Si miramos todos nuestros datos de citas, podemos encontrar que las personas que se reúnen a las 10 pm de un jueves siempre se casan. Por supuesto, no sabremos que las personas que se encuentran en persona no tienen una circunstancia similar, ya que no podremos recopilar esos datos. Pero iremos con nuestros datos en línea porque tenemos muchos de ellos, y nos engañará al pensar que sabemos algo.

La diferencia esencial entre la minería de datos y otros métodos de investigación es que con la minería de datos, podemos arrojar todo a la tolva. Usando otros métodos, tenemos que ser selectivos y solo arrojar las diez o más variables que creemos que son más importantes en la tolva.

SIMPLE:

Minería de datos: descubriendo patrones en grandes bases de datos
Herramientas: Hadoop

Eso es tan simple como puedo hacerlo.