¿Cómo puedo comenzar el análisis de datos en un gran conjunto de datos?

Entonces, ¿por qué supone que se pueden desechar algunos datos? Bueno, algunos datos pueden ser desechados. Por ejemplo, si una columna se puede inferir de otra columna, entonces la primera se puede eliminar. Pero es más complicado que esto.

La palabra clave que está buscando se llama PCA = Análisis de componentes principales. Tiene datos altamente dimensionales, pero no todas las “dimensiones son útiles para usted”. Algunos pueden estar “correlacionados” entre sí, por lo que pueden reemplazarse por una sola columna que es una combinación de esos componentes originales sin pérdida de información.

Usted habló sobre SVM (encontrar la función perfecta para separar dos categorías) y Redes Neuronales (un modelo que captura una función compleja para mapear “con suerte” sus entradas a alguna salida deseada) … Está hablando de clasificación y / o predicción.

Si lo que desea es la clasificación, entonces probablemente pueda intentar usar la caja de herramientas MATLAB para clasificar sus datos.

Si lo que desea es “extracción de características”, entonces necesita tener una idea de lo que tratan sus datos. A veces, es un poco demasiado, que un experto en dominios puede decir fácilmente que no deberían afectar el resultado final.

Necesitas mucho más que solo armarlo. Me parece que probaste algunas cosas en Python y ahora quieres tener en tus manos un conjunto de datos real. El análisis de datos y el aprendizaje automático es mucho más complicado que eso. Todavía no conozco a alguien que conozca un poco las redes neuronales y no sepa cómo lidiar con las preguntas que hace.

Entonces, mi consejo para armarlo todo es leer este libro: Amazon.com: Introducción al aprendizaje estadístico: con aplicaciones en R (Springer Texts in Statistics) (9781461471370): Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani: Libros

Con la experiencia de codificación que mencionó, debe pasar fácilmente el conocimiento a Python.

Ese libro puede responder a todas sus preguntas y no creo que nadie pueda ayudarlo porque su pregunta es demasiado vaga.

Quiero predecir una de las columnas.

Nadie puede ayudarte si no dices qué predicción quieres hacer. ¿Es una regresión? Una clasificación? ¿Cuál es la tarea, problema o pregunta que desea resolver?

¿Cómo elijo qué columnas tirar?

Existen muchas técnicas, en general divididas en regularización, reducción de características y extracción de características. Todos tienen ventajas y desventajas y dependen en gran medida de su conjunto de datos y la tarea en cuestión.

¿Cómo trato con columnas numéricas y nominales?

No estoy seguro de qué quiere decir con esto, pero en general lo que hacemos con las diferentes variables depende de los supuestos del modelo que estamos ajustando.

¿Cómo trato con los datos faltantes?

En primer lugar, debe saber de dónde provienen los datos e intentar comprender por qué faltan datos. Puede imputarlo, eliminar filas, modelarlo, depende del proceso.

¿Qué algoritmos / estadísticas de aprendizaje debería probar?

Necesita hacer un análisis exploratorio de datos. Resumen de estadísticas y gráficos de cada variable, relación entre variables y entre cada variable independiente y la variable dependiente.

Espero que esto ayude.

More Interesting

Cómo explicar intuitivamente los tensores

Estoy muy interesado en el aprendizaje automático y quiero trabajar en algunos proyectos de código abierto. ¿Qué proyectos puedes sugerir?

¿Por qué los modelos de aprendizaje automático no funcionan bien cuando se usan en la predicción del mercado de valores en vivo, pero, por otro lado, funcionan muy bien sin conexión?

Cómo crear la línea de regresión de mínimos cuadrados (error cuadrático medio mínimo) en R

¿Cuál es la naturaleza de la red neuronal multicapa en el aprendizaje Deep Q?

¿Ha publicado Factual.com algún trabajo de investigación (o algún asunto técnico importante) sobre las técnicas de aprendizaje automático que utilizan para rastrear y extraer de la web?

Cómo entrenar un modelo de Keras con un gran conjunto de datos y luego ajustarlo con un conjunto de datos más pequeño de interés

¿Hay algún hallazgo reciente que indique que la ascendencia cerebral ocurre como un esquema de error de propagación inversa?

¿Cuál es la forma estándar de ordenar contenidos en función de la función o consulta del usuario?

¿Qué debo buscar al comprar una computadora para ejecutar experimentos de Machine Learning?

¿Es posible realizar el aprendizaje en conjunto mediante el apilamiento si solo tengo dos modelos?

¿Qué piensa sobre el estudio de posgrado especializado en recuperación de información y sistemas de recomendación?

¿Será posible usar una red neuronal para determinar si algo está en el Valle Uncanny?

¿Cómo comienza un principiante a aprender el aprendizaje automático?

¿Cómo ayuda el enfoque ontológico con la clasificación de texto?