¿Qué significa exactamente la ingeniería de características en el foro de Kaggle?

En mi opinión, la ingeniería de características es el acto para transformar los datos de entrada (o características) para que puedan alimentar los algoritmos de aprendizaje automático o hacer una mejor predicción a través de algoritmos de aprendizaje automático. A continuación se presentan varios aspectos importantes de la ingeniería de características, ilustraré cada uno de ellos a través del desafío de clasificación de Airbnb más reciente:

  1. Abordar el valor de la señorita. En el desafío de airbnb, faltan algunas edades. Necesitamos completar los valores faltantes o eliminar todas las instancias que contienen valores faltantes.
  2. Abordar los datos categóricos. En el desafío de airbnb, hay algunos valores de datos como ‘masculino’ o ‘femenino’ en género. Necesitamos hacer que las características que no contienen valores numéricos sean numéricas, por ejemplo, mediante el uso de variables ficticias. En el caso de género, ‘masculino’ debería ser 1 y ‘femenino’ debería ser 0, por ejemplo. Tenga en cuenta que si desea implementar clasificadores de árbol como bosque aleatorio, no necesitamos transformar datos categóricos.
  3. Formateo de datos especiales . Por ejemplo, las cadenas de fecha no son valores numéricos, por lo que no podemos usarlas en el aprendizaje automático. Una buena idea es dividir la fecha en año, mes y fecha, por lo tanto, tres valores enteros.
  4. Creando nuevas características. A veces, crear nuevas funciones puede mejorar el modelo. Un ejemplo muy ilustrativo es, por ejemplo, si queremos predecir el precio de la vivienda en un área determinada. Tenemos largo y ancho de la casa. Podemos crear servilmente el área de la casa. No todas las nuevas características tienen sentido así. A veces, simplemente multiplicamos dos características juntas o simplemente tomamos el registro natural de una determinada característica (para que la distribución de la característica se parezca más a la distribución normal).

De ninguna manera es una lista exhaustiva. Pero para una lista simple, aquí está. Espero eso ayude.

More Interesting

Estoy planeando obtener la admisión para MS Data Science. ¿Alguien puede sugerirme las mejores universidades en las que pueda ingresar y tener buenos aspectos futuros?

¿Cuál es la diferencia entre una maestría en MFE y una maestría en ciencias de datos, especialmente su futura carrera?

¿Qué conocimiento de bases de datos se considera suficiente para un científico de datos?

¿Cuál es el futuro de Big Data y Python?

¿Cómo se usa MySQL en ciencia de datos?

Cómo aprender y probar la tecnología de big data utilizando GitHub

¿Cuáles son las principales revistas / conferencias sobre minería de datos y aprendizaje automático a las que debe aspirar un doctorado?

¿En qué industria sería mejor para un analista de datos de nivel básico crecer, como científico de datos o consultor tecnológico en el futuro?

¿Existe una empresa de Data Science y, de ser así, hay dinero para ganar?

¿Cuál es la diferencia entre un almacén de datos y una plataforma de gestión de datos?

¿Por qué Java no se considera apropiado para ML / ciencia de datos / aprendizaje profundo?

¿Pueden la minería y el análisis de big data encontrar un sesgo en los medios occidentales?

¿Cuál es su viaje completo de aprendizaje / aplicación en Machine Learning / Data Science / NLP?

Hipotéticamente, ¿sería posible desarrollar un robot que prediga tendencias utilizando la programación de análisis de datos? Estoy considerando seriamente hacer esto.

¿Cuáles son las oportunidades para un ingeniero de ciencia de datos / aprendizaje profundo en el futuro?