En mi opinión, la ingeniería de características es el acto para transformar los datos de entrada (o características) para que puedan alimentar los algoritmos de aprendizaje automático o hacer una mejor predicción a través de algoritmos de aprendizaje automático. A continuación se presentan varios aspectos importantes de la ingeniería de características, ilustraré cada uno de ellos a través del desafío de clasificación de Airbnb más reciente:
- Abordar el valor de la señorita. En el desafío de airbnb, faltan algunas edades. Necesitamos completar los valores faltantes o eliminar todas las instancias que contienen valores faltantes.
- Abordar los datos categóricos. En el desafío de airbnb, hay algunos valores de datos como ‘masculino’ o ‘femenino’ en género. Necesitamos hacer que las características que no contienen valores numéricos sean numéricas, por ejemplo, mediante el uso de variables ficticias. En el caso de género, ‘masculino’ debería ser 1 y ‘femenino’ debería ser 0, por ejemplo. Tenga en cuenta que si desea implementar clasificadores de árbol como bosque aleatorio, no necesitamos transformar datos categóricos.
- Formateo de datos especiales . Por ejemplo, las cadenas de fecha no son valores numéricos, por lo que no podemos usarlas en el aprendizaje automático. Una buena idea es dividir la fecha en año, mes y fecha, por lo tanto, tres valores enteros.
- Creando nuevas características. A veces, crear nuevas funciones puede mejorar el modelo. Un ejemplo muy ilustrativo es, por ejemplo, si queremos predecir el precio de la vivienda en un área determinada. Tenemos largo y ancho de la casa. Podemos crear servilmente el área de la casa. No todas las nuevas características tienen sentido así. A veces, simplemente multiplicamos dos características juntas o simplemente tomamos el registro natural de una determinada característica (para que la distribución de la característica se parezca más a la distribución normal).
De ninguna manera es una lista exhaustiva. Pero para una lista simple, aquí está. Espero eso ayude.
- ¿Cuáles son algunas buenas técnicas o herramientas de visualización de datos además de Tableau que uno debe aprender para comenzar su carrera en el campo de la visualización?
- ¿Cuáles son las habilidades / cualidades que busca un pasante de ciencia de datos?
- ¿Cuál es la diferencia entre estadística computacional y ciencia de datos?
- ¿Se acabará alguna vez la información?
- Soy un estudiante de secundaria interesado en Data Science. ¿Cómo puedo comenzar a aprender y jugar con conjuntos de datos?