¿Cuáles son los conceptos clave en la clasificación de datos?

Supongo que se refiere a la clasificación de datos en el contexto del aprendizaje automático.

¡Esta es una pregunta realmente muy amplia!

Trataré de escribir algunas viñetas como guía. Estoy seguro de que muchas más respuestas lo harán más completo y proporcionarán un buen conjunto de recursos para su pregunta.

1. Algoritmos lineales: regresión logística, SVM lineal y perceptrón.
2. Algoritmos no lineales: Kernel SVM, redes neuronales, aprendizaje profundo.
3. Métodos probabilísticos y análisis bayesiano.
4. Visualización de datos (¡siempre ayuda!)
5. Detección de valores atípicos.
6. Compensación de sesgo y varianza. Overfitting vs underfitting y remedios.
7. Selección del modelo: validación cruzada.
8. Ingeniería de características.
9. Selección de características y creación de características: codificadores automáticos, RBM, codificación dispersa.
10. Regularización, L1 vs L2, redes elásticas.
11. Algoritmos en línea de clasificación de big data.
12. Clasificación multiclase uno contra todos, uno contra uno, softmax.
13. Métodos basados ​​en árboles: CART, bosques aleatorios.
14. Impulso: Adaboost y GBM.

Estoy seguro de que estoy olvidando algo, pero esto parece un buen comienzo.

Gracias por el A2A!
Luis.

La clasificación de datos es el proceso de organizar los datos en categorías para su uso más efectivo y eficiente.

Un sistema de clasificación de datos bien planificado hace que los datos esenciales sean fáciles de encontrar y recuperar. Esto puede ser de particular importancia para la gestión de riesgos, el descubrimiento legal y el cumplimiento.

Los procedimientos escritos y las pautas para la clasificación de datos deben definir qué categorías y criterios utilizará la organización para clasificar los datos y especificar las funciones y responsabilidades de los empleados dentro de la organización con respecto a la administración de datos.

Una vez que se ha creado un esquema de clasificación de datos, se deben abordar los estándares de seguridad que especifican prácticas de manejo apropiadas para cada categoría y los estándares de almacenamiento que definen los requisitos del ciclo de vida de los datos.

Para ser efectivo, un esquema de clasificación debe ser lo suficientemente simple como para que todos los empleados puedan ejecutarlo correctamente. Aquí hay un ejemplo de cómo se vería un esquema de clasificación de datos:

Categoría 4: Datos corporativos y de clientes altamente confidenciales que si se divulgan podrían poner a la organización en riesgo financiero o legal.

Ejemplo: números de seguro social de empleados, números de tarjetas de crédito de clientes

Categoría 3: Datos internos sensibles que si se divulgan podrían afectar negativamente las operaciones.

Ejemplo: contratos con proveedores externos, revisiones de empleados

Categoría 2: Datos internos que no están destinados a divulgación pública pero que no harían daño si se hicieran públicos.

Ejemplo: reglas del concurso de ventas, organigramas

Categoría 1: Datos destinados a ser divulgados libremente al público.

Ejemplo: información de contacto, especificaciones del producto

La clasificación necesita información para discriminar datos, aquí, la información podría ser datos sin procesar o resultados de mapeo de datos. Si los datos sin procesar son lineales separables, los datos sin procesar podrían introducirse en SVM, logística, árbol de decisión, etc. Podría ser la red neuronal o los métodos del núcleo, etc.

El concepto clave de clasificación de datos no es tan nuevo para nosotros. La idea principal es esta: algunos de los datos son PÚBLICOS y otros son PRIVADOS. Se puede acceder a los datos públicos y exponerlos a cualquier persona. Los datos privados, por otro lado, solo pueden ser accedidos por las personas que tienen la autoridad para hacerlo. Es un concepto clave que causa la retención de datos, el almacenamiento y la capacidad de cumplir con los requisitos legales y el cumplimiento normativo.

Los dos conceptos clave en cualquier marco de clasificación de datos son:

  1. ¿Cuáles son mis preocupaciones de información de nivel superior?
  2. ¿Qué niveles debo tener dentro de cada una de esas preocupaciones?

Como mínimo, una de sus preocupaciones debe ser la confidencialidad, pero puede incluir otras preocupaciones como la integridad y la disponibilidad (el llamado esquema de clasificación de la CIA). Pero también podría agregar otras preocupaciones.

Dentro de cada una de estas preocupaciones tendrías 2 o más niveles. Entonces, para la confidencialidad, es posible que tenga “Público” y “Privado” como sus niveles, pero la mayoría de las organizaciones tienen más niveles que estos dos con más matices en cada nivel.

Una vez que haya desarrollado su marco de clasificación basado en las inquietudes y los niveles de cada inquietud, puede definir las reglas de manejo de datos necesarias para proteger esas inquietudes en cada nivel.

En este punto, debe estar listo para clasificar todos sus activos de datos.
Al clasificar los activos de datos, otra decisión que deberá tomar es qué tan granular desea que sea su clasificación. En algunos casos, es posible que deba clasificar a nivel de elemento de datos, y en otros casos puede tener más sentido clasificar grupos enteros de elementos de datos.

Es fácil ser perezoso al clasificar datos y sobre clasificar todo. Hacerlo no es infrecuente (ya que es probable que el clasificador cometa un error por precaución), pero puede generar enormes costos para una organización e incluso puede conducir a una excesiva burocracia de datos que puede poner de rodillas a organizaciones enteras.

Dicho esto, cuando los datos se han clasificado adecuadamente, la clasificación de datos se convierte en un facilitador comercial al hacer que sea claro y simple saber cómo se deben manejar los datos.

No estoy seguro, pero creo que la clasificación de datos es algo que garantiza la gestión, el manejo y el monitoreo adecuados de la información. Básicamente es algo que protege sus datos, especialmente los sensibles. Espero que eso ayude.

More Interesting

Como uno de los primeros practicantes de inteligencia artificial y reconocimiento de voz, ¿qué piensa James Baker del rumor en torno al aprendizaje automático y la ciencia de datos en la década de 2010?

¿Qué es la clasificación bayesiana en la minería de datos?

Cómo simplificar el concepto de una red neuronal

¿Cuál es la forma más eficiente de almacenar datos localmente en un Android (Programación de Android)?

¿Cuáles son los pasos importantes para iniciar proyectos de ciencia de datos para clientes comerciales? ¿Hay algún marco a seguir?

¿Es la astrología la implementación de la ciencia de datos antiguos?

¿Cuáles son las herramientas más útiles para aprender sobre análisis de datos e informes?

¿Qué herramientas se requieren para hacer un proyecto en Hadoop Big Data?

¿Cuán estrechamente está relacionada la analítica de big data con el aprendizaje automático?

Cómo convertirse en ingeniero de aprendizaje automático si tengo experiencia en ciencia de datos / ingeniería no ML

¿Cuál es la mejor estrategia para entrevistar al talento de ciencia de datos autodidacta?

Después de tomar las estadísticas AP, descubrí que estaba realmente interesado en las estadísticas. ¿Qué me recomendarías para seguir aprendiendo más al respecto?

¿Qué algoritmos se utilizan para resolver problemas de aprendizaje automático basados ​​en gráficos?

¿Cuáles son algunas de las revisiones de Big Data y el certificado de análisis social de MITx?

¿Todos los científicos de datos participan en la visualización de datos?