¿Cuál es la diferencia básica entre ruido y valores atípicos en la minería de datos?

Los valores atípicos son valores de Entity-Pair que pueden arrojar todo su clasificador o modelo de entrenamiento fuera de la base.
Ejemplo: en un clasificador de ingresos / activos promedio anual de 50-100 personas si incluye a Bill Gates, automáticamente todos en ese estudio se convierten en millonarios en promedio. Esto casi seguramente conducirá a un alto valor de falsos positivos y falsos negativos.
Un valor atípico no es un valor falso o vacío de significado. Es definitivo y preciso, pero cuando está vinculado con las otras tuplas en su modelo, simplemente no está en el mismo rango. Si tuviera que arrojar un par de valores atípicos en un conjunto de datos, lo que haría un clasificador exitoso es vincularlos todos, ya que son diferentes a otros WRT. Cuán diferente se basará en las condiciones que pones en el clasificador.

Donde como, el ruido es basura. Nula, información nula que no es útil en absoluto, bajo ninguna circunstancia. Los conjuntos de datos tienen esos también. Digamos que hay 2 columnas en su conjunto de datos. “Profesión e ingresos”. Y tienen alrededor de cien mil registros. De estos 100,000, digamos que 50 son del tipo en el que la profesión está listada correctamente, pero la columna de Ingresos tiene términos como: “pastel”, “pastelería”, “hello kitty” o “pikachu”, etc., o digamos durante la transmisión. 50 registros fallaron y se transmitieron parcialmente o mientras la conversión de un formulario .csv / .xls de alguna manera perdieron su valor inicial y ahora muestran algunos literales basura como estos:
Cualquier carácter ASCII que vea en el cuadro. A veces esto sucede. Luego, todos estos registros son Ruido y deben eliminarse de su conjunto de datos para que no falle su modelo.
Un valor atípico no hará que su modelo falle. Solo la respuesta es defectuosa (… la mayoría / algunas de las veces se basa en la cantidad de registros y la cantidad de valores atípicos).
Donde como, el ruido casi seguramente fallará su modelo. 9 de cada 10 veces.

Tomemos el ejemplo de enumerar las monedas y billetes que tiene en su bolsillo.

Outlier: estás enumerando meticulosamente todo lo que tienes. Encontró 3 monedas de diez centavos, 1 trimestre y wow un billete de 100 USD que había puesto allí la última vez que compró algo de alcohol y se había olvidado por completo. El billete de 100 USD es un valor atípico, ya que no se espera comúnmente en un bolsillo.

Ruido: acabas de regresar de ese club y estás bastante perdido. Intentas encontrar algo de dinero para comprar algo para estar sobrio, pero tienes problemas para leer las cifras correctamente en las monedas. Encontraste 3 monedas de diez centavos, 1 trimestre y wow un billete de 100 USD. Pero, de hecho, ha confundido el trimestre con un centavo: este error introduce ruido en los datos a los que tiene acceso.

Para decirlo de otra manera, datos = señal verdadera + ruido. Los valores atípicos son parte de los datos.

Lamentablemente, no existe una definición precisa de valores atípicos o ruido. Un valor atípico son simplemente datos que no “encajan” con los otros datos que está analizando. Si es o no un miembro del grupo (distribución, clase, modelo) es irrelevante. Un valor atípico puede ser un punto de datos válido o puede ser ruido. Eso es lo que hace que la analítica sea interesante.

El ruido es un poco más difícil de definir, pero iría con la ecuación de Franck ruido = señal de datos. La señal sería el “modelo verdadero” que está tratando de definir. Consideraría cualquier confusión de datos de otras fuentes o modelos superpuestos como ruido, ya que no sería pertinente a su análisis.

Los valores atípicos son objetos de datos con características que son muy diferentes de la mayoría de los otros objetos de datos en el conjunto de datos, y puede ser útil.

El ruido es un error aleatorio (o una modificación de los valores originales) que no es interesante o deseable. En la minería de datos hay dos tipos de ruido (ruido de clase y ruido de atributos).

ejemplos de los dos tipos:

vea el siguiente enlace sobre ruido (Soft Computing y Sistemas de información inteligente).

El ruido puede aparecer aleatoriamente en un conjunto de datos, pero los valores atípicos son una vez que son significativamente diferentes del resto del conjunto de datos. Un ejemplo de un valor atípico podría ser los patrones identificables inusuales de datos vistos en las imágenes de resonancia magnética que ayudan a detectar los síntomas de la enfermedad. El ruido, por otro lado, puede no ser de interés para el análisis.

More Interesting

Inteligencia artificial: ¿Qué tan inteligentes son las mejores personas en inteligencia artificial, en comparación con las mejores personas en matemáticas y física?

¿Pueden los algoritmos genéticos tomar un grupo de entradas simples y crear una gran cantidad de modelos / fórmulas matemáticas?

¿Cómo funciona la generación de historias artificiales (automáticas)?

¿Qué es la conciencia y en qué se diferencia de la inteligencia?

¿Cuál es la diferencia entre el reconocimiento de patrones estadísticos, el aprendizaje automático y el aprendizaje profundo?

¿Cuál es la mejor plataforma de código abierto para construir un chatbot?

Wikipedia sobre inteligencia artificial enumera siete objetivos principales. ¿Cómo se comparan entre sí en términos de dificultad y complejidad?

¿Qué tan grande es el mercado de procesadores específicamente diseñados o adaptados para la inteligencia artificial?

¿Se podría entrenar a la IA para que reconozca el significado de la comunicación de gato a humano y resuelva respuestas adecuadas de humano a gato?

¿Cómo podemos combinar dos redes neuronales profundas y entrenarlas de extremo a extremo?

¿Qué tipo de trabajo podría la inteligencia artificial nunca hacer obsoleta?

Cómo crear una IA como EDI de Mass Effect con el cuerpo de 3

¿El basilisco de roko se aplica a personas que no son lo suficientemente inteligentes como para afectar la trayectoria de la formación de IA?

Creo que descubrí cómo crear seres con inteligencia artificial. ¿Qué tengo que hacer?

Tecnología: ¿Por qué la gente teme a un escenario de Skynet?