Con el rápido desarrollo de la ciencia y la tecnología de hoy, todo tipo de información tras otra, dando lugar a una variedad de literatura científica, noticias e incluso corpus de información en Internet de hecho es explosiva. Así que mucha gente desea la información para encontrar la información que necesitan, entonces tiene que clasificar. Sin embargo, la clasificación tradicional de texto manual, como el ciclo largo, costoso e ineficiente, y con frecuencia requieren personal con conocimientos de la competencia, Suo reunión Yi práctica de hoy en día, pero ahora muchos sistemas, debido a los requisitos de cantidad Yangben 文档más grandes, lo que resulta en la eficiencia disminuyó del sistema, o porque el documento no cumple con el número de muestras, dando como resultado en la clasificación de incompleta, falta poco clara, la capacidad de aprendizaje y otras cuestiones. Por lo tanto, el estudio se convierte efectivamente en la clasificación automática de textos es esencial, y es en la recuperación de texto, recuperación de información, selección de la información, organización de datos, gestión de la información y la búsqueda de la Internet, incluso hacen muy ampliamente utilizado.
En el proceso de clasificación de documentos, la clasificación juega un importante ejemplo del impacto, los ejemplos más de la más precisa es la clasificación de los documentos más precisos. Sin embargo, para grandes cantidades de clasificación de documentos, que se clasificación precisa de la instancia de un gran número de requisitos, lo cual reduce la eficiencia de la clasificación. En vista de ello, hemos EM (Expectation-Maximización) algoritmo, basado en documentos sin clasificar teniendo en cuenta el impacto sobre la clasificación de factores, combinados en un sistema de clasificación automática de metadatos. sistema de clasificación automática de metadatos combina documento no clasificado de la contribución de los resultados obtenido la clasificación con menos cantidad de ejemplos para obtener resultados de la clasificación más precisa. documento sin clasificar, teniendo en cuenta los factores de incertidumbre, agregue el coeficiente de λ, se puede ajustar a su. A través de algunos ejemplos de las pruebas existentes, el sistema puede lograr mejores resultados de la clasificación, para satisfacer la demanda de precisión de la información de clasificación. base de clasificación basado Instancia, hemos mejorado por su parte, para que el usuario proporciona solamente las palabras clave para cada clase de los documentos no clasificados pueden ser efectivamente clasificados.
Metadatos sistema de Aurora tiene las siguientes características:
1, la muestra (o palabras clave) en la demanda de pequeño, fácil de aplicar en la clasificación de los documentos masiva
Metadatos sistema de clasificación automática que examinó el documento no clasificado sobre la clasificación de ciertos factores, reduciendo considerablemente el número requerido de los documentos clasificados. Según las estadísticas, en la clasificación de 10.000 documentos sin clasificar, para lograr mejores resultados de la clasificación, el método convencional requiere muestras de documentos clasificados de la 2000 (es decir, la clasificación de documentos), y metadatos utilizando nuestro sistema de clasificación automática a sólo 600 documento de muestra puede lograr los mismos resultados de la clasificación.
2, clasificación inteligente y precisa los resultados
sistema de clasificación automática de metadatos para tener clasificador inteligente para clasificar el documento, a través de la formación clasificador puede seguir actualizando la clasificación original. En la formación continua y en proceso de aprendizaje, el clasificador será más experiencia, por lo tanto, ser constantemente mejorado la precisión de clasificación mejorar constantemente, cuando el clasificador alcanza un estado estacionario, el sistema será el mejor resultado de clasificación .
3, la clasificación de alta confiabilidad
sistema de metadatos de clasificación automática basada en la nomenclatura estadística de documentos utilizando un método muy eficiente para cortar la palabra y la palabra de Inglés para el procesamiento de la raíz (ver los metadatos asociados de la raíz de), de modo que la palabra información y la información de acuerdo con el documento original, garantizar la fiabilidad del proceso de clasificación.
4, teniendo en cuenta la clasificación del documento no es la función de la clasificación para alcanzar el estado óptimo
En el proceso de clasificación, no mucho mayor que el número de muestras de documentos clasificados de documentos, de acuerdo al algoritmo EM, la precisión de clasificación depende en gran medida los documentos no clasificados. documento no clasificado sobre la clasificación de las dos veces: para aumentar o disminuir la precisión de la clasificación. Teniendo en cuenta este factor, los metadatos algoritmo EM para el sistema de clasificación automática se ha mejorado, la introducción del coeficiente de λ, con el fin de documentar el impacto de clasificar el grado de ajuste. Después de nuestra prueba, tomar λ = 0,5.
5, la clasificación de velocidad
Debido a que el método utilizado en el preciso y eficiente como la premisa, por lo que la aplicación del proceso de clasificación fue muy rápido. Esta es la clasificación de un gran número de documentos posible. En este caso, el sistema puede ser utilizado en varios campos para hacer frente con más información sustancial.
6, con una amplia gama de usos
Como se mencionó anteriormente, muchas áreas en el presente, tenemos que automáticamente los resúmenes de un subsistema que deberán realizarse en el núcleo para completar el trabajo, o la necesidad de acceso a la información como sistema de resúmenes automáticos, los medios auxiliares de análisis del procesamiento de la información masivo de datos. Por lo tanto, generación automática de resúmenes será fundamental para muchas áreas de trabajo bien hecho.
Metadatos sistema automático de clasificación diagrama general es el siguiente: