Système de classification automatique (métadonnées Aurora)



Avec le développement rapide de la science et la technologie d'aujourd'hui, toutes sortes d'informations après l'autre, résultant en une variété de la littérature scientifique, le corpus de nouvelles et même des informations sur l'Internet est en effet explosive. Donc, beaucoup de gens veulent de l'information pour trouver l'information dont ils ont besoin, alors de les classer. Cependant, la classification manuelle traditionnelle, comme longue période, le coût élevé, une faible efficacité, et ont souvent besoin d'avoir les compétences nécessaires pour être compétents, de sorte qu'il est difficile de répondre aux besoins pratiques d'aujourd'hui, mais maintenant beaucoup du système, parce que les exigences quantité d'échantillon document plus grande, ce qui entraîne diminution de l'efficacité du système, soit parce que le document ne répond pas aux nombre d'échantillons, ce qui entraîne le classement de incomplète, peu claire, le manque de capacité d'apprentissage et d'autres questions. Par conséquent, l'étude de la classification automatique de texte efficace est devenu nécessaire, et il est dans la recherche de texte, recherche d'information, filtrage de l'information, l'organisation des données, gestion de l'information et même la recherche sur Internet a un très large éventail d'applications.



Dans le processus de classement des documents, la classification joue un important exemple de l'impact, les exemples de la plus exacte de la classification des documents plus précis. Toutefois, pour de grandes quantités de classement des documents, à la classification précise de l'instance d'un très grand nombre de besoins, ce qui réduit considérablement l'efficacité de la classification. Compte tenu de cela, nous avons EM (Expectation-Maximisation) algorithme, basé sur des documents non classés en tenant compte de l'impact sur la classification des facteurs, combinés en un système de classification automatique des métadonnées. système de classification automatique des métadonnées combine document non classifié de la contribution des résultats du classement réalisé avec une quantité inférieure d'exemples d'obtenir des résultats de classification plus précise. document non classifié, en tenant compte des facteurs d'incertitude, ajouter le coefficient λ, peut être ajustée à son application. Au travers de quelques exemples de tests existants, le système peut atteindre des résultats de classement de meilleure qualité, pour répondre à la demande de précision de la classification de l'information. base de classification basé sur les instances, nous avons amélioré leur part, afin que l'utilisateur ne fournit que les mots-clés pour chaque catégorie de documents non classifiés peuvent être effectivement classé.
Métadonnées Aurora système a les caractéristiques suivantes:

1, l'échantillon (ou mots-clés) de la demande pour les petits, faciles à mettre en œuvre sur le classement des documents massive
système de classification automatique des métadonnées comme examiné le document non classifié sur la classification de certains facteurs, ce qui réduit considérablement le nombre requis de documents classifiés. Selon les statistiques, dans les 10 000 non Fenlei document Jinxing Catégorie Atteindre un meilleur effet de classification, les méthodes conventionnelles Xuyao 2000 document Yangben (c.-à-classification de documents), mais l'utilisation de notre système de classification automatique des métadonnées à 600 document de l'échantillon peut obtenir les mêmes résultats de la classification.

2, de classification intelligente, des résultats précis
système de classification automatique des métadonnées à prendre classificateur intelligent pour classer le document, par la formation classificateur peut continuer à mettre à jour le classement initial. Dans la formation continue et de processus d'apprentissage, le classificateur sera plus d'expérience, donc, constamment améliorée en permanence la précision de classification augmente, tandis que le classificateur atteint un état d'équilibre, le système sera les meilleurs résultats de classification .

3, la classification de haute fiabilité
système de métadonnées de classification automatique basée sur la classification statistique du document, en utilisant une méthode très efficace de couper la parole, et le mot anglais pour le traitement des racines (voir les métadonnées des partenaires de la racine d '), de sorte que le terme "information" et les informations compatibles avec le document original, assurer la fiabilité du processus de classification.

4, compte tenu de la classification du document n'est pas le rôle de la classification pour atteindre l'état optimal
Dans le processus de classification, la précision n'est pas beaucoup plus grand que le nombre d'échantillons de documents classifiés documents, selon l'algorithme EM classification, dépend en grande partie sur des documents non classés. document non classifié sur la classification des deux volets: augmenter ou diminuer la précision de classification. Tenant compte de ce facteur, les métadonnées algorithme EM pour le système de classification automatique a été améliorée, l'introduction de l'λ coefficient, afin de documenter l'impact du degré d'ajustement non classifié. Après notre test, prendre λ = 0,5.

5, la classification de vitesse
Parce que la méthode utilisée dans le précis et efficace, sur le principe, si la mise en œuvre du processus de classification a été très rapide. Il s'agit de la classification d'un grand nombre de documents possible. Dans ce cas, le système peut être utilisé dans plusieurs domaines à traiter des informations plus substantielles.

6, avec un large éventail d'utilisations
Comme mentionné précédemment, dans le présent dans de nombreux domaines, nous devons automatiquement résumé le sous-système comme un doit, pour être embarqués Wancheng de base après le travail, ou besoin système automatique d'abstraction pour l'accès à l'information, analyser l'information complémentaire au traitement données massives. Par conséquent, le résumé automatique sera essentielle pour de nombreuses régions du bon travail.

Métadonnées diagramme automatique aperçu système de classification est la suivante: