Mit der raschen Entwicklung von Wissenschaft und Technik von heute, alle Arten von Informationen nach dem anderen, was in einer Vielzahl von wissenschaftlicher Literatur, News corpus und auch Informationen über das Internet in der Tat ist explosiv. So viele Menschen wollen, dass die Informationen an die von ihnen benötigten Informationen zu finden, dann haben sie zu klassifizieren. Doch die traditionelle manuelle Klassifikation von Texten, wegen der langen Dauer, hohe Kosten, geringe Effizienz, und oft müssen die Kompetenz haben, kompetent zu sein, kann es nicht den tatsächlichen Bedürfnissen von heute, aber jetzt viele Systeme, weil die Zahl der Proben benötigten Dokumente größer, was zu einer verringerten Leistungsfähigkeit des Systems, oder weil das Dokument nicht erfüllt, die Zahl der Proben, die sich in der Klassifizierung unvollständige, unklare, fehlende Lernfähigkeit und andere Fragen. Daher ist die Untersuchung der effektiven automatischen Klassifikation von Texten ist notwendig geworden, und es ist in der Text-Retrieval, Information Retrieval, das Herausfiltern von Informationen, Daten-Organisation, Information Management und auch die Internet-Suche hat ein sehr breites Spektrum von Anwendungen.
In der Klassifizierung von Dokumenten Prozess spielt Klassifizierung ein wichtiges Beispiel für die Auswirkungen, die weitere Beispiele desto genauer ist die genauere Klassifizierung von Dokumenten. Doch für große Mengen von Dokumenten-Klassifikation, die genaue Klassifizierung der Instanz von einer sehr großen Anzahl von Anforderungen, die erheblich reduziert die Effizienz der Klassifizierung werden. In Anbetracht dessen haben wir EM (Expectation-Maximierung) Algorithmus, basierend auf klassifizierte Dokumente unter Berücksichtigung der Auswirkungen auf die Einstufung von Faktoren ab, in eine automatische Klassifizierung von Metadaten-System kombiniert. Metadata automatische Klassifikation System kombiniert klassifiziert Dokument der Beitrag der Einstufung Ergebnisse mit weniger Menge von Beispielen erreicht werden, um eine genauere Klassifizierung Ergebnisse zu erhalten. Nicht klassifizierte Dokumente, unter Berücksichtigung von Faktoren der Unsicherheit, fügen Sie die Koeffizienten λ, können angepasst werden, ihre. Anhand einiger Beispiele von bestehenden Tests kann das System eine bessere Einstufung Ergebnisse, um die Nachfrage nach Informationen Einstufung Genauigkeit gerecht zu werden. Instanz-basierte Klassifizierung anhand verbesserten wir auf ihre Rolle, so dass der Benutzer sieht nur die Schlüsselwörter für jede Klasse der nicht klassifizierten Unterlagen können effektiv eingestuft werden.
Metadata Aurora-System hat folgende Merkmale:
1, um die Probe (oder Stichworte) in der Nachfrage nach kleinen, einfach auf die massive Klassifizierung von Dokumenten umsetzen
Metadata automatischen Klassifizierung als nicht klassifiziert als Dokument über die Einreihung von bestimmten Faktoren, stark reduziert die erforderliche Anzahl von Verschlusssachen eingestuften Dokumenten. Nach den Statistiken, in der 10.000 klassifizierte Dokumente, Klassifizierung, zur besseren Einordnung Ergebnisse zu erzielen, benötigt der konventionellen Methode 2000 Proben eingestuften Dokumenten (zB Klassifizierung von Dokumenten) und Metadaten mit unseren automatisierten Klassifizierung nur 600 Probe-Dokument kann zu den gleichen Ergebnissen der Klassifizierung.
2, intelligenten Klassifizierung, genaue Ergebnisse
Metadata automatische Klassifizierung zu treffen intelligenten Klassifikator, um das Dokument zu klassifizieren, durch den Klassifikator Training kann auch weiterhin die ursprüngliche Einstufung aktualisieren. In der ständigen Weiterbildung und Lernprozess, der die Einstufung wird mehr Erfahrung werden, damit kontinuierlich verbessert Einstufung Genauigkeit ständig zu verbessern, wenn der Klassifikator einen stabilen Zustand erreicht hat, wird das System die besten Ergebnisse werden Klassifizierung .
3. Klassifizierung der hohen Zuverlässigkeit
Metadata automatische Klassifizierung auf der statistischen Systematik der Dokumente mit einem hoch effizienten Verfahren zum Schneiden von Wörtern und Englisch Textverarbeitung als root (die Wurzel der Beteiligung Metadata Partner), so dass das Wort Information und die Informationen im Einklang mit dem ursprünglichen Dokument, Gewährleistung der Zuverlässigkeit der Einstufung Prozess.
4, unter Berücksichtigung der Einstufung des Dokuments ist nicht die Rolle der Klassifizierung der optimalen Zustand zu erreichen
In der Klassifizierung Prozess, nicht viel größer als die Zahl der Proben eingestuften Dokumenten Dokumente nach EM-Algorithmus, Klassifizierung Genauigkeit hängt weitgehend davon ab, nicht klassifiziert Dokumente. Nicht klassifizierte Dokument über die Einstufung der zwei Ziele verfolgt: zum Anheben oder Absenken der Einstufung Genauigkeit. Unter Berücksichtigung dieses Faktors, Metadata EM-Algorithmus zur automatischen Klassifikation System wurde verbessert, die Einführung des Koeffizienten λ, um die Auswirkungen der Grad der Anpassung nicht klassifizierte Dokument. Nach unserem Test nehmen λ = 0,5.
5. Einstufung Geschwindigkeit
Da die Methode verwendet eine präzise und effizient wie die Prämisse, so dass die Durchführung der Klassifizierung Prozess war sehr schnell. Dies ist die Einstufung einer großen Zahl von Dokumenten möglich. In diesem Fall kann das System in mehreren Feldern eingesetzt werden, um mit mehr wesentliche Informationen zu bewältigen.
6, mit einer breiten Palette von Anwendungen
Wie bereits erwähnt, in der Gegenwart der vielen Bereiche, in denen müssen wir die automatische abstrahieren Zuowei eine notwendige Subsystem, eingebettet in die Qi Hou Caineng Wanchenghexin Arbeit, oder brauchen Sie automatische System abstrahiert Huoquxinxi, Fenxixinxi Hilfs Shouduan Chu Lai Li massive Daten. Daher wird die automatische Verdichtung werden für viele Bereiche der guten Arbeit von wesentlicher Bedeutung.
Metadaten-System zur automatischen Klassifikation Übersichtsdiagramm ist wie folgt: