自動分類システム(メタデータオーロラ)



科学今日の技術の急速な発展に伴って、別の後にあらゆる種類の情報は、科学、文学、ニュースコーパス、インターネット上の情報も様々な結果実際に爆発されます。多くの人々は必要な情報を見つけるには、それらを分類する必要がある情報が欲しいので。しかし、従来の手動によるテキスト分類は、長い期間、高コスト、王王チュ効率のように専門知識を必要とする有能な、周防毅石チ会議現代のニーズを、そして現在のシステムの多くは、文書の数のためYangben必要才能documentは、サンプルの数を満たしていないため、システムの減少効率結果or、ability and other issues学習の不完全、不明確、lackの分類結果大きい。したがって、効果的なテキストの自動分類の研究が必要となり、それがテキスト検索、情報検索、情報、データの組織、情報管理、さらにはインターネット検索をfiltering isアプリケーションの非常に広い範囲があります。



文書分類の過程で、分類に影響を与えるの重要な例を果たしている、より正確なのより多くの例をより正確に文書分類。ただし、ドキュメント分類の大量の要件の大幅分類の効率が低下非常に多くのインスタンスの正確な分類する。このビューでは、我々は非機密文書考慮要因の分類に影響を与えるて、メタデータの自動分類システムに組み合わせることに基づいて電磁(期待値最大化)アルゴリズムを持っています。メタデータの自動分類システムの分類結果の例の少ない量で達成の貢献を、より正確な分類結果を得るために未分類ドキュメントを組み合わせたものです。未分類ドキュメントには、不確実性のアカウントの要因を考慮し、調整することができます係数λを追加すると。既存のテストのいくつかの例を通じて、システムは、情報分類の精度の需要を満たすためにより良い分類結果を得ることができます。インスタンスベースの分類の基礎、我々は彼らの一部に改善なので、ユーザーは機密扱い文書の各クラスのみキーワードを効果的に分類することができます提供しています。
メタデータオーロラシステムは、以下の特徴があります:

1、小型、簡単な需要のサンプルでは(またはキーワード)大規模な文書分類に実装する
メタデータの自動分類システム、特定の要因の分類に関する機密扱いの文書だと判断した、非常に機密文書の必要数を減らす。統計には、10,000未分類文書の分類では、より良い分類結果を得るによると、従来法では2000サンプルでは、ドキュメント(文書すなわち分類に分類)が必要で、メタデータは、私たちの自動分類システムを使用してわずか600サンプル文書の分類の同じ結果を得ることができます。

2、インテリジェントな分類、正確な結果
メタデータの自動分類システムは、文書を分類し、分類の訓練を通じて、元の分類を更新し続けることが、インテリジェント分類を取る。継続的な研修や学習プロセスでは、クラシファイアはより多くの経験、このように、継続的に常に、時の分類は、定常状態に達すると改善分類精度を改善されると、システムが最高の分類結果になります。

3、高い信頼性の分類
メタデータの自動分類システムは、文書の単語を切断の高い効率的な方法を使用しての統計分類に基づいて、ルート処理のための英語の単語(のルート)の、メタデータのパートナーを参照してくださいので、その単語の情報や情報元の文書と一致し、分類プロセスの信頼性を確保。

4、文書の分類を考慮した分類の役割最適な状態に到達することはできません
分類プロセスでは、あまりサンプル数のドキュメントのドキュメントを分類よりも、EMアルゴリズムに基づいて大きく、分類精度は、主に未分類の文書に依存します。 2倍の分類に分類していない文書は:高めるために、または分類の精度を下げる。自動分類システムのアカウントにこの要因を考慮、メタデータのEMアルゴリズムは、注文調整未分類degreeの影響を記録する係数λの導入をimprovedされている。我々のテストの後、λ= 0.5を取る。

5、分類速度
メソッドは、使用されるため、正確かつ前提として効率的なので、分類プロセスの実装は非常に高速だった。これは、文書の可能性のある多数の分類です。この例では、システムは複数のフィールドでより充実した情報を扱うために使用することができます。

6、用途の広い範囲で
前述のように、多くの分野で、現在の李、両方の情報を扱うに付属する分析の中核機能を、または自動抄録システムの必要性情報を取得するには、完了するために埋め込まれます自動的にダイジェスト祚魏続ヤオ必要サブシステム、大量のデータ。したがって、自動要約が不可欠良い仕事の多くの分野になります。

次のようにメタデータの自動分類システムの概要図は: