SuperMorpho-J
文字入力技術
特徴と機能
- 特長1
- 解析処理速度
Ver2.0 1.5GB/1時間
※実測環境 WindowsNT4.0 PentiumIII -733MHz
- 特長2
- マルチスレッド対応
SuperMorpho-J の API(Application Programming Interface) がマルチスレッドに対応し、複数のCPUとスレッドを使って処理性能を高めることを可能にしました。
- 特長3
- ユーザカスタマイズ機能の向上
Ver1.0では初期設定のままでしか、解析できなかった特殊な文字などをユーザが設定を行い、解析結果に反映することが可能になりました。
未登録語処理をユーザがカスタマイズすることを可能にしました。
例:最短のカタカナ単語をユーザが設定を行う
ノボシビルスク(注:ロシアの地名です。)
Ver1.0 →ノボシ/ビル/スクと区切ってしまう。
Ver2.0 →ノボシビルスクを1単語として解析が可能
表記揺れ標準化処理のユーザカスタマイズ処理を可能にしました。
例:旧字体を1文字ごとにユーザが設定を行う。
国=國
辺=邊
- 特長4
- 高精度の単語抽出
日本語のように単語が空白で区切られていないテキストを単語ベースで文書を処理するシステムが扱うためには、テキストから単語を抽出する必要があります。SuperMorpho-Jは日本語テキストから97%以上の精度で単語を抽出します。
- 特長5
- 高速の解析速度
文書検索システムは膨大な量の文書に対してインデックスを作成する必要がある。そのような要求に答えるため1.0GB/時間という高速の解析速度を実現しています。
また、マルチスレッドに対応し、複数のCPUとスレッドを使って処理機能を高めることが可能です。
※測定したプラットフォームは WindowsNT4.0 PentiumIII -733MHz
- 特長6
- 各種文字コード対応
日本語テキストには複数の文字コードがあり、Shift-JIS、EUC、 JIS、Unicode(UCS-2/UTF-8)が一般的に広く使われています。SuperMorpho-Jは、その4種類の文字コードを入出力できる ように文字コード変換のAPIを用意しています。
- 特長7
- 表記ゆれの豊富なサポート
日本語固有の問題として同じ単語に対して様々な表記方法があります。SuperMorpho-Jは表記が異なる単語も同じ単語として扱うことができるため検索漏れを無くすことができます。以下に主な表記ゆれの種類と例を示します。
表記ゆれの種類と例
- [外来語]
- 日本語と外国語の発音の違いによって生じる表記ゆれがあります。また、カタカナには全角文字と半角かなの2種類の文字種があります。これらは、解析の結果において一般的な全角文字のかな表記にすることができます。
デジタル ディジタル デジタル ディジタル → デジタル - [活用形]
- 動詞、形容詞などの活用する単語を1つの活用形に標準化することができます。また送り仮名のゆれも標準化します。
安かろう 安かった 安くて 安い 安さ → 安さ 申し込み 申込み 申込 → 申込 - [アルファベット]
- アルファベットには全角で記述する方法と半角で記述する方法の2種類の文字種があり、これを半角文字で置き換えることができます。
OMRON OMRON → omron - [数 字]
- アラビア数字には半角全角の2種類の文字種があり、更に漢数字を使う場合も多く、アラビア数字と漢数字を混ぜて使う場合もあります。これらを半角数字で置き換えます。
12000 12,000 一万二千 1万2千 → 12000 - [旧字体]
- 漢字には古い字体が存在し固有名詞などで使われるのを新字体に置き換えます。
渡辺 渡邊 → 渡辺
- 特長8
- ユーザ辞書機能
ユーザが特定分野の文書を処理する場合、専門用語をユーザ辞書に追加するこ とにより更に解析精度を向上させることが可能です。優先度は辞書毎に設定できます。
- 特長9
- 行分れ対応
日本語テキストは行末のハイフネーションのルールがなく、1つの単語が行末で分割され2行に分れる場合、行分れと呼びますが、単語の途中に改行、タブ、スペースが含まれるため単語抽出の失敗の原因となります。 SuperMorpho-Jでは行分れした単語も正確に抽出します。
- 例) _某社が_4G_bitの_D-RAM_の試
_作に成功したという記事を見た。 - この例で「試作」という単語が行分れしています。ここで「_」はスペースを表わしていますが、行分れ単語の間には改行だけでなくインデントのためのタブやスペースも含まれます。
- 特長10
- 無制限な入力文字列長
入力する文字列には長さの制限がありません。システムのリソースの上限のみが制限となります。
- 特長11
- 業界最高精度の品詞同定と重要単語選択機能
高精度で抽出した単語に対応する品詞を高精度に決定します。ユーザー辞書の各単語には、重要語を示すマークを付けることができます。このマークは形態素解析結果にも出力されますので、マークをチェックするだけで、重要語を素早く判定することが可能です。
この製品のお問い合わせ・ご相談はこちら
お問い合わせください
- 法人のお客様(営業窓口)
-
お問い合わせフォーム
「文字入力技術全般」でお問い合わせください
03-6718-371203-6718-3713営業時間:9:00~17:30(土日祝を除く)
担当事業部:ITソリューション事業部 営業統括部 社会コミュニケーション営業グループ
〒108-0075 東京都港区港南2-3-13 品川フロントビル7F