新しいツールは、100以上の言語を完全に理解する能力を持つAIモデルの数に基づいており、すでにBingのすべてのスペル修正を行っていることを明らかにしました。
この新しいツールは、収集されたデータの量がスペル補正モデルを包括的に訓練するのに十分ではなかったため、ウェブの存在がほとんどない言語を扱う開発者にとって大きな課題となりました。
それに加えて、システムはトレーニングデータに完全に依存して、深さに入るにつれてさまざまな言語から正しいスペルを学ぶこともできません。たとえば、特定の言語の語彙内で使用できない単語が存在し、一方で、より大きな文脈では収まらない実単語エラーが存在する可能性があります。
したがって、正確には、Speller100は言語ファミリの概念、またはそれらの中で類似点を共有する複数の言語を中心に展開しています。さらに、ゼロショット学習(言語固有のラベル付きトレーニングデータからより多くの助けを借りることなくスペルを学習し、修正する方法でモデルを設定する手法)で構成されています。
100 以上の言語で Speller100 の互換性を実現するために、Microsoft は、最初に Web ページからテキストを抽出し、削除、追加、回転、置換などのエラーを生成できるスペル修正の事前トレーニング方法を採用しました。これにより、チームはスペルミス検索の巨大なデータセットの必要性を一掃し、最終的にスペルチェック100は、それらのトレーニングデータがゼロであったため、リスト内のトップ言語の修正リコールの50%に達しました。マイクロソフトは後に、Bing検索エンジンにシステムを展開し、検索の15%がスペルミスとなり、その結果、スペルミスの数が7.5%減少しました。
さらに、パフォーマンスをさらに向上させるために、マイクロソフトは、言語ファミリ ベースのモデルを作成するために選択された言語間に存在する正交、形態学的、および意味的な類似点も利用しました。その後、システムはゼロショットの利点で移動し、今スペル100はアフリカーンス語やルクセンブルクのようなより少ないデータを持つ言語に適していると共に、ランタイムのために十分に立っています。
今のところ、Speller100は、結果のないページ数を30%、またユーザーが検索のためにスペルを修正しなければならない回数を5%減らすことができました。それどころか、Bingのスペルの提案をクリックしたユーザーも8%から67%に上昇しました。
マイクロソフトは非常にすぐにその製品の多くにSpeller100をもたらすでしょう!