簡単に言えば、あなたがGoogleのC4データセットの一部であったかどうかを確認することです。今、問題はあなたが気にするかどうかです、そしてそうでなければ、なぜあなたはすべきですか?
新しいデータセットには、さまざまなWebサイトと、生成的AIが悪影響を及ぼしたり、一掃したりする可能性のあるコンテンツ作成者のリストが含まれています。これには、ニュースだけでなく、メディア、マーケティング、および一部のブログの世界の出版社も含まれます。
この新しいサービスは、AIサウンドをスマートにするWebページの内部秘密リストと呼ばれるメディアアウトレットの最新レポートで見つけることができます。データセット全体の各ページから受信したトークンの数に基づくリストを生成しました。そして、トークンが正確に何であるかを尋ねる人にとって、それはまとまりがなく、あちこちに散らばっている情報を処理する小さなテキストピースに提供された名前です。それは時々単語またはフレーズでさえあります。
完璧な例は、使用されている検索エンジンランドです。しかし、より多くの調査がマーケティングランドイベントもリストを作成した方法を示し、検索エンジンランドの親会社であるThird Door Mediaもリストを作成したことを示したため、それはほんの始まりに過ぎません。
一部は、RedditやWikipediaなどを通じて抽出された他のデータと一緒に少しずつ使用されました。そして、私たちがまだ話している間に、ここでRedditについて何かを指摘したいと思います。
同社は、ニューヨークタイムズの最近のレポートで確認されたように、さまざまな企業がAIモデルのトレーニングにデータを使用したいときはいつでも利益を得ることができるように、金銭的に補償されることを望んでいます。これまでのところ、RedditがAPIの条件を更新し、GoogleやOpenAIなどのいくつかの企業に優れたアクセス料金を請求することになります。これは、RedditのCEOとその共同創設者によって言及されました。
これはRedditが正しいように思われるので、ニュースはそれほど驚くべきことではありません。彼らは価値があると考える多くのデータを手元に持っています。
そして、なぜそれが主要なブランドや企業に無料で独自のデータを提供する必要があるのか 意味がありません。彼らは明らかに、企業が独自の価値を生み出すために長く懸命に努力し、ユーザーに会社の信用を与えないという問題を抱えています。そして、これは間違いなく、これがそれらの1つであるため、非常に多くのことを本当に引き締めることができると感じる時です。
しかし、ここでの皮肉は、Redditがこの価値を作れなかったことです。実際には、そうしたのはユーザーであり、したがって彼らは本当の信用に値するユーザーです。しかし、今日の世界では、それはすべてアプリ自体によって記録されたので、議論することはできません。