Yahooニュース

生成AIで人の声を再現 OpenAI発表[2024.3.30]

生成AIで人の声を再現 OpenAI発表

【記事詳細】Yahooニュース

✍️記事要約

✅ OpenAIの「Voice Engine」は15秒分の声データを元に本人そっくりに喋る

 米OpenAIは3月29日(現地時間)、人の声を再現できる生成AIモデル「Voice Engine」を発表した。テキスト入力と15秒分の音声サンプルで、元の話者によく似た自然な音声を生成できる。感情的なリアルな音声で、母国語以外の言語も話せる。

2022年から開発していたこのモデルは、既に同社の「Text-to-Speech API」や「ChatGPT」アプリの音声チャット機能、ChatGPTのテキスト読み上げ機能「Read Aloud」などで採用されている。

 OpenAIは、こうした合成音声が悪用される可能性を認めており、広範囲にリリースをするかどうかを検討するために、慎重にテストを行っているという。

 スウェーデンSpotifyは昨年9月、このモデルを採用した新機能「Voice Translation」を発表した。これはPodcastをホスト自身の声で複数言語に吹き替えるものだ。

 OpenAIは2023年末から一部のパートナーとVoice Engineの非公開のテストを行ってきた。例えば、非営利の医療研究所で、病気で発話が不自由になってしまった個人の声の30秒分の音声データから、その人の流暢な発話を復元することに成功した。公式ブログで、サンプルにした元の音声、発症前のその人の音声、合成音声とされているものを聴くことができる。

 Voice Engineのテストに参加しているパートナーは、なりすましなどを禁止するポリシーに同意している。

 OpenAIは、音声合成には「重大なリスクがあり、特に選挙の年には最優先事項であることを認識している。われわれは、政府やメディアなど米国および国際的なパートナーと連携してフィードバックを取り入れている」と語った。

 広くリリースするためには、音声認証システムの廃止や、個人の声を保護するポリシーの確立、AIの機能と限界についての一般の理解促進などが必要だとしている。

 OpenAIは動画生成AI「Sora」を発表した際も、成果は披露したが、一般公開はしていない。

■英訳

On March 29th, OpenAI announced their "Voice Engine," an AI model capable of reproducing human voices. By inputting text and a 15-second audio sample, it can generate natural-sounding voices closely resembling the original speaker, even in languages other than their native tongue.Developed since 2022, this model has already been integrated into OpenAI's Text-to-Speech API, ChatGPT app's voice chat feature, and ChatGPT's "Read Aloud" text-to-speech function.OpenAI acknowledges the potential misuse of such synthesized voices and is carefully testing whether to release it widely.Last September, Spotify in Sweden unveiled a new feature called "Voice Translation," utilizing this model to dub podcasts into multiple languages using the host's own voice.OpenAI has conducted private tests of Voice Engine with select partners since late 2023, including successfully restoring fluent speech for individuals with speech impairments using 30 seconds of pre-illness voice data.Partners participating in Voice Engine testing must adhere to a policy prohibiting impersonation, among other guidelines.Recognizing significant risks in voice synthesis, especially in election years, OpenAI emphasizes collaboration with U.S. and international partners, including governments and media, to incorporate feedback.For broader release, OpenAI asserts the need for abolishing voice authentication systems, establishing policies to protect individuals' voices, and promoting general understanding of AI capabilities and limitations.Similar to their unveiling of the video generation AI "Sora," OpenAI has showcased results but has not made it publicly available.

  ◇   ◇   ◇

☘️ヤフコメ❗️ピックアップ☘️

✅ 技術の進歩が犯罪の手口の進歩と比例しています。ディープフェイクボイスは海外ではすでに犯罪で使われており、偽の社長の声で子会社に連絡して指定した口座にお金を振り込ませる詐欺が発生しています。
ディープフェイク画像やディープフェイクボイスを選別する対策ももちろん必要ですが、このように今は声だけで信用することはできないと知るだけでも防犯対策につながります
✅ 任意の人の声をまねて、聞き分けられないぐらいの音声を合成することは容易に実現できています。テレビのニュースで、アナウンサーの代わりにAIが読み上げるのは通例になり、ほとんど合成とは聞き分けられないレベルです。それを任意の人の声に似せるだけのことです。今までは、聞き分けられないレベルに調整するために、生成AIと同様、大量とは言えないまでも十分な音声データが必要だったのです。今回、オープンAI社はたった15秒のサンプルで、その人の音声を作成できるようになり、恐らく聞き分けることが人の耳では極めて難しいレベルとなっているのでしょう。悪用されないことを危惧して、一般に公開しないことは十分理解できますが、逆に公開することによって機械的に判別する手法も開発されるがゆえに考えはさせられます。
✅ 記事にもあるように、OpenAIはこの技術を2022年の段階でほぼ実現していて、限られたパートナー企業(とおそらくは米政府)と組んで開発していたようですが、存在を明かすことはありませんでした。そのこと自体は構いませんし、それなりに慎重に進めてはいるようですが、これに限らず詐欺や選挙など悪用されれば社会的影響が甚大な技術が、OpenAIという一企業の胸先三寸で決まるという現状には懸念を覚えます。今後は内部通報制度の強化などが必要かもしれません。

-Yahooニュース
-,

© 2024 News HACK By Powered by AFFINGER5