2週間55万文字が動いた。これが現実。
スマホに通知が来た。ElevenLabsからの利用状況レポート。

公開からわずか2週間で、自分の声が55万文字分使われている。
Papazon – Japanese Comedy Villain –
深みのある知的な日本人男性悪役ボイス(40代半ば)。威厳がありながらもユーモアを帯びた声質で、アニメの敵役、ゲームのボス、物語の語り手に最適。冷静な脅威から劇的な爆発まで、幅広い感情表現が可能。キャラクターの吹き替え、ナレーションコンテンツ、教育教材に理想的。東京標準アクセント。
正直、目を疑った。誰が?どこで?何に使っているのか?金額にすれば微々たるものだが、それでも「需要がある」という事実に、心が震えた。
そう、すべては娘の何気ない言葉から始まった。
そもそもElevenLabsって何?
ElevenLabsは、AI音声生成技術を提供するプラットフォームだ。
簡単に言えば、自分の声を学習させて、AIがその声で文章を読み上げてくれるサービス。しかも、感情表現も可能で、驚くほど自然な音声が生成できる。
主な特徴
- 音声クローン作成:1時間程度の音声データから、自分そっくりのAI音声を生成
- 多言語対応:日本語で学習させても、英語など他言語での出力も可能(精度は今後向上予定)
- 収益化システム:作成した音声を公開し、他のユーザーが使用すると収益が発生
- 月額課金制:Creatorプラン(月額22ドル)で収益化機能が使える
なぜ今注目されているのか
ChatGPTの登場でテキスト生成AIは一般化した。次は音声の時代だ。
- YouTube動画のナレーション
- オーディオブック制作
- 多言語コンテンツの展開
- ゲームやアニメのキャラクターボイス
これらすべてに、AI音声の需要がある。特に日本語の高品質な音声は圧倒的に不足している。
DOCOMOやTBSとも提携しており、信頼性も高い。今後、v3へのアップデートでさらに品質が向上する予定だ。
つまり、今から始めておけば、市場が拡大する前に先行者利益を得られる可能性があるというわけだ。
きっかけは娘のアニメ熱と声優への興味
娘は典型的なアニメ好きだ。最近は特定の作品にハマり、YouTubeで関連動画を見漁るようになった。
声優さんたちの声の演技や、トークイベントでの掛け合いに魅了されているらしい。
その時、ふと思い出した。数日前にXで見かけた、ElevenLabsでAI音声を作って収益化できるという話。リツトさんという方のnote記事だった。
「ねえ、面白いもの見つけたんだけど。AI音声って知ってる?」
15歳の娘は利用規約上まだ登録できない。だから父である私が先陣を切ることになった。数年前にファミリーYouTuberとして悪役を演じていた頃の経験が、ここで生きるとは思わなかった。
最大の不安:高速道路沿いの家で録音なんて無理では?
やる気になったのはいいが、すぐに現実の壁にぶつかった。
我が家は高速道路のすぐ目の前。窓の外からは、常にバイクの爆音、トラックの走行音、ときには救急車のサイレンが聞こえてくる。
「こんな環境で、品質の高い音声なんて録れるわけがない」
最初はそう思った。でも、リツトさんのnote記事を読み進めると、「完璧な環境は必要ない」「あるていどなら編集でカバーできる」と感じた。
まずは収録してから判断しようと、とりあえずやってみることにした。
準備:1.5万円で始められる現実
機材を揃えるにあたって、リツトさんのnoteに記載されていた推奨機材を参考にした。
- AT2020マイク:約1万円【YouTuber時代のレガシー】
- Audacity(音声編集ソフト):無料
- ElevenLabs 初月課金:11ドル(約1,650円)※2ヶ月目以降22ドル
- リツトさんのnote 有料記事:(約3,000円※当時)
ミキサーは使わず、自宅のパソコンだけ。総コストは約1.5万円。
「これで本当にできるのか?」という不安はあったが、失敗しても5千円の勉強代だと割り切った。何より、娘との話題作りという目的が大きかった。
声のコンセプトは「地声ベースの悪役」
プロの声優を目指すわけじゃない。だから、無理に作り込んだ声ではなく、ファミリーYouTuber時代に演じた悪役キャラをベースにした。
地声に近い、でも少しだけ演技の入った声。娘に「パパらしい」と言われる声。それが、私の選んだコンセプトだった。
録音地獄:1時間しゃべり続けるのは想像以上にキツい
そして、いよいよ録音開始。
30分で喉がカラカラになった。
ElevenLabsの公式見解としては2時間分の音声素材が推奨されている。でも、1時間連続で喋り続けるなんて、ほぼ不可能だった。
そんな不安を解消してくれたのも リツトさんのnote だ。
クオリティーを担保するための最低限必要な収録時間の目安が提案されており、この時間を抑えられなければ3日以内に完成しないどころか、途中で心が折れて断念していた可能性もある。。。
致命的な問題:「前回どんな声だったっけ?」
何日かに分けて録音することにしたが、新たな問題が発覚した。
「昨日、どんな声のトーンで録ったっけ?」
日によって、微妙に声が変わってしまう。これでは一貫性のない音声になってしまう。
解決策は、無理のない「普段の声」で統一すること。演技より継続性を重視した。
高速道路との戦い
そして、予想通り、高速道路の音との戦いが始まった。
バイクが通過する度に録音を停止。救急車のサイレンが鳴れば、心が折れそうになる。でも、諦めなかった。
「それ以外の交通音は、編集でカットできる」というリツトさんの言葉を信じて。
実際、Audacityでノイズ除去と無音カットを行えば、思ったより綺麗になった。完璧ではないが、素人が感じるには十分なクオリティだった。
3日で完成:リツトさんのnoteの威力
リツトさんのnoteは、本当に時短になった。
- 準備すべき機材
- 録音の具体的な手順
- Audacityでの編集方法
- ElevenLabsへの申請方法
すべてが明確で、初心者でも迷わない。これがなければ、おそらく1週間以上かかっていたと思う。申請から審査、そして承認まで、トータル3日間で完了した。
公開24時間後の衝撃:約1万文字が使われている
承認通知が来た時の安堵感は忘れられない。
そして、公開から24時間後。ElevenLabsの管理画面を見て、目を疑った。
約1万文字が使われている。
「誰が?どこで?何に使ってる?」
具体的な用途は分からない。でも、確かに需要がある。この事実が、何より嬉しかった。
金額にすれば微々たるものだが、それは問題じゃない。
やってみて分かった3つの真実
真実①:日本語音声は圧倒的に不足している
ElevenLabsのボイスライブラリを見て、驚いた。
日本語の音声が、本当に少ない。特にキャラクター系の声は、ほとんどない。
ChatGPTは日常的に使われているのに、音声は普及途上。今後、音声チャットが一般化すれば、需要は爆発的に増えるはずだ。
今のうちに登録しておく価値は、間違いなくある。
真実②:v3で世界が変わる
現行バージョン(Turbo 2.5)は、正直まだ発展途上。日本語の精度も完璧ではない。
でも、v3での大幅な品質向上が予告されている。この時、すでに登録している人には、先行者利益がある。種を撒くなら、今だ。
真実③:高速道路沿いでも問題なかった
最大の不安要素だった録音環境問題。
結論から言えば、編集技術でカバー可能だった。
完璧な環境は必要ない。バイクや救急車の音は避ければいい。それ以外は、Audacityのフィルター機能である程度ならカバーできる。この学びは、多くの人の背中を押すはずだ。
現実的な収益観:まずは月3,000円の相殺を目指す
正直に言おう。これで大儲けできるとは思っていない。
でも、ElevenLabsの月額22ドル(約3,000円)を相殺できれば、実質タダでAI音声がいつでも使える環境が手に入る。
そして、v3へのアップデートで品質が向上すれば、利用者はさらに増える可能性がある。多言語展開にも対応しているので、海外ユーザーも獲得できる。
リスクは初期投資の1.5万円のみ。これを「実験費用」と考えれば、十分に価値がある。
こんな人におすすめ
- 自分の声で何か発信したい人
- AI時代の新しい収益源を探している人
- 低リスクで新技術を試してみたい人
- 声優やアニメに興味を持つ子供を持つ親(話題作りとして)
向いていない人
- すぐに大金を稼ぎたい人
- 実験的な投資を楽しめない人
娘との会話から生まれた新しい扉
「声優っていいな」
娘の何気ないこの言葉から、私のAI声優デビューが始まった。
最初は単なる話題作りのつもりだった。でも、1日で1万文字が使われるという現実を見て、考えが変わった。
これは、ただの遊びじゃない。新しい時代の収益化手段だ。
そして何より、娘との共通話題ができた。これが、一番の収穫かもしれない。
今がチャンス:1.5万円で始められる未来への投資
高速道路沿いの家でもできた。プロの機材がなくてもできた。3日で完成した。
そして、その後の1日で1万文字が使われた。※その後2週間で55万文字!
この事実が、すべてを物語っている。
完璧な環境を待っていても、何も始まらない。今、この瞬間が、最もチャンスのある時期だ。
v3へのアップデートを待つのではなく、今登録して、その時を待つ。これが、最も賢い戦略だと思う。
迷っているなら、まず1.5万円でチャレンジしてみる価値はある。
あなたも、一緒にどうですか?
ElevenLabsの登録はこちらから
参考にしたリツトさんのnote記事
補足:よくある質問
Q. 本当に高速道路沿いでも大丈夫?
A. バイクや救急車の音は避ける必要がありますが、それ以外の交通音は編集で対応可能です。とはいえ音声のノイズを消す作業は音質に大きく影響を与えるので、できる限り静かな環境を確保することをおすすめします。
Q. どのくらいの時間で録音できた?
A. 1回20分ほどの収録を2日に分けて、合計1.5時間程度です。一気に録ろうとせず、無理のないペースで進めることをおすすめします。その後の編集作業も収録と同じくらいの時間を変えたので、合計すると3時間ほどの作業で音源自体は完成しました。
Q. 収益はどのくらい期待できる?
A. まずは月額課金の相殺(約3,000円)を目標に。その先は、Elevenlabsのアップデート次第です!
コメント