ライティングに関わる人に役立つ情報をお届け

ライターにとっての「文字起こし」とは、単なる音声のテキスト化ではありません。インタビューや取材音声を「原稿に加工するための素材」として、あるいは執筆の「下ごしらえ」として活用する、やや特殊な需要があります。
しかし、文字起こし特化型のAIは、議事録作成などの一般的な用途に最適化されており、ライターが求める精度や形式には必ずしも対応していません。そこで注目したいのが、汎用的な生成AI「Gemini」を活用した文字起こしです。
原稿作成に使う文字起こしには、次のような要件が求められます。
発言内容の整理
「えー」「あのー」といった不要な言葉(ケバ/フィラー)を取り除き、読みやすく文章を整える必要があります。
話者の分離と特定
複数人での対談やインタビューでは、誰がどの発言をしたかを明確に区別する必要があります。
適切な段落分け・改行
発言が長い場合、適切な箇所で段落が分けられていないと、読みにくくなってしまいます。
見出しの設定
話題の切り替わりポイントが一目で分かるよう、適切な見出しが付けられていると、後の編集作業が格段に楽になります。
文字起こし特化型AIではなく、「Gemini」を使ってみると
各社が出している「文字起こし特化型」AIサービスは、確かに便利です。音声をアップロードするだけで即座に文字起こしを作成してくれるため、音声を聞きながら手入力で文字起こしをしていた頃に比べれば、大幅な効率アップが実現しました。
しかし実際のところ、そのままで原稿作成に使えるレベルには達しておらず、まだまだ人の手による修正や加工が必要です。
「文字起こしに特化したAIでダメなら、AIにライターが使えるレベルの文字起こしをしてもらうのは無理なのでは……」と思うかもしれません。でも、大丈夫です。Googleの多機能AI「Gemini」に細かく作業指示を与えることで、ライターの求める形で精度の高い文字起こしをしてもらうことができます。
音声や動画を取り込める生成AIは他にもありますが、文字起こしには別のAIと組み合わせる必要があるものが多く、単体で文字起こしに対応できる無料のサービスは、「Gemini」以外に(おそらく)ありません(2025年5月現在)。
「Gemini」のWebサイト(https://gemini.google.com/)では音声を添付できないため、文字起こしをする際には「Google AI Studio」から「Gemini」を利用します。
Google AI Studio:https://aistudio.google.com/
「Google AI Studio」は、Googleのアカウントを持っていれば、無料で使えます。
右上(Run settings)のドロップダウンリストから「Gemini 2.5 Flash」を選択します。文字起こしに使う場合、深い考察のできる「Pro」ではなく、サクサク動く「Flash」が適しています。
真ん中の入力欄に音声ファイルをドラッグ&ドロップしてアップロードし、プロンプト(生成AIへの指示文)をテキスト入力することで、文字起こしを実行できます。
プロンプトを入力する際は、テキストエディタなどであらかじめプロンプトを作成しておき、コピー&ペーストで入力することをおすすめします。
また、Google AI Studioは無料のサービスのため、入力した内容がAIモデルの学習に使われる可能性があります。個人情報や機密情報は入力しないようにしましょう。
基本的な作業フロー
文字起こし作業は以下の3ステップで進めます。
① 音声の準備
まず、文字起こしを行う音声ファイルを用意します。可能であれば、原稿に不要な部分(冒頭の雑談やスケジュールの確認など)は事前にカットしておくことをおすすめします。
余計な情報が入ることで要らぬ考察をしてしまう可能性を排除しておきましょう。
② 発言通りの文字起こし
最初に、AIに対して、発言を漏らさずそのまま文字に起こすよう指示します。
③ 文章の整理
次に、原稿作成に使いやすい形式へ整えます。ここでは詳細なプロンプトを入力することが大切です。
「原稿作成に使える文字起こし」を作るプロンプト例
使える文字起こしを作成するために用意するのは、次のようなプロンプトです。
そのまま起こし/話者分離・特定プロンプト
「添付ファイルの音声を、発言者の言葉通りに文字起こししてください」でも大丈夫ですが、どのような音声なのかを伝えたほうが、より使いやすいアウトプットが出てきます。
インタビューの場合には、インタビュアーとインタビュイーを聞き分ける必要があるため、プロンプトにも詳細な指示を入れます。
インタビュイーが複数いる場合には、取材時にそれぞれの自己紹介をしてもらうことで、話者の聞き分け・特定がより確実になります。
自己紹介の時間が取れなかった場合には、取材中に「田中さんはどう思われますか?」など、名前を入れて呼びかけることで、話者特定に役立ちます。
もし、ご自身が取材に立ち会っておらず、音声だけを渡された場合には、インタビュイーの性別、役職、年代などの情報をプロンプトに追加することで、話者特定の精度が上がります。名刺の写真データがあれば、それを添付するのもよい方法です。
このようなプロンプトを使って、いったん、全発話の文字起こしをアウトプットします。
音声が長いと、一度に全てを文字起こしできずに途中で止まってしまうことがあります。その場合には、「続けてください」と入力すれば、続きを出してくれます。
ケバ取り/段落分け/見出し付けプロンプト
ケバ取り、ケバ取り/段落分け/見出し付けを行います。
先ほど出力した「そのまま起こし」の文章を「.txt」か「.pdf」形式のファイルで保存し、「Google AI Studio」に添付します。(「Google AI Studio」はWordファイルには対応していません)
そして、次のようなプロンプトを入力します。
生成AIを使って「原稿作成に使える文字起こし」を作るためには、段階的なアプローチが重要です。一度にすべてを求めるのではなく、「そのまま起こし/話者分離・特定」と「ケバ取り/段落分け/見出し付け」のステップを分けて作業することが、精度の高い文字起こしを作成するためのコツになります。
同音異義語の聞き分けや固有名詞など、まだまだ人が起こしたほうが精度の高い部分は存在します。しかし、スピードとコストを考えると、生成AIを使わない手はありません。
生成AIの進化はすさまじく、日を追うごとに精度が上がっています。今後、Gemini以外のAIサービスでも文字起こしができるようになっていくでしょう。
今回お伝えしたのは、あくまで現時点(2025年5月)の段階でのお話です。しかし、基本的な考え方やプロンプト例などは、今後も使えると思いますので、文字起こし効率化にお役立てください。
======================================
フリーライター 槙阪夏里
ライター歴11年。ビジネス書のブックライティングや企業の広報誌などを中心に執筆。眼精疲労、肩こり、腰痛と戦いながら、持続可能なライター人生を模索中。