GoogleのAI「Gemini」を使って、「原稿作成に使える文字起こし」を作ろう

ライターにとっての「文字起こし」とは、単なる音声のテキスト化ではありません。インタビューや取材音声を「原稿に加工するための素材」として、あるいは執筆の「下ごしらえ」として活用する、やや特殊な需要があります。

しかし、文字起こし特化型のAIは、議事録作成などの一般的な用途に最適化されており、ライターが求める精度や形式には必ずしも対応していません。そこで注目したいのが、汎用的な生成AI「Gemini」を活用した文字起こしです。

ライターが必要とする文字起こしの要素

原稿作成に使う文字起こしには、次のような要件が求められます。

発言内容の整理

「えー」「あのー」といった不要な言葉(ケバ/フィラー)を取り除き、読みやすく文章を整える必要があります。

話者の分離と特定

複数人での対談やインタビューでは、誰がどの発言をしたかを明確に区別する必要があります。

適切な段落分け・改行

発言が長い場合、適切な箇所で段落が分けられていないと、読みにくくなってしまいます。

見出しの設定

話題の切り替わりポイントが一目で分かるよう、適切な見出しが付けられていると、後の編集作業が格段に楽になります。

文字起こし特化型AIではなく、「Gemini」を使ってみると

各社が出している「文字起こし特化型」AIサービスは、確かに便利です。音声をアップロードするだけで即座に文字起こしを作成してくれるため、音声を聞きながら手入力で文字起こしをしていた頃に比べれば、大幅な効率アップが実現しました。

しかし実際のところ、そのままで原稿作成に使えるレベルには達しておらず、まだまだ人の手による修正や加工が必要です。

「文字起こしに特化したAIでダメなら、AIにライターが使えるレベルの文字起こしをしてもらうのは無理なのでは……」と思うかもしれません。でも、大丈夫です。Googleの多機能AI「Gemini」に細かく作業指示を与えることで、ライターの求める形で精度の高い文字起こしをしてもらうことができます。

音声や動画を取り込める生成AIは他にもありますが、文字起こしには別のAIと組み合わせる必要があるものが多く、単体で文字起こしに対応できる無料のサービスは、「Gemini」以外に(おそらく)ありません(2025年5月現在)。

「Google AI Studio」から無料で「Gemini」を利用する

「Gemini」のWebサイト(https://gemini.google.com/)では音声を添付できないため、文字起こしをする際には「Google AI Studio」から「Gemini」を利用します。

Google AI Studiohttps://aistudio.google.com/

「Google AI Studio」は、Googleのアカウントを持っていれば、無料で使えます。

右上(Run settings)のドロップダウンリストから「Gemini 2.5 Flash」を選択します。文字起こしに使う場合、深い考察のできる「Pro」ではなく、サクサク動く「Flash」が適しています。

真ん中の入力欄に音声ファイルをドラッグ&ドロップしてアップロードし、プロンプト(生成AIへの指示文)をテキスト入力することで、文字起こしを実行できます。

プロンプトを入力する際は、テキストエディタなどであらかじめプロンプトを作成しておき、コピー&ペーストで入力することをおすすめします。

また、Google AI Studioは無料のサービスのため、入力した内容がAIモデルの学習に使われる可能性があります。個人情報や機密情報は入力しないようにしましょう。

文字起こしの手順

基本的な作業フロー

文字起こし作業は以下の3ステップで進めます。

① 音声の準備

まず、文字起こしを行う音声ファイルを用意します。可能であれば、原稿に不要な部分(冒頭の雑談やスケジュールの確認など)は事前にカットしておくことをおすすめします。
余計な情報が入ることで要らぬ考察をしてしまう可能性を排除しておきましょう。

② 発言通りの文字起こし
最初に、AIに対して、発言を漏らさずそのまま文字に起こすよう指示します。

③ 文章の整理
次に、原稿作成に使いやすい形式へ整えます。ここでは詳細なプロンプトを入力することが大切です。

「原稿作成に使える文字起こし」を作るプロンプト例

使える文字起こしを作成するために用意するのは、次のようなプロンプトです。

そのまま起こし/話者分離・特定プロンプト

「添付ファイルの音声を、発言者の言葉通りに文字起こししてください」でも大丈夫ですが、どのような音声なのかを伝えたほうが、より使いやすいアウトプットが出てきます。

例1)
添付ファイルは「AI時代に生き残るライターとは」というテーマの講演を収録した録音データです。
全ての言葉を省略せず、一言一句漏らさず文字起こしして下さい。
全てが終わったら、「完了」と出力してください。

インタビューの場合には、インタビュアーとインタビュイーを聞き分ける必要があるため、プロンプトにも詳細な指示を入れます。

例2)
添付ファイルは「かんたん経理」という商品の導入事例インタビューを収録した録音データです。
全ての言葉を省略せず、一言一句漏らさず文字起こしして下さい。
インタビュアーの発言は「――」からはじめ、インタビュイーの発言は「山下:」「田中:」からはじめてください。
全てが終わったら、「完了」と出力してください。

インタビュイーが複数いる場合には、取材時にそれぞれの自己紹介をしてもらうことで、話者の聞き分け・特定がより確実になります。

自己紹介の時間が取れなかった場合には、取材中に「田中さんはどう思われますか?」など、名前を入れて呼びかけることで、話者特定に役立ちます。

もし、ご自身が取材に立ち会っておらず、音声だけを渡された場合には、インタビュイーの性別、役職、年代などの情報をプロンプトに追加することで、話者特定の精度が上がります。名刺の写真データがあれば、それを添付するのもよい方法です。

追加例)
山下さん:経理部 会計課 課長、40代男性、関西弁
田中さん:経理部 会計課 主任、30代女性

このようなプロンプトを使って、いったん、全発話の文字起こしをアウトプットします。

音声が長いと、一度に全てを文字起こしできずに途中で止まってしまうことがあります。その場合には、「続けてください」と入力すれば、続きを出してくれます。

ケバ取り/段落分け/見出し付けプロンプト

ケバ取り、ケバ取り/段落分け/見出し付けを行います。

先ほど出力した「そのまま起こし」の文章を「.txt」か「.pdf」形式のファイルで保存し、「Google AI Studio」に添付します。(「Google AI Studio」はWordファイルには対応していません)

そして、次のようなプロンプトを入力します。

プロンプト例)

添付のファイルは、「かんたん経理」という商品の導入事例インタビューの文字起こしです。

できるだけ原文の意味を変えずに、自然で読みやすい文章に変換してください。

原文の内容は省略せず、全て含めてください。

箇条書きは避けてください。

一人の発言が長いときには、適宜、段落を分けてください。一段落は長くても500字以内にしてください。

「ええと」「あの」「えー」などのフィラーは削除してください。

専門用語はそのまま使用してください。

内容の区切りのよいところで、見出しをつけてください。

長くて一度に出力できない場合は、複数回に分けて出力してください。

全てが終わったら、「完了」と出力してください。

生成AIを使って「原稿作成に使える文字起こし」を作るためには、段階的なアプローチが重要です。一度にすべてを求めるのではなく、「そのまま起こし/話者分離・特定」と「ケバ取り/段落分け/見出し付け」のステップを分けて作業することが、精度の高い文字起こしを作成するためのコツになります。

日に日に進化する生成AI

同音異義語の聞き分けや固有名詞など、まだまだ人が起こしたほうが精度の高い部分は存在します。しかし、スピードとコストを考えると、生成AIを使わない手はありません。

生成AIの進化はすさまじく、日を追うごとに精度が上がっています。今後、Gemini以外のAIサービスでも文字起こしができるようになっていくでしょう。

今回お伝えしたのは、あくまで現時点(2025年5月)の段階でのお話です。しかし、基本的な考え方やプロンプト例などは、今後も使えると思いますので、文字起こし効率化にお役立てください。

======================================

フリーライター 槙阪夏里

ライター歴11年。ビジネス書のブックライティングや企業の広報誌などを中心に執筆。眼精疲労、肩こり、腰痛と戦いながら、持続可能なライター人生を模索中。

この記事を書いた人

ライティングに関わる人に役立つ情報をお届け

ライターマガジン編集部

ライターマガジン編集部

ライターマガジン ヘンシュウブ

あなたにおすすめの記事