GCPとOpenAIを活用して音声ファイルを簡単にテキスト化・翻訳・要約しよう!

※当サイトは、アフィリエイト広告を利用しています。

くれとむ

今回は音声ファイルを文字起こしして、それを日本語に翻訳、要約できるWebアプリを作ってみたよ。

くれとむ

どんな時に使えるの?

くれとむ

海外の大学の講義、専門セミナー、Webセミナーなどの音声を翻訳・要約し、日本語で理解できるよ。あとは、英語の映画やポッドキャストの要約とかかな。

デモ動画がこれだよ。

くれとむ

ひとつの画面上で完結するのは確かに便利かもね!

くれとむ

このブログでは、アプリ実行手順をステップごとに紹介していくよ!

Webアプリの概要

Webアプリの機能
  1. 文字起こし: Google Cloud Speech-to-Text APIを使用して音声ファイルから文字起こし。
  2. 翻訳: OpenAI APIを使用して文字起こし内容を日本語に翻訳。
  3. 要約: OpenAI APIで翻訳内容を要約。

本Webアプリはフロントエンドとバックエンドで構成しています。
実行環境はDockerを用いています。Docker Composeによりフロントエンド側とバックエンド側の処理を起動しています。

フロントエンドではReactを使ってボタン押下時の処理を定義しています。
ボタン押下時の挙動は、バックエンド側でFlaskを用いることで実装しています。

アーキテクチャ概要
  1. フロントエンド: Reactアプリケーションで構築。ユーザーはここから音声ファイルをアップロードして、文字起こし、翻訳、要約をリクエスト。
  2. バックエンド: Flaskアプリケーション。以下の機能を提供:
    • 文字起こし: Google Cloud Speech-to-Text APIを使用して音声を文字起こし。
    • 翻訳: OpenAI APIを使用して文字起こし内容を日本語に翻訳。
    • 要約: OpenAI APIで翻訳内容を要約。
  3. 外部サービス:
    • Google Cloud Speech-to-Text: 音声ファイルをテキストに変換。
    • OpenAI API: 翻訳と要約機能に使用。
  4. 実行環境
    • コンテナ(Docker Compose)
    • クライアント端末

必要な準備

準備では、GCP(Google Cloud Platform)とOpenAIのAPIを使えるようにします。
Docker DesktopなどのDockerを使用するための環境構築手順は省略します。

準備
  • GCPの設定
  • OpenAI APIの設定

GCPの設定

以下の手順でGCPからGoogle Cloud Speech-to-Text APIの有効化します。
これは音声ファイルを文字起こしするために使う機能に必要です。

手順
  1. GCPのダッシュボードから新しいプロジェクトを作成。
  2. 「APIとサービス」>「ライブラリ」から「Speech-to-Text API」を検索して有効化。
  3. サービスアカウントの作成
  4. サービスアカウントへの権限付与
  5. 「認証情報」を作成し、JSONファイルとしてダウンロード。このファイルをアプリで利用します。

GCPのダッシュボードから新しいプロジェクトを作成

GCPのWebサイトにアクセスします。
画面右上のログインボタンを押下し、自身のGoogleアカウントでログインします。

画面右上の「コンソール」ボタンを押下します。

その後、画面左上のプロジェクトボタンを押下します。
(プロジェクト作成をしたことがない場合は、プロジェクト名が空だと思います)

「新しいプロジェクト」を押下します。

プロジェクト名に任意の名前を入力し、「作成」ボタンを押下します。

「Speech-to-Text API」の有効化

「APIとサービス」>「ライブラリ」から「Speech-to-Text API」を検索し、「有効にする」ボタンを押下します。

サービスアカウントの作成

APIを使用するには、認証情報を設定する必要があります。
そのためにサービスアカウントを作成します。

ナビゲーションメニュー(左上の三本線アイコン)から「IAMと管理」 > 「サービスアカウント」を選択します。

サービスアカウントの作成」をクリックします。


サービスアカウントの名前(任意)を入力します(例:speech-to-text-service-account)。
サービスアカウントIDは自動的に生成されます。必要であれば説明も追加できます。
作成して続行」をクリックします。


サービスアカウントへの権限の付与します。
ロールの選択」で「プロジェクト」をクリックし、「編集者」を選択します。
続行」をクリックします。

「完了」を押下します。

「認証情報」を作成し、JSONファイルとしてダウンロード。このファイルをアプリで利用します。

作成したサービスアカウントの一覧から、対象のサービスアカウントを選択します。
上部にある「キー」タブを押下します。

「鍵を追加」 > 「新しい鍵を作成」をクリックします。

キーのタイプは**「JSON」を選択し、「作成」**をクリックします。
JSON形式の秘密鍵ファイルが自動的にダウンロードされます。

くれとむ

このファイルはアプリケーションでの認証に使用します。
後ほどjsonファイルの格納先を記載します。

OpenAI APIの設定

GPTのAPIを使用するためには、OpenAIのAPIキーが必要です。
APIキーを取得されていない方は、まずOpenAIのAPI発行画面からAPIキーを発行しましょう。

OpenAIのAPIキー取得

Create new secret keyを押下します。

「Create secret key」を押下します。

作成されたキーをコピーしておきます。
画面を閉じてしまうとキーがコピーできなくなるため、注意してください。

くれとむ

これでAPIを利用するための事前準備は完了です。
次はアプリを動作させる手順をご紹介します。

Webアプリの動作手順

Webアプリの動作手順
  • Githubからソースコードをpull
  • .envファイルの作成
  • app.pyファイルの修正
  • Docker Composeの実行
  • アプリ起動確認

Githubからソースコードをpull

まず以下のGithubからソースコードをcloneします。

Githubのソース格納先

本アプリのソースコードを格納しています。
https://github.com/my-repo-441/LinguaText

自身のターミナルを開き、任意のディレクトリで以下のコマンドを実行します。

git clone https://github.com/my-repo-441/LinguaText.git

git cloneを実行したフォルダ配下に、LinguaTextプロジェクトが作成されていることを確認します。

.envファイルの作成

LinguaText/backendの直下に、新たに.envファイルを作成します。

GOOGLE_CLOUD_PROJECT=your-project-id
OPENAI_API_KEY=your-openai-api-key

GOOGLE_CLOUD_PROJECT

GCPのプロジェクトのダッシュボードから、プロジェクトIDを確認し、.envのGOOGLE_CLOUD_PROJECTに値を入力します。

OPENAI_API_KEY

OpenAIのAPIキーを.envのOPENAI_API_KEYに入力します。

app.pyファイルの修正

LinguaText/backend/app.pyの内容を修正します。

GOOGLE_APPLICATION_CREDENTIALS

先ほどGCPからダウンロードしたjsonファイルを、LinguaText/backendの直下に移動します。

app.pyのGOOGLE_APPLICATION_CREDENTIALSのyour-json-fileの部分を自身のjsonファイルの名称に書き換えます。

Docker Composeの実行

以下のDockerコマンドでアプリを立ち上げます。

docker compose up --build

2つのDockerコンテナがバックエンドとフロントエンド作成されます。

アプリ起動確認

http://localhost:3000にアクセスします。
以下のような画面が表示されれば、立ち上げに成功しています。

デモ実行

くれとむ

http://localhost:3000で立ち上げたWebアプリでデモ実施します。

「ファイルを選択」ボタンを押下します。

音声ファイルを選択します。

「文字起こし」ボタンを押下します。

すると、音声ファイルが文字に変換されます。

次に、「翻訳」ボタンを押下します。
すると、英語が日本語に翻訳されて表示されます。

最後に、「要約」ボタンを押下します。
すると、翻訳の内容を要約した結果が表示されます。

まとめ

今回は、音声文字起こしアプリを構築しました。
GCPの設定やAPIの組み合わせによって、音声ファイルから文字起こし、翻訳、要約を1つのWebサイト上から実行できます。

英語の音声ファイルの内容を日本語で整理したい場合はぜひ構築してみてください。
最後まで読んでいただきありがとうございました。










コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA


ABOUT US
くれとむ
IT企業3年目のエンジニアです。 日常の便利なものやITに関する記事を投稿しています。 AWS認定12冠(CLF, SAA, DVA, SOA, SAP, DOP, ANS, SCS, MLS, DAS, DBS, PAS)、基本情報技術者、応用情報技術者、TOEIC L&R 870点 このサイトはアフィリエイト広告(Amazonアソシエイト含む)を掲載しています。