ストリーミング
Streaming
AIの回答を完成してからではなく、生成しながら少しずつ受け取る方式。ChatGPTの逐次表示はこれにあたる。
ストリーミングとは
ストリーミングは、AIの回答を生成しながら少しずつ受け取る方式です。ChatGPTの画面で文字が少しずつ流れてくるのは、このストリーミング配信の仕組みによるものです。
通常のAPI応答は「全部書き終わってから一括返送」ですが、ストリーミングはトークン単位で逐次送信します。
通常応答との違い
| 項目 | 通常応答 | ストリーミング |
|---|---|---|
| 返却タイミング | 全文完成後 | 生成しながら逐次 |
| 体感速度 | 待ち時間が長い | すぐ表示が始まる |
| 実装難易度 | 低 | やや高(逐次処理) |
| 途中キャンセル | 不可 | 可能 |
なぜ重要か
長文生成では完成まで数十秒かかることもあり、「待ち時間ゼロ」の体感がユーザー体験を大きく左右します。チャットUIではほぼ必須の方式です。
士業事務所での活用
- 相談チャットボット: 顧客を待たせず、すぐに回答表示を始める
- 書面ドラフト画面: 生成中から内容を確認でき、不要なら途中で止めてトークン節約
- 社内ナレッジ検索: 長い回答も先頭から読めるため、担当者の判断が早くなる
注意点
- 途中で通信が切れる場合に備えた再接続処理が必要
- ログ保存は全文完成後にまとめて記録する運用が一般的
- 料金はストリーミングでも総トークン数で課金される(安くなるわけではない)
