コンテンツにスキップ

SMV

出典: フリー百科事典『ウィキペディア(Wikipedia)』

SMVselectable mode vocoder)は CDMA2000 ネットワークで利用される可変ビットレート音声符号化方式である。それ以前から CDMA ネットワークで使われている符号化方式の EVRC のように通話中に音声の内容によりビットレートを変えることができることに加え、モード指定により基地局側から音質と平均ビットレートの制御を行うことができる特徴がある。

この特徴はその後に規格化された CDMA2000 ネットワーク用の音声符号化方式である VMR-WBEVRC-B 以降の仕様などにも引き継がれている。

概要

SMV は CDMA ネットワークのために提案された音声符号化方式で、1999年に CDMA 方式の業界団体である CDGCDMA Development Group)が要求仕様を作成し[1]、その後様々な評価を経て 2001年6月に 3GPP2 の標準規格 C.S0030-0 として採用された[2]

ビットレートは入力となる音声信号の種類(有声音/無声音/無音状態など)と指定されているモードとの組み合わせにより動的に変わる。音声信号の内容に応じて8.55 kbps(フルレート)、4.0 kbps(ハーフレート)、2.0 kbps(1/4レート)0.8 kbps(1/8レート)のいずれかのビットレートに符号化する。1/8レートは無音状態(しゃべっていない状態)のみで使われる。

これらの符号化データはそれぞれ CDMA2000 ネットワークのレートセット1(9.6 Kbps を基準とする通信レート)でのフレームレート 9600 bps、4800 bps、2400 bps、1200 bps を使い送受信される。CDMA2000 ネットワークで使われている CDMA 方式は、各利用者のビットレートが下がるほど多くの利用者が同時接続できる特性があり、コーデックのビットレートを可変にして平均ビットレートを下げることは1基地局あたりの収容数(同時に通話可能な利用者数)の向上に役立っている。

平均ビットレートは基地局側が指示する「符号化モード」(パラメータ名 "RATE_REDUC")で制御する。符号化モードは、基地局当たりの収容数や携帯電話基地局との間の無線状態など通信ネットワーク側の状態と、要求される通信品質(QoS)により決められる。平均ビットレートは符号化モード 0 が最も高く 1、2 と順次低くなり、また音声の品質も同様に低下する。

符号化モードは 0 から 3 までの4モードがあり、それぞれプレミアムモード、スタンダードモード、エコノミーモード、キャパシティセービングモードとも呼ばれる。加えて、最大ビットレートをハーフレート(4.0 kbps)に抑えるハーフレートマックスモード(half-rate max mode)があり、モード 0 とモード 1 に適用できる。

平均ビットレートは音声の内容により変わるが、符号化モードと平均的な会話での想定平均ビットレート(符号化のレート)との関係は以下のようになる[3]

SMV の符号化レート
RATE_REDUC (binary)符号化モード想定平均ビットレート説明
‘000’07.95 kbpsプレミアムモード
‘001’15.82 kbpsスタンダードモード
‘010’24.50 kbpsエコノミーモード
‘011’33.95 kbpsキャパシティセービングモード
‘100’44.00 kbpsモード0 + ハーフレートマックスモード
‘101’53.67 kbpsモード1 + ハーフレートマックスモード
‘110’将来のために予約
‘111’将来のために予約

SMV で使うアルゴリズムは、CELPの一種である eX-CELPeXtended CELP)を用いる。これは1つの技術ではなく、EVRC で使用されている RCELP アルゴリズムなど様々なアイデアを組み合わせ選択して使うものである[4]

また、それ以前に開発された EVRC と同様の雑音抑制の機能が仕様に組み込まれており、フロントエンドとして使われる。

SMV の特徴は以下の通りである。

CDMA2000 ネットワークでのサービス種別を表すサービスオプションとしては SO56(Service Option 56)が割り当てられている。

SMV の符号化データを RTP を用いインターネット上で送るためのデータ形式は、IETF標準の RFC 3558 で定義されている[5]

SMV は 3GPP2 でのマルチメディア用ファイルフォーマットである 3G2 でも使うことができる。携帯電話での音声通信用以外に、マルチメディアメッセージングサービスやマルチメディアストリーミングサービスなどの 3GPP2 で定義された各種マルチメディアサービスで使用することができる。

eX-CELP

SMV では CELP の一種である eX-CELPeXtended CELP)と呼ばれる技術を用いる。

一般的な CELP は人間の音声を声道に相当する線形予測フィルターと声帯に相当する適応型と固定型のコードブックとでモデル化し、「合成による分析」(analysis-by-synthesis)の手法を用いてコードブックから誤差が最小になるものを探索する。

eX-CELP の基本的となる考え方は、通常の CELP が固定的なアルゴリズムを使い入力信号とできるだけ同じ波形になるように符号化しようとするのに対し、様々なアルゴリズムを組み合わせて知覚上重要な部分を強化した符号化を行うことである[6]

具体的には、 CELP をベースとしながら、以下のような方法で聴感上の音質を落とすことなくビットレートの低減を行っている[6][7][4]

  • オープンループとクローズドループの組み合わせ(closed-loop-open-loop-analysis、COLA
合成による分析でのクローズドループだけでなく、完全な一致が必要ないパラメータはオープンループで符号化するなど、柔軟に切り替える
  • 入力信号の細かい分類とアルゴリズムの切り替え(variant algorithm structures、VAS
入力信号を細かくカテゴリー分けして処理を切り替え
(定常的な有声音、非定常的な有声音、発声の開始、定常的な無声音、非定常的な無声音、背景雑音のみ、など)
  • 信号の修正
EVRC で使われる RCELP アルゴリズムのように、入力信号を知覚上影響が無い範囲で効率的に符号化できるよう修正する
  • 柔軟性のある固定コードブック
CELP での固定コードブックを入力信号の分類に合わせた複数のサブコードブックに分け、それぞれの信号を適切に表現できるようにする
  • マルチモード
定常的な有声音(ほぼ同じ波形の繰り返し)とそれ以外とで符号化処理の全体構成を変える(Type 1/0 の2種類の構成が存在)

SMV と CDMA2000 ネットワークで長く使われている EVRC(EVRC revision 0)の、MOS 値は以下のようになる[4]MOS 値は、総合的な音質を表す主観評価値で1から5の値をとり、5が最も音質が高く1が最も低い。

コーデックMOS (Clean)MOS (Noisy)説明
EVRC3.5813.346EVRC revision 0 での値
SMV (モード0)3.9003.569EVRC と同じ平均ビットレート
SMV (モード1)3.6363.528
SMV (モード2)3.4643.526

ここで "MOS (Clean)" は背景雑音が無い時の、"MOS (Noisy)" は背景雑音がある時の MOS 値である。同じ平均ビットレートでの総合的な音質は EVRC より高く、7 割程度の平均ビットレート(モード1)でも EVRC とさほど変わらない。

脚注

参考文献

関連項目

外部リンク

  • 3GPP2 Specifications 3GPP2 仕様のウェブページ
  • RFC 3558 - RTP Payload Format for Enhanced Variable Rate Codecs (EVRC) and Selectable Mode Vocoders (SMV)
🔥 Top keywords: メインページ飯豊まりえ高橋一生石丸伸二特別:検索キダ・タロー廣瀬智紀弥助三淵嘉子川栄李奈羽賀研二葛西美空岸辺露伴は動かない秋元優里鈴村健一ユージ虎に翼山崎育三郎STARTO ENTERTAINMENT乙黒えり出口夏希窪塚愛流木田美千代緒方賢一Never young beach田村正和ニューカレドニア猿の惑星シリーズマイケル・ゴードンプロポーズ大作戦 (テレビドラマ)スロバキア麿赤兒浅野温子笠松将竜とそばかすの姫堀田賢慎ラナルド・マクドナルド伊倉愛美仲野太賀