2021.02.01 11:30

Clubhouseのここがすごい。Zoomとの推定差異から考えてみた

shutterstock

24日のシリーズBラウンドでの資金調達の発表を受け、日本国内でもツイッターのトレンド入りなどで急速に話題になっているClubhouse。「声の扱い方が一体Zoomとどう違うのか？」を考えてみた。

下記は、一般のビジネスパーソン向けに技術的な内容を一部デフォルメしているので、技術系読者にとっては物足りない結果となるがご了承されたい。

結論から言うと、声被りをしない大きな理由はスピーカー（話者）間の遅延の小ささに由来している。インターネットを介した通話をおこなう場合、実はスピーカー間はリアルタイムに通話していない。データが世界中を飛び回って受信者に送られてきているので、テレビのニュースで海外特派員とのやり取りほどは気にならないが、若干の遅延が常に発生している。

人間の脳は10ms（1/100秒）とか20ms（2/100秒）程度の遅延から違和感を感じ始めると言われており、最近5Gの文脈で1ms（1/1000）遅延を目指すというキーワードで通信キャリア各社が努力をしていると聞くのはこれが理由である。

日常会話をしている場合、相手の発話終了などを感じ取って自分の発話を開始するし、相手の発話開始を感じ取って自分の発話を終了することによって、声被りを防いでいる。しかし、インターネットを経由してデータ受信の遅延が発生すると、コンマ数秒単位の発話終了に対する認知の遅れが発生し、これが声被りを生み出す原因となっている。

このデータ受信の遅延を減らす努力によって、インターネット通信における会話のリアルタイム性を高め、人間のコミュニケーションをより自然な声被りの少ない状態にすることができる。

どうやって遅延を減らしているのか？

では、この遅延を減らす努力をClubhouseがどのようにおこなっているか推定してみた。

周辺の技術者の間でおこなわれたパケット解析の結果や討議などを鑑みると、ClubhouseはUDPという、リアルタイム性が高く、データを垂れ流しする通信方式を利用して、通信をしていることが推測出来る。

当初、端末間を直接つなぐP2Pの仕組みでやり取りしていることが想定されていたが、パケット解析の結果、接続先がほとんど1カ所に集約されていることからこの考えは否定された。

例えば、スピーカーが「マイクのテスト」と発言した際に、通常インターネットで利用されているTCPという通信方式の場合は、何度かのデータのやり取りをした後に、「マ、イ、ク、の、テ、ス、ト」の発話データがすべて集まってから音声が再生される。一方で、UDPという通信方式の場合は「の」の発話データが欠落した場合でも、「マ、イ、ク、（無音）、テ、ス、ト」と即座に再生される。

次ページ＞送信開始までの遅延を減らすことが可能な理由