第四回となる今回は、日本最大級のフリマアプリで知られるメルカリ、さらにはグループ企業であるメルペイ、メルコインのCTOも務める木村俊也を訪問。2013年の創業当時からデータ利活用を推進してきたという同社がどのようにデジタル・データと向き合ってきたのか?直面する課題と今後の展望について話を聞いた。
“ユニーク”なデータを多く保有するメルカリ
高𫞎則行(以下、高𫞎) フリマアプリ「メルカリ」をはじめ、決済サービス「メルペイ」や暗号資産やブロックチェーンに関するサービスの企画・開発を行う「メルコイン」もグループ会社で提供しているメルカリにお邪魔しました。本日はメルカリの執行役CTOおよびメルペイ、メルコインで取締役CTOを務める木村さんにお話をうかがいます。まず、木村さんの経歴をお教えください。
木村俊也(以下、木村) 私はもともと2007年から17年にかけてMIXI(ミクシィ)で、自然言語処理や機械学習を専門とした研究開発職として働いていて、SNS開発の責任者も務めました。17年にメルカリに転職してからは、AIや検索エンジン開発の専門チームや、エンジニアリングや研究開発の組織を組成し、自社のさまざまな社内プラットフォーム開発の責任を担うVPofE(Vice President of Engineering)を担当しました。23年4月から現職に就いています。
高𫞎 今や日本最大のフリマサービスとして急成長を遂げたメルカリは、カンパニーミッションとして「新たな価値を生みだす世界的なマーケットプレイスを創る」を掲げています。メルカリが生み出した新たな価値について、木村さんはどのように捉えていますか。
木村 CEOの山田進太郎は、創業時から「世界から無駄をなくす」という使命感をもっていました。メルカリは二次流通(セカンドハンド)市場を拡大することでその需要と供給をマッチさせ、「世の中から無駄なモノをなくす」という社会的なインパクトを出してきたと考えています。
高𫞎 メルカリでは現在、どのようにデータの利活用をされていますか。
木村 メルカリでは毎日、大量の商品が出品・購入されていて、非常に膨大なトランザクション(商取引)があります。この膨大なトランザクションはサービスとして、またデータという観点からもとても魅力的だと感じています。
特に面白いのは、メルカリにあるすべての商品データがユニークであるということです。一般的なECサイトでは種類ごとに商品IDが割り振られてまとめて管理されますが、メルカリの商品は商品名や説明、画像や価格、そのすべてが個別のものとして独立しています。出品されるアイテムには画像や商品説明、そのほかお客様が考えた価格や実際に売れた価格といったあらゆるメタデータが付随していて、ある意味モノに対する世の中の本質的な価値がわかるんです。
また、商品のデータやアクセスログだけでなく、データ利活用という観点からは検索情報も重要です。メルカリアプリ内の検索エンジンのログやコンバージョン(取引の成約)を分析することができます。
ほかにも配送情報や決済サービス「メルペイ」での決済データなど、多様なデータを豊富に保持しています。
これらのデータはレコメンデーション機能開発や需要予測といったマーケティング分析、検索エンジンの改善やAIシステム開発にも非常に役立っています。
非エンジニアでもクエリを叩く文化
宮地敬史(以下、宮地) メルカリの創業は2013年です。この時期であれば創業時からデジタル戦略としてデータの利活用を前提とされていたのでしょうか。
木村 もちろんです。
以前から世の中に二次流通サービスは存在していましたが、当時はメルカリのようにスマートフォンだけで完結するものはまだあまり浸透していませんでした。スマホだけですぐに不要なモノを売れるようになれば、もっと世の中から無駄がなくなるはず。これが創業者である山田の最初の着想でした。
モバイルで完結するサービスの提供から始めて、「お客様のフィードバックをもとに大量に改善していく」という成長戦略を取りました。お客様の声を拾うためには行動ログを見るのが最も効果的でした。さまざまなメトリクス(定量化された指標)を分析したうえで高速に細かい改善を行えるよう、リリース後の早い段階からA/Bテストができる仕組みも実装していました。
そうやって創業時からデータを利活用してのマーケティングと細かい改修を常に続けたことが、成長につながったのだと思います。
高𫞎 まさしくアジャイル開発を徹底されていたわけですね。メルカリではデジタル・データ戦略の軸として、幹となるような言葉や方針は定めていますか。
木村 軸はいくつかありますが、やはり力を入れているのはAIの活用とそのためのデータ整備です。
最初にAIの活用を大きく打ち出したのは、写真を撮影しただけで過去の商品データを参考に商品を判定できる「AI出品」でした。これによって、出品するお客様の利便性が大きく向上しました。また、AIによる違反検知はお客様の安心安全に役立ち、オペレーションも楽になりましたね。
このようなデータを活用したAI開発には17年頃から注力していますが、当然ながらAI開発には大量の教師データを用意する必要があります。そのため、当時から長らく教師データの整備を続けています。
メルカリの面白いところはわざわざこの軸を打ち出さなくても社員が自発的にデータを使ってくれるところにあります。一般的には、データベースに触るのはデータサイエンティストやエンジニアといった専門職に限られている会社が多いと思います。しかし、メルカリではプロジェクトマネージャーやカスタマーサポートも自らデータベースを触ります。非エンジニアでもクエリ(データベース管理システムへの命令文/SQL文)を自ら叩く文化が初期から浸透していました。
高𫞎・宮地 それはすごいですね。
木村 転職当時は私もびっくりしました。ですから、上層部からデジタル戦略として掲げなくても、自分たちでデータベース上にある経営データを確認・分析を行うことが当たり前になっていました。創業時からそのカルチャーはすでに出来上がっていたのです。
宮地 DXを掲げる大企業は、まず社員に対して自社のデジタル戦略を浸透させるところから始める必要があります。しかし、メルカリは社員全員にデジタルが浸透しきっている。巷で騒がれるデータドリブン経営については、今さら言うまでもなく行っていたわけですね。
木村 データドリブンの考え方は社内で十分に浸透していますが、経営というのはデータドリブンだけではダメな部分もあります。データはあくまでも意思決定の材料として、常に傍らにあるものだと捉えています。社内では数値などをもとに意思決定する文化が根付いているので、常に正しいデータを正しく解釈することを心がけています。
膨大すぎるデータが管理を困難に
高𫞎 創業時から確立されたデジタル戦略が功を奏しているメルカリですが、データ利活用の取り組みを推進するうえでの困難はありますか。
木村 先ほど言ったように、メルカリは膨大なデータを保有していますが、データはただ大量にあればいいというわけではありません。データというのは目的や必要に応じて適切に使えることではじめて価値があるものになります。
メルカリでは膨大なデータを収集・保存しているため、まずインフラコストが非常に高くなっています。また、データが増えるほど、必要なデータの見つけやすさである“発見性”が悪くなっていくなど、データマネジメントの困難さが増しています。「インフラコスト」や「データ活用のリテラシー」に加えて、セキュリティ面を含めた「データガバナンス」の課題についても、ずっと向き合い続けています。
メルカリでは秘匿性の高い情報やお客様の個人の情報には安全な環境下にて業務上必要な最小範囲の社員のみしかアクセスできませんが、それ以外のデータは便利にアクセスできる環境です。その結果、作業をした不要な中間データが大量に残ってしまうという課題が生じています。大量のデータが残ってしまえば、当然、発見性が悪くなるしインフラコストも増えてしまうからです。
これまでデータ利用の自由度を極力高い状態に保ってきましたが、近年はガバナンスを強化して徐々に厳しくし始めています。データマネジメントのルールづくりやガバナンス整備はずっと続けていますが、今特に注力しているところですね。
宮地 弊社で担当する企業様からも、データ利活用が進むほどデータの発見性が低くなるといった悩みはよく聞きます。そこでDB上の不要なデータをすべて精査・整理した上で新たな運用ルールを定めるのですが、半年ほどたつと安心してしまうのか、結果的に以前より酷い状態に陥ってしまうケースもありました。
やはりデータマネジメントのルールを策定した上でしっかりと運用し続けることがいちばん重要ですが、一方でその管理を人力で行う管理者に相当な負担がかかっていることも考えなければなりません。メルカリではすでにデータマネジメントの運用システムの整備に着手されているのでしょうか。
木村 まずはデータモデリング(管理システムやデータ間の関係を整理し、図表でまとめること)を進めています。社内で需要の高いデータはある程度限られているので、それをモデリングすることで発見性やプラン構築のしやすさの向上を見込んでいます。
ただ、簡単にデータモデリングといっても、何千ものテーブルデータをモデリングするのは途方もない作業です。将来的にはAIが作業を代替してくれるという可能性もあるかもしれませんが、現段階ではまだ人間がやらないといけないことが多くあります。そういう意味で、データモデリングとデータマネジメントは一生をかけて向き合うことになるだろうと考えています。データモデリングとデータマネジメントを進めながら、数年計画でガバナンスも整備していくつもりです。
宮地 データモデリングを進めるということですが、すでにデータカタログ(DB上に整理されたデータ目録)の整備は進んでいますか。
木村 メルカリのデータは膨大過ぎて、データカタログの作成も相当な労力を伴います。ですので、データカタログをつくる一方で、並行して必要なデータのモデリングも進めるアプローチを取っています。データカタログの作成は、願わくば、将来AIに任せたいですね。
宮地 データカタログには多種多様なデータが整理・収録されますが、そのデータの意味内容はまだ人間でないと理解できず、データ登録も人力で行う必要があります。そういった部分をAIが高精度で代替してくれることに期待したいですね。
高𫞎 私自身も現在、LLM(大規模言語モデル)や機械学習技術を活用して、関連性の高いデータや類似した文章データの判別を行えるようなAIシステムの開発を手がけています。そうすることで、ただ一覧となるカタログをつくるのではなく、人間にとって有用なデータをまとめることができるプラットフォーム上の機能が実現できればと考えています。
木村 いいですね。大量にデータを保持している企業ほど、人間がデータカタログの作成やモデリングをすることが現実的ではなくなります。また、担当者が退職した途端にわからなくなったりするなど、ナレッジのシェアも難しい領域です。そう考えると、データ整備作業はLLMやAIを活用することでようやく現実的になるのかもしれません。
今はまさにインサイトテクノロジーのような企業がリードして、LLMや生成AIの活用やその限界を明らかにしている状況だと思います。データモデリングやデータマネジメントを手がけるAIというのも、データベースの専門企業がソリューションとして提供してくれるようになることを期待しています。
キレイなデータはLLMやAI開発に必要不可欠
高𫞎 今日のお話を聞いて、データの利活用が根付いた文化をもつメルカリさんはデジタル戦略に悩む企業にとって、ひとつのロールモデルになると感じました。
木村 いえ、実は今の私たちが他社の模範となるような理想的な姿だとは思っていないんです。
煩雑になってしまったデータベースを、後から直すのは非常に大変です。ですから、これまで自由度高くデータ利活用を進めてきた身として、これからデータ利活用を進めようとする企業の方には、データ整備やデータマネジメントについて一度立ち止まって考えたほうが良い、ということはお伝えしておきたいです。
宮地 勢いのある企業やスタートアップなどでは、開発スピード優先でデータマネジメントや整備については熟慮せずに突き進んでしまうことがよくあります。その結果、後々データを整理するだけで半年や1年近くかかってしまい、悲鳴を上げている企業を多く見てきました。
開発スピードを落とさず、同時にデータ利活用の根幹となるデータ整備についても考え続けることの重要性を、本日はあらためて考える機会となりました。
木村 正直、十分なデータ利活用というのは世の中の多くの企業でまだそこまで進んでいないと思います。今後もデータの利活用が進んでいった際に、今日私らの議論した「データモデリング」「データマネジメント」「データディスカバリ(発見性)」という3つの課題が、ほぼ確実に壁として立ち上がってくるはずです。
この3つを改善していくことはデジタル戦略において絶対に必要であり、これを解決しない限りデータ利活用の本質的な明るい未来は訪れないと思います。ですから、メルカリではまずこれらの課題に対して真摯に改善を続けて、いずれ解を出したいと考えています。
そのうえで、今後はLLMや生成AIの活用があらゆるビジネスのコアになるはずなので、自社データを活用した独自のAIモデルをつくることも視野に入れていきたいです。きれいに整備されたデータはLLMのモデル改善に寄与するので、データを活用する企業にとっては非常に重要となるでしょう。
高𫞎 データを利活用する企業にとって、こうした課題に対する完璧な答えはありませんが、ナレッジの共有・周知やAI開発を通じて、私たちもソリューションの提供に取り組んでいきたいです。
今回の話は、今後データ利活用を進めていく企業にとって、その過程で待ち受ける障害を知ることができる大きなヒントになると感じました。本日はありがとうございました!
高𫞎則行(たかはし・のりゆき)◎インサイトテクノロジー 取締役 CDO(最高開発責任者)。東京工業大学在学中にデジタルアーツに創業期メンバーとして参画、上場後15年間役員を務めながらi-FILTER(累計売上300億円超)の開発・販売、海外事業の開拓にも従事。2020年よりインサイトテクノロジーの製品開発本部長、23年より取締役CDO(最高開発責任者)を歴任し、すべての製品開発を主導。プロダクト戦略の刷新やチーム増強を通じて製品ラインナップを2倍に拡大。
宮地敬史(みやち・けいし)◎インサイトテクノロジー 取締役 CTO(最高技術責任者)。金融系の汎用機アプリケーション開発者としてキャリア開始後、システムにおけるデータベースの重要性に着目し、DB設計/パフォーマンスチューニングに関するコンサルティングに従事。2013年よりインサイトテクノロジーのコンサルティング本部本部長に就任、システム間のデータ連携、分析基盤に関する業務に取り組む。現在は取締役CTOとして製品の評価、テクノロジーの方向性決定に携わる。
木村俊也(きむら・しゅんや)◎2007年よりミクシィにてレコメンデーションエンジンの開発やデータ活用に関する業務を担当。そのほか、機械学習を生かした広告開発やマーケティングデータ開発にも携わる。17年よりメルカリにて研究開発組織R4Dの設立を担当し、AIを中心とした幅広い研究領域のリサーチを担当。その後、AIと検索エンジン領域のエンジニア組織を設立しDirectorに就任、MercariへのAIの導入をリード。22年7月より、社内のプラットフォーム開発を統括するVP of Platform Engineeringを担当。24年1月より現職。
【インサイトテクノロジーについて】
1995年の創業時から一貫してデータベース技術を追究し、企業自らが良質なインサイトを得るためのデータ活用基盤「インサイト・インフラ」関連の製品をプロフェッショナルサービスとともに提供し、企業におけるデータの価値の最大化、データ利活用の統制、データガバナンスソリューションの導入に貢献している。同社が主催するデータ技術者向けカンファレンス「db tech showcase」には、世界中からデータ技術のエキスパートが講師として登壇し、毎年1,000名規模のエンジニアが参加する。
インサイトテクノロジー
https://www.insight-tec.com/
■Insight Governorについて
「Insight Governor」は、企業に散在しているデータを安全に統合・可視化し、迅速な意思決定を支援するためのDXインフラ整備ソリューションです。
https://www.insight-tec.com/brand/insight-governor/
■Qlik Replicateについて
「Qlik Replicate」は、異種データベースだけでなく、メインフレーム、SAP、Salesforceなどのデータを分析基盤などへリアルタイムに連携するレプリケーションソフトウェアです。
https://www.insight-tec.com/products/qlik-replicate/