Vポイントマーケティング|TECH LABの Tech Blog

TECH LABのエンジニアが技術情報を発信しています

ブログタイトル

Cross-Domain Recommendationの調査論文を読んでみました。

こんにちは、データサイエンスグループの木下です。 今回は、RecSys2024でもセクションの一つとして取り上げられていた、 Cross-Domain Recommendation(CDR)について調査した Cross-Domain Recommendation: Challenges, Progress, and Prospectsという論文(リサーチペーパー)について紹介いたします。この論文は2021年に発表されました。

RecSys2024ではSpotifyなどの企業が実際のレコメンドアルゴリズムにCDRを取り入れているという話がありました。 一方、CDRに関しては日本語のまとめがほとんど存在しないのが現状です。 唯一、下記のまとめ記事は情報量も多く、実装例まで記載されている素晴らしい記事だと思いましたので、掲載させていただきます。

qiita.com

そのような背景があるので、今回紹介する論文を日本語で要約したいと思いました。

既存のCDRの分類

CDRについて

一般的なCF-basedなレコメンドシステム(RS)は、データスパース性(ユーザーが評価をつける項目が少ない)やコールドスタート問題(新規ユーザーやアイテムの情報不足)により、学習がオーバーフィッティングしてしまい、レコメンド精度がおちるという問題があった。 その問題を解決するために、データが豊富な「ソースドメイン」から情報を活用し、データが少ない「ターゲットドメイン」の推薦精度を向上させるRSがCDRである。(後述する、より大きい枠組みでCDRを分けた場合においては、シングルターゲットCDRとして定義づけている)

ドメインに関して

ドメインとは、例えば「書籍」や「映画」など、データの種類のことである。 しかし、その粒度は様々である。 また、これらはアイテムによる分類であるが、ユーザーによる分類は無視している。 そこで、下記の3種類に分類した。

  • コンテンツレベルの関連性
    共通のタグやメタデータを持つが、共通のユーザーはいない場合
    ex. Amazon MusicとNetflix

  • ユーザーレベルの関連性
    あるユーザーが「映画」と「書籍」の両方に興味を持っている場合

  • アイテムレベルの関連性
    共通のドメインを持つが、ユーザーは異なる場合
    ex. MovieLensとNetflixにおいて「映画」というドメインが共通

CDRの転移学習方法の種類

1.コンテンツベース転移

ドメイン間のコンテンツの類似性を利用して推薦を行う。 主にアイテムの詳細情報(例:タグ、レビュー、属性情報)を活用。 異なるドメイン間でコンテンツの対応関係を正確に定義するのが難しい。 また、ユーザーの行動データを考慮しないため、パーソナライズが難しい。

カテゴリ 代表的なアプローチ 技術的手法または基本的な考え方
ユーザー・アイテム属性 Berkovsky et al., 2007 複数のソース情報を活用する
Leung et al., 2007 ユーザー・アイテム間およびアイテム・アイテム間の関係を活用する
ソーシャルタグ Szomszor et al., 2008 共起サブグラフ(Co-occurrence Sub-Graph)を活用する
Abel et al., 2011 プロフィールのセマンティック強化
Kaminskas and Ricci, 2011 タグの類似性を利用する
Shi et al., 2011 タグの類似性を利用する
Fernández-Tobías and Cantador, 2014 評価とタグの類似性を活用する
Wang and Lv, 2020 トピックモデリングを適用する
セマンティック特性 Fernández-Tobías et al., 2011 重み付き有向非巡回グラフ(Weighted Directed Acyclic Graph)を活用する
Kumar et al., 2014 セマンティック類似性を利用する
Zhang et al., 2019 セマンティック相関を活用する
サムズアップ(いいね) Shapira et al., 2013 ユーザーの嗜好の類似性を利用する
テキスト情報 Tang et al., 2012 トピックモデリングを活用する
Tan et al., 2014 トピックモデリングと転移学習を組み合わせる
Sahebi and Walker, 2014 ユーザーの類似性を利用する
閲覧履歴・視聴履歴 Elkahky et al., 2015 マルチビュー学習(Multi-view Learning)を適用する
Kanagawa et al., 2019 教師なしドメイン適応(Unsupervised Domain Adaptation)を活用する

2.埋め込みベース転移

ユーザーやアイテムの埋め込み表現を学習し、それを異なるドメイン間で共有することで推薦を行う。 一般的にMF(Matrix Factorization)や深層学習を活用 する手法が多い。埋め込みの学習には大量のデータが必要で、計算コストが高い。

カテゴリ 代表的なアプローチ トレーニングデータ 技術的手法または基本的な考え方
マルチタスク学習 Singh and Gordon, 2008 評価・アイテム詳細 複数の関係性を活用する
Agarwal et al., 2011 複数のコンテキスト マルチタスク学習
Lu et al., 2018 評価 マルチタスク学習
転移学習 Li et al., 2009b 評価 転移学習
Pan et al., 2010 異種フィードバック 主成分座標変換
Zhao et al., 2013 評価 アクティブ転移学習
Li and Lin, 2014 評価 転移学習
Wang et al., 2016 メールデータ メーリングリストの類似性
Zhao et al., 2017 評価 アクティブ転移学習
Rafailidis and Crestani, 2017 評価 転移学習
Zhang et al., 2017 評価 一貫性のある情報
Zhang et al., 2018a 評価 ドメイン適応と拡散カーネル補完
Zhang et al., 2018b 評価 特徴量の組み合わせ
Hu et al., 2018 評価 ニューラルネットワーク
Shang et al., 2018 評価 転移学習
He et al., 2018b 評価 転移学習
Hu et al., 2019 評価・テキスト 転移学習とメモリネットワーク
Manotumruksa et al., 2019 評価 転移学習
Huang et al., 2019 評価 転移学習
Zhao et al., 2020 評価 転移学習
クラスタリング Ren et al., 2015 評価 クラスタリング
Rafailidis and Crestani, 2016 評価 ユーザークラスタリング
Farseev et al., 2017 評価 クラスタリング
Wang et al., 2019b 評価 クラスタリング
深層ニューラルネットワーク Jaradat, 2017 評価 テキスト入力の関係性
Man et al., 2017 評価 線形行列変換とMLP
Zhu et al., 2018 評価 特徴量の組み合わせと埋め込みマッピング
He et al., 2018a 評価 ベイズニューラルネットワーク
Fu et al., 2019 評価・コンテンツ スタック型デノイジングオートエンコーダ
Liu et al., 2020a 評価 美的嗜好の活用
関係学習 Sopchoke et al., 2018 評価 関係学習
半教師あり学習 Kang et al., 2019 評価 半教師あり学習
その他 Li et al., 2011 評価 トピックモデルと興味の変遷
Hu et al., 2013 明示的・暗黙的フィードバック 三項関係(ユーザー・アイテム・ドメイン)
Liu et al., 2018 評価 強化学習
Ma et al., 2019 アイテムシーケンス 時系列推薦
Gao et al., 2019 アイテム情報 データプライバシー

3.評価パターンベース転移

ユーザーの評価パターンを学習し、それを別のドメインに適用 するアプローチ。 ユーザーが異なるドメインで似たような評価行動を取ることを前提としている。異なるドメインで評価基準が異なると転移が難しい。

代表的なアプローチ トレーニングデータ 技術的手法または基本的な考え方
Li et al., 2009a 評価 転移学習とクラスターレベルの評価パターン
Gao et al., 2013 評価 転移学習とクラスターレベル+ドメイン固有の評価パターン
Loni et al., 2014 評価 インタラクションパターンの活用
Yuan et al., 2019 評価 深層学習と転移学習

新しいCDRの分類

既存のCDR手法を体系的に整理し、4つの主要なアプローチ に分類する。

  1. シングルターゲットCDR

  2. マルチドメインレコメンデーション

  3. デュアルターゲットCDR

  4. マルチターゲットCDR

    4つのCDRと課題のまとめ

1.シングルターゲットCDR

シングルターゲットCDRにおいては、上記で述べた「ドメインに関して」の章ですでに記載済みであるが、「ドメイン」という概念をコンテンツレベルの関連性ユーザーレベルの関連性アイテムレベルの関連性という3つの観点で定義できる。

課題
  • コンテンツベースの関連性を構築すること
    ターゲットドメインの推薦精度を向上させるためには、まずコンテンツレベルの関連性を構築する必要がある。例えば、共通のキーワードやタグを持つユーザー・アイテムを特定し、それらの間で特徴を転移・共有する。したがって、適切なコンテンツベースの関連性を構築する方法を確立することが重要な課題となる。

  • 正確なユーザー・アイテム埋め込み、または評価パターンを生成すること
    ユーザーレベルまたはアイテムレベルの関連性を活用するためには、まず共通のユーザー・アイテムの埋め込みや評価パターンを学習する必要がある。その後、それらの埋め込みやパターンを転移・共有することで、ターゲットドメインの推薦精度向上を図る。したがって、ユーザー・アイテムの埋め込みや評価パターンを正確に生成することが重要な課題となる。 埋め込みベース転移アプローチは、協調フィルタリング(CF)手法を用いて、ユーザー・アイテムの埋め込み(ベクトル表現)を学習し、それらを異なるドメイン間で共有することを目的とする。

  • 正確なマッピング関係を学習すること
    単純な方法に、ソースドメインの類似ユーザー・アイテムの特徴や埋め込みをそのままターゲットドメインに適用する方法があるが、知識の転移がうまくいかないことがある。より高度な方法として、まずドメイン間のマッピング関係を学習し、そのマッピングに基づいて知識(埋め込みや評価パターン)をターゲットドメインへ転移するという方法がある。したがって、正確なマッピング関係をどのように学習するかが重要な課題となる。

2.マルチドメインレコメンデーション

マルチドメインレコメンデーション(MDR)は、シングルターゲットCDRの発展形であり、複数のドメインの補助情報を活用して、異なるドメインのユーザーにアイテムを推薦することを目的とする。

課題

シングルターゲットCDRの1番目と2番目の課題と同じ。

3.デュアルターゲットCDR

デュアルターゲットCDRは比較的新しい推薦シナリオであり、近年注目を集めている。 デュアルターゲットCDRはドメインとターゲットドメインの区別がなく、両方のドメインの推薦精度を同時に向上させることが求められる点にある。

課題
  • 有効なデュアルターゲットCDRフレームワークの設計
    両方のドメインの推薦精度を向上させる必要があるため、適切な知識共有の方法を設計することが非常に重要になる。

  • ユーザー・アイテム埋め込みの最適化
    デュアルターゲットCDRでは、推薦精度を向上させるために、2つのドメイン間で共通のユーザーやアイテムの埋め込みを共有することが一般的であるので、埋め込み自体を最適がすることが重要である。

これらを解決するために、DDTCDR(Dual-Target Deep Transfer Cross-Domain Recommendation)という手法が提案された。これは、ユーザーとアイテムの埋め込み間に双方向の潜在関係があることを考慮し、潜在直交マッピングを適用することで、ユーザーの埋め込みを双方向に転移できるようにした手法である。

4.マルチターゲットCDR

デュアルターゲットCDRの発想をさらに発展させたものが、マルチターゲットCDR(Multi-Target CDR) であり、2つ以上のターゲットドメインの推薦精度を同時に向上させることを目指している。

マルチターゲットCDRの基本的な考え方は、より多くの補助情報を活用し、複数のターゲットドメインの推薦性能を同時に向上させることである。

課題
  • 負の転移の回避
    負の転移とは、知識を転移することでかえって推薦精度が低下してしまう現象のことである。他のCDRでもこの問題は存在するが、マルチターゲットCDRはより多くのドメインを使用するので、特に注意する必要がある。

この問題を解決する手法として、複数のドメインのグラフ構造を活用し情報を統合する方法や、ソースドメインの補助情報を利用し複数のターゲットドメインの推薦精度を向上させるMDCDR(Multi-Domain Cross-Domain Recommendation)が提案されている。

今後の研究課題

  • 異種データを活用したCDR
    現在のCDRの多くは、ドメイン間の情報が同質であることを前提としている。 しかし、実際は異なるドメイン間で利用できる情報が大きく異なることが多い。 例えば、Amazonは購買履歴であるのに対し、Facebookはソーシャルネットワーク情報である。 これらの異なるデータソースを統合し、適切に知識を転移する方法を確立することが、CDRの大きな課題である。 今後の研究では、異種データの橋渡しとなる手法の開発 が求められる。

  • 逐次推薦を考慮したCDR
    逐次推薦(Sequential Recommendation)では、ユーザーの行動履歴の時間的な依存関係 を考慮し、次にどのアイテムを推薦すべきかを予測する手法で、近年注目されている。 この時系列モデリングの問題に関してはCDRにも共通している。

  • プライバシー保護を考慮したCDR
    ほとんどのCDR手法は、異なるドメイン間でデータを直接共有できる ことを前提としている。 しかし実際には、個人情報保護の観点からデータをそのまま共有することができない。 そのため、privacy-preserving CDRが今後の研究対象になる。