
こんにちは、データサイエンスグループの木下です。 今回は、RecSys2024でもセクションの一つとして取り上げられていた、 Cross-Domain Recommendation(CDR)について調査した Cross-Domain Recommendation: Challenges, Progress, and Prospectsという論文(リサーチペーパー)について紹介いたします。この論文は2021年に発表されました。
RecSys2024ではSpotifyなどの企業が実際のレコメンドアルゴリズムにCDRを取り入れているという話がありました。 一方、CDRに関しては日本語のまとめがほとんど存在しないのが現状です。 唯一、下記のまとめ記事は情報量も多く、実装例まで記載されている素晴らしい記事だと思いましたので、掲載させていただきます。
そのような背景があるので、今回紹介する論文を日本語で要約したいと思いました。
既存のCDRの分類
CDRについて
一般的なCF-basedなレコメンドシステム(RS)は、データスパース性(ユーザーが評価をつける項目が少ない)やコールドスタート問題(新規ユーザーやアイテムの情報不足)により、学習がオーバーフィッティングしてしまい、レコメンド精度がおちるという問題があった。 その問題を解決するために、データが豊富な「ソースドメイン」から情報を活用し、データが少ない「ターゲットドメイン」の推薦精度を向上させるRSがCDRである。(後述する、より大きい枠組みでCDRを分けた場合においては、シングルターゲットCDRとして定義づけている)
ドメインに関して
ドメインとは、例えば「書籍」や「映画」など、データの種類のことである。 しかし、その粒度は様々である。 また、これらはアイテムによる分類であるが、ユーザーによる分類は無視している。 そこで、下記の3種類に分類した。
コンテンツレベルの関連性
共通のタグやメタデータを持つが、共通のユーザーはいない場合
ex. Amazon MusicとNetflix
ユーザーレベルの関連性
あるユーザーが「映画」と「書籍」の両方に興味を持っている場合
アイテムレベルの関連性
共通のドメインを持つが、ユーザーは異なる場合
ex. MovieLensとNetflixにおいて「映画」というドメインが共通
CDRの転移学習方法の種類
1.コンテンツベース転移
ドメイン間のコンテンツの類似性を利用して推薦を行う。 主にアイテムの詳細情報(例:タグ、レビュー、属性情報)を活用。 異なるドメイン間でコンテンツの対応関係を正確に定義するのが難しい。 また、ユーザーの行動データを考慮しないため、パーソナライズが難しい。
| カテゴリ | 代表的なアプローチ | 技術的手法または基本的な考え方 |
|---|---|---|
| ユーザー・アイテム属性 | Berkovsky et al., 2007 | 複数のソース情報を活用する |
| Leung et al., 2007 | ユーザー・アイテム間およびアイテム・アイテム間の関係を活用する | |
| ソーシャルタグ | Szomszor et al., 2008 | 共起サブグラフ(Co-occurrence Sub-Graph)を活用する |
| Abel et al., 2011 | プロフィールのセマンティック強化 | |
| Kaminskas and Ricci, 2011 | タグの類似性を利用する | |
| Shi et al., 2011 | タグの類似性を利用する | |
| Fernández-Tobías and Cantador, 2014 | 評価とタグの類似性を活用する | |
| Wang and Lv, 2020 | トピックモデリングを適用する | |
| セマンティック特性 | Fernández-Tobías et al., 2011 | 重み付き有向非巡回グラフ(Weighted Directed Acyclic Graph)を活用する |
| Kumar et al., 2014 | セマンティック類似性を利用する | |
| Zhang et al., 2019 | セマンティック相関を活用する | |
| サムズアップ(いいね) | Shapira et al., 2013 | ユーザーの嗜好の類似性を利用する |
| テキスト情報 | Tang et al., 2012 | トピックモデリングを活用する |
| Tan et al., 2014 | トピックモデリングと転移学習を組み合わせる | |
| Sahebi and Walker, 2014 | ユーザーの類似性を利用する | |
| 閲覧履歴・視聴履歴 | Elkahky et al., 2015 | マルチビュー学習(Multi-view Learning)を適用する |
| Kanagawa et al., 2019 | 教師なしドメイン適応(Unsupervised Domain Adaptation)を活用する |
2.埋め込みベース転移
ユーザーやアイテムの埋め込み表現を学習し、それを異なるドメイン間で共有することで推薦を行う。 一般的にMF(Matrix Factorization)や深層学習を活用 する手法が多い。埋め込みの学習には大量のデータが必要で、計算コストが高い。
| カテゴリ | 代表的なアプローチ | トレーニングデータ | 技術的手法または基本的な考え方 |
|---|---|---|---|
| マルチタスク学習 | Singh and Gordon, 2008 | 評価・アイテム詳細 | 複数の関係性を活用する |
| Agarwal et al., 2011 | 複数のコンテキスト | マルチタスク学習 | |
| Lu et al., 2018 | 評価 | マルチタスク学習 | |
| 転移学習 | Li et al., 2009b | 評価 | 転移学習 |
| Pan et al., 2010 | 異種フィードバック | 主成分座標変換 | |
| Zhao et al., 2013 | 評価 | アクティブ転移学習 | |
| Li and Lin, 2014 | 評価 | 転移学習 | |
| Wang et al., 2016 | メールデータ | メーリングリストの類似性 | |
| Zhao et al., 2017 | 評価 | アクティブ転移学習 | |
| Rafailidis and Crestani, 2017 | 評価 | 転移学習 | |
| Zhang et al., 2017 | 評価 | 一貫性のある情報 | |
| Zhang et al., 2018a | 評価 | ドメイン適応と拡散カーネル補完 | |
| Zhang et al., 2018b | 評価 | 特徴量の組み合わせ | |
| Hu et al., 2018 | 評価 | ニューラルネットワーク | |
| Shang et al., 2018 | 評価 | 転移学習 | |
| He et al., 2018b | 評価 | 転移学習 | |
| Hu et al., 2019 | 評価・テキスト | 転移学習とメモリネットワーク | |
| Manotumruksa et al., 2019 | 評価 | 転移学習 | |
| Huang et al., 2019 | 評価 | 転移学習 | |
| Zhao et al., 2020 | 評価 | 転移学習 | |
| クラスタリング | Ren et al., 2015 | 評価 | クラスタリング |
| Rafailidis and Crestani, 2016 | 評価 | ユーザークラスタリング | |
| Farseev et al., 2017 | 評価 | クラスタリング | |
| Wang et al., 2019b | 評価 | クラスタリング | |
| 深層ニューラルネットワーク | Jaradat, 2017 | 評価 | テキスト入力の関係性 |
| Man et al., 2017 | 評価 | 線形行列変換とMLP | |
| Zhu et al., 2018 | 評価 | 特徴量の組み合わせと埋め込みマッピング | |
| He et al., 2018a | 評価 | ベイズニューラルネットワーク | |
| Fu et al., 2019 | 評価・コンテンツ | スタック型デノイジングオートエンコーダ | |
| Liu et al., 2020a | 評価 | 美的嗜好の活用 | |
| 関係学習 | Sopchoke et al., 2018 | 評価 | 関係学習 |
| 半教師あり学習 | Kang et al., 2019 | 評価 | 半教師あり学習 |
| その他 | Li et al., 2011 | 評価 | トピックモデルと興味の変遷 |
| Hu et al., 2013 | 明示的・暗黙的フィードバック | 三項関係(ユーザー・アイテム・ドメイン) | |
| Liu et al., 2018 | 評価 | 強化学習 | |
| Ma et al., 2019 | アイテムシーケンス | 時系列推薦 | |
| Gao et al., 2019 | アイテム情報 | データプライバシー |
3.評価パターンベース転移
ユーザーの評価パターンを学習し、それを別のドメインに適用 するアプローチ。 ユーザーが異なるドメインで似たような評価行動を取ることを前提としている。異なるドメインで評価基準が異なると転移が難しい。
| 代表的なアプローチ | トレーニングデータ | 技術的手法または基本的な考え方 |
|---|---|---|
| Li et al., 2009a | 評価 | 転移学習とクラスターレベルの評価パターン |
| Gao et al., 2013 | 評価 | 転移学習とクラスターレベル+ドメイン固有の評価パターン |
| Loni et al., 2014 | 評価 | インタラクションパターンの活用 |
| Yuan et al., 2019 | 評価 | 深層学習と転移学習 |
新しいCDRの分類
既存のCDR手法を体系的に整理し、4つの主要なアプローチ に分類する。
シングルターゲットCDR
マルチドメインレコメンデーション
デュアルターゲットCDR
マルチターゲットCDR

4つのCDRと課題のまとめ
1.シングルターゲットCDR
シングルターゲットCDRにおいては、上記で述べた「ドメインに関して」の章ですでに記載済みであるが、「ドメイン」という概念をコンテンツレベルの関連性、ユーザーレベルの関連性、アイテムレベルの関連性という3つの観点で定義できる。
課題
コンテンツベースの関連性を構築すること
ターゲットドメインの推薦精度を向上させるためには、まずコンテンツレベルの関連性を構築する必要がある。例えば、共通のキーワードやタグを持つユーザー・アイテムを特定し、それらの間で特徴を転移・共有する。したがって、適切なコンテンツベースの関連性を構築する方法を確立することが重要な課題となる。正確なユーザー・アイテム埋め込み、または評価パターンを生成すること
ユーザーレベルまたはアイテムレベルの関連性を活用するためには、まず共通のユーザー・アイテムの埋め込みや評価パターンを学習する必要がある。その後、それらの埋め込みやパターンを転移・共有することで、ターゲットドメインの推薦精度向上を図る。したがって、ユーザー・アイテムの埋め込みや評価パターンを正確に生成することが重要な課題となる。 埋め込みベース転移アプローチは、協調フィルタリング(CF)手法を用いて、ユーザー・アイテムの埋め込み(ベクトル表現)を学習し、それらを異なるドメイン間で共有することを目的とする。正確なマッピング関係を学習すること
単純な方法に、ソースドメインの類似ユーザー・アイテムの特徴や埋め込みをそのままターゲットドメインに適用する方法があるが、知識の転移がうまくいかないことがある。より高度な方法として、まずドメイン間のマッピング関係を学習し、そのマッピングに基づいて知識(埋め込みや評価パターン)をターゲットドメインへ転移するという方法がある。したがって、正確なマッピング関係をどのように学習するかが重要な課題となる。
2.マルチドメインレコメンデーション
マルチドメインレコメンデーション(MDR)は、シングルターゲットCDRの発展形であり、複数のドメインの補助情報を活用して、異なるドメインのユーザーにアイテムを推薦することを目的とする。

課題
シングルターゲットCDRの1番目と2番目の課題と同じ。
3.デュアルターゲットCDR
デュアルターゲットCDRは比較的新しい推薦シナリオであり、近年注目を集めている。
デュアルターゲットCDRはドメインとターゲットドメインの区別がなく、両方のドメインの推薦精度を同時に向上させることが求められる点にある。

課題
有効なデュアルターゲットCDRフレームワークの設計
両方のドメインの推薦精度を向上させる必要があるため、適切な知識共有の方法を設計することが非常に重要になる。ユーザー・アイテム埋め込みの最適化
デュアルターゲットCDRでは、推薦精度を向上させるために、2つのドメイン間で共通のユーザーやアイテムの埋め込みを共有することが一般的であるので、埋め込み自体を最適がすることが重要である。
これらを解決するために、DDTCDR(Dual-Target Deep Transfer Cross-Domain Recommendation)という手法が提案された。これは、ユーザーとアイテムの埋め込み間に双方向の潜在関係があることを考慮し、潜在直交マッピングを適用することで、ユーザーの埋め込みを双方向に転移できるようにした手法である。
4.マルチターゲットCDR
デュアルターゲットCDRの発想をさらに発展させたものが、マルチターゲットCDR(Multi-Target CDR) であり、2つ以上のターゲットドメインの推薦精度を同時に向上させることを目指している。

マルチターゲットCDRの基本的な考え方は、より多くの補助情報を活用し、複数のターゲットドメインの推薦性能を同時に向上させることである。
課題
- 負の転移の回避
負の転移とは、知識を転移することでかえって推薦精度が低下してしまう現象のことである。他のCDRでもこの問題は存在するが、マルチターゲットCDRはより多くのドメインを使用するので、特に注意する必要がある。
この問題を解決する手法として、複数のドメインのグラフ構造を活用し情報を統合する方法や、ソースドメインの補助情報を利用し複数のターゲットドメインの推薦精度を向上させるMDCDR(Multi-Domain Cross-Domain Recommendation)が提案されている。
今後の研究課題
異種データを活用したCDR
現在のCDRの多くは、ドメイン間の情報が同質であることを前提としている。 しかし、実際は異なるドメイン間で利用できる情報が大きく異なることが多い。 例えば、Amazonは購買履歴であるのに対し、Facebookはソーシャルネットワーク情報である。 これらの異なるデータソースを統合し、適切に知識を転移する方法を確立することが、CDRの大きな課題である。 今後の研究では、異種データの橋渡しとなる手法の開発 が求められる。逐次推薦を考慮したCDR
逐次推薦(Sequential Recommendation)では、ユーザーの行動履歴の時間的な依存関係 を考慮し、次にどのアイテムを推薦すべきかを予測する手法で、近年注目されている。 この時系列モデリングの問題に関してはCDRにも共通している。プライバシー保護を考慮したCDR
ほとんどのCDR手法は、異なるドメイン間でデータを直接共有できる ことを前提としている。 しかし実際には、個人情報保護の観点からデータをそのまま共有することができない。 そのため、privacy-preserving CDRが今後の研究対象になる。