Yandex 發(fā)布全球最大事件數(shù)據(jù)集，助力推薦系統(tǒng)發(fā)展

原創(chuàng) 贊收藏評論

舉報 2025-05-30

掃描,分享朋友圈

● Yandex 推出了當前可用的全球最大的推薦系統(tǒng)數(shù)據(jù)集，推動全球范圍內(nèi)的研究與開發(fā)工作。

● 該開放數(shù)據(jù)集包含通過 Yandex 音樂流媒體服務歷時 10 個月收集的 47.9 億條匿名的用戶交互數(shù)據(jù)（收聽、喜歡、不喜歡）。

● 該數(shù)據(jù)集包含匿名的音頻嵌入向量、自然交互標記和精確時間戳，支持用于真實行為分析。

● 引入全局時間分割 (GTS) 評估方法保持事件序列，并配套基線算法作為參考。

● 該數(shù)據(jù)集在 Hugging Face 平臺提供三種規(guī)模：50 億、5 億和 5000 萬事件量級，滿足多樣化研發(fā)需求。

Yandex 發(fā)布了 Yambda（Yandex Music Billion-Interactions Dataset，即 Yandex Music 十億級交互數(shù)據(jù)集），這是全球最大的推薦系統(tǒng)開放數(shù)據(jù)集，包含近 50 億條來自其音樂流媒體平臺 Yandex Music 的用戶與音軌的匿名交互數(shù)據(jù)。

The largest open dataset for recommendations_with logo.png

Yambda, 全球最大的推薦系統(tǒng)開放數(shù)據(jù)集

Yambda 可作為通用基準來測試推薦系統(tǒng)的新方法和算法，適用于電子商務、社交網(wǎng)絡和短視頻平臺等所有使用推薦系統(tǒng)的領域。

研究人員可借助該數(shù)據(jù)集基于其基線模型開發(fā)和測試新的推薦算法，從而加速創(chuàng)新進程。數(shù)據(jù)資源有限的初創(chuàng)企業(yè)可以先利用 Yambda 數(shù)據(jù)集構建和測試系統(tǒng)，然后再擴展規(guī)模。這有助于在全球范圍內(nèi)加快特定于業(yè)務需求的先進技術開發(fā)進程。

彌合研究與產(chǎn)業(yè)的鴻溝

訓練數(shù)據(jù)的質(zhì)量與規(guī)模對于流媒體服務、社交網(wǎng)絡、短視頻應用和電商等平臺提供相關的推薦內(nèi)容而言至關重要。然而，推薦系統(tǒng)領域的研究已落后于大語言模型等迅速發(fā)展的領域，其主要原因便是缺乏大規(guī)模數(shù)據(jù)集。效果良好的推薦模型需要 TB 級的行為數(shù)據(jù)，商業(yè)平臺雖然擁有這些數(shù)據(jù)但卻極少公開分享。

Dataset statistics Tracks distribution.png

數(shù)據(jù)集統(tǒng)計的軌跡分布

研究人員通常只能獲得規(guī)模較小且過時的數(shù)據(jù)集，難以反映現(xiàn)代使用場景的復雜性：

● Spotify 的百萬歌單數(shù)據(jù)集對于商業(yè)級推薦系統(tǒng)而言規(guī)模過小。

● Netflix Prize 數(shù)據(jù)集包含約 17,000 個項目且時間戳僅包含日期，限制了時序建模和大規(guī)模研究。

● Criteo 1TB 點擊日志數(shù)據(jù)集缺乏合適的文檔和標識符，且只關注廣告點擊。

“推薦系統(tǒng)天生與敏感數(shù)據(jù)緊密相關。企業(yè)只有在進行充分的匿名化處理后才能公開發(fā)布推薦系統(tǒng)數(shù)據(jù)集，這一過程會耗費大量資源，減緩了開放創(chuàng)新的步伐。”Yandex 推薦系統(tǒng)負責人 Nikolai Savushkin 解釋道。

數(shù)據(jù)短缺導致了落差的出現(xiàn)：學術表現(xiàn)優(yōu)異的模型在現(xiàn)實應用中往往表現(xiàn)不佳。將推薦系統(tǒng)與先進架構加以整合的工作也因缺乏合適的訓練數(shù)據(jù)而受限。

Yambda 數(shù)據(jù)集簡介

Yambda 提供的海量匿名數(shù)據(jù)集來自其月活用戶約 2800 萬的音樂流媒體服務，解決了推薦系統(tǒng)面臨的挑戰(zhàn)。該數(shù)據(jù)集揭示了用戶與 Yandex Music 平臺內(nèi)容的交互方式，該平臺以其先進的 My Wave 推薦系統(tǒng)著稱，能夠根據(jù)每位用戶的品味定制收聽體驗。為保護隱私，所有用戶和音軌數(shù)據(jù)均已匿名化，采用數(shù)字標識符以符合隱私標準。

Dataset statistics User-content interaction history.png

數(shù)據(jù)集統(tǒng)計的用戶內(nèi)容交互歷史

數(shù)據(jù)集主要特性：

● 歷時 10 個月收集的 47.9 億條匿名的用戶交互數(shù)據(jù)。

● 來自 100 萬用戶的數(shù)據(jù)以及 939 萬條音軌的匿名描述符。

● 包含兩種反饋類型：隱式交互（收聽）和顯式交互（喜歡、不喜歡及其撤銷）。

● 提供音頻嵌入向量（通過卷積神經(jīng)網(wǎng)絡生成的向量表示）及音軌的匿名信息。

● 設有“is_organic”標記，區(qū)分用戶是自主發(fā)現(xiàn)音軌還是通過推薦發(fā)現(xiàn)，便于進行更深入的行為分析。

● 所有事件均帶有時間戳，從而支持對用戶行為的時序分析，使模型能夠在更接近真實使用場景的條件下接受評估。

數(shù)據(jù)集以 Apache Parquet 格式發(fā)布，兼容 Spark、Hadoop 等分布式處理系統(tǒng)和 Pandas、Polars 等分析庫。

“Yambda 讓研究人員能驗證創(chuàng)新性假設，讓企業(yè)能構建更智能的推薦系統(tǒng)。最終，用戶將會受益，能夠輕松找到符合需求的的歌曲、商品或服務。”Nikolai Savushkin 補充說道。

數(shù)據(jù)集版本與評估

Yambda 數(shù)據(jù)集提供三種規(guī)模：約 50 億、5 億和 5000 萬事件量級，滿足需求和算力資源條件不同的研究人員與開發(fā)者。

數(shù)據(jù)集的不同規(guī)模

數(shù)據(jù)集	用戶數(shù)	項目數(shù)	收聽數(shù)	喜歡數(shù)	不喜歡數(shù)
Yambda-50M	10,000	934,057	46,467,212	881,456	107,776
Yambda-500M	100,000	3,004,578	466,512,103	9,033,960	1,128,113
Yambda-5B	1,000,000	9,390,623	4,649,567,411	89,334,605	11,579,143

數(shù)據(jù)集采用全局時間分割 (GTS) 進行評估，該方法按時間戳劃分數(shù)據(jù)以保持事件序列。與留一法 (Leave-One-Out) 從每個用戶的歷史記錄中移除最后一次正向交互以用于測試的做法不同，GTS 避免破壞訓練集和測試集之間的時序依賴，模擬了未來數(shù)據(jù)不可用的現(xiàn)實條件，讓模型測試更為真實。

Evaluation scheme using the global temporal split method.png

采用全局時間分割 (GTS) 的評估方案

基線實現(xiàn)包括 MostPop、DecayPop、ItemKNN、iALS、BPR、SANSA 和 SASRec，為比較新推薦系統(tǒng)方法提供基準。這些基線通過標準指標進行評估，包括：

● NDCG@k（排序質(zhì)量）

● Recall@k（檢索效果）

● Coverage@k（目錄多樣性）

“當行業(yè)領袖共享寶貴的工具和數(shù)據(jù)時，所有人都會從中受益：研究人員獲得真實的基準，初創(chuàng)企業(yè)獲得原本只屬于科技巨頭的資源，全球用戶得以享受更優(yōu)質(zhì)的個性化體驗。”Nikolay Savushkin 補充說道。

Yambda，全球最大的推薦系統(tǒng)開放數(shù)據(jù)集，現(xiàn)已在 Hugging Face 發(fā)布。

Yandex 簡介

Yandex 是一家全球性的科技公司，專注于打造由機器學習驅(qū)動的智能產(chǎn)品與服務。公司宗旨為幫助消費者和企業(yè)更好地應對線上與線下世界的挑戰(zhàn)。自 1997 年以來，Yandex 持續(xù)提供世界級、本地化的搜索與信息服務，并為全球數(shù)百萬消費者開發(fā)了市場領先的按需出行服務、導航產(chǎn)品及其他移動應用。

My Wave 簡介

My Wave 是集成于用戶規(guī)模達數(shù)百萬的音樂流媒體服務 Yandex Music 中的個性化推薦系統(tǒng)，采用深度神經(jīng)模型和 AI 算法分析千余項因素，包括用戶交互、可定制的情緒/語言設置，以及對聲譜圖、頻率范圍、節(jié)奏、聲調(diào)和流派等的實時音樂分析。通過處理收聽歷史記錄和音軌序列來動態(tài)適應用戶偏好、識別音頻相似性并預測音樂品味，從而提供量身定制的推薦內(nèi)容。

本文系作者授權數(shù)英發(fā)表，內(nèi)容為作者獨立觀點，不代表數(shù)英立場。
未經(jīng)授權嚴禁轉(zhuǎn)載，授權事宜請聯(lián)系作者本人，侵權必究。