近日,重慶研究院大數(shù)據(jù)挖掘及應(yīng)用中心團(tuán)隊在挖掘推薦系統(tǒng)的信息核方面取得進(jìn)展,該研究成果在保證推薦功能的前提下對推薦網(wǎng)絡(luò)進(jìn)行結(jié)構(gòu)壓縮,為推薦算法處理大規(guī)模數(shù)據(jù)集提供了新思路。
個性化推薦技術(shù),在理論層面和應(yīng)用層面都具有十分重要的意義。一方面,個性化推薦可以看作是稀疏矩陣的完備問題,另一方面,個性化推薦已經(jīng)成為在線網(wǎng)站的核心技術(shù),取得了巨大的經(jīng)濟(jì)和社會效益,切實改善了人們的工作和生活。
在線系統(tǒng)中,推薦系統(tǒng)要做的就是分析用戶的上網(wǎng)行為,主動為用戶推薦可能感興趣的對象,比如新聞、商品、好友、音樂等。到目前為止,大多數(shù)的工作主要研究如何提高推薦算法的性能,例如推薦系統(tǒng)的準(zhǔn)確性、多樣性和效率等,只有極少量的工作試圖研究推薦系統(tǒng)的工作原理,以及推薦算法有效的原因。
一般地,推薦系統(tǒng)可以簡化為一個用戶—商品的二部分圖。近年來,蓬勃發(fā)展的復(fù)雜網(wǎng)絡(luò)研究為推薦系統(tǒng)研究提供了新的理論和方法,基于網(wǎng)絡(luò)的推薦系統(tǒng)逐漸成為一個重要的分支,在理論和應(yīng)用中都取得了很好的成果。另一方面,復(fù)雜網(wǎng)絡(luò)的發(fā)展也為研究人員更深刻地理解推薦系統(tǒng)提供了有力的工具。其中,對給定數(shù)據(jù)集,如何在眾多推薦算法中找到合適的推薦算法是一個相當(dāng)重要而又非常困難的問題。針對上述問題,中科院重慶研究院大數(shù)據(jù)中心尚明生研究員及其研究團(tuán)隊提出并研究了推薦算法和數(shù)據(jù)集的特征關(guān)聯(lián)問題,提出一種使得通過事先分析數(shù)據(jù)集的特征就能找到適合該數(shù)據(jù)集的推薦算法[1]。
同時,該研究團(tuán)隊進(jìn)一步提出并研究了推薦系統(tǒng)的數(shù)據(jù)壓縮問題,通過提取用戶—商品二部分網(wǎng)絡(luò)的信息核[2]或者信息骨架[3],大幅提升推薦算法的計算效率。信息核定義為推薦系統(tǒng)中小部分核心用戶,這些用戶攜帶了大量的信息。研究表明,當(dāng)推薦算法只考慮信息核的信息時,算法有時候比用所有信息得到的推薦精確度還要高;最差的情況下,也能達(dá)到91.4%的精確性。但該算法只考慮了一些簡單的網(wǎng)絡(luò)結(jié)構(gòu),比如網(wǎng)絡(luò)中的四邊形。
為了彌補現(xiàn)有方法的不足,該研究團(tuán)隊提出基于用戶和商品鄰居節(jié)點的信息,提取用戶—商品二部分網(wǎng)絡(luò)的信息骨架[4]。測試結(jié)果表明,該方法要明顯好于現(xiàn)有的信息骨架提取方法。進(jìn)一步深入分析所提取的信息骨架的結(jié)構(gòu)特征,發(fā)現(xiàn)該方法提取的信息骨架具有較高的聚集系數(shù),這從一定程度上揭示了該算法優(yōu)于現(xiàn)有算法的原因。以上研究已獲得國家自然科學(xué)基金項目支持。