豆瓣、亞馬遜、大眾點評等平臺,評價機制都是怎么運轉的?
前段時間,豆瓣因為電視劇“超前點評”的現象再次受到公眾關注。豆瓣也非??焖俚剡M行了回應,在官方微博公布了某電視劇疑似控評的處置結果:共清理五星評分12366條,一星評分6610條。
豆瓣評分的科學性和公允性一直以來備受關注。2015年,阿北曾發長文《豆瓣電影評分八問》解釋了豆瓣評分原則,文中也特意提及,“豆瓣水軍是有的,但是很難刷動,因為正常打分的觀眾實在太多了?!?/p>
事實上,評價與評分系統是一套邏輯嚴密的運轉體系,首先做的是將“無法量化”的體驗感受通過量化方式來呈現,將用戶評價數據化和可視化,直觀給到其他用戶做決策參考。在這過程中,還涉及多種影響,比如開頭提到“水軍控評”等雜音,依賴反作弊機制的對抗與治理,由此構成了一個初步的評價評分運轉框架。
借此,運營社盤點了國內外幾個著名的評價評分系統,看看這些系統都是如何運轉,對用戶的價值又如何,又是如何保障公允性和科學性。
一、互聯網評分系統是如何運轉的?
為了深扒一下各平臺的評分系統,運營社選擇了來自國內外、不同領域的產品所攜帶的評分機制進行分析。它們分別是:影視評價領域的豆瓣和爛番茄、游戲領域的STEAM、電子商務平臺亞馬遜和所屬生活服務領域的大眾點評。
1、豆瓣
豆瓣電影做評分系統的主旨和原則是,“盡力還原大眾對一部電影的「平均看法」”。為了實現這個目標,豆瓣的評分系統主要有以下三個特點:首先,豆瓣的評分機制是五星制。五星制是目前市場上大部分評分系統都使用的機制,它保證了用戶在評分時,不會因為選項太多而無從下手,也不會因為選項太少而無法準確表達。
其次,豆瓣的評分計算方式是「算平均值」。豆瓣的創始人兼CEO@阿北曾對此做過詳細的解釋:如果一部電影42萬用戶打分,豆瓣的打分程序會自動將這 42萬個“一到五星”兌換成“零到十分”,將其加起來除以42萬,就得到了豆瓣評分。
值得注意的是,在這個評分過程中沒有人工審核,也沒有編輯干預。每過若干分鐘,程序會自動重跑一遍,把最新打分的人的意見包括進來。這樣一來,在豆瓣,每一個人都會影響整體評分。所以,豆瓣也被稱為「大眾評審團」。但是,由于用戶可以修改自己給過的評分,因此評分回升或者評分驟降等“異常行為”也時有發生。
最后,豆瓣還有一套抵擋水軍的「防御機制」。這套「防御機制」的具體動作主要體現在兩個方面:一方面,豆瓣會自動識別并剔除「非正常打分」,所謂「非正常打分」包括營銷刷分、明星粉絲刷分以及「豆瓣鐵桿用戶為“捍衛評分公正”進行的刷分」。以上這些刷分行為,一旦被豆瓣識別,其評分將會被剔除統計,其賬號也會被系統凍結。另一方面,豆瓣采用「算法+人工」的方式剔除與影片無關,甚至涉及人身攻擊的內容:”反刷分早已經是豆瓣電影日常工作的一部分,不少同事借助更多的程序一直默默在做。“
通過以上三點,豆瓣電影在算法優化中堅持評分中立原則,保障了整套系統獨立、健康運轉,也使得豆瓣目前仍然是中國互聯網書影音領域中具有公信力和參考價值的平臺,以客觀性影響著用戶的觀影選擇。
2、爛番茄
爛番茄(ROTTEN TOMATOES)是美國一個影視評分網站,其在美國的影響力,相當于國內的豆瓣。但是,其「評價機制」卻和國內的豆瓣大不相同。 首先,爛番茄衡量作品優劣,不是像豆瓣那樣打分,而是通過“番茄的新鮮指數”表現。用戶的評價選項只有兩個,要么是鮮紅的番茄(fresh),要么是腐爛的綠番茄(rotten)。平臺會根據用戶的好評率,決定“番茄的新鮮指數”,也就是作品是否優秀。
“爛(Rotten)”,意味著這部影片好評率低于60%;
“新鮮(Fresh)”,意味著這部影片有60-100%的好評;
“絕對新鮮(Certified fresh)”,意味著這部影片有80條以上的評分,且其中的70%及以上是好評,且5個或以上評論來自頂級影評人。
其次,爛番茄對影評人有嚴格的身份限制。
為了保證影片評價的專業性,爛番茄的打分權只控制在3000個左右專業影評人(被官方認證的影評人或機構)手中。普通用戶,則只能通過打分影響一部影片的“爆米花值”Audience Score(下圖爆米花旁邊的分數)。
雖然這套體系在盡量照顧評論人數和專業影評質量的協調性,但是過于極端的評價機制也引起了不小的爭論。很多專業影評人表示,單調的“新鮮”和“不新鮮”只能代表第一觀感,但是很難體現他們對影片更為細膩的評審。于是,爛番茄推出了0-10分制的打分機制(平均分)。這樣一來,用戶在查閱“番茄新鮮指數”的同時,也能參考平均分得到更為細膩的質量分析。不少用戶表示,“新鮮指數”決定了自己是否會觀看該部電影,但是“最終得分”決定了自己先看哪一部電影。比如《極盜車神》和《敦刻爾克》的爛番茄新鮮指數差不多,但是《極盜車神》打分只有8分,落后于《敦刻爾克》的8.7分。對用戶而言,孰優孰劣一目了然。
3、STEAM
STEAM是一家游戲平臺公司,其評分系統采取的是「兩級制度」,即用戶評分,只有「推薦」和「不推薦」兩個選項。
這種評分體系雖然簡單,但得出的結論并非絕對中肯,缺乏中立的評價。一款游戲,不可能十全十美。所以在這種評價機制下,運營社發現,“推薦評論”中,會有不少“認為游戲很多缺點,但值得一試”的評論。
而在“不推薦評論”中,也會有很多“游戲是好游戲,但是別玩”的主觀評論。
同時,STEAM會根據該游戲下用戶的推薦比例,得出一個「綜合評價」,共分為六種:好評如潮、特別好評、多半好評、褒貶不一、多半差評、差評如潮。
比方說,推薦比率在90%以上,且評論數達到一定數量就可以被算為「好評如潮」,以此類推。但實際上,在好評如潮的標簽下,很多游戲的質量并不統一,有一定程度上的質量參差。這些質量參差在其他平臺上,打分差異可能會很明顯,但在STEAM上,便被“一視同仁”了起來。所以,STEAM評分一般有失公允,很難作為游戲好壞的客觀評價,只能代表玩家對一款游戲的喜好。而STEAM不修改此機制,主要原因在于它是賣游戲的平臺,而不是評測媒體。STEAM只需要把游戲的最終評價告訴玩家,玩家能從推薦與不推薦的評價中了解到該游戲的優劣,從而決策自己的消費即可。用戶不需要感知游戲質量的精細區別,都是“好評如潮”或“特別好評”,反而能降低用戶的決策門檻,從而促進用戶消費。
4、亞馬遜
亞馬遜這類電商平臺,設計評分系統的目的和 STEAM 這類游戲公司有些類似,都是在購物平臺上顯示評分,幫助用戶做購物決策,從而促進消費。所以,一套評分系統是否能準確反映顧客對于商品的真實體驗尤為重要。
亞馬遜的評價管理體系中,有 Feedback 和 Review 兩類評分,兩者相互獨立但又互相影響。
Feedback,是客戶針對購買的訂單做出的評價,也就是評價主體必須客戶購買的產品,主要針對產品品質、服務水平、發貨時效和貨品描述等維度,影響的是賣家賬號層面以及店鋪ODR指標的變化,可以類比淘寶店鋪評分體系。
Review,主要是針對商品的評價和打分,可以翻譯成“留評”,亞馬遜平臺用戶都可以對商品做出評價。
本文討論的主要是 Review,即亞馬遜商品頁的評價評分體系,主要集中在這三個方面:
第一,按照「加權平均數」統計方式,計算星級評分。在用戶打分環節,亞馬遜也采用了 5 分制打分法,所以不少用戶以為商品最后的星級評分只是簡單地算了一下平均數。其實不然,根據亞馬遜官方給出的資料,亞馬遜會給不同用戶的星級評分賦予權重。
哪些用戶的評分權重更高,哪些用戶的評分權重更低呢?亞馬遜設計了三個維度來評判:首先,購買過該商品的用戶,會比沒有購買過該商品的用戶權重高;其次,評論時間更久的用戶,會比近期評論的權重高;最后,評論內容豐富詳實的,會比評論簡略的權重高。通過上述三個維度,亞馬遜給不同用戶的評分賦予了不一樣的權重,最終得出了加權平均數。
第二,打造多種評論(Review)形式。亞馬遜想通過打造多重評論的形式,建立高質量的評論區,幫助用戶做消費決策。在亞馬遜的商品詳情頁,用戶會看到三種不同的商品評論形式:第一種,沒有文字的星級打分,也就是常見的評分分布柱狀圖,方便用戶了解商品評分情況。第二種,是帶有星級打分和文字(及圖片)的買家商品評論,也就是“買家秀”。第三種,則是最為特殊的 Vine 評論,類似“新品 0 元試用評論”,只有參加了亞馬遜的“Vine計劃”的用戶,其評論后面才會出現「Vine」的標志。而每個商品最多只能有 30 個 Vine 評論。
第三,為了防止賣家刷分、造假,亞馬遜在設計完上述評分機制后,還有一套嚴格的“防作弊系統”。例如,評論有門檻,如果用戶想進行評論,必須在過去 12 個月內用有效的信用卡在亞馬遜上消費至少 50 美元。
亞馬遜官方也曾多次表態對評論違規行為實行“零容忍”政策,如果發現發現賣家有任何試圖操控買家評論的行為,亞馬遜會立即采取措施:立即永久撤銷賣家在亞馬遜上的銷售權限,包括扣留資金;移除商品的所有評論,并且阻止商品日后收到評論或評級;從亞馬遜永久下架商品;對賣家采取法律行動,包括訴訟和移交民事和刑事執法機構;公開披露賣家的名稱和其他相關信息。
可以看出,亞馬遜在評論質量內容考核方面下了功夫,這個也貼切亞馬遜網站的初衷,為消費者打造高質量站內評論區,引領消費者做出正確的消費抉擇。
5、大眾點評
大眾點評是全球最早的獨立第三方消費評價網站,現如今,也是中國消費者在本地生活領域重要的評價參考體系。
作為一個本地生活信息及交易平臺,大眾點評星級評分系統在特定類目已開始試點「10 條精選評價」計算星級。
10 條精選評價:特定類目上架,精選評價達到 10 條后,平臺才開始計算星級。
通過查詢,運營社發現大眾點評對精選評價也做了嚴格的審核準入:
a.通過審核,平臺會對每條評價進行審核,評價發布時間的次日 24 點前可審核完成,廣告、灌水、重復、違規、虛假等內容無法通過審核;并且不定期對精選評級進行回掃審核,不符合要求的會取消展示。
b.評價字數不少于 15 字,能夠有效傳遞消費體驗。
與其他平臺的五星制不同,大眾點評上,用戶除了需要對商家做一個總體星級評分,還可以從細分維度進行打分。以餐飲領域為例,大眾點評設計的是“口味”、“環境”和“服務”三個維度,以更好地還原線下餐飲服務的全貌。
在評分規則上,大眾點評商戶星級評分不是簡單的算術平均,而是綜合近期眾多用戶的“總體評價”,在沒有人工干預的情況下,完全根據數據模型自動評定而出。特別的是,星級反饋的不是絕對的評分,而是商戶在同類目下的相對水平。在反作弊機制上,大眾點評也建立了相應的應對機制,采用了「算法+人工」的雙重審核機制。大眾點評會根據不同的評價場景,定期迭代和優化算法,并結合人工審核監督,確保平臺上展示的評價能夠反映用戶真實體驗后的感受。例如,借助風控系統,識別和過濾評價內容。只有通過「過濾機制」的評價,才會在精選評價頁面展示。這一切,都是為了可以幫助用戶篩選、對比商戶,從多維度匹配到符合消費者要求的商戶。
二、五大系統機制對比分析
通過拆解五個平臺的評分系統,運營社發現,每個平臺的機制、算法、門檻等都有很大的差異:
接下來,運營社將從「真實性」和「有用性」兩個維度,對各平臺的評分機制進行進一步分析,判斷它們的優劣勢。
1、真實性
真實性指的是,評分能否“客觀反映”某個產品或服務的真實評價。與之對應的是,刷量作弊、樣本少、情緒化打分等情況導致的「偽真實評價」?;谶@個前提,「評分系統」的真實性主要受以下三個維度影響:
第一,算法:算法越簡單,評分越容易被外部因素(刷評分、情緒化打分)所影響,真實性則越差。比如,如果沒有反作弊機制的輔助,豆瓣的平均值算法很難處理外部因素帶來的影響。假如有大量刷評分的操作出現,評分就會受到較大影響,甚至出現C型評分(如下圖,分數分布兩極化),評分區受到“粉”和“黑”的強烈沖擊:
(圖源網絡;在如今反作弊機制下很少出現此類評分)
對比之下,盡管也是依托大眾的評價,算法維度多元的亞馬遜和大眾點評,則有多重機制可以預防和及時修正打分。
以大眾點評為例,其星級計算邏輯不是簡單計算打分,還會考慮到評價的誠信度(體驗后的真實評價才會納入計算)、時間(近期新提交的評價更重要)、質量(評價包含更多真實有用的信息更具有參考性)、數量(其他因素相同,評價數相對更多的商戶更有機會獲得高星)。
2021 年 2 月,大眾點評宣布對商戶星級計算規則進行優化。
為使商戶星級更如實、客觀地反映用戶的滿意度,精選評價達到 10 條后才計算星級,同時星級計算將更加注重用戶發布評價的真實性和對其它用戶的幫助。
比如說,大眾點評的星級也并不是簡單的用戶評價得分,而是反饋的商戶在同類目下的相對水平。再比如說,目前,大眾點評的星級每天會根據商戶 4 天前新增的評價更新計算,這個時間段預留的是平臺對評價的審核。
同樣的,亞馬遜在評論質量內容考核、評論權重上也下了功夫。所以總的來說,相比于算法單薄的豆瓣和爛番茄,大眾點評和亞馬遜的算法,可以保障評價體系呈現更加真實的情況。
第二,評分門檻:在評分門檻上,門檻越低,則評分越具備真實性。
一般來說,門檻的提高,反而過濾了普通用戶的發聲機會。這一點可以類比一些選秀綜藝,當只有所謂的“專家評委”時,最終評選的結果對于普通用戶來說,是很難有信服力的。就像爛番茄,普通用戶只能通過“爆米花”來發表自己的看法,但影響排名的重要因素“爛番茄新鮮指數”,被掌握在專業人士手中,而專業人士的口味在某種意義上講是“有偏差”的。所以,爛番茄相對比其他平臺,評分機制更具備專業性,但真實性反而有所降低。第三,反作弊機制與力度: 首先需明確的是,任何一個機制的發展都無法徹底消除作弊因素,這是一個共生共存長期對抗的過程。評分系統的反作弊機制越強、力度越大,供需兩側違規行為的處置越強,那評分系統的真實性越高。
目前平臺主要通過兩個維度來實現“反作弊”:一方面是從機制和算法上實現反作弊;另一方面是通過加大對違規用戶和商戶的處置,來凈化平臺氛圍。在機制和算法層面,爛番茄、STEAM、亞馬遜都是通過“設置門檻”來實現反作弊,豆瓣則是通過“剔除不正常打分”實現反作弊,而大眾點評通過風控系統+人工審核,提前識別和過濾評價內容,只有通過過濾機制的評價,才會在精選評價頁面展示。在違規行為處理層面,豆瓣和爛番茄比較難對“影片”進行處罰,而亞馬遜和大眾點評,則可以直接對好評的受益方——商戶進行處罰,不僅有平臺內部的處罰,還有聯動監管部門的打擊。根據運營社了解,亞馬遜對違規商家的打擊力度非常大。今年 9 月,亞馬遜方面表示,在過去的 5 個月,亞馬遜關閉了約 600 個中國品牌的銷售權限,其中涉及這些品牌的約 3000 個賣家賬號。據了解,賣家被封主要原因是刷單,違反了亞馬遜政策。
目前國內各個部門到互聯網企業,對于刷單炒信的態度也是非常堅決。上周,中央網信辦發文表示,將在全國范圍內開展為期2個月的“清朗·打擊流量造假、黑公關、網絡水軍”專項行動。
此前,大眾點評就在加大了對于刷單炒信的治理:對違規刷評價的商戶進行“星級隱藏”、“排序降權”、“商戶頁公示”等,違規用戶也會涉及“等級降級”、“撤銷 VIP”、“禁發評價、筆記、圖片、視頻等內容”等多項處理措施。
據公開數據顯示,2021 年 1-5 月,大眾點評處罰“刷好評”用戶賬號 5 萬個,處罰“刷單”“刷評”商戶 1 萬余家,協同執法機關打擊 29 個非法刷單網絡灰黑產團伙。對此,在真實性的維度下,5 大平臺的評分系統評價如下:
2、有用性
在本文開頭提到:評分系統存在的價值是將“隱性”的東西“顯性化”,也就是將用戶評價數據化,并可視化,給到其他用戶做參考。所以,評分系統對于用戶是否有用、能否幫助用戶解決問題,是評判系統是否優秀的重要因素。運營社將有用性的評判標準也分為三點: 第一點,時效性:在產品或服務本身會變化的情況下,評分的時效性越強,對用戶越有實質性的幫助。 比如,當用戶想尋找飯店,但搜索出來的是商家 2 - 3 年前的評分和評論,很可能并不能反映商家現在的水平,這就會給用戶帶來困擾。 相比之下,影片、游戲、商品相對來說是比較穩定的,這些產品僅需在上線初期,能夠比較快地更新評分,給用戶足夠的信息即可。 而像本地生活這樣場景,商家服務和產品的穩定性相對難保證,大眾點評及時更新評價就顯得尤為重要。 大眾點評的評分,每天會根據商戶 4 天前新增的評價更新計算,就更好地保證了評價的時效性。
第二點,榜單:榜單也是評分系統很重要的產品之一,可以快速幫助用戶找到所需要的產品或服務。例如,豆瓣的 TOP 250 榜單,可以幫助“電影荒”的用戶解決找不到電影看的難題。在榜單層面,可以說是維度越細,越能滿足用戶“發現”的需求。大眾點評的「榜單」在這一點上就做得很有用戶思維,不僅吃住玩多個榜單,光“吃”就有菜系劃分、區域劃分及不同類型榜單的劃分。比如日常想外出吃點特色的,可以看「必吃榜」;對品質有要求,可以看「黑珍珠」榜單;單純對口味有追求,可以看「口味榜」等等,全方位滿足用戶需求。
第三點,特殊機制:為了更進一步提升評價的有用性,部分平臺還會推出一些特殊機制。比如,亞馬遜的“是否有幫助機制”,讓用戶對評論進行投票表決“是否有幫助”。如下圖,顧客在閱讀完該評論后,就可以投票表決此評論是否有幫助。最終評論會顯示“覺得有幫助”的人數,從而增加該評論的可信度。
與之相似的是,STEAM也有相關功能,通過其他用戶判斷評論是否有價值:
大眾點評的「特殊機制」則有多個方面。比如說,大眾點評除了總體評分,還有“口味”、“環境”和“服務”三個維度的評分,用戶可以結合自己的偏好,做出最優選。
再比如說,在精選評價下,平臺會根據用戶評價提煉不同的標簽詞。如此一來,用戶可以選擇自己最關心的標簽進一步查看評論,快速了解關鍵信息。
綜上,在有用性層面,各大平臺的評分系統情況如下:
三、結語
了解完這些評分系統后,不難發現,做一個既真實又有用的評分系統,是相當困難的事情。
評分系統是一個復雜的工程,背后需要有大量的技術、風控、人力投入,但最核心也是最難得的是保持中立與獨立,這樣才能保障真實、有用的評分結果,最終用戶才能從中獲益,只種草適合的東西、只看好的電影。
這些冰山下的努力不會被看見,但卻扮演著非常重要的角色。當一個評分系統存在后,每一個評分人都成為了評價評分體系的建設者,因為每一次評分,其實都在默默改善著評分環境,讓世界看事物的尺度更加明晰。
真理越辯越明,評價評分體系亦是如此。
作者|魏宇卓
編輯|楊佩汶
設計|王浩南
轉載請在文章開頭和結尾顯眼處標注:作者、出處和鏈接。不按規范轉載侵權必究。
未經授權嚴禁轉載,授權事宜請聯系作者本人,侵權必究。
本文禁止轉載,侵權必究。
授權事宜請至數英微信公眾號(ID: digitaling) 后臺授權,侵權必究。
評論
評論
推薦評論
全部評論(4條)