研究了林夕、黃偉文的43萬字歌詞,他們到底在唱些什么?
來源: 大數據文摘(ID:BigDataDigest)
作者:斑斑斑比
原標題《文本挖掘林夕、黃偉文的43萬字歌詞,他們到底在唱些什么?》
轉載請聯系原作者
在我十幾年的聽歌生涯里,熟悉的歌曲可以說有80%以上的作詞,都是出自香港兩大金牌詞人——林夕和黃偉文之手,粉絲界也出了不少文章從二人的韻腳使用、意識形態、選材議題尤其是愛情觀等角度做分析,甚至網絡上還有流傳“林夕引進門,皈依黃偉文”的說法。
作為他們的迷妹,并且最近恰好在看一些關于文本挖掘的文章,忍不住從文本挖掘的角度對他們的歌詞做了一個頗粗淺的分析。
首先我通過Python爬蟲在蝦米音樂上抓取了所有他們的歌詞文本,對比了蝦米、網易云和QQ三大音樂門戶,蝦米上收錄的比較全,但是抓取下來的數據也不能保證囊括了兩人出道來所有的作品,所以呢結果僅作參考。
對抓取結果進行去重和去空文本后,約43萬字,其中夕爺跟歪悶字數比例7:1左右,從文本歌曲數來看,夕爺跟歪悶大約一個8:1的比例,看來歪悶單曲平均字數更豐富(話嘮)?
夕爺年均產量63首,歪悶年均產量11首。
可以說夕爺絕對屬于天道酬勤自帶天賦的努力型選手,這應該也是夕爺在大陸知名度更高的主要原因,生產力帶動了市場覆蓋率,雖然歪悶沒有夕爺那么高產,不過在含金量方面應該是更勝一籌的多金型選手,畢竟分母更小。
接下來是對他們兩人所有的歌詞文本通過Python庫(主要是jieba、snownlp)作分詞、詞性處理和情緒分析。
我把每個文本里的"你、我、他"等單字和oh yeah之類的語氣詞去掉后,用剩下的詞語分別生成了兩人肖像字符云(排名不分先后)。
"沒有"是兩人詞云里最突出的詞
"沒有"是兩人詞云里最突出的詞,前段時間有篇文章分析了香港四十年來歌曲關鍵字的變化,說在90年代后,歌壇關鍵詞從以前的"相思、鴛鴦、我心"切換成了"沒有",詞云的結果就剛好對應上了這個結論,90年代后,夕爺和歪悶包攬了香港歌壇絕大部分傳唱度高的詞作,而這兩人使用頻度最高的詞就是"沒有"。
林夕肖像字符云
夕爺的重點關鍵詞:沒有、一個、為何、怎么、什么、我們……
相聚離開都有時候,沒有什么會永垂不朽——《紅豆》
如果對于明天沒有要求,牽牽手就像旅游——《十年》
沒理由,相戀可以沒有暗涌——《暗涌》
沒有得你的允許我都會愛下去——《鐘無艷》
一百年后沒有你也沒有我——《百年孤寂》
黃偉文肖像字符云
歪悶(黃偉文)的重點關鍵詞:沒有、一個、如何、什么、可以、為何……
問我有沒有,確實也沒有,一直躲避的借口,非什么大仇——《最佳損友》
其實沒有一種安穩快樂永遠也不差——《喜帖街》
沒有心別再拖,好心一早放開我——《好心分手》
我沒有溫柔,唯獨有這點英勇——《勇》
笑我這個毫無辦法管束的野孩子,連沒有幸福都不介意——《野孩子》
從詞性方面看兩人平常慣用的招式
下圖分別是夕爺和歪悶的詞性使用頻度:
林夕詞性使用頻率
黃偉文詞性使用頻率
從詞性來看兩人慣用的前9招幾乎是一模一樣的:動詞>名詞>副詞>形容詞>代詞>數詞>連詞>人名>時間詞。一直到地名、其他名動詞和方位詞等才開始有所差別。
為了看兩人具體用詞的差別,我對動詞,名詞等常用詞接著做細分。
1、動詞占比
林夕用詞——動詞占比
黃偉文用詞——動詞占比
兩人動詞排名靠前的也很接近:“沒有”、“得到”、“需要”、“知道”。在沒有之后,有“需要”,想“得到”,也有領會(“知道”),區別似乎是夕爺的在沒有之后是“不會”“戀愛”還念著“擁抱”(“靠擁抱亦難任你擁有”——《富士山下》),歪悶的是“繼續”“戀愛”但是“害怕”“沒法”子(“害怕一直也再沒法戀愛”——《耿耿于懷》)。
2、名詞占比
再看看名詞方面——
林夕用詞——名詞占比
黃偉文用詞——名詞占比
兩人一起提到最多的就是“世界”,還有“情人”、“眼淚”、“時間”,有情兩個人就是世界,沒有情世界就只剩一個人。
世界將我包圍,誓死都一起——《飛女正傳》
一個人失眠,全世界失眠——《全世界失眠》
這個世界最壞罪名,叫太易動情,但我喜歡這罪名——《無人之境》
被世界遺棄不可怕,喜歡你有時還可怕——《垃圾》
相對夕爺念叨“伴侶”(我愛的人不愛我),歪悶有一個比較對立的詞是“無人”(有誰來愛我)。
我信我有這一日,伴侶肯專注待我——《姊妹》
愛若能夠永不失去,何以你今天竟想找尋伴侶——《人來人往》
有人問我,我就會講,但是無人來——《浮夸》
要是可愛,為何無人愛我——《可人兒》
3、形容詞占比
接著是形容詞——
林夕用詞——形容詞占比
黃偉文用詞——形容詞占比
“快樂”、“幸福”、“寂寞”占比最高,只是夕爺的寂寞似乎更多。然后除了一些快樂寂寞類的抒情形容詞,歪悶還多出了一些像“頑強”、“有趣”、“無聊”不那么主流的詞,當然從夕爺年產63首的勤奮勁看對"無聊"的青睞也應該要少的多。《浮夸》如歪悶當然要“著最閃的衫”,要“有趣"不要“無聊”。
從時間詞方面看兩人更多地是偏愛什么時間狀態
林夕用詞——時間詞占比
夕爺是“過去”>“現在”>“未來”。
黃偉文用詞——時間詞占比
歪悶是“現在”>“過去”>“未來”。
兩人似乎都不怎么喜歡展望未來,區別是夕爺更緬懷過去:
還記得當天旅館的門牌,還留住笑著離開的神態——《約定》
十年之前,我不認識你,你不屬于我——《十年》
陪著我像最初相識我當時未怕累——《假如讓我說下去》
歪悶是活在當下:
霎眼已二十七歲,時日無多,方不敢偷懶——《陀飛輪》
想不到當初我們也討厭吃苦瓜,今天竟吃得出那睿智愈來愈記掛——《苦瓜》
今天雖然長高了,墻上繼續掛的還是我六歲的畫——《黃色大門》
關于最愛的季節
在春夏秋冬里,夕爺跟歪悶都是更愛春秋,自古詩人多傷春悲秋,不同的是夕爺的春秋只相差了10個百分點,而歪悶對春天屬于壓倒性寵愛,在四個季節里占了一半的比重。
林夕用詞——季節頻度
黃偉文用詞——季節頻度
對植物的使用上
林夕用詞——常用植物
夕爺喜歡“玫瑰”、“薔薇”、“櫻花”、“曇花”、“葡萄”、“滿天星”、“百合”、“薄荷”等多是觀賞性植物,重在營造意境。
黃偉文用詞——常用植物
歪悶除了“薔薇”、 “百合”以外更多喜歡用“葡萄”、 “苦瓜”、 “洋蔥”、 “蘋果”這些食用類的來描述人生個中滋味。
地名詞,哪些地方是兩人各自的根據地
林夕用詞——地名占比
夕爺的是:“天國”、“深海”、“城市”、“香港”、“愛河”、“東京”。
黃偉文用詞——地名占比
歪悶的是:“天國”、“滿街”、“都市”、“花都”、“東京”、“冰島”。
兩人最大的共同點——“天國”,然后是城市和東京,不過夕爺看來更喜歡水相關的像“深海”、“愛河”,歪悶相對來說還是更喜歡在“滿街”,“花都”的陸地。
他們所暢游的世界板塊
林夕用詞——世界板塊
黃偉文用詞——世界板塊
從世界板塊來說,兩人都最喜歡亞洲,不過夕爺的亞洲比例是要遠遠超出其他洲的,更多的是喜歡說香港,北京,日本(突然想起了夕爺的神作《北京歡迎你》);夕爺關于日本也有不少熱門曲目,像《富士山下》、《再見二丁目》、《如果東京不快樂》、《黑擇明》等等。
歪悶則是從亞洲沖出歐洲,從香港東京,到冰島巴黎蒙馬特,這可能是他偏愛時尚,喜歡時裝展的關系。
當我看到南美洲這個地名的時候,突然想起了一首經典,就是歪悶作詞,張國榮作曲和旁白,黃耀明演唱的《這么遠那么近》,下面是一大段張國榮性感的獨白:
我由布魯塞爾坐火車去阿姆斯特丹, 望住窗外,飛越過幾十個小鎮,幾千里土地,幾千萬個人。我懷疑,我們人生里面,唯一可以相遇的機會,已經錯過了。
而歪悶的世界板塊也真的像這首歌寫的:
我由亞洲一直飄到,南美洲。
兩人的情感曲線分析
我把情感分數高于0.6的歌詞文本定義為整體用詞是比較正面的,反之則是比較負面,先來看看夕爺的:
林夕用詞——情感分析
可以看到夕爺的大部分是過了正面及格線的,并且很多剛好是踩線及格。
黃偉文用詞——情感分析
歪悶的呢則是參差不齊,大起大落,有高有低,可以說正負兩面一半一半吧。
平日里聽歌的時候,總覺得夕爺的歌詞里滿是慘兮兮惹人憐的情緒,而歪悶的相對是直面瘡疤手起刀落的感覺,為什么文本情緒分析出來夕爺的歌詞的正面意義高達70%,而歪悶的則是正負意義不相上下呢?
我仔細想了一下,夕爺是引佛入詞,雖然世事無常但是要從中解脫要包容要寬宏,雖然我愛的人不愛我但是"我們是朋友還可以問候","你掌心的痣我總記得在哪里","離開你六十年但愿能認得出你的子女"。所以正面的歌詞文本是要遠遠超過負面,別忘了,夕爺還有《快樂崇拜》、《wuha》、《北京歡迎你》之類積極向上的歌曲(扶額)。而歪悶呢,更注重坦白內心的瘡疤,雖然血跡斑斑但是要迎刃而解,我愛的人不愛我所以我"渡日月穿山水仍在恨那誰","你沒有好結果,來讓你一生最喜歡和珍惜那人也摧毀你一生完全沒半點惻隱"但是"我為我生存""明日我必須振作","活得比你好",因此可以說表達的正負面意義是一半一半。
好了,先收工。下回再看看更深入的挖掘。
- END -
公眾號:大數據文摘
ID:bigdatadigest
轉載請在文章開頭和結尾顯眼處標注:作者、出處和鏈接。不按規范轉載侵權必究。
未經授權嚴禁轉載,授權事宜請聯系作者本人,侵權必究。
本文禁止轉載,侵權必究。
授權事宜請至數英微信公眾號(ID: digitaling) 后臺授權,侵權必究。
評論
評論
推薦評論
全部評論(6條)