一個典型的技術運用運營工作的案例
相信很多運營及編輯的同學在工作中都會遇到各種文本處理的問題,如這篇文章放哪里?這類內容在什么頻道?有過在大型網站工作過的同學肯定會深受其害,很多也是導致各種‘忙成狗’的原因之一,去年騰訊的機器編輯新聞可能大家都不陌生,大家回想以后是不是不需要編輯啦之類的問題,其實一些東西確實是可以通過技術解決的,今天就發現一個通過技術實現文本自動分類的例子
首先幾個名字
1自然語言處理
2機器學習
3詞向量
感興趣的同學可以去網上查查相關的名詞了解下,對經常與文字打交道的童鞋來說,了解這些技術東西還是非常有必要的。
進入主題
使用的工具
1 Python
2 textgrocery庫
不會技術的同學先不要慌,我相信很多同學大學都有學過 c語言,沒錯 只要您了解基本的編程知識,了解下Python這門語言就夠用啦!
還是來講講Python的安裝吧 這里不給大家詳細講了,直接上一個window系統下安裝Python的教程和安裝軟件一樣的簡單。
http://jingyan.baidu.com/article/7908e85c78c743af491ad261.html
現在的Python版本都集成的下載(pip install)功能
安裝好 Python后 ,打開電腦輸入 CMD 按enter打開cmd窗口
輸入 pip install tgrocery
到這里你需要的工具都準備完成了
給大家上一段 grocery官方文檔的地址
http://textgrocery.readthedocs.io/zh/latest/quick-start.html
重點說下原理
看懂了嗎?沒錯就這么簡單
可以預見這段代碼的執行后的結果
當然這只是對文章的標題進行分析,
結果肯定不準確,如果想對文章內容進行分析本進行歸類的話,其實也不是特別麻煩
現在主流的網站包括今日頭條、騰訊、等等都有自己的一套文本分析系統。既沒有想象中的那么復雜,當然也沒有想象中的那么簡單。無非就是兩個規程,
1分析文章的內容,
2對1分析出來的結果進行對比匹配,
包括什么欄目啊,相似文章,文章關鍵詞 等等都可以通過這兩步搞定。
有空可以再教大家怎么利用技術批量找到大量文章的關鍵詞!
評論
評論
推薦評論
暫無評論哦,快來評論一下吧!
全部評論(0條)