*打卡—>什么是云數據庫&&沙箱實驗如何用python和數據庫來爬蟲？

原創贊收藏評論

舉報 2022-08-17

掃描,分享朋友圈

【摘要】本文簡單的介紹了什么是云數據庫以及云數據庫的實戰

簡介：

云數據庫是指被優化或部署到一個虛擬計算環境中的數據庫，可以實現按需付費、按需擴展、高可用性以及存儲整合等優勢。

企業伴隨著業務的增長，成倍增長的數據需要更多的存儲空間，此時，云數據庫有助于應對許多這些數據庫方面的挑戰。

讓用戶能夠在云中輕松設置、操作和擴展關系數據庫，并可以充分結合公有云中的計算、網絡與存儲服務，從而以一種安全、可擴展、可靠的方式，迅速選擇、配置和運行數據管理基礎設施，使用戶能專注于自身應用程序和業務。

RDS是關系型數據庫(Relational Database Service)，一種基于云計算的可即開即用、穩定可靠、彈性伸縮、便捷管理的在線關系型云數據庫服務。

雖然客戶可以在云服務器上自建MySQL，而其也會帶有部分云特性：數據高可靠性保障、彈性擴展、基礎運維等。但與在云服務器自建數據庫相比，RDS為單位提供更多的自動化服務，如：數據庫自動備份、IP白名單、詳細的實時監控、容災、讀寫分離等，還避免了云服務器帶來的異常，如云服務器CPU偶爾會被mysql進程拉到100%。華云數據RDS提供了容災、備份、恢復、監控、遷移等方面的全套解決方案，支持將本地數據庫遷移到RDS，平滑完成數據庫的遷移工作，徹底解決數據庫運維的煩惱。

云數據庫的特性有：實例創建快速、支持只讀實例、故障自動切換、數據備份、Binlog備份、訪問白名單、監控與消息通知。

由此可知道兩者的不同，拿華為云來比較說明:

1.在服務可用性方面和數據可靠性來說，華為云提供的云數據庫RDS是99.95%可用的；而在自建數據庫服務中，需自行保障, 自行搭建主從復制，自建RAID等。

2.華為云數據庫RDS可防DDoS攻擊，流量清洗，能及時有效地修復各種數據庫安全漏洞；而在自購服務器搭建的傳統數據庫，則需自行部署，價格高昂，同時也需自行修復數據庫安全漏洞。

3.華為云數據庫RDS可自動為數據庫進行備份，而自購服務器搭建的傳統數據庫需自行實現，同時需要尋找備份存放空間以及定期驗證備份是否可恢復。

4.華為云數據庫RDS無需運維，而傳統數據庫需招聘專職DBA來維護，花費大量人力成本。

5.華為云數據庫RDS即時開通，快速部署，彈性擴容，按需開通，而傳統數據庫需硬件采購、機房托管、部署機器等工作，周期較長。

6.華為云數據庫RDS按實際結算，100%利用率，而自購服務器搭建的傳統數據庫需考慮峰值，資源利用率很低。

通過上述比較可以看出，云數據庫RDS產品是高性能、高安全、高可靠、便宜易用的數據庫服務系統，并且可以有效地減輕用戶的運維壓力，為用戶帶來安全可靠的全新體驗。

趕上618還有新人特惠哦！

https://activity.huaweicloud.com/dbs_Promotion/index.html?fromacct=95c72a23-0dea-4f54-847a-6f765578ea3f&utm_source=V1g3MDY4NTY=&utm_medium=cps&utm_campaign=201905

實驗：

1：準備環境

1.1預置環境

點擊上方的預置環境按鈕約等待3分鐘后語置成功

環境預置會生成資源：名稱為“python-spider”的彈性云服務器ECS、創建配置相關的VPC、共享帶寬，彈性公網IP、安全組。

1.2.登錄華為云進入【實驗操作桌面】，打開Chrome瀏覽器，首次可自動登錄并進入華為云控制臺頁面

1.3.創建云數據庫RDS

在已登錄的華為云控制臺，展開左側菜單欄，點擊“服務列表”->“數據庫”->“云數據庫 RDS”進入云數據庫RDS控制臺。

點擊“購買數據庫實例”。

計費模式：按需計費；

② 區域：華北-北京四；

③ 實例名稱：自定義，如rds-spider；

④ 數據庫引擎：MySQL；

⑤ 數據庫版本：5.7；

⑥ 實例類型：單機；

⑦ 存儲類型：SSD云盤；

⑧ 可用區：可用區二；

⑨ 時區：UTC+08:00；如下圖所示：

性能規格：通用型，2核 | 4GB；

② 存儲空間：40GB；

③ 硬盤加密：不加密；

④ 虛擬私有云：選擇預置環境預置的虛擬私有云；

⑤ 內網安全組：選擇預置環境預置的內網安全組；

⑥ 數據庫端口：默認（3306）；

⑦ 設置密碼：現在設置；

⑧ 管理員密碼：自定義，如rIDM7g4nl5VxRUpI（請牢記設置的密碼）；

⑨ 參數模板：默認；

⑩ 購買數量：1；

? 只讀實例：暫不購買；

如下圖所示：

點擊“提交”完成購買->點擊“返回云數據庫RDS列表”可查看到正在創建的云數據庫RDS，約等待【4-6分鐘】數據庫狀態變為“正常”，說明數據庫創建完成，如下圖所示

1.4.創建數據庫及數據庫表點擊云數據庫RDS“rds-spider”進入詳情頁，在左側導航欄，單擊“連接管理”->“公網地址”->單擊“綁定”->“確定”。如下圖所示：

彈性公網IP綁定完成，點擊“登錄”，輸入用戶名：root，密碼：創建云數據庫RDS時設置的密碼，如下圖所示：

點擊“登錄”進入數據庫列表，然后點擊“+新建數據庫”，數據庫名稱為“vmall”，點擊“確定”，完成數據庫創建，如下圖所示

在新建的數據庫右側點擊“新建表”，如下圖所示：

進入數據庫“vmall”的表管理頁，點擊“+新建表”，表名：“product”，其他參數默認，點擊“下一步”如下圖所示：

添加3個字段分別如下：

①列名id，類型int，長度11，勾選主鍵，擴展信息如下圖（id自增長）；

②列名title，類型varchar，長度255，勾選可空；

③列名image，類型varchar，長度255，勾選可空。

設置完成點擊“立即創建”，彈出SQL預覽頁面，如下圖所示：

點擊“執行腳本”完成表創建。

2. 查看目的網頁并編寫爬蟲代碼

洞察目的網頁在【實驗操作桌面】瀏覽器新建tab頁，輸入華為商城地址并訪問：https://sale.vmall.com/huaweizone.html，在打開的頁面選擇一件商品打開商品詳情頁，如下圖所示：

按“F12”查看網頁元素，選擇“鼠標跟隨”按鈕查看元素，然后點擊網頁中某個元素，可以看到源碼界面顯示了此元素對應的源碼片段，從該源碼片段中找到元素class或是id屬性，如下圖所示：

2.2

切換到【實驗操作桌面】，打開“Xfce終端”，依次執行以下命令在桌面新建項目文件夾。

命令如下：

cd Desktop

scrapy startproject vmall_spider

cd vmall_spider

scrapy genspider -t crawl vmall "vmall.com"

執行成功如下圖所示：

啟動“Pycharm”，啟動成功點擊“File”->“Open”，選擇創建的項目“vmall_spider”如下圖所示：

點擊“OK”->“This Window”完成項目導入。

2.3

編寫爬蟲代碼在項目

“vmall_spider”-＞“spiders”下，雙擊打開“vmall.py”文件，刪除原有代碼，寫入以下代碼：

import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule from vmall_spider.items import VmallSpiderItem class VamllSpider(CrawlSpider): name = 'vamll' allowed_domains = ['vmall.com'] start_urls = ['https://sale.vmall.com/huaweizone.html'] rules = ( Rule(LinkExtractor(allow=r'.*/product/.*'), callback='parse_item', follow=True), ) def parse_item(self, response): title=response.xpath("//div[@class='product-meta product-global']/h1/text()").get() price=response.xpath("//div[@class='product-price-info']/span/text()").get() image=response.xpath("//a[@id='product-img']/img/@src").get() item=VmallSpiderItem( title=title, image=image, ) print("="*30) print(title) print(image) print("="*30) yield item

按“Ctrl+s”鍵保存，如下圖所示：

雙擊打開“itmes.py”文件，刪除原有代碼，寫入以下代碼：

# Define here the models for your scraped items

# See documentation in:

# https://docs.scrapy.org/en/latest/topics/items.html import scrapy class VmallSpiderItem(scrapy.Item): title=scrapy.Field() image=scrapy.Field()

按“Ctrl+s”鍵保存，如下圖所示：

本文系作者授權數英發表，內容為作者獨立觀點，不代表數英立場。
轉載請在文章開頭和結尾顯眼處標注：作者、出處和鏈接。不按規范轉載侵權必究。