*打卡—>什么是云數據庫&&沙箱實驗如何用python和數據庫來爬蟲?
【摘要】 本文簡單的介紹了什么是云數據庫以及云數據庫的實戰
簡介:
云數據庫是指被優化或部署到一個虛擬計算環境中的數據庫,可以實現按需付費、按需擴展、高可用性以及存儲整合等優勢。
企業伴隨著業務的增長,成倍增長的數據需要更多的存儲空間,此時,云數據庫有助于應對許多這些數據庫方面的挑戰。
讓用戶能夠在云中輕松設置、操作和擴展關系數據庫,并可以充分結合公有云中的計算、網絡與存儲服務,從而以一種安全、可擴展、可靠的方式,迅速選擇、配置和運行數據管理基礎設施,使用戶能專注于自身應用程序和業務。
RDS是關系型數據庫(Relational Database Service),一種基于云計算的可即開即用、穩定可靠、彈性伸縮、便捷管理的在線關系型云數據庫服 務。
雖然客戶可以在云服 務器上自建MySQL,而其也會帶有部分云特性:數據高可靠性保障、彈性擴展、基礎運維等。但與在云服 務器自建數據庫相比,RDS為單位提供更多的自動化服 務,如:數據庫自動備份、IP白名單、詳細的實時監控、容災、讀寫分離等,還避免了云服 務器帶來的異常,如云服 務器CPU偶爾會被mysql進程拉到100%。華云數據RDS提供了容災、備份、恢復、監控、遷移等方面的全套解決方案,支持將本地數據庫遷移到RDS,平滑完成數據庫的遷移工作,徹底解決數據庫運維的煩惱。
云數據庫的特性有:實例創建快速、支持只讀實例、故障自動切換、數據備份、Binlog備份、訪問白名單、監控與消息通知。
由此可知道兩者的不同,拿華為云來比較說明:
1.在服務可用性方面和數據可靠性來說,華為云提供的云數據庫RDS是99.95%可用的;而在自建數據庫服務中,需自行保障, 自行搭建主從復制,自建RAID等。
2.華為云數據庫RDS可防DDoS攻擊,流量清洗,能及時有效地修復各種數據庫安全漏洞;而在自購服務器搭建的傳統數據庫,則需自行部署,價格高昂,同時也需自行修復數據庫安全漏洞。
3.華為云數據庫RDS可自動為數據庫進行備份,而自購服務器搭建的傳統數據庫需自行實現,同時需要尋找備份存放空間以及定期驗證備份是否可恢復。
4.華為云數據庫RDS無需運維,而傳統數據庫需招聘專職DBA來維護,花費大量人力成本。
5.華為云數據庫RDS即時開通,快速部署,彈性擴容,按需開通,而傳統數據庫需硬件采購、機房托管、部署機器等工作,周期較長。
6.華為云數據庫RDS按實際結算,100%利用率,而自購服務器搭建的傳統數據庫需考慮峰值,資源利用率很低。
通過上述比較可以看出,云數據庫RDS產品是高性能、高安全、高可靠、便宜易用的數據庫服務系統,并且可以有效地減輕用戶的運維壓力,為用戶帶來安全可靠的全新體驗。
趕上618還有新人特惠哦!
https://activity.huaweicloud.com/dbs_Promotion/index.html?fromacct=95c72a23-0dea-4f54-847a-6f765578ea3f&utm_source=V1g3MDY4NTY=&utm_medium=cps&utm_campaign=201905
實驗:
1:準備環境
1.1預置環境
點擊上方的預置環境按鈕 約等待3分鐘后語置成功
環境預置會生成資源:名稱為“python-spider”的彈性云服務器ECS、創建配置相關的VPC、共享帶寬,彈性公網IP、安全組。
1.2.登錄華為云進入【實驗操作桌面】,打開Chrome瀏覽器,首次可自動登錄并進入華為云控制臺頁面
1.3.創建云數據庫RDS
在已登錄的華為云控制臺,展開左側菜單欄,點擊“服務列表”->“數據庫”->“云數據庫 RDS”進入云數據庫RDS控制臺。
點擊“購買數據庫實例”。
計費模式:按需計費;
② 區域:華北-北京四;
③ 實例名稱:自定義,如rds-spider;
④ 數據庫引擎:MySQL;
⑤ 數據庫版本:5.7;
⑥ 實例類型:單機;
⑦ 存儲類型:SSD云盤;
⑧ 可用區:可用區二;
⑨ 時區:UTC+08:00;如下圖所示:
性能規格:通用型,2核 | 4GB;
② 存儲空間:40GB;
③ 硬盤加密:不加密;
④ 虛擬私有云:選擇預置環境預置的虛擬私有云;
⑤ 內網安全組:選擇預置環境預置的內網安全組;
⑥ 數據庫端口:默認(3306);
⑦ 設置密碼:現在設置;
⑧ 管理員密碼:自定義,如rIDM7g4nl5VxRUpI(請牢記設置的密碼);
⑨ 參數模板:默認;
⑩ 購買數量:1;
? 只讀實例:暫不購買;
如下圖所示:
點擊“提交”完成購買->點擊“返回云數據庫RDS列表”可查看到正在創建的云數據庫RDS,約等待【4-6分鐘】數據庫狀態變為“正常”,說明數據庫創建完成,如下圖所示
1.4.創建數據庫及數據庫表點擊云數據庫RDS“rds-spider”進入詳情頁,在左側導航欄,單擊“連接管理”->“公網地址”->單擊“綁定”->“確定”。如下圖所示:
彈性公網IP綁定完成,點擊“登錄”,輸入用戶名:root,密碼:創建云數據庫RDS時設置的密碼,如下圖所示:
點擊“登錄”進入數據庫列表,然后點擊“+新建數據庫”,數據庫名稱為“vmall”,點擊“確定”,完成數據庫創建,如下圖所示
在新建的數據庫右側點擊“新建表”,如下圖所示:
進入數據庫“vmall”的表管理頁,點擊“+新建表”,表名:“product”,其他參數默認,點擊“下一步”如下圖所示:
添加3個字段分別如下:
①列名id,類型int,長度11,勾選主鍵,擴展信息如下圖(id自增長);
②列名title,類型varchar,長度255,勾選可空;
③列名image,類型varchar,長度255,勾選可空。
設置完成點擊“立即創建”,彈出SQL預覽頁面,如下圖所示:
點擊“執行腳本”完成表創建。
2. 查看目的網頁并編寫爬蟲代碼
洞察目的網頁在【實驗操作桌面】瀏覽器新建tab頁,輸入華為商城地址并訪問:https://sale.vmall.com/huaweizone.html,在打開的頁面選擇一件商品打開商品詳情頁,如下圖所示:
按“F12”查看網頁元素,選擇“鼠標跟隨”按鈕查看元素,然后點擊網頁中某個元素,可以看到源碼界面顯示了此元素對應的源碼片段,從該源碼片段中找到元素class或是id屬性,如下圖所示:
2.2
切換到【實驗操作桌面】,打開“Xfce終端”,依次執行以下命令在桌面新建項目文件夾。
命令如下:
cd Desktop
scrapy startproject vmall_spider
cd vmall_spider
scrapy genspider -t crawl vmall "vmall.com"
執行成功如下圖所示:
啟動“Pycharm”,啟動成功點擊“File”->“Open”,選擇創建的項目“vmall_spider”如下圖所示:
點擊“OK”->“This Window”完成項目導入。
2.3
編寫爬蟲代碼在項目
“vmall_spider”->“spiders”下,雙擊打開“vmall.py”文件,刪除原有代碼,寫入以下代碼:
import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule from vmall_spider.items import VmallSpiderItem class VamllSpider(CrawlSpider): name = 'vamll' allowed_domains = ['vmall.com'] start_urls = ['https://sale.vmall.com/huaweizone.html'] rules = ( Rule(LinkExtractor(allow=r'.*/product/.*'), callback='parse_item', follow=True), ) def parse_item(self, response): title=response.xpath("//div[@class='product-meta product-global']/h1/text()").get() price=response.xpath("//div[@class='product-price-info']/span/text()").get() image=response.xpath("//a[@id='product-img']/img/@src").get() item=VmallSpiderItem( title=title, image=image, ) print("="*30) print(title) print(image) print("="*30) yield item
按“Ctrl+s”鍵保存,如下圖所示:
雙擊打開“itmes.py”文件,刪除原有代碼,寫入以下代碼:
# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html import scrapy class VmallSpiderItem(scrapy.Item): title=scrapy.Field() image=scrapy.Field()
按“Ctrl+s”鍵保存,如下圖所示:
轉載請在文章開頭和結尾顯眼處標注:作者、出處和鏈接。不按規范轉載侵權必究。
未經授權嚴禁轉載,授權事宜請聯系作者本人,侵權必究。
本文禁止轉載,侵權必究。
授權事宜請至數英微信公眾號(ID: digitaling) 后臺授權,侵權必究。
評論
評論
推薦評論
暫無評論哦,快來評論一下吧!
全部評論(0條)