Google Cloud Dataproc 正式推出 簡化管理大數據叢集運算快 10 倍

越來越多企業採用大數據 (Big Data) 分析洞察市場趨勢,提升業務表現。去年 Google Cloud 平台就試驗提出名為 Cloud Dataproc 的大數據管理服務,可用於管理 Spark 數據處理或在虛擬機器上構建 Hadoop Framework,讓使用者在雲端平台上更方便地管理、協調數據,日前 Google 就在官方 Blog 上宣布正式推出服務。

越來越多企業採用大數據 (Big Data) 分析洞察市場趨勢,提升業務表現。去年 Google Cloud 平台就試驗提出名為 Cloud Dataproc 的大數據管理服務,可用於管理 Spark 數據處理或在虛擬機器上構建 Hadoop Framework,讓使用者在雲端平台上更方便地管理、協調數據,日前 Google 就在官方 Blog 上宣布正式推出服務。

 

平衡成本、速度和管理三方需求 Cloud Dataproc 簡化大數據管理分析提速

Google 方面表示,當企業分析數據時,應該著重數據分析的結果,而非用作分析的軟件工具。而現時較為流行的數據分析工具例如 Hadoop 和 Spark,往往需要在成本、複雜性、規模和可用性上取得平衡,變相令企業放在數據上的專注力下降,而 Google 提供的 Cloud Dataproc 服務則可以讓兩者取得平衡,讓用戶以最簡單的方式管理 Hadoop 和 Spark 數據分析。

Cloud Dataproc 用戶可利用開發者控制台和 Google 雲端開發套件,按需求用不同的虛擬 CPU 來建立運算叢集。另外也可以和大數據分析平台 Dataflow 整合使用,處理實時數據和串流運算,而 BigQuery、Cloud Bigtable 和 Cloud Storage 等其他 Google 雲端服務也可整合使用。

Google 強調 Cloud Dataproc 可平衡成本、速度和管理三方面的需求,以運算速度為例子,傳統的叢集運算不論啟動還是停止最少花費 10 至 15 分鐘或以上的時間,但 Cloud Dataproc 平均只需 90 秒左右即可做到。對比 On-Premise 或 IaaS 服務進行叢集運算達 2 至 10 倍的提升,讓用戶可用較少時間處理更多的數據。

而成本方面,Cloud Dataproc 主張按用量收費,用戶可自訂虛擬機器的 CPU 及記憶體數量,每個叢集的每個虛擬 CPU 每小時收費 1 分美元,最低消費 10 分鐘。Google 亦只指,Cloud Dataproc 將一如服務測試期間不斷釋出新的功能,如改進效能,更新支援叢集版本等。

另外也會持續發展其相關的生態系統,加入更多第三方的工具和服務支援,目前 Google 已與 Arimo、Attunity、Looker、WANdisco 和 Zoomdata 合作開發 Cloud Dataproc,服務供應商如 Moser、Pythian 和 Tectonic 也會在用戶 部署和應用 Cloud Dataproc 時提供專家支援協助。

 

Source: Google Cloud Platform