時至今日企業要處理的數據與日俱增。他們既要快速地處理數據又要傳遞更多具體可用的訊息,處理過程還要接近實時,這些都是不小的挑戰。
具備創新頭腦的企業總是對數據沉迷,渴望能理清它們,並從中獲取有用的訊息。當人類掌控數據的能力變強,探索和分析數據的慾望也會越來越濃。
大規模數據分析正邁入越來越多的新商業領域。不論是高管、銷售、市場營銷、客戶關係、財務、營運乃至物流,幾乎是現代企業的商業範疇都可以取得越來越多的數據,並從中轉化成競爭優勢,改善現有的業務流程,建立新的應用。數據分析也不再是數據學家的專利了。它成了現今一般的日常商業工具,而且無處不在。數據分析工具和軟件的開發工作也面臨著新挑戰。當技術普及,開發者的一大任務,就是將高度複雜的技術變得簡單直接,從而讓與日俱增的新用戶能容易上手。所以,衡量的指標不僅在於規模,「可用性」也很重要。
以搜索為核心
數據分析不管「大」不大都歸結於搜索的能力。人們總希望從數據中獲得新洞察及知識。十年前,當向一般用戶提起「搜索」二字時,沒幾個人能立刻體會其帶來的可能性。但是像 Elasticsearch 這樣的開源技術,一切新問題都能透過「搜索」二字找出;要跨越先前的心理障礙可說十分簡單。我們看過很多用戶利用我們的技術應用於各種場景而不僅僅是常規的搜索。用戶一直創新地利用我們的平台,從另一角度看也標誌著開源能帶來的好處。用戶甚至也不能想像到自己的創新力能達至另一水平。
按照定義,「大」數據大致是混合多樣的。名為“Elasticsearch”的搜索功能結合了數據分析、文本及結構搜索,是一種靈活的組合。而數據的形式並不重要,不論是典型的網頁/文檔還是 Foursquare 上的一個位置、銀行的交易、網站服務器的日誌或各式各樣的度量指標;數據的形式和數量也沒太大關係,無論是結構性還是非結構性的數據,人們想要探索就可以搜索。更進一步來說,即使數據本身的內容很複雜,只要搜索可行也會變得無關緊要。
搜索的未來
如果我們回頭看看過去幾十年來企業數據分析的發展,這些趨勢在很大程度上都取決於搜索技術的進步,從而實現新的、更強大的搜索用途。要有能力搜索數據的不同維度、不同方面的相關性、搜索非結構性數據、又或者僅是搜索更多的新數據,存儲和索引技術在其中肯定起了作用。然而這大多是為了制造出新的、更強大的搜索方式。如圖表分析和機器學習等最新的數據技術就是更成熟的搜索應用。
圖表分析允許用戶在無需基礎數據的情況下尋找新關聯。現今世界,搜索技術幾乎壓倒性地擁有一切可能性。這提供了一種更快速、更強大的方式探索數據,進而了解重要趨勢和關係。圖表亦提供了一套綜合分析,方便決定那些趨勢值得深入分析並持續監測。
即使是機器學習,核心也需要有搜索技術的支持。搜索技術一直以來都是用來查看隨時間發展的數據行為,並以此辨識重要事件的關鍵指標。常見例子有IT營運—透過分析歷史應用程序、服務器和網絡日誌上,預測可能會發生的系統故障。
過去公司會要求熟練的數據科學家建立統計模型,並為每個指標確定極限。這是一個複雜而艱鉅的任務。儘管如此,在使用模型來監控實時數據時,仍可能產生較高的誤報。
結果是行為分析僅限於大型關鍵任務、數據中心和金融交易等高回報的領域。但是機器學習,又或更具體地說,行為分析工具的能力正在快速增長,足夠以更高的準確度自動生成機器學習模型。三四年前要一整隊研究數據的科學團隊才能做到的事,現在各種現成的軟件工具就可以為各機構所用。這同時為不同業務的領域開闢了新的以搜索為主的應用方向。
在所有的業務當中,需要分析的數據量未來都不會減少。但大小只是一個維度。 「大」可以是一場變化──更大、更快更實時甚至具備預測性。而數據分析也在自我進化,懂得從數據中了解並學習。可見將來這些技術都會被整個企業越來越多的用戶所應用。
作者:王德成先生
Elastic 方案構架師