我們在網上的一舉一動,其實都會化為大數據的一部分,成為網上服務可利用的資源。有本地初創看準了這個機會,建立問卷調查平台協助不同類別的客戶收集目標數據,另一邊則以眾包形式把部分收入回饋予參與問卷的貢獻者。unwire.pro 就找了 Datax 團隊接受訪問,分享他們對這個市場的看法。
協助人工智能系統學習「本地化」數據
Datax 聯合創辦人 Kevin Wong 和設計主管 Alpha Tam 表示,現時很多公司都花時間在人工智能培訓,而培訓則需要大量數據。Kevin 舉例指如果是一家香港研發智能家居的公司,就需要廣東話資訊,而他們的平台就可以幫助收集廣東話文字及錄音的轉譯,又或者是一些語意的辨識,讓有需要的公司可以訓練人工智能系統。
他們認為,很多公司例如一些正在發展自然語言處理的公司會聘請一些人,在實驗室內或特定環境中提供語音資料。不過雖然聘用少數員工讀一萬句指定語句是不難,但反過來要聘請一萬人每人只讀五句,還要切合場景例如在家中,這種模式的數據收集就不太容易。他們強調語音數據「本地化」的重要性,即使意思一樣,亦會因地方的口音、用語、應用場地而有所有同。若要真正了解及收集足夠數據以讓人工智能學習的話,需時絕對不短,平台能做到不受時地限制,讓貢獻者(參與問卷的用戶)完成,故能在較低成本下收集不同地區的數據。
▲他們認為現時有大量公司需要數據以助發展人工智能系統,故成立平台助收集數據。
貢獻者來源分散有助詮釋問卷標籤
Datax 平台內除了進行語音收集外,亦提供畫寫的範本,讓有需要的客戶簡易地製作不同類型的問卷。其中亦可設計一些標籤工作讓貢獻者完成。被問到這些標籤服務目前已經有一些承包商提供,為何仍有市場發展空間?Kevin 指,如果客戶是廣告公司,把廣告給他們的目標受眾觀(即貢獻者)看,看後需要受眾須標注一些覺得搶眼的範圍或者標注他們需要留意的內容。問卷結果收回後,廣告公司便能受回數據熱點圖,了解及分析設計哪一個部分最搶眼,那就可以從而設計一個更合適目標受眾的廣告。
而 Alpha 補充,標籤其實最後的層次要求也有幾種,他們看到其實標籤中有些動作是需要有詮釋,這些不單是講求準繩度,而是講究背後的受眾之間有多少分歧。這個也就是 Datax 平台所能達到的優勢,因為平台的貢獻者來自不同地區。
▲Datax 聯合創辦人 Kevin Wong (中)和設計主管 Alpha Tam(左)都是香港大學畢業生,團隊今年獲得港大的「大學科技初創企業資助計劃」資金支持。
▲問卷調查完結後,客戶可登入後台管理系統了解結果及分析。
眾包方式收集數據具優勢
雖然 Datax 的業務有點接近市場調查或者市場研究公司,但 Alpha 解釋指,他們並沒有打算取代這類公司。他認爲,市場調查其實都是一個工作流程,他們的平台提供機會大家收集一個更好的樣本,有別於傳統紙筆或問卷調查,方便客戶作更高層次的分析。
平台開始至今兩個月來,擁有七百多位貢獻者。每位會收到與自己條件相符的工作,而貢獻者可以根據每項工作所收得酬勞決定是否要參與。Kevin 指,他們會判斷每個收集的數據所需價錢,當中會收取一部分為平台費用,餘下的就會分給每一位有份參與的貢獻者。
▲貢獻者可根據喜好及回饋金額決定是否參與,完成後可得到指定金額轉到 PayPal 戶口或超市換領現金券。