close
人工智能

AWS 推出 Textract 機器學習文本與數據抽取工具

文書處理之中經常會遇到需要從文件中抽取文字或數據的情況,如果可以自動化處理這個流程,確實可以省卻不少時間。AWS 最近就公佈一個名爲 Textract 的雲端工具,可以利用機器學習,在文件之中抽取所需的特定文字和數據。

Textract 整合 OCR 光學字元辨識系統,在將掃描的檔案(包括掃描文件、PDF 和照片)變成文本檔案之後,可以分析文件內的資料,理解表格和文字段落,抽取特定的數據例如名字和證件編號等等,對於需要處理大批文件進行數據輸入的情況,例如收據處理、申請表輸入等等,就可以大幅節省所需時間。

Textract 除了自動分析文件,所生成的數據集更可以直接變成數據庫,整合在 Amazon 其他服務中例如 Amazon Elasticsearch、Amazon DynamoDB、Amazon Athena,或者機器學習產品如 Amazon Comprehend、Amazon Comprehend Medical、Amazon Translate 和 Amazon SageMaker 等等,令整個流程更加流暢。目前這個功能只在特定 AWS 地區提供,包括美國俄亥俄、北維珍尼亞、俄勒岡,以及愛爾蘭,其他地區的開放則仍然有待公佈。

來源:Venture Beat

Tags : aiAmazonmachine learning
Antony Shum

The author Antony Shum