AWS 推出 Textract 機器學習文本與數據抽取工具

文書處理之中經常會遇到需要從文件中抽取文字或數據的情況，如果可以自動化處理這個流程，確實可以省卻不少時間。AWS 最近就公佈一個名爲 Textract 的雲端工具，可以利用機器學習，在文件之中抽取所需的特定文字和數據。

Textract 整合 OCR 光學字元辨識系統，在將掃描的檔案（包括掃描文件、PDF 和照片）變成文本檔案之後，可以分析文件內的資料，理解表格和文字段落，抽取特定的數據例如名字和證件編號等等，對於需要處理大批文件進行數據輸入的情況，例如收據處理、申請表輸入等等，就可以大幅節省所需時間。

Textract 除了自動分析文件，所生成的數據集更可以直接變成數據庫，整合在 Amazon 其他服務中例如 Amazon Elasticsearch、Amazon DynamoDB、Amazon Athena，或者機器學習產品如 Amazon Comprehend、Amazon Comprehend Medical、Amazon Translate 和 Amazon SageMaker 等等，令整個流程更加流暢。目前這個功能只在特定 AWS 地區提供，包括美國俄亥俄、北維珍尼亞、俄勒岡，以及愛爾蘭，其他地區的開放則仍然有待公佈。

來源：Venture Beat