نحوه استفاده از AWS Textract OCR برای بارگیری متن و داده ها از اسناد – CloudSavvy IT


آرم AWS

بسیاری از شرکت ها از کارگران انسانی برای وارد کردن دستی داده ها در فرم ها ، برنامه ها و سایر اسناد فیزیکی استفاده می کنند. اگرچه این بسیار دقیق است ، اما کند و گران است. AWS Textract از یادگیری ماشین برای خودکار کردن این فرآیند استفاده می کند.

چرا باید از AWS Textract استفاده کرد؟

Textract قطعاً تنها ابزار برای شناسایی نوری کاراکتر نیست – بسیاری از راه حل های منبع باز رایگان ، مانند Tesseract OCR وجود دارد. برای کسب اطلاعات بیشتر می توانید راهنمای ما را مطالعه کنید.

با این حال ، Textract فراتر از OCR است ، زیرا برای تجزیه و تحلیل و استخراج داده ها از فرم ها ، جداول و سایر اسناد طراحی شده است. این نرم افزار قادر به استخراج جفت های مهم مقدار کلید ، جداول و سایر رشته های کلیدی است و در واقع به عنوان رابط بین اسناد اسکن شده و پایگاه داده قابل استفاده است (اگرچه مجبورید این اتوماسیون را خودتان تنظیم کنید).

جذابیت دیگر این است که Textract OCR را به عنوان یک سرویس ابری کاملاً مدیریت شده ارائه می دهد. برای اجرای OCR و پی بردن به خروجی نیازی به راه اندازی سرورهای برنامه خود ندارید. فقط Textract را پیکربندی کرده و برخی از اسناد را برای او ارسال کنید ، وی نتایج را نشان می دهد.

برای شرکت هایی که هنوز ورود داده ای دستی را انجام می دهند ، Textract می تواند شما را ذخیره کند زیاد پول ، هم در کاهش ساعت انسانی برای تایپ کردن روی صفحه کلید ، و هم در این واقعیت که می تواند دسته ای از موارد را همزمان پردازش کند ، سرعت ورود اطلاعات را خیلی سریع افزایش می دهد.

از لحاظ قیمت ، Textract برای متن ساده مانند اسکن صفحات کتاب ارزانترین است. فقط 1000 دلار 1.50 دلار هزینه دارد. تجزیه و تحلیل جداول در هر 1000 صفحه 15.00 دلار هزینه دارد. برای جفت کلید-ارزش ، 50.00 دلار برای هر 1000 صفحه هزینه دارد. اگرچه کاملاً رایگان نیست ، اما مطمئناً بهتر است به شخصی پرداخت کنید تا این کار را به صورت دستی انجام دهد.

Textract کاملاً دقیق است ، اما اگر نگران این هستید که دستگاه اشتباهی رخ دهد ، AWS نیز برای آن راه حلی دارد. برای استفاده از گردش کار پیشرفته هوش مصنوعی آمازون ، که به طور خودکار افراد کم اعتماد به نفس را برای بررسی هدف قرار می دهد ، می توانید Textract را تنظیم کنید.

با استفاده از Textract

به کنسول مدیریت Textract بروید و “شروع” را کلیک کنید. با استفاده دستی از کنسول ، می توانید اسناد را با استفاده از دکمه اینجا بارگذاری کنید:

Textract بلافاصله آن را پردازش می کند. به سرعت خواهید دید که چه چیزی Textract را بسیار مفید می کند. می دانست که کدام متن از این فرم W2 مهم است ، کدام یک از جفت های مقدار کلیدی است ، که بخشی از جداول است و می تواند کنار گذاشته شود.

در سمت راست خروجی را پیدا خواهید کرد که تمام رشته های خام را که پیدا کرده است ، جفت کلید-مقدار و همه جداول داده را نشان می دهد. توجه داشته باشید که این دو متغیر نیستند ، زیرا در این حالت جفتهایی با مقدار کلید پیدا می کند که قسمتهایی از جداول نیز هستند.

می توانید نتایج را بارگیری کنید و یک فایل CSV از همه جداول و جفت های مقدار-کلید و همچنین یک فایل متنی در خروجی متن خام پیدا خواهید کرد.

اگر می خواهید Textract را خودکار کنید ، باید از AWS CLI یا API استفاده کنید. Textract مجموعه ای از دستورات خاص خود را دارد که از خط فرمان با آنها کار می کند.

می توانید سند را در بایت های رمزگذاری شده در base64 سریال سازی کنید ، یا آن را در S3 بارگذاری کنید و به Textract یک کلید بدهید تا کجا پیدا شود. سپس می توانید استفاده کنید analyze-document برای شروع:

aws textract analyze-document --document '{"S3Object":{"Bucket":"bucket","Name":"document"}}' --feature-types '["TABLES","FORMS"]'

این یک عملیات همزمان است ، اما شما می توانید با شروع کار و پس از بازیابی دستی نتایج ، به صورت غیر همزمان تجزیه و تحلیل کنید.

aws textract get-document-analysis --job-id df7cf32ebbd2a5de113535fcf4d921926a701b09b4e7d089f3aebadb41e0712b --max-results 1000


منبع: khabar-mehman.ir

دیدگاهتان را بنویسید

Comment
Name*
Mail*
Website*