نحوه تبدیل تصاویر به متن در خط فرمان Linux با OCR – CloudSavvy IT


شاتر استوک / دومینیک برون

با کیفیت ترین نرم افزار شناسایی بهینه کاراکتر (OCR) ممکن است در گذشته گران باشد ، اما اکنون به طور رایگان از خط فرمان شما در ترمینال لینوکس به صورت رایگان در دسترس است! این مقاله به شما در راه اندازی و شروع کار با OCR کمک می کند.

OCR چیست؟

مخفف OCR یعنی بهینه سازی شخصیت: برنامه و سیستمی نرم افزاری که در آن رایانه می تواند متن تصاویر را بخواند. تصور کنید از گذرگاه مورد علاقه خود از ارباب حلقه ها عکس می گیرید.

شما می خواهید آن را در جای دیگر نقل کنید ، اما آنچه شما دارید یک عکس است. نرم افزار OCR می تواند با تجزیه و تحلیل این عکس / تصویر و یافتن تمام متن موجود در آن ، به شما کمک کند.

سپس نرم افزار OCR نقاط گرافیکی دیده شده در تصویر را برای هر حرف پیدا شده تجزیه و تحلیل کرده و آنها را به متن واقعی که کامپیوتر می تواند استفاده کند مانند پردازشگر کلمه ترجمه و تبدیل می کند.

اگرچه تعداد زیادی نرم افزار OCR موجود است ، برخی پولی و برخی دیگر رایگان ، همه از کیفیت یکسانی برخوردار نیستند. برخی از بسته ها نتایج با کیفیت پایین تری را ارائه می دهند ، برخی دیگر با متن دیده شده در عکس یا تصویر همسو می شوند.

به طور کلی ، کتابهای استاندارد (یا چاپ صفحات وب در اینترنت) بسیار خوب کار خواهند کرد و باید در همه موارد به نتایج با کیفیت مناسب منجر شوند ، زیرا فونت ها مستقیم و یکنواخت و از یک زاویه هستند ، به شرطی که عکس اصلی یا اسکن با کیفیت مناسب است.

همچنین بهتر است به خاطر داشته باشید که حتی بسته های نرم افزاری پیشرفته نیز می توانند با کیفیت پایین یا تصاویر تار روبرو شوند و اکثر بسته ها می توانند با سبک های نوشتاری مختلف و موارد دیگر سروکار داشته باشند. چالش های دیگر ممکن است شامل متن آمیخته با تصاویر یا عکس ها ، یا جهت دیگری (به عنوان مثال ، متن چپ به راست ، بالا به پایین یا زاویه دار) در همان صفحه باشد.

این امر باعث می شود که انتخاب و احتمالاً پرداخت یک بسته OCR یک پروسه طولانی باشد ، خصوصاً اگر می خواهید هر بسته را آزمایش و ارزیابی کنید.

برای کسانی که از لینوکس استفاده می کنند ، یک گزینه عالی وجود دارد. نرم افزار رایگان و با کیفیت OCR مبتنی بر LSTM Neural Net با پشتیبانی از unicode (UTF-8) و به طور پیش فرض می تواند بیش از 100 زبان را تشخیص دهد. همچنین از بسیاری از فرمت های خروجی مانند HTML ، PDF و متن ساده پشتیبانی می کند.

دیگر سر و صدا وجود ندارد به Tesseract OCR خوش آمدید!

در حال نصب Tesseract OCR

برای نصب Tesseract OCR از توزیع لینوکس مبتنی بر Debian / Apt (مانند اوبونتو و Mint) ، انجام دهید:

sudo apt install tesseract-ocr libtesseract-dev tesseract-ocr-eng

برای نصب Tesseract OCR از RHEL و Centos انجام دهید:

sudo yum install epel-release
sudo yum install tesseract-devel leptonica-devel

برای نصب Tesseract OCR در Fedora ، انجام دهید:

sudo yum install tesseract-devel leptonica-devel

برای نصب Tesseract OCR در OSX ، انجام دهید:

brew install tesseract

اجازه دهید OCR!

ما از یک تصویر ساده استفاده خواهیم کرد که شامل متن زیر است:

نمونه تصویر آماده برای OCR از طریق Tesseract

برای تبدیل این تصویر ، فقط کافی است فوری ترمینال را باز کنید ، دایرکتوری را تغییر دهید (با استفاده از cd your_directory_with_images فرمان) در دایرکتوری حاوی تصاویر شما (به عنوان مثال ، اگر در دایرکتوری موجود در دایرکتوری خانه خود عکس ایجاد کرده اید)~/images) شما فقط می توانید استفاده کنید cd ~/images) و پرونده های OCR:

tesseract -l eng input_for_ocr.png output_from_ocr
cat output_from_ocr.txt 

استفاده از OCR Tesseract از طریق خط فرمان Linux

بسیار ساده و واضح. و همانطور که می بینیم نتیجه عالی است.

ما انگلیسی را با استفاده از نشان می دهیم -l eng گزینه. شما می توانید کتابچه راهنمای tesseract را بررسی کنید (man tesseract) برای سایر کدهای زبان موجود

ما همچنین تصویر ورودی را مشخص کردیم (input_for_ocr.png) و همچنین فایل خروجی output_from_ocr بدون هیچ پسوند فایلی که از متن پیش فرض استفاده کند .txt قالب

ما همچنین می توانیم قالب خروجی PDF را با استفاده از یک دستور کمی طولانی تر که به سادگی قالب خروجی را در انتها مشخص می کند تغییر دهیم:

tesseract -l eng input_for_ocr.png output_from_ocr pdf

قالب خروجی PDF Tesseract

با افزودن pdf پسوند ، قالب خروجی مورد استفاده PDF بود. وقتی فایل PDF را باز می کنیم (output_from_ocr.pdf) ، می بینیم که متن می تواند انتخاب و کپی / جایگذاری شود ، همانطور که با کلمه انجام شد خواننده ها اینجا:

فایل PDF تولید شده توسط Tesseract شامل داده های متنی است

به عبارت دیگر ، فایل PDF حاوی داده های متنی و قابل انتخاب است ، نه اطلاعات گرافیکی (و بنابراین غیر واجد شرایط). عالی!

اگر بخواهم یک فایل PDF را تشخیص دهم چه می شود؟

بعضی اوقات ممکن است یک فایل PDF دریافت کنید که – اگرچه قالب PDF از متن واقعی موجود در صفحات پشتیبانی می کند – فقط شامل تصاویر دارای متن است. این ممکن است ناامیدکننده باشد زیرا کپی برداری و درج در دسترس نیست. همچنین می توانید این صفحات را با یک راه حل کوچک تشخیص دهید.

ابتدا می خواهید PDF خود را به تصاویر – یک تصویر در هر صفحه – تبدیل کرده و سپس صفحات منفرد را به متن تبدیل کنید. کمی بیشتر کار ، اما در هنگام وارد کردن مجدد دستی متن ، هنوز هم صرفه جویی در وقت بسیار خوبی است.

برای انجام مراحل آسان برای تبدیل PDF به تصاویر یا حتی اسکریپت و تبدیل خودکار چندین PDF به صورت خودکار ، می توانید مقاله ما از تبدیل دستور PDF به تصاویر را از خط فرمان Linux بخوانید!

خلاصه کردن

در این مقاله ، ما Tesseract ، با بالاترین کیفیت مکانیسم خط فرمان OCR رایگان برای لینوکس را بررسی کردیم. دیدیم که چگونه می توانیم با یک دستور ساده تصاویر را به راحتی به متن تبدیل کنیم.

ما همچنین به تبدیل تصاویر به PDF متن نگاه کردیم و به مقاله ای مراجعه کردیم که در آن می توانید اطلاعاتی در مورد چگونگی تبدیل PDF های تصویری از پیش ساخته شده به تصاویر پیدا کنید تا بعداً با استفاده از روش نشان داده شده در اینجا به متن تبدیل شوند. OCR

لذت بردن!


منبع: khabar-mehman.ir

دیدگاهتان را بنویسید

Comment
Name*
Mail*
Website*