OCR কীভাবে কাজ করে
PDF OCR অপটিক্যাল ক্যারেক্টার রিকগনিশন ব্যবহার করে স্ক্যান করা বা ছবিভিত্তিক PDF পেজের ভেতরের লেখা শনাক্ত করে। এটি মূল পেজের ওপর লুকানো টেক্সট লেয়ার বসিয়ে সার্চযোগ্য PDF তৈরি করতে পারে, আবার শনাক্ত হওয়া লেখা কপি বা এডিট করার জন্য সাধারণ টেক্সট হিসেবেও এক্সপোর্ট করতে পারে।
সহজভাবে বললে, OCR ছবির ভেতর থেকে লেখা পড়ে। আপনার PDF যদি স্ক্যান বা ছবি থেকে তৈরি হয়, তাহলে লেখাটি চোখে দেখা গেলেও সেটি সত্যিকারের নির্বাচনযোগ্য বা সার্চযোগ্য টেক্সট নাও হতে পারে। OCR প্রতিটি পেজ বিশ্লেষণ করে, অক্ষর ও শব্দ দৃশ্যমানভাবে চিনে, এবং সেগুলোকে আপনার ডিভাইস বোঝে এমন বাস্তব টেক্সটে বদলে দেয়।
এটি সাধারণ PDF থেকে টেক্সট টুলের মতো নয়। কোনো PDF-এ আগে থেকেই নির্বাচনযোগ্য টেক্সট থাকলে সেই টুল দ্রুত তা বের করে দেয়। OCR দরকার হয় তখনই, যখন PDF-এ বাস্তব টেক্সট লেয়ার নেই এবং সবকিছু শুধু ছবি — যেমন স্ক্যান, ছবি, বা প্রিন্ট করা ডকুমেন্ট PDF হিসেবে সেভ করা।
কখন এই টুল ব্যবহার করবেন
পেজে লেখা দেখা যাচ্ছে, কিন্তু PDF-এ সেটি সার্চ, হাইলাইট বা কপি করা যাচ্ছে না — এমন অবস্থায় OCR কাজে লাগে।
- স্ক্যান করা কাগজের ডকুমেন্টকে সার্চযোগ্য PDF বানান।
- ফোনে স্ক্যান করে PDF হিসেবে সেভ করা ফাইল থেকে লেখা শনাক্ত করুন।
- সাধারণভাবে কপি করা যায় না এমন শুধু-ছবি PDF থেকে টেক্সট উদ্ধার করুন।
- পুরনো রিপোর্ট, চিঠি, ইনভয়েস বা আর্কাইভ করা ডকুমেন্ট থেকে পড়ার মতো টেক্সট বের করুন।
এমন PDF থেকে টেক্সট বের করতে চান যেখানে আগে থেকেই নির্বাচনযোগ্য লেখা আছে? ব্যবহার করুন PDF থেকে সাধারণ টেক্সট বের করার টুল। OCR টেক্সট নয়, পেজের ছবি দরকার? চেষ্টা করুন PDF পেজকে ছবিতে রূপান্তর করার টুল। আগে শুধু নির্দিষ্ট কিছু পেজ আলাদা করতে চান? ব্যবহার করুন নির্বাচিত PDF পেজ নতুন PDF-এ এক্সট্র্যাক্ট করার টুল।
ধাপে ধাপে: PDF-এ OCR চালান
আপনার PDF সার্চযোগ্য করতে কয়েকটি ধাপই যথেষ্ট:
- PDF যোগ করুন। উপরের বক্সে ফাইল ড্র্যাগ করে ছাড়ুন, অথবা আপনার ডিভাইস থেকে ফাইল বেছে নিন।
- OCR ভাষা বেছে নিন। স্বয়ংক্রিয় শনাক্তকরণ ব্যবহার করুন, অথবা ডকুমেন্টের মূল ভাষা নিজে নির্বাচন করুন।
- পেজ নির্বাচন করুন। সব পেজে OCR চালান, অথবা নির্দিষ্ট পেজে ক্লিক করে নিজে বেছে নিন।
- আউটপুট বেছে নিন। সার্চযোগ্য PDF ডিফল্টভাবে নির্বাচিত থাকে; দরকার হলে টেক্সট ফাইলও এক্সপোর্ট করতে পারেন।
- টেক্সট প্রিভিউ দেখাবেন কি না বেছে নিন। পেজগুলোর নিচে শনাক্ত হওয়া টেক্সট দেখতে চাইলে শুধু তখনই প্রিভিউ চালু করুন।
- OCR চালান। টুলটি আপনার ব্রাউজারেই পেজগুলো প্রক্রিয়া করে এবং ফলাফল লোকালি তৈরি করে।
আউটপুটে কী থাকে
- সার্চযোগ্য PDF: পেজের চেহারা একই থাকে, আর উপযুক্ত PDF ভিউয়ারে সার্চ, হাইলাইট ও কপি সাপোর্টের জন্য পেছনে শনাক্ত হওয়া লুকানো টেক্সট লেয়ার যোগ হয়।
- টেক্সট ফাইল: শনাক্ত হওয়া লেখার সাধারণ .txt এক্সপোর্ট, যা পরে ব্যবহার, পরিষ্কার বা অন্য কোথাও পেস্ট করা যায়।
- ঐচ্ছিক প্রিভিউ: OCR-এর মান যাচাই করতে চাইলে সেভ করার আগে শনাক্ত হওয়া টেক্সটের প্রিভিউ দেখাতে পারেন।
OCR সাধারণত মূল ডকুমেন্টের লেআউট নিখুঁতভাবে এডিটযোগ্য টেক্সট হিসেবে পুনরায় তৈরি করে না। এটি লেখা শনাক্ত করা, সার্চ করা, কপি করা এবং মৌলিক টেক্সট উদ্ধার করার জন্য সবচেয়ে ভালো।
গোপনীয়তা, সীমাবদ্ধতা এবং আপনার ফাইলের নিয়ন্ত্রণ
FileYoga একটি সহজ নীতিতে তৈরি: আপনার ফাইল আপনার কাছেই থাকবে। OCR আপনার ব্রাউজারেই চলে, তাই আপনার PDF কখনো FileYoga সার্ভারে আপলোড হয় না।
সব কাজ আপনার ডিভাইসেই
OCR আপনার ডিভাইসের ব্রাউজারেই হয়। আপনার PDF আপলোড হয় না, আর আউটপুট ফাইলগুলো আপনার দিকেই তৈরি হয়।
কোনো লুকানো কপি থাকে না
ফাইল সরালে বা ট্যাব বন্ধ করলে টুলটি আপনার PDF ব্যবহার করা বন্ধ করে। সার্ভারে কোনো কপি সেভ করা হয় না।
কৃত্রিম সীমা নেই
কোনো পেওয়াল বা কোটা নেই। বাস্তব সীমা নির্ভর করে আপনার ডিভাইসের গতি, ব্রাউজার মেমোরি, পেজ সংখ্যা এবং স্ক্যানের মানের ওপর।
অ্যাকাউন্ট দরকার নেই
সাইন আপ ছাড়াই টুল ব্যবহার করুন। পেজ খুলুন, OCR চালান, ফলাফল সেভ করুন — কাজ শেষ।
সেরা ফলাফলের জন্য টিপস
- ডকুমেন্টের মূল ভাষা জানা থাকলে OCR ভাষা নিজে বেছে নিন।
- উচ্চ কনট্রাস্ট, সোজা ও পরিষ্কার স্ক্যান সাধারণত ঝাপসা, বাঁকা বা ছায়াযুক্ত পেজের চেয়ে ভালো OCR ফলাফল দেয়।
- PDF বড় হলে বা ডিভাইস ধীর হলে শুধু দরকারি পেজগুলোতে OCR চালান।
- নির্ভুলতা গুরুত্বপূর্ণ হলে চূড়ান্ত আউটপুট সেভ করার আগে শনাক্ত হওয়া টেক্সটের প্রিভিউ ব্যবহার করুন।
- OCR করার পর সার্চযোগ্য PDF বড় হয়ে গেলে পরে কমপ্রেস করুন।
- বহুভাষিক ডকুমেন্টে কোনো পেজগুচ্ছে একটি ভাষা প্রধান হলে আলাদা রান করলে ফলাফল ভালো হতে পারে।
সমস্যা সমাধান
- OCR ধীরে চলছে: বড় PDF, উচ্চ রেজোলিউশনের পেজ এবং অনেক স্ক্যান করা পেজ বেশি সময় নিতে পারে, কারণ প্রতিটি পেজ আপনার ব্রাউজারেই বিশ্লেষণ করা হয়।
- লেখা শনাক্তকরণের মান খারাপ: স্ক্যান ঝাপসা, কম রেজোলিউশনের, বাঁকা, নয়েজযুক্ত বা কম আলোতে তোলা হতে পারে।
- স্বয়ংক্রিয় শনাক্তকরণ ভুল ভাষা বেছে নিয়েছে: আবার OCR চালান এবং ভালো নির্ভুলতার জন্য মূল ভাষা নিজে নির্বাচন করুন।
- সার্চযোগ্য PDF দেখতে আগের মতোই আছে: এটি স্বাভাবিক — দৃশ্যমান পেজ সাধারণত একই থাকে, শুধু তার পেছনে লুকানো সার্চযোগ্য টেক্সট যোগ হয়।
- কিছু শব্দ ভুল বা অনুপস্থিত: অলংকারধর্মী ফন্ট, হাতের লেখা, টেবিল, সিল, কম কনট্রাস্ট এবং একাধিক ভাষা OCR-এর নির্ভুলতা কমাতে পারে।
- PDF-এ ত্রুটি হচ্ছে: ফাইলটি ক্ষতিগ্রস্ত, এনক্রিপ্টেড, খুব জটিল বা ব্রাউজারের জন্য খুব ভারী হতে পারে — ডেস্কটপ PDF অ্যাপে আবার সেভ করে চেষ্টা করুন।
FAQ
হ্যাঁ। সার্চযোগ্য PDF আউটপুট বেছে নিলে টুলটি একটি লুকানো শনাক্ত হওয়া টেক্সট লেয়ার যোগ করে, যাতে উপযুক্ত PDF ভিউয়ারে লেখা সার্চ, হাইলাইট এবং কপি করা সহজ হয়।
হ্যাঁ। সার্চযোগ্য PDF না চাইলে শুধু .txt ফাইল পাওয়ার জন্য টেক্সট-অনলি আউটপুট বেছে নিন।
সবসময় নয়। স্বয়ংক্রিয় শনাক্তকরণ আনুমানিকভাবে কাজ করে। ভালো OCR নির্ভুলতার জন্য ভাষা জানা থাকলে মূল ভাষা নিজে বেছে নিন।
হ্যাঁ। পেজ নির্বাচনকে ম্যানুয়াল মোডে বদলান, তারপর শুধু যেসব পেজ প্রক্রিয়া করতে চান সেগুলোতে ক্লিক করুন।
সাধারণত হ্যাঁ। সার্চযোগ্য PDF আউটপুট মূল পেজের ছবিটি দৃশ্যমান রাখে এবং পেজ নতুন করে ডিজাইন না করে তার পেছনে শনাক্ত হওয়া টেক্সট যোগ করে।
কখনও কখনও পারে, তবে নির্ভুলতা সাধারণত কম হয়। OCR পরিষ্কার ছাপা লেখায় সবচেয়ে ভালো কাজ করে। হাতের লেখা, ঝাপসা ছবি, ছায়া, সিল এবং বাঁকা স্ক্যান শনাক্তকরণের মান কমিয়ে দিতে পারে।
PDF OCR স্ক্যান করা বা ছবিভিত্তিক পেজ থেকে লেখা শনাক্ত করে। PDF থেকে টেক্সট বেশি উপযোগী যখন PDF-এ আগে থেকেই নির্বাচনযোগ্য লেখা আছে এবং আপনি শুধু তা বের করতে চান।
না। OCR আপনার ডিভাইসের ব্রাউজারেই চলে। আপনার PDF ফাইল FileYoga সার্ভারে আপলোড হয় না।