PDF থেকে টেক্সট কনভার্সন কীভাবে কাজ করে
PDF ফাইল শেয়ার করার জন্য দারুণ, কিন্তু ভেতরের লেখা আবার ব্যবহার করা অনেক সময় কঠিন হয়। এই টুল প্রতিটি পেজ থেকে বাছাইযোগ্য টেক্সট পড়ে একটি সহজ .txt ফাইলে রূপান্তর করে—যা আপনি যেকোনো এডিটরে কপি, এডিট এবং সার্চ করতে পারবেন।
কখন এই টুল ব্যবহার করবেন
কোনো PDF থেকে লেখা কপি বা পুনরায় ব্যবহার করতে চাইলে PDF থেকে টেক্সট ব্যবহার করুন—আবার টাইপ করতে হবে না। এটি উদ্ধৃতি, রিসার্চ নোট, কন্ট্রাক্ট, রিপোর্ট এবং ই-বুক-এর জন্য বিশেষভাবে কাজে লাগে।
- দ্রুত কপি: পেজ ধরে সিলেক্ট না করে একবারেই অংশ/প্যারাগ্রাফ তুলুন।
- এডিট: যেকোনো এডিটরে নিয়ে গিয়ে ইচ্ছেমতো পরিবর্তন করুন।
- সার্চ: বড় PDF-কে সার্চযোগ্য প্লেইন টেক্সটে রূপান্তর করুন।
উল্টোভাবে যেতে চান? প্লেইন টেক্সটকে PDF বানাতে ব্যবহার করুন টেক্সট থেকে PDF। TXT-এর চেয়ে বেশি স্ট্রাকচারসহ এডিটযোগ্য ডকুমেন্ট দরকার হলে চেষ্টা করুন PDF থেকে Word।
ধাপে ধাপে: PDF থেকে পরিষ্কার টেক্সট
PDF থেকে টেক্সট বের করার কাজটি ছোট একটি পুনরাবৃত্ত রুটিনে হয়:
- PDF ফাইল যোগ করুন। উপরের বক্সে ড্র্যাগ-ড্রপ করুন বা ক্লিক করে ডিভাইস থেকে বাছুন।
- তালিকা দেখুন। প্রতিটি ফাইল নাম ও স্ট্যাটাসসহ দেখাবে—কোনগুলো কনভার্ট হবে বুঝবেন।
- টেক্সটে কনভার্ট করুন। টেক্সটে কনভার্ট করুন চাপুন। টুলটি আপনার ব্রাউজারেই PDF প্রসেস করে।
- TXT ফাইল সেভ করুন। প্রতিটি ফাইলের পাশে সেভ ব্যবহার করুন, বা সব প্রস্তুত হলে সব ফাইল সেভ করুন চাপুন।
গোপনীয়তা, সীমা ও ফাইল হ্যান্ডলিং
FileYoga একটি সহজ নিয়ম মেনে চলে: আপনার ফাইল আপনার কাছেই থাকে। এই PDF থেকে টেক্সট কনভার্টারও সেই নিয়ম মেনে চলে।
লোকাল-অনলি কনভার্সন
কনভার্সন আপনার ব্রাউজারেই চলে। আপনার PDF ফাইল আপলোড হয় না।
কোনো কৃত্রিম সীমা নেই
কোনো কোটা নেই। সীমা নির্ভর করে আপনার ডিভাইসের মেমরি ও ব্রাউজারের উপর।
অ্যাকাউন্ট লাগে না
পেজ খুলুন, কনভার্ট করুন, ডাউনলোড করুন—কাজ শেষ।
কোনো লুকানো কপি নেই
তালিকা ক্লিয়ার করলে বা ট্যাব বন্ধ করলে টুল আপনার ফাইল ব্যবহার করা বন্ধ করে দেয়।
ভালো ফলের জন্য টিপস
- Word/Google Docs থেকে এক্সপোর্ট করা PDF-এ সাধারণত ভালো ফল পাওয়া যায় (এগুলো বেশিরভাগই টেক্সট-ভিত্তিক)।
- স্ক্যান করা PDF ও ছবি-ভিত্তিক ডকুমেন্টে এক্সট্র্যাক্টযোগ্য টেক্সট কম/নাও থাকতে পারে, কারণ OCR অন্তর্ভুক্ত নয়।
- মাল্টি-কলাম লেআউটে লেখা অর্ডার এলোমেলো হতে পারে (বাম কলাম তারপর ডান কলাম—গ্যারান্টি নেই)।
- PDF খুব বড় হলে একা কনভার্ট করুন এবং ভারী ট্যাব বন্ধ করুন—মেমরি চাপ কমবে।
- কনভার্টের পর আপনার এডিটরে হেডিং/স্পেসিং একটু গুছিয়ে নিন (TXT ইচ্ছাকৃতভাবে সিম্পল)।
সমস্যা সমাধান
- TXT ফাইল খালি বা খুব ছোট: PDFটি স্ক্যান (ইমেজ-অনলি) হতে পারে বা টেক্সট সিলেক্টযোগ্য নয়। এই টুল OCR চালায় না, তাই স্ক্যান থেকে সাধারণত খুব কম/একদম টেক্সট আসে না।
- টেক্সটের অর্ডার এলোমেলো (কলাম/সাইডবার): কিছু PDF টেক্সটকে অবস্থানভিত্তিক ফ্র্যাগমেন্ট হিসেবে রাখে। মাল্টি-কলাম পেজে অর্ডার অপ্রত্যাশিত হতে পারে—এডিটরে গুছিয়ে নিন।
- অদ্ভুত সিম্বল বা কিছু অক্ষর নেই: কিছু PDF কাস্টম ফন্ট এনকোডিং ব্যবহার করে। সম্ভব হলে সোর্স ডকুমেন্ট থেকে নতুন করে PDF এক্সপোর্ট করে আবার চেষ্টা করুন।
- অনেক বেশি লাইন ব্রেক: PDF টেক্সট ছোট ছোট অংশে স্টোর করতে পারে। কনভার্টের পর এডিটরে অতিরিক্ত নিউলাইন সরাতে হতে পারে।
- কোনো নির্দিষ্ট ফাইলে এক্সট্র্যাকশন ফেল: PDFটি ড্যামেজড বা রেস্ট্রিক্টেড হতে পারে। আগে PDF রিপেয়ার চেষ্টা করুন।
- ব্রাউজার ধীর/ক্র্যাশ: বড় PDF ব্রাউজারের মেমরি লিমিটে ধাক্কা দিতে পারে। একবারে ১টি ফাইল কনভার্ট করুন, PDF সাইজ কমান, বা ডকুমেন্ট ভাগ করুন।
প্রশ্নোত্তর (FAQ)
না। সব কনভার্সন জাভাস্ক্রিপ্ট দিয়ে সরাসরি আপনার ব্রাউজারেই হয়। আপনার PDF ফাইল ও এক্সট্র্যাক্ট করা টেক্সট ডিভাইসের বাইরে যায় না, এবং আপনি যে TXT ডাউনলোড করেন সেটিও লোকালি তৈরি হয়।
না। এই টুলের লক্ষ্য হলো এডিটযোগ্য টেক্সট বের করা—হুবহু ভিজ্যুয়াল ম্যাচ নয়। হেডিং/প্যারাগ্রাফ সাধারণত ভালো বের হয়, কিন্তু কলাম, নিখুঁত স্পেসিং, ফন্ট ও লেআউট TXT-এ থাকবে না।
এই ব্রাউজার-অনলি কনভার্টার OCR চালায় না (Optical Character Recognition)। যদি PDFটি শুধু টেক্সটের ছবি হয়, তাহলে এক্সট্র্যাক্ট করার মতো টেক্সট নাও থাকতে পারে—ফলে TXT ফাইল বেশিরভাগই খালি হতে পারে।
কিছু PDF “রিডিং অর্ডার” না রেখে অবস্থানভিত্তিক টেক্সট ফ্র্যাগমেন্ট স্টোর করে। মাল্টি-কলাম, সাইডবার বা জটিল পেজে তাই টেক্সট অপ্রত্যাশিত ক্রমে আসতে পারে—এডিটরে সাজিয়ে নিন।
TXT আউটপুটে ছবি/গ্রাফিক্স ভিজ্যুয়াল হিসেবে থাকে না। সহজ টেবিল কখনও লাইন আকারে টেক্সট হিসেবে আসতে পারে, কিন্তু জটিল টেবিলের স্ট্রাকচার নষ্ট হবে। লেআউট গুরুত্বপূর্ণ হলে আসল PDF রেফারেন্স হিসেবে রাখুন।
কিছু এনক্রিপ্টেড বা পারমিশন-রেস্ট্রিক্টেড PDF ব্রাউজারে টেক্সট এক্সট্র্যাকশন ব্লক করতে পারে। যদি আপনার অ্যাক্সেস থাকে, আসল অ্যাপে PDF খুলে আনলকড কপি এক্সপোর্ট করুন, তারপর আবার চেষ্টা করুন।
টুলে কোনো কৃত্রিম সীমা নেই—একসাথে একাধিক PDF যোগ করতে পারবেন। খুব বড় ফাইল বা বড় ব্যাচে ব্রাউজার ধীর হতে পারে, তখন ছোট ছোট গ্রুপে কনভার্ট করুন।
কিছু PDF কাস্টম ফন্ট এনকোডিং ব্যবহার করে, যেখানে অক্ষরগুলো Unicode-এ ঠিকভাবে ম্যাপ হয় না। অক্ষর ভুল দেখালে সোর্স ডকুমেন্ট থেকে নতুন করে PDF এক্সপোর্ট করে আবার এক্সট্র্যাক্ট করুন।
প্লেইন টেক্সটকে সহজ, প্রিন্টযোগ্য PDF বানাতে ব্যবহার করুন টেক্সট থেকে PDF। আরও স্ট্রাকচারসহ এডিটযোগ্য ফরম্যাট দরকার হলে ব্যবহার করুন PDF থেকে Word।