টাকা-কড়ি

বাংলা কম্পিউটিংঃ স্বপ্ন, বাস্তবতা এবং করণীয়

বাংলা কম্পিউটিং নিয়ন আলোয় neon aloy

(১)

বাংলা কম্পিউটিং এর সম্প্রসারণে সরকার সম্প্রতি একটি প্রকল্পের উদ্যোগ নিয়েছে। এটা নিঃসন্দেহে একটি গুরুত্বপূর্ণ সিদ্ধান্ত। কাজের গুরুত্বের সাথে সাথে বাজেটের টাকার অঙ্কটাও বেশ বড়। ‘গবেষণা ও উন্নয়নের মাধ্যমে তথ্য প্রযুক্তিতে বাংলা ভাষা সমৃদ্ধকরণ’ নামে এই প্রকল্পে খরচ ধরা হয়েছে ১৫৯ কোটি টাকা।

প্রকল্পের ব্যয় ১৫৯ কোটি টাকা ঠিক কিভাবে কোন কোন খাতে খরচ করা হবে সেটার বিস্তারিত জানার জন্য অনলাইনে অনেকক্ষণ খোঁজাখুঁজি করেও পাইনি। সরকারী দপ্তরগুলোর ওয়েবসাইট যেহেতু আছে, আশা করেছিলাম বাজেটের বিস্তারিত গুগলে একবার সার্চ করলেই পেয়ে যাবো। কিন্তু সার্চ করে না পাওয়ায় সংবাদপত্রগুলোর রিপোর্টের উপরেই নির্ভর করতে হচ্ছে।

প্রকল্পে ১৬ টি সফটওয়্যার ডেভেলপ করার কথা বলা হয়েছে। এর মধ্যে আছে বাংলা করপাস, বাংলা ওসিআর, বাংলা টেক্সট টু স্পীচ, জাতীয় বাংলা কিবোর্ড, বাংলা স্টাইল গাইড, বাংলা ফন্ট এবং বাংলা মেশিন ট্রান্সলেটর। সংবাদপত্রগুলো থেকে জানতে পেরেছি বাংলা বানান এবং ব্যাকরণ পরীক্ষার সফটওয়্যারেরও কাজ করা হবে এই প্রকল্পের আওতায়। তাছাড়া সেন্টিমেন্ট এনালাইসিস বা মনোভাব বিশ্লেষণ, স্ক্রিন রিডার সফটওয়্যার, নৃতাত্ত্বিক গোষ্ঠীর জন্য প্রমিত কি-বোর্ডের কাজও করা হবে।

তথ্য-প্রযুক্তিবিদ মোস্তফা জব্বার বিডিনিউজ টোয়েন্টিফোর ডটকমকে বলেন,

এ প্রকল্পের উদ্দেশ্য মূলত কম্পিউটিং জগতে বাংলা ভাষার ব্যবহার সম্প্রসারণে কাজ শুরু করা। শূন্য থেকে একাজ শুরু করতে হচ্ছে। [১][২]

এই দাবীটির সাথে আমি তীব্রভাবে দ্বিমত পোষণ করছি। একই সাথে কিছু প্রায়োগিক ব্যাপারেও আমি উদ্বিগ্ন। আমি আরও উদ্বিগ্ন এই বিশাল কর্মযজ্ঞের মাধ্যমে আসলেই কোন লাভ হবে কিনা সেই ব্যাপারেও।

প্রকল্পের মেয়াদ ধরা হয়েছে ৩ বছর। মোস্তফা জব্বার সাহেব আরও বলেছেন,

৩ বছরে এত বড় কাজ করা মনে হয়না সম্ভব হবে। [১]

এখানে সংক্ষিপ্তভাবে ৩টি দাবী করা হয়েছে।

  • এ প্রকল্পের উদ্দেশ্য মূলত কম্পিউটিং জগতে বাংলা ভাষার ব্যবহার সম্প্রসারণে কাজ শুরু করা।
  • শূন্য থেকে একাজ শুরু করতে হচ্ছে।
  • ৩ বছরে এত বড় কাজ করা মনে হয়না সম্ভব হবে।

আমি প্রথম দু’টি দাবীর সাথে সবিনয়ে সম্পূর্ণ দ্বিমত পোষণ করছি। তৃতীয় দাবীটি কিছু আলোচনার দাবী রাখে। দ্বিতীয় দাবীটির কথা দিয়ে আলোচনা শুরু করি। তাহলে কিছু প্রাথমিক ব্যাপার পাঠকদের জানতে সুবিধা হবে।

(২)

কম্পিউটিং জগতে ভাষার ব্যবহার নিয়ে যে গবেষণা হয় সেই কাজগুলোকে সংক্ষিপ্তভাবে বলা হয় কম্পিউট্যাশনাল লিঙ্গুইস্টিক্স (কম্পিউট্যাশনাল ভাষাতত্ত্ব) বা ন্যাচরাল ল্যাঙ্গুয়েজ প্রসেসিং (মানবিক ভাষা প্রক্রিয়াকরণ)। এর মানে কিন্তু কম্পিউটারের স্ক্রিনের সবকিছু যে কোন ভাষায় দেখানো না। এই বিষয়ে কাজ করা হয় মানুষ স্বাভাবিক জীবনে প্রাকৃতিকভাবে যে ভাষা ব্যবহার করে সেটা যাতে কম্পিউটার বুঝতে পারে সেটা নিয়ে কাজ করা।

কি রকমের কাজ হয় এই ফিল্ডে এবং কেন হয়? এই প্রশ্নের উত্তর পুঙ্খানুপুঙ্খভাবে  লিখতে গেলে বিশাল কাব্য হয়ে যাবে। ছোট ছোট উদাহরণ দিয়ে বলে দিচ্ছি কি কি ধরণের কাজ হয়।

১) অটোমেটিক কোশ্চেন এনসারিং সিস্টেম বা স্বয়ংক্রিয় প্রশ্ন উত্তর ব্যবস্থাঃ গুগলে সার্চ করুন “Who is the father of Sheikh Hasina”। দেখবেন উত্তর চলে আসছে আমাদের বঙ্গবন্ধু শেখ মুজিবুর রহমানের প্রোফাইল। সার্চ করুন “What’s the temperature today”। দেখবেন ঠিক আপনি যেখানে থাকেন সেখানের তাপমাত্রা আলাদা একটা বক্সে দেখাচ্ছে। এগুলো বাংলায় ট্রান্সলেট করে লিখুন। দেখবেন ইংরেজির মত দেখাচ্ছে না। কারণ কি? গুগল ইংরেজি ভাষায় প্রশ্ন করলে বুঝতে পারে। বাংলা ভাষার ক্ষেত্রে এটা সে পারে না।

২) ইনফরমেশন এক্সট্রাকশন বা কোন টেক্সট থেকে তথ্য বের করাঃ যেমন “সামনের মাসের দ্বিতীয় শুক্রবারে কক্সবাজার ঘুরতে যাবো”। একটা ইনটেলিজেন্ট সিস্টেম এখান থেকে এই তথ্যগুলো উদ্ধার করবে-
কাজ : ভ্রমণ (ঘুরতে যাবো)
গন্তব্য : কক্সবাজার
তারিখ : মার্চ ১০, ২০১৭। শুক্রবার (সামনের মাসের দ্বিতীয় শুক্রবার)
সময় : জানা নেই

এই কাজটা করার জন্য কম্পিউটারকে ভাষা বুঝতে হবে। ইংরেজি, চাইনিজ, স্প্যানিশের জন্য এমন সিস্টেম এখন আছে। বাংলায় নাই।

৩) সেন্টিমেন্ট এনালাইসিস বা অনুভূতি বিশ্লেষণ, অপিনিয়ন বা মতামত মাইনিংঃ মনে করুন আপনি একটা স্মার্টফোন কিনতে চান। বিভিন্ন ওয়েবসাইটে ফোনগুলো সম্পর্কে মানুষজন রিভিউ দিয়েছে। এমন একটা সিস্টেম যদি থাকে যে এই রিভিউগুলো এনালাইসিস করে বলে দেবে মানুষ কোন ফোনের কোন ফিচারটা পছন্দ করেছে, কোন ফোনের ক্যামেরা ভালো, কোনটায় বেশী চার্জ থাকেনা ইত্যাদি- তাহলে কত সুবিধা হতো বলেন! জনপ্রিয় কেউ একটা বক্তব্য দেওয়ার পরে ফেসবুকে ব্লগে মানুষ এটা নিয়ে মতামত ব্যক্ত করে। এগুলো এনালাইসিস করে বলে দেয়া যায় দেশের মানুষ বক্তব্যটি কিভাবে নিয়েছে। কোন কোন ব্যাপারে তারা কি কি চায়।

৪) মেশিন ট্রান্সলেশনঃ গুগল ট্রান্সলেট সার্ভিস সম্পর্কে সবাই কমবেশি জানে। ফেসবুকও আজকাল ট্রান্সলেট করে দেয় স্ট্যাটাস, কমেন্ট। নতুন করে কিছু বলার নাই।

বাংলা কম্পিউটিং নিয়ন আলোয় neon aloy

পিপীলিকায় সংবাদের নিচে যে সারাংশটুকু দেখানো হয়, সেটি অটো-জেনারেটেড।

৫) অটোমেটিক সামারিঃ বিশাল বড় আর্টিকেল বা নিউজের সারাংশ স্বয়ংক্রিয়ভাবে কম্পিউটার দিয়ে তৈরি করা। আমার জানামতে এখন পর্যন্ত বাংলা সারাংশ করার সিস্টেম একমাত্র পিপীলিকা সার্চ ইঞ্জিনে আছে। দেখতে চাইলে পিপীলিকা সাম্প্রতিক সংবাদ এপ্লিক্যাশন চালিয়ে দেখা যাবে যে সেখানে খবরের সারাংশ দেয়া হয় যেগুলো স্বয়ংক্রিয়ভাবে করা।

৬) ডকুমেন্ট ক্লাস্টারিং, টপিক এনালাইসিসঃ মানুষ এখন কি নিয়ে কথা বলছে? আজকের পত্রিকাগুলো কি কি খবর নিয়ে কথা বলছে, একটা নিউজ কোন পত্রিকা কিভাবে কভার করছে এগুলো মানুষের সাহায্য ছাড়াই অটোমেটিক এনালাইসিস করা।

এরকম আরও অজস্র কাজ আছে এই এরিয়াতে।

এই সিস্টেমগুলো বানাতে আরও বেসিক কিছু টুলকিট বানাতে হয়। যেমন পার্টস অফ স্পীচ ট্যাগার যেটা একটা বাক্যের বিশেষ্য, বিশেষণ, সর্বনাম এগুলো বের করে ফেলতে পারবে। স্টেমার, লেমাটাইজার একটা শব্দকে মুল রূপে নিয়ে যায়। যেমন  tell, telling, told, tells এই সবগুলো শব্দের মুল শব্দ হচ্ছে Tell. পার্সার একটা বাক্যকে ব্যাকরণ মেনে বিভিন্ন ভাগে ভাগ করে ফেলে। নেইমড এনটিটি ট্যাগার একটা বাক্য থেকে মানুষ, স্থান এসবের নাম বের করে ফেলে। এই সবগুলো বানাতে গেলে আবার সাহায্য লাগে টোকেনাইজারের। এর কাজ হচ্ছে একটা ডকুমেন্টকে বাক্য, বাক্যকে শব্দে বিভক্ত করা।

ইংরেজী হচ্ছে বর্তমান বিশ্বের সবচাইতে গুরুত্বপূর্ণ ভাষা। এ কারণে ন্যচরাল ল্যাঙ্গুয়েজ প্রসেসিং এর ইতিহাসে সবচাইতে বেশী কাজ হয়েছে ইংরেজী ভাষা নিয়ে। এ কাজগুলো স্বভাবতই আমেরিকা-কেন্দ্রিক। আমেরিকার সরকারী এজেন্সিগুলো থেকে শুরু করে ছোটবড় কোম্পানিগুলো কাড়ি কাড়ি টাকা খরচ করে এই গবেষণাগুলোর পেছনে। কারণ উন্নত সেবা থেকে শুরু করে নিরাপত্তা নিশ্চিত করা পর্যন্ত অনেক কিছু। ইংরেজীর পরেই সবচাইতে বেশী কাজ হয় চাইনিজ এবং স্প্যানিশ নিয়ে। কারণ এই ভাষায় কথা বলা বিশাল জনগোষ্ঠী। ইদানীং হিন্দি এবং অ্যারাবিক নিয়েও কাজ হচ্ছে।

প্রশ্ন হচ্ছে বাংলা ভাষার ব্যাপারে অগ্রগতি কতদূর? বাংলা ভাষা এখনো আমেরিকাতে এত গুরুত্বপূর্ণ হয়ে উঠেনি তাই বাংলা নিয়ে কোন কাজ হচ্ছে বলে আমার জানা নেই। কিন্তু বাংলাদেশে এবং ভারতে অনেক কাজ হয় এবং হচ্ছে বাংলা ভাষা নিয়ে। তাই শূন্য থেকে এসব কাজ শুরু করতে হবে দাবীটি ভুল। চাইলে যে শূন্য থেকে শুরু করা যাবেনা তা না। কিন্তু সেই ক্ষেত্রে আগামী বিশ বছরেও কিছু পাওয়া সম্ভব কিনা সে ব্যাপারে আমার সন্দেহ আছে। তাছাড়া যে কাজগুলো কিছুটা হয়েছে সেগুলো আবার নতুন করে করার মানে নেই।

২০০৯ সালে প্রকাশিত হওয়া এই প্রবন্ধতে [৩] তখন পর্যন্ত হওয়া কাজগুলোর কিছু বর্ণনা দেয়া আছে সংক্ষিপ্তভাবে। গুগল স্কলারে সার্চ করলে টোকেনাইজার, পার্সারসহ অনেককিছুর উপরে পাবলিশ হওয়া পেপার পাওয়া যাবে। এগুলো ছাড়াও অনেকগুলো কাজ হয়েছে যেগুলোর কোন পেপার পাবলিশ হয়নি এখন পর্যন্ত। আমি শাবিপ্রবির কম্পিউটার বিজ্ঞান ও প্রকৌশল বিভাগের ছাত্র হওয়ার সুবাদে শুধুমাত্র সেখানেই আমার জানামতে কি কি কাজ হয়েছে সেগুলোর ছোট নমুনা দিচ্ছি। আমি জানি বুয়েট, চুয়েট, ঢাবিসহ অন্য বিশ্ববিদ্যালয়ের ছাত্র-শিক্ষকেরাও অনেক কাজ করেছেন। কিন্তু সব আমি জানিনা। তাই আন্তরিকভাবে দুঃখিত।

১) অটোমেটিক কোশ্চেন এনসারিং সিস্টেম বা স্বয়ংক্রিয় প্রশ্ন-উত্তর ব্যবস্থা নিয়ে ২০১০ ব্যাচের খালেদ হাসান সাজ্জাদ থিসিস শুরু করেছিলো। তার উদ্দেশ্য ছিলো বিশ্ববিদ্যালয়ে ভর্তি পরীক্ষার জন্য ছাত্রছাত্রীরা যে ফেসবুকের পেজে বিভিন্ন প্রশ্ন করে যেমন অমুক জায়গার পরীক্ষা কবে, কয়টা সিট ইত্যাদি এই প্রশ্নগুলোর উত্তর অটোমেটিক বের করা।

২) সেন্টিমেন্ট এনালাইসিস নিয়ে অন্তত ৫ টা গ্রুপ কাজ করেছে।

৩) মেশিন ট্রান্সলেশন নিয়ে একটা বাংলা করপাস বানানো হচ্ছিল শাবিপ্রবিতে সুপারা করপাস নামে। শাবিপ্রবির শিক্ষক মোহাম্মদ আব্দুল্লাহ আল মুমিন, আবু শোয়েব উনারা এটাতে কাজ করতেন। অনেক ছাত্রও এটাতে কাজ করেছিলো, এখনও করছে।

৪) অটোমেটিক সামারি, ক্লাস্টারিং এর নমুনা দেখতে হলে যেতে হবে news.pipilika.com-এ। এই ক্লাস্টারিং সিস্টেমটা আমার নিজের হাতে করা। সামারির জন্য কাজ করেছিলেন বাকের ভাই। এটা কিভাবে কাজ করে জানতে হলে এই ভিডিওটা দেখতে পারেন।

৫) স্টেমার, পার্টসঅফ স্পীচ ট্যাগার, নেইমড এনটিটি ট্যাগার নিয়ে আমার খুব কাছের মানুষ আসিফ সামির, সাবির ইসমাইল, আদনান আহমেদ কাজ করেছে। পিপীলিকাকে সবাই একটা সার্চ ইঞ্জিন হিসেবেই চেনে। কিন্তু আসলে এর আড়ালে আমাদের শিক্ষক ডঃ মুহম্মদ জাফর ইকবাল এবং রুহুল আমিন সজীব এর নেতৃত্ব আমরা একটা স্বপ্নের পিছনে দৌড়াতাম। সেটা হচ্ছে বাংলা ভাষা কম্পিউটারকে বোঝানো।

ব্র্যাক বিশ্ববিদ্যালয়ের ডঃ মুমিত খান অনেক কাজ করেছেন এসব সমস্যা নিয়ে। নিয়মিত গবেষণাপত্র প্রকাশ হয়েছে উনার। কলকাতাতে বিশেষ করে যাদবপুর বিশ্ববিদ্যালয়ে অনেক কাজ হয় বাংলা কম্পিউট্যাশনাল লিঙ্গুইস্টীক্স নিয়ে।

শাবিপ্রবিতে আমার দুইজন জুনিয়র সুলাইমান খান আর আল মোসাব্বির তুহিনের থিসিসের টপিক ছিলো ফেসবুকে যে গালাগালি, অবমাননাকর কুরুচিপূর্ণ, মৌলবাদী মন্তব্যগুলো বাংলায় করা হয় এগুলো স্বয়ংক্রিয়ভাবে চিহ্নিত করা। বুয়েটে আমার ব্যাচের হিমেল দেব কাজ করেছিলো সামাজিক যোগাযোগের মাধ্যমগুলোতে গোষ্ঠী বা চক্র চিহ্নিতকরণ নিয়ে [৬]। এই কাজ গুলো যদি এগিয়ে নেয়া যেতো আমরা সহজেই বের করে ফেলতে পারতাম কোন কোন আইডিগুলো কুরুচিপূর্ণ মন্তব্যের সাথে জড়িত, কারা উগ্র মৌলবাদ ছড়াচ্ছে।

বাংলা ভাষা প্রসেসিং নিয়ে যতগুলো কাজ হয়েছে তার মধ্যে খুব অল্প কয়েকটা এখানে উল্লেখ করেছি। আরও অনেক আছে। সুতরাং শূন্য থেকে শুরু করার মত কোন বিপর্যয়ে আমরা এখন নেই। তাছাড়া এ সিস্টেমগুলো সবই ইংরেজির জন্য বানানো আছে। সেগুলো যেভাবে বানানো হয়েছে মোটামুটি একই রকম রাস্তায় হাঁটলে বাংলার জন্য বানানো সম্ভব হবে। কিন্তু সেখানেও অনেক বড় বড় চ্যালেঞ্জ আছে যা পরে আলোচনা করছি।

(৩)

এ পর্যায়ে নিশ্চয়ই প্রশ্ন উঠেছে মনে যে এ কাজগুলো কেন আমরা হাতের কাছে পাইনা? উত্তরটা খুব সহজ। এখানের বেশীরভাগ কাজ পরে এগিয়ে নিয়ে যাওয়া সম্ভব হয়না। গেলেও বড়জোর একটা পেপার পাবলিশ পর্যন্ত। আমাদের বিশ্ববিদ্যালয়গুলোতে গবেষণা করা একটা ঐচ্ছিক ব্যাপার। ছাত্র, শিক্ষক দু’পক্ষের জন্যই। চতুর্থ বর্ষের থিসিস প্রজেক্ট হিসেবে যে কাজগুলো করা হয় সেগুলো আর চালিয়ে নিয়ে যাওয়া সম্ভব হয়না। ছাত্রদের দিক দিয়ে দেখলে, এই সময়ে তাদের জন্য একটা চাকরী পেয়ে পরিবারকে সাপোর্ট করাটা বেশী জরুরী হয়ে পড়ে। একটা প্রোডাক্ট পর্যায়ে নিয়ে যাওয়ার মত সময়, অর্থনৈতিক সাহায্য পাওয়া সম্ভব হয়না। একটা প্রোটোটাইপকে প্রোডাক্ট পর্যায়ে নিয়ে যেতে হয় ইন্ডাস্ট্রিগুলোকে। সেখানে বিশ্ববিদ্যালয় এবং ইন্ডাস্ট্রির মধ্যে সেতুবন্ধনটা আমাদের দেশে নেই।

(৪)

এখন আসি ৩ নাম্বার প্রশ্নের উত্তরে। ৩ বছরে এই কাজগুলোর শতকরা বিশ ভাগও পূর্নাঙ্গভাবে হওয়া সম্ভব নয়। ১৫৯ কোটি টাকার প্রজেক্টের চ্যালেঞ্জগুলো আসলে কি কি? এ প্রশ্নের উত্তরও অনেক বড়। খুবই প্রাথমিক কিছু সমস্যা সংক্ষেপে বলছি।

টোকেনাইজার, পারসার, নেইমড এনটাইটি ট্যাগার, পার্টস অফ স্পিচ ট্যাগার এইসব প্রাথমিক টুলসের কথা বললে প্রথম যে সমস্যাটা আসে সেটা হচ্ছে বাংলা ভাষার জটিলতা। বাংলা ভাষা অনেক চমৎকার একটি ভাষা। আমরা একটা বাক্য যেভাবেই উলটপালট করে বলিনা কেন, এর মানে খুব সহজেই বোঝা যায়। কাঠামোগত ভাবে অনেক সমৃদ্ধ হওয়ায় বাংলা ভাষায় কথা বলা বা লেখা অনেক সহজ। কিন্তু এই সমৃদ্ধ কাঠামোই বাংলা ন্যাচরাল ল্যাঙ্গুয়েজ প্রসেসিং কে অনেক কঠিন করে দিয়েছে। যেটা অন্তত ইংরেজির বেলায় অনেক সহজ। একটা উদাহরণ দিলে বিষয়টা সহজ হয়ে যাবে। ধরি, কাউকে আপনি বলছেন একটি কলম দিতে।

ইংরেজিতে বলতে হবে, Give me a pen. এই বাক্যে শব্দগুলোর অবস্থান উলটপালট করে ফেললে (যেমন, pen me a give, give a me pen) কোন অর্থই বোঝা যাবেনা। এখন একই কথা বাংলায় কতভাবে বলা যায় দেখি।
১) আমাকে একটা কলম দাও।
২) আমাকে কলম দাও একটা।
৩) আমাকে দাও একটা কলম।
৪) কলম দাও আমাকে একটা।
৫) একটা কলম দাও আমাকে।
৬) কলম একটা দাও আমাকে।

সবগুলোতেই কি বলা হচ্ছে সহজেই বোঝা যায়। আমরা মানুষেরা চট করে বুঝে ফেলতে পারবো এই বাক্যগুলোতে কোনটা বিশেষ্য, কোনটা সর্বনাম। অথবা কোনটা উদ্দেশ্য আর কোনটা বিধেয় (subject, predicate)। কিন্তু একটা কম্পিউটারকে কিভাবে বোঝাবো। এই একটা মাত্র চ্যালেঞ্জের জন্য কাজগুলো অনেক কঠিন হয়ে যাবে।

দ্বিতীয় চ্যালেঞ্জ হিসাবে বলা যায় আমাদের সাধারণ কথাবার্তায় অন্য ভাষার ব্যবহার। আমরা আমাদের দৈনন্দিন জীবনের কথাবার্তায় অবচেতনভাবেই অনেক ইংরেজী শব্দ, বাক্য ব্যবহার করে থাকি। যেমন এই লেখাতেই আমি আমার অজান্তে অনেক শব্দ ব্যবহার করেছি যেগুলো বাংলা না। এই শব্দগুলো কোন বাংলা ডিকশনারিতে খুঁজে পাওয়া যাবে না (এইমাত্র আমি অভিধানের বদলে ডিকশনারি লিখলাম যেটা একটা ইংরেজী শব্দ)। এই সমস্যাটার দুটো ধরণ আছে যাদেরকে বলা হয় কোড সুইচিং এবং কোড মিক্সিং। এগুলোকে আমরা সাধারণত বাংলিশ বলে থাকি। আমরা কথা বলার সময় যখন এক ভাষা থেকে স্বতঃস্ফূর্তভাবে অন্য ভাষায় সুইচ করি তখন এটাকে কোড সুইচিং বলে। যেমন, “আই ক্যান্ট বিলিভ তুমি এতটা বদলে গেছো”। এখানে ইংরেজিতে একটা বাক্য শুরু করে বাংলায় চলে যাওয়া হয়েছে। কোড সুইচিং এর আরও উদাহরণ দেখতে চাইলে ফেসবুকের নিউজফিড দেখতে পারেন অথবা আমাদের আরজে দের কথা বার্তা শুনতে পারেন।

অন্যদিকে কোড মিক্সিং হচ্ছে যখন এক ভাষার বাক্যের মধ্যে অন্য ভাষার শব্দ ঢুকে যায়। যেমন, “তরকারির কালারটা ভালো হয়নি।” বাংলা একটা বাক্যের মধ্যে ইংরেজি শব্দ ঢুকে গেছে।

কোড সুইচিং বা কোড মিক্সিং আমরা কেন করি সেটার কারণ খুঁজতে গিয়েও অনেক গবেষণা হয়েছে। সোশ্যাল মিডিয়ায় এই মিশ্র ভাষার ব্যাবহার দিন দিন বেড়েই চলেছে। যেহেতু আমরা সবাইকে জোর করে শুদ্ধ বাংলা বলাতে পারবোনা সেহেতু এই মিশ্র ভাষা নিয়েই আমাদেকে কাজ করতে হবে।

একটা নতুন উদাহরণ দেখি।
১) এই রিকশা, যাবেন?
২) এই রিকশাওয়ালা, যাবেন?
৩) ওই ড্রাইভার, যাইতায় নি?
৪) ওই মামা, যাইবানি?
৫) কিলা রিশকা, লই যাইবানি?

উদাহরণ দেখেই পরবর্তী সমস্যাটা পাঠকের বুঝে যাওয়ার কথা। তৃতীয় চ্যালেঞ্জ হিসেবে আসবে আঞ্চলিক ভাষা। একেক অঞ্চলে একেকভাবে মানুষ বাংলায় কথা বলে। সবগুলোই সঠিক। এগুলো নিয়ে কাজ করা একটা বড় চ্যালেঞ্জ। বাস্তবে সবাই হয়তো ১০০% আঞ্চলিক ভাষায় কথা বলেনা। কিন্তু সবার কথায় একটা টান থাকে, লেখায় প্রভাব থাকে। এই সবগুলো সমস্যার সমাধান আমাদেরকে করতে হবে।

চতুর্থ সমস্যা ধরতে গেলে বলা যায় বাংলা ওসিআর-এর কথা। বাংলা লেখা কম্পিউটারকে বোঝাতে গেলে যুক্তবর্ণ একটা বড় সমস্যা। হাতের লেখার ক্ষেত্রে এই সমস্যা আরও প্রকট আকার ধারণ করে। উদাহরণস্বরুপ, ‘ব্রাহ্মণবাড়ীয়া’ এর ‘হ্ম’ এবং ‘বৃক্ষ’ এর ‘ক্ষ’ এর মধ্যে পার্থক্য ধরতে পারা কি একটা মহা সমস্যা নয়?

মাঠে নামলে আরও অনেক সমস্যা পাওয়া যাবে। অন্তত এখানে উল্লেখিত সমস্যাগুলো সমাধান করতেই কয়েক বছরের হাড়ভাঙ্গা খাটুনি লাগবে এটা লিখে দিতে পারি।

(৫)

সমাধান কিভাবে করা যায়?

এই সমস্যাগুলোর সত্যিকার অর্থে যদি আমরা মানসম্মত সমাধান চাই তাহলে প্রথমে যেটা বুঝতে হবে সেটা হচ্ছে “তাড়াহুড়ো করে ৩ বছরে বানিয়ে ফেলবো” – এই ধারণাটা থেকে বের হয়ে আসতে হবে। গুগল ট্রান্সলেটে বাংলা যুক্ত হয়েছে বেশ কয়েকবছর আগে। সেটার মান কিন্তু এখনো খুব খারাপ। অথচ গুগলের টাকা, মেধা, ডেটা কোনকিছুর অভাব নেই। অতএব আমাদেরকে প্র্যাকটিক্যাল চিন্তা করতে হবে। আজকে একবস্তা টাকা নিয়ে কাজ শুরু করলে তিন বছর পরে প্রোডাক্ট পেয়ে যাবো এই ধারণা থেকে বের হতে হবে।

একইসাথে প্ল্যানিং-এর বড় অংশে অন্তর্ভুক্ত করতে হবে দেশের বিশ্ববিদ্যালয়গুলোকে। যদি প্ল্যানটা এরকম হয়ে থাকে যে, একটা ইন্সটিটিউটের বা কোম্পানির অধীনে কয়েকজন বিশেষজ্ঞ নিয়োগ দিলে, কয়েকজন সফটওয়্যার ডেভেলপার নিয়োগ করলেই হয়য়ে যাবে তাহলে এটা ভুল ধারণা। এই প্রাথমিক কাজগুলো কখনো কোন দেশে ইন্ডাস্ট্রিতে হয়নি, হওয়া সম্ভবও না।

বিশ্ববিদ্যালয়গুলোতে বাংলা কম্পিউট্যাশনাল লিঙ্গুইস্টীক্স গবেষণার জন্য ফান্ড দিতে হবে। হার্ডওয়্যার ইনফ্রাস্ট্রাকচার বানাতে হবে। শুধু টাকা দিয়ে হবেনা। দক্ষ লোকবল লাগবে। রিলেটেড এরিয়াতে যারা পিএইচডি করেছে বা বড় ইন্ডাস্ট্রিতে সত্যিকারের গবেষণা করেছে বা করছে তাদেরকে অন্তর্ভুক্ত করতে হবে, দেশে ফিরিয়ে আনতে হবে প্রাপ্য সুযোগ সুবিধা দিয়ে। প্রজেক্টগুলো যাতে উপযুক্ত মানুষের হাতে থাকে সেটা নিশ্চিত করতে হবে।

প্রকল্পের ১৬টি প্রজেক্টের মধ্যে একটি হচ্ছে করপাস ডেভেলপ করা। করপাস মানেই কিন্তু ডেটার কালেকশন নয়। ওসিআরের জন্য একরকম করপাস হবে, সেন্টিমেন্ট এনালাইসিসের জন্য একরকম করপাস হবে, পার্টস অফ স্পিচ ট্যাগিং এর জন্য আরেকরকম করপাস হবে। এ কাজগুলো কোন ছোটখাট কাজ নয়। ভালো ডেটাসেট বানাতে বছরের পর বছর লেগে যায়। একটা চমৎকার ডেটাসেট বানানোই একটা থিসিস হতে পারে বিশ্ববিদ্যালয়ের ছাত্রদের জন্য।

এক বিশ্ববিদ্যালয়ের ছাত্রদের যখন অন্য বিশ্ববিদ্যালয়ের ছাত্রদের সাথে প্রতিযোগিতা করার কথা কার বানানো ট্রান্সলেটর পুরান ঢাকার বাংলা ভাষাকে ঠিক মত ট্রান্সলেট করতে পারে, কার বানানো রোবট কত ভালোভাবে রাস্তায় চলতে পারে, তখন আমরা দেখি তারা প্রতিযোগিতা করছে কে কয়টা বাস ভাংচুর করতে পারে।

আমার প্রস্তাবনা থাকবে গবেষণাগুলোর জন্য বিশ্ববিদ্যালয়গুলোকে তৈরি করা। আমি জানি কত চমৎকার আইডিয়া নিয়ে কাজ করে ছাত্ররা। যদি আমরা উন্নত বিশ্বের দিকে তাকাই তাহলে দেখবো সেখানের উন্নয়নের পেছনে মুল অবদান রাখে বিশ্ববিদ্যালয়গুলো। বড় বড় সফটওয়্যার প্রোডাক্টগুলোর দিকে তাকালে দেখবো বিশ্ববিদ্যালয়গুলো কিভাবে জড়িত। আমরা আজকাল কথায় কথায় বলি, দেশেই আমরা গুগল ফেসবুক বানাবো। খুবই মধুর শোনালেও এটা আদতে সম্ভব নয়। গুগলের কথা যদি বলি, তাহলে বলতে হয় গুগলের পেইজর‍্যাঙ্ক এলগরিদমের কথা। ল্যারি পেইজ আর সারগেই ব্রিনের থিসিস ছিলো এই এলগরিদম। আমরা এতটুকুই হয়তো জানি। কিন্তু জানিনা সারগেই ব্রিনের যেই এডভাইজর ছিলেন ডঃ গারসিয়া মলিনা তার কথা। ওরাকল হচ্ছে অন্যতম জনপ্রিয় ডেটাবেইজ সিস্টেম। রাস্তাঘাটে যত এটিএম বুথ দেখা যায় সবকিছু ম্যানেজ হয় ওরাকল দিয়ে। কারণ হচ্ছে প্রতি সেকেন্ডে বিলিয়ন বিলিয়ন ট্রানজেকশন প্রসেস করার সক্ষমতা। এই ওরাকল সিস্টেমের বোর্ড অফ ডিরেক্টরদের মধ্যে একজন হচ্ছেন ডঃ গারসিয়া মলিনা [৫]। স্ট্যানফোর্ডের প্রফেসর উনি।

উন্নত বিশ্বে বড় বড় কোম্পানী সবগুলোর পিছনে এমন কয়েকজন প্রফেসরকে পাওয়া যাবে, একাডেমিক গবেষককে পাওয়া যাবে। কারণ হচ্ছে তাদের কাজ জ্ঞান তৈরী করা। ইন্ডাস্ট্রি সেটাকে ব্যবহার করে ব্যবসা করে।

আমরা ঠিক এই জায়গাটাতে ব্যর্থ। এক বিশ্ববিদ্যালয়ের ছাত্রদের যখন অন্য বিশ্ববিদ্যালয়ের ছাত্রদের সাথে প্রতিযোগিতা করার কথা কার বানানো ট্রান্সলেটর পুরান ঢাকার বাংলা ভাষাকে ঠিক মত ট্রান্সলেট করতে পারে, কার বানানো রোবট কত ভালোভাবে রাস্তায় চলতে পারে, তখন আমরা দেখি তারা প্রতিযোগিতা করছে কে কয়টা বাস ভাংচুর করতে পারে।

তথ্য প্রযুক্তির উন্নয়ন নিয়ে সরকারের আন্তরিকতার কোন কমতি আমার চোখে পড়েনি। একটা সমস্যাই চোখে পড়েছে। সেটা হচ্ছে উপযুক্ত প্ল্যান, সমন্বয় এবং বাস্তবিক চিন্তার অভাব। এগুলো ছাড়া কোন প্রজেক্টই সফলতার মুখ দেখবেনা যেমনটা দেখেনি বাংলা ওসিআর প্রজেক্ট [৪]। ৬ কোটি টাকা দিয়ে ইন্ডাস্ট্রি থেকে একটা একটা সফটওয়্যার প্রোটোটাইপিং থেকে শুরু ওরে ডেভেলপ করা হয়েছে যেটা কিনা কাজ করে ৮৭ শতাংশ। অন্য কোন ভাষার ওসিআর এত দামে কেনা হয়েছে কিনা আমার জানা নেই। আমরা দেখেছি এন্ড্রয়েড ডেভেলপার বানানোর দেশব্যাপী কর্মশালা, ফ্রিল্যান্সার বানানোর দেশব্যাপী কর্মশালা। এগুলোর পেছনে যে কোটি কোটি টাকা খরচ করা হয়েছে তার কত শতাংশ আসলে জলে গেছে সেটা একটা গবেষণার দাবী রাখে। সরকারের টাকা মানে জনগণের ট্যাক্সের টাকা। সে টাকা কিভাবে খরচ হচ্ছে, জনগণ এর কতটুকু সার্ভিস পাচ্ছে সেটা আসলেই হিসাব করা উচিত, জবাবদিহিতা থাকা উচিত। কোন সার্ভিস না পেলে, সফল প্রোডাক্ট না পেলে কোটি কোটি টাকা এভাবে নষ্ট করার মত বিলাসিতা আমাদের থাকা উচিত না। প্রোগ্রামার, ফ্রিল্যান্সার, গেম ডেভেলপার কয়েকটা ট্রেনিং সেশন দিয়ে তৈরি করা যায়না এটা আমাদেরকে বুঝতে হবে। তাছাড়াও আমাদের মাথায় রাখতে হবে একগাদা বিশ্ববিদ্যালয়ে টাকা বিনিয়োগ করা হচ্ছে দক্ষ জনবল তৈরীর লক্ষ্যে। নতুন করে তাদের ট্রেনিং দেয়ার প্ল্যান করার চাইতে বেশী প্রয়োজন বর্তমান বিনিয়োগের কেমন ফলাফল আসছে সেটা দেখা এবং কিভাবে কাঙ্ক্ষিত ফলাফল আনা যায় যেটা ঠিক করা। যাদের পড়াশোনার পিছনে সরকার টাকা খরচ করছে, তারা সরকারী সম্পত্তি ভাংচুর করবে, হল দখল নিয়ে মারামারি করবে এটা তো হতে পারেনা।

তাই আরেকটা ব্যাপারে খুব তাড়াতাড়ি আমাদেরকে সিদ্ধান্ত গ্রহণ করতে হবে। সেটা হচ্ছে আমরা দেশের বিশ্ববিদ্যালয়গুলোকে কিভাবে দেখতে চাই। বিশ্ববিদ্যালয়গুলোতে প্রতিযোগিতা তৈরী করতে হবে গবেষণার। তাহলে সারা দেশে নাটকীয় পরিবর্তন দেখতে আমাদের বেশীদিন অপেক্ষা করতে হবেনা। যেটার সুফল আসবে তথ্য প্রযুক্তি থেকে শুরু করে গ্রামের ধানক্ষেত পর্যন্ত। বলে কয়ে ঘোষণা দিয়ে ইন্সটিটিউট বানিয়ে আবিষ্কার হয়না। আবিষ্কারের প্রক্রিয়া একটা প্রাকৃতিক প্রবাহ। এর জন্য শুধুমাত্র দরকার উপযুক্ত পরিবেশ সৃষ্টি করা। শুধুমাত্র বাংলা কম্পিউট্যাশনাল লিঙ্গুইস্টিক্সের কথাই যদি বলি, তাহলে প্রতিবছর ওপেন কিছু সমস্যা নিয়ে কনফারেন্স করতে হবে। উৎসাহী গবেষকদের নিয়ে একটা কমিটি করতে হবে যারা প্রতিবছরের কার্যক্রমের একটা রোডম্যাপ তৈরি করবেন এবং সকল বিশ্ববিদ্যালয়গুলো কিভাবে অংশগ্রহণ করতে পারে সেটা দেখবেন। সেমিনার, ওয়ার্কশপ হতে হবে বিশ্ববিদ্যালয়গুলোতে। গবেষকদের সুযোগ সুবিধা দিতে হবে। পিএইচডি গবেষণা শুরু করতে হবে। নতুন আবিষ্কারগুলো কিভাবে প্রোডাক্ট পর্যায়ে নেয়া যায় সেই ব্যাপারে কাজ করতে হবে যারা ব্যবসায় প্রশাসন নিয়ে পড়ছে তাদের। মজার ব্যাপার হলো, এই কাজগুলো শুধুমাত্র কম্পিউটার বিজ্ঞানের নয়। এখানে একসাথে কাজ করতে হবে বাংলা ভাষা বিশেষজ্ঞদের, সাহিত্যিকদের, ইতিহাসবিদদের, মার্কেটিং, বিবিএ সহ অন্যান্য বিষয়ের ছাত্র-শিক্ষকদের। একইসাথে পরিবর্তন হতে থাকবে আমাদের বিশ্ববিদ্যালয়গুলোর বর্তমান অবস্থা। যদি আমরা শুধুমাত্র দেখাতে চাই যে আমরা অমুক অমুক খাতে উন্নয়নের জন্য কোটি কোটি টাকা খরচ করছি, তাহলে এভাবে হাজার হাজার কোটি টাকা জলে ফেলার এই দৃশ্য তাকিয়ে দেখা ছাড়া আমাদের কিছু করার নেই। আর যদি আমরা আসলেই সত্যিকারের উন্নয়ন চাই তাহলে প্রকল্পের টাকাগুলো যত্রতত্র না খরচ করে বিশ্ববিদ্যালয়মুখী করতে হবে কাজের জন্য। উপযুক্ত জবাবদিহীতা নিশ্চিত করতে হবে। তাদের সাহায্য পরামর্শ নিতে হবে যারা এগুলো নিয়ে দেশে বিদেশে বিভিন্ন পর্যায়ে গবেষণা করছে। দেশের জন্য, নিজের ভাষার জন্য এইটুকু কাজ করার জন্য কারো আপত্তি থাকবেনা জানি। আমার অন্তত নেই এটা হলফ করে বলতে পারি।

রেফারেন্সঃ
[১] মুখেই হবে এবার বাংলা টাইপ
(http://bangla.bdnews24.com/tech/article1286860.bdnews)
[২] কম্পিউটারে বাংলা ভাষার ব্যবহার সহজ হবে
(http://bangla.samakal.net/2017/01/03/260167/print)
[৩] Research on Bangla Language Processing in Bangladesh: Progress and Challenges
(http://teacher.buet.ac.bd/mdsaifulislam/journal/L_and_D_2009.pdf)
[৪] বাংলা ওসিআর বিতর্কের নেপথ্যে
( https://www.priyo.com/articles/bengali-ocr-controversy-201732)
[৫] Hector Garcia-Molina
(https://www.oracle.com/corporate/executives/hector-garcia-molina.html)
[৬] A User Interaction Based Community Detection Algorithm for Online Social Networks (https://drive.google.com/file/d/0BzJfvbMkJOP6bWozNXJQRjkxV2c/edit)

সুদীপ্ত কর: পিএইচডি (ন্যাচরাল ল্যাঙ্গুয়েজ প্রসেসিং) অধ্যয়নরত
ইউনিভারসিটি অফ হিউস্টন, যুক্তরাষ্ট্র।

Most Popular

To Top