
কল্পনা করুন যে একটি রোবট আপনাকে থালা-বাসন পরিষ্কার করতে সাহায্য করছে। আপনি এটিকে সিঙ্ক থেকে একটি সাবান বাটি নিতে বলুন, কিন্তু এর গ্রিপারটি সামান্য চিহ্নটি মিস করে।
MIT এবং NVIDIA গবেষকদের দ্বারা তৈরি একটি নতুন কাঠামো ব্যবহার করে, আপনি সাধারণ মিথস্ক্রিয়াগুলির সাথে সেই রোবটের আচরণকে সূক্ষ্ম-টিউন করতে পারেন। এই পদ্ধতিটি আপনাকে বাটিটির দিকে নির্দেশ করতে বা স্ক্রিনে এর গতিপথ ট্রেস করতে বা রোবটের হাতটিকে সঠিক দিকে নির্দেশ করতে দেয়।
একটি রোবটের আচরণকে ফাইন-টিউনিং করার অন্যান্য পদ্ধতির বিপরীতে, এই প্রযুক্তির জন্য ব্যবহারকারীদের নতুন ডেটা সংগ্রহ করতে এবং মেশিন-লার্নিং মডেলগুলিকে পুনরায় প্রশিক্ষণ দেওয়ার প্রয়োজন হয় না যা রোবটের মস্তিষ্ককে শক্তি দেয়। এটি একটি রোবটকে স্বজ্ঞাত, রিয়েল-টাইম মানব প্রতিক্রিয়া ব্যবহার করতে সক্ষম করে একটি কার্যকর অ্যাকশন সিকোয়েন্স বেছে নিতে যা ব্যবহারকারীর অভিপ্রায়কে সন্তুষ্ট করার যতটা সম্ভব কাছাকাছি আসে।
গবেষকরা যখন তাদের কাঠামো পরীক্ষা করেন, তখন এর সাফল্যের হার একটি বিকল্প পদ্ধতির তুলনায় 21 শতাংশ বেশি ছিল যা মানুষের হস্তক্ষেপের সুবিধা নেয়নি।
দীর্ঘ মেয়াদে, এই ফ্রেমওয়ার্ক ব্যবহারকারীদের ফ্যাক্টরি-প্রশিক্ষিত রোবটকে বিভিন্ন ধরনের গৃহস্থালী কাজ সম্পাদনের জন্য আরও সহজে গাইড করতে সক্ষম করতে পারে, এমনকি রোবটটি তাদের বাড়ি বা এতে থাকা বস্তুগুলি না দেখেও।
“আমরা আশা করতে পারি না যে সাধারণ মানুষ ডেটা সংগ্রহ করবে এবং নিউরাল নেটওয়ার্ক মডেলগুলিকে সূক্ষ্ম-সুখ করবে৷ গ্রাহকরা আশা করবেন যে রোবটটি বাক্সের বাইরে কাজ করবে, এবং যদি তা না হয় তবে তারা এটির সাথে খাপ খাইয়ে নেওয়ার জন্য একটি স্বজ্ঞাত প্রক্রিয়া চাইবে৷ এই কাজটিতে আমরা এই চ্যালেঞ্জটি মোকাবেলা করেছি,” বলেছেন ফেলিক্স ইয়ানওয়েই ওয়াং, একজন স্নাতক এবং ইলেকট্রিক ইঞ্জিনের সিএস ইঞ্জিনের স্নাতক ছাত্র এবং কম্পিউটার বিজ্ঞানের পেপারের প্রধান ছাত্র। পদ্ধতি
তার সহ-লেখকদের মধ্যে রয়েছে লিরুই ওয়াং পিএইচডি ’24 এবং ইলুন ডু পিএইচডি ’24; সিনিয়র লেখক জুলি শাহ, এমআইটি এর অ্যারোনটিক্স এবং অ্যাস্ট্রোনটিক্সের অধ্যাপক এবং কম্পিউটার সায়েন্স অ্যান্ড আর্টিফিশিয়াল ইন্টেলিজেন্স ল্যাবরেটরি (সিএসএআইএল) এর ইন্টারঅ্যাকটিভ রোবোটিক্স গ্রুপের পরিচালক; পাশাপাশি বালাকুমার সুন্দরলিঙ্গম, জুনিং ইয়াং, ইউ-ওয়েই চাও, ক্লডিয়া পেরেজ-ডি’আর্পিনো পিএইচডি ’19, এবং এনভিআইডিআইএর ডায়েটার ফক্স। এই গবেষণাটি রোবট এবং অটোমেশনের আন্তর্জাতিক সম্মেলনে উপস্থাপন করা হবে।
মিসলাইনমেন্ট কমাতে
সম্প্রতি, গবেষকরা একটি “নীতি” বা নিয়মের সেট শেখার জন্য প্রাক-প্রশিক্ষিত জেনারেটিভ এআই মডেলগুলি ব্যবহার করতে শুরু করেছেন, যা একটি রোবট একটি ক্রিয়া সম্পন্ন করতে অনুসরণ করে। জেনারেটিভ মডেল অনেক জটিল কাজ সমাধান করতে পারে।
প্রশিক্ষণের সময়, মডেলটি শুধুমাত্র সম্ভাব্য রোবট গতি দেখে, তাই এটি রোবটের অনুসরণ করার জন্য বৈধ ট্র্যাজেক্টোরি তৈরি করতে শেখে।
যদিও এই ট্রাজেক্টোরিগুলি বৈধ, এর মানে এই নয় যে তারা সবসময় বাস্তব জগতে ব্যবহারকারীর অভিপ্রায়ের সাথে সারিবদ্ধ থাকে৷ রোবটকে হয়ত বাক্সগুলি না ফেলে একটি শেল্ফ থেকে বাক্সগুলি টানতে প্রশিক্ষিত করা হয়েছে, তবে এটি প্রশিক্ষণের সময় যে বাক্সগুলি দেখেছিল তার চেয়ে অন্য দিকে অভিমুখী হলে এটি একজনের বুকশেলফের উপরে রাখা একটি বাক্সে পৌঁছাতে ব্যর্থ হতে পারে।
এই ব্যর্থতাগুলি কাটিয়ে উঠতে, ইঞ্জিনিয়াররা সাধারণত নতুন ফাংশনকে প্রতিফলিত করে ডেটা সংগ্রহ করে এবং জেনারেটিভ মডেলটিকে পুনরায় প্রশিক্ষণ দেয়, একটি ব্যয়বহুল এবং সময়সাপেক্ষ প্রক্রিয়া যার জন্য মেশিন-লার্নিং দক্ষতার প্রয়োজন হয়।
পরিবর্তে, এমআইটি গবেষকরা ব্যবহারকারীদের মোতায়েনের সময় রোবটের আচরণ নিয়ন্ত্রণ করার অনুমতি দিতে চেয়েছিলেন যদি কোনও ভুল ঘটে।
কিন্তু যদি একজন মানুষ তার আচরণ সংশোধন করতে রোবটের সাথে যোগাযোগ করে, তাহলে এটি অসাবধানতাবশত জেনারেটিভ মডেলটিকে একটি অবৈধ পদক্ষেপ বেছে নিতে পারে। এটি ব্যবহারকারীর পছন্দের বাক্সে পৌঁছাতে পারে, কিন্তু প্রক্রিয়ায় বইগুলি তাক থেকে পড়ে যায়৷
“আমরা ব্যবহারকারীকে এই ধরনের ভুলগুলি প্রবর্তন না করেই রোবটের সাথে যোগাযোগ করার অনুমতি দিতে চাই, তাই আমরা এমন একটি আচরণ পাই যা স্থাপনের সময় ব্যবহারকারীর অভিপ্রায়ের সাথে আরও সংগতিপূর্ণ, তবে এটিও বৈধ এবং সম্ভাব্য,” ওয়াং বলেছেন।
তাদের ফ্রেমওয়ার্ক ব্যবহারকারীকে রোবটের আচরণ সংশোধন করার তিনটি স্বজ্ঞাত উপায় প্রদান করে এটি সম্পন্ন করে, যার প্রতিটি নির্দিষ্ট সুবিধা প্রদান করে।
প্রথমত, ব্যবহারকারী এমন বস্তুর দিকে নির্দেশ করতে পারেন যেটি তারা চান যে রোবটটি একটি ইন্টারফেসে ম্যানিপুলেট করুক যা তার ক্যামেরা ভিউ দেখায়। দ্বিতীয়ত, তারা সেই ইন্টারফেসে একটি ট্র্যাজেক্টোরি ট্রেস করতে পারে, যাতে তারা নির্দিষ্ট করতে দেয় যে তারা কীভাবে রোবটটি বস্তুর কাছে যেতে চায়। তৃতীয়ত, তারা শারীরিকভাবে রোবটের হাতকে যে দিকে সরাতে চায় সেদিকে নাড়াতে পারে।
“যখন আপনি পরিবেশের একটি 2D চিত্রকে 3D স্পেসে কর্মের সাথে ম্যাপ করছেন, তখন কিছু তথ্য হারিয়ে যায়। শারীরিকভাবে রোবটকে চালিত করা কোনো তথ্য না হারিয়ে ব্যবহারকারীর অভিপ্রায় নির্দিষ্ট করার সবচেয়ে সরাসরি উপায়,” ওয়াং বলেছেন।
সাফল্যের জন্য নমুনা
এই মিথস্ক্রিয়াগুলি রোবটকে অন্য বস্তুর সাথে সংঘর্ষের মতো কোনও অবৈধ পদক্ষেপ নিতে না দেয় তা নিশ্চিত করার জন্য, গবেষকরা একটি নির্দিষ্ট নমুনা পদ্ধতি ব্যবহার করেন। এই কৌশলটি মডেলটিকে বৈধ ক্রিয়াগুলির একটি সেট থেকে একটি ক্রিয়া বেছে নিতে দেয় যা ব্যবহারকারীর লক্ষ্যের সাথে সবচেয়ে ঘনিষ্ঠভাবে মেলে৷
“ব্যবহারকারীর ইচ্ছাকে কেবল চাপিয়ে দেওয়ার পরিবর্তে, আমরা রোবটকে ব্যবহারকারী কী চায় তার একটি ধারণা দিই, তবে নমুনা প্রক্রিয়াটিকে তার শেখা আচরণের চারপাশে ঘুরতে দিন,” ওয়াং ব্যাখ্যা করেন।
এই নমুনা পদ্ধতিটি গবেষকদের কাঠামোকে একটি খেলনা রান্নাঘরে একটি বাস্তব রোবট হাত দিয়ে সিমুলেশন এবং পরীক্ষা-নিরীক্ষার সময় তুলনা করা অন্যান্য পদ্ধতিকে ছাড়িয়ে যেতে সক্ষম করে।
যদিও তাদের পদ্ধতিটি সর্বদা অবিলম্বে কাজটি সম্পূর্ণ নাও করতে পারে, এটি ব্যবহারকারীদের এই সুবিধা দেয় যে যদি তারা রোবটটিকে কিছু ভুল করতে দেখে তবে তারা এটি সম্পূর্ণ হওয়ার জন্য অপেক্ষা না করে এবং তারপরে নতুন নির্দেশনা দেওয়ার পরিবর্তে অবিলম্বে এটি সংশোধন করতে সক্ষম হয়।
উপরন্তু, ব্যবহারকারী সঠিক বাটিটি না নেওয়া পর্যন্ত রোবটটিকে কয়েকবার ধাক্কা দেওয়ার পরে, এটি সেই সংশোধনমূলক ক্রিয়াটি লগ করতে পারে এবং ভবিষ্যতের প্রশিক্ষণের মাধ্যমে এটিকে তার আচরণে অন্তর্ভুক্ত করতে পারে। তারপরে, পরের দিন, রোবটটি আর কোনও ঝামেলা ছাড়াই সঠিক বাটিটি নিতে পারে।
“কিন্তু সেই ক্রমাগত উন্নতির চাবিকাঠি হল ব্যবহারকারীর রোবটের সাথে যোগাযোগ করার একটি উপায়, যা আমরা এখানে দেখিয়েছি,” ওয়াং বলেছেন।
ভবিষ্যতে, গবেষকরা নমুনা প্রক্রিয়ার গতি বাড়াতে চান যখন এটির কার্যকারিতা বজায় রাখা বা উন্নত করা হয়। তারা নতুন পরিবেশে রোবট নীতি তৈরির সাথে পরীক্ষা করতে চায়।