একটি ফ্যাক্টরিতে গৃহস্থালীর কাজ সম্পাদনের জন্য প্রশিক্ষিত একটি হোম রোবট ব্যবহারকারীর রান্নাঘরে স্থাপন করার সময় কার্যকরভাবে সিঙ্ক পরিষ্কার করতে বা ট্র্যাশ বের করতে ব্যর্থ হতে পারে, কারণ এই নতুন পরিবেশটি তার প্রশিক্ষণের অবস্থান থেকে আলাদা।
এটি এড়াতে, প্রকৌশলীরা প্রায়শই সিমুলেটেড প্রশিক্ষণের পরিবেশকে বাস্তব জগতের সাথে যতটা সম্ভব ঘনিষ্ঠভাবে মেলাতে চেষ্টা করেন যেখানে এজেন্ট মোতায়েন করা হবে।
যাইহোক, এমআইটি এবং অন্যত্র গবেষকরা এখন খুঁজে পেয়েছেন যে, এই প্রচলিত প্রজ্ঞা থাকা সত্ত্বেও, সম্পূর্ণ ভিন্ন পরিবেশে প্রশিক্ষণের ফলে কখনও কখনও একটি ভাল-কর্মক্ষমতা সম্পন্ন কৃত্রিম বুদ্ধিমত্তা এজেন্ট হয়।
তাদের ফলাফলগুলি দেখায় যে, কিছু পরিস্থিতিতে, কম অনিশ্চয়তা বা “কোলাহলপূর্ণ” বিশ্বে একটি সিমুলেটেড AI এজেন্টকে প্রশিক্ষণ দেওয়া এটিকে একই, কোলাহলপূর্ণ বিশ্বে প্রশিক্ষিত একটি প্রতিযোগী AI এজেন্টকে ছাড়িয়ে যেতে সক্ষম করে, যা তারা উভয় এজেন্টকে পরীক্ষা করতে ব্যবহার করে।
গবেষকরা এই অপ্রত্যাশিত ঘটনাটিকে অভ্যন্তরীণ প্রশিক্ষণ প্রভাব বলে।
“যদি আমরা একটি অন্দর পরিবেশে টেনিস খেলতে শিখি যেখানে কোন কোলাহল নেই, আমরা আরও সহজে বিভিন্ন শট আয়ত্ত করতে পারি। তারপর, যদি আমরা একটি কোলাহলপূর্ণ পরিবেশে যাই, যেমন বাতাসযুক্ত টেনিস কোর্ট, তাহলে আমরা যদি বাতাসের পরিবেশে শিখতে শুরু করি তার চেয়ে আমাদের ভাল টেনিস খেলার সুযোগ বেশি হতে পারে,” ব্যাখ্যা করেন এমআইটি মিডিয়া ল্যাবের গবেষণা সহকারী সেরেনা বোনো, লেখিকা একটি প্রশিক্ষণ গবেষণামূলক গবেষণাপত্রের লেখক।
ভিডিও চালান
অভ্যন্তরীণ-প্রশিক্ষণ প্রভাব: ট্রানজিশন ফাংশনে বন্টনগত পরিবর্তন থেকে অপ্রত্যাশিত সুবিধা।
ভিডিও: মস্তিষ্ক, মন এবং মেশিনের জন্য এমআইটি কেন্দ্র
গবেষকরা এআই এজেন্টদের আটারি গেম খেলার প্রশিক্ষণ দিয়ে এই ঘটনাটি অধ্যয়ন করেছেন, যা তারা কিছু অনির্দেশ্যতা যোগ করে পরিবর্তন করেছে। তিনি আশ্চর্য হয়েছিলেন যে আটারি গেমস এবং গেমের বৈচিত্রের মধ্যে অভ্যন্তরীণ প্রশিক্ষণের প্রভাব অব্যাহত রয়েছে।
তারা আশা করে যে এই ফলাফলগুলি এআই এজেন্টদের জন্য আরও ভাল প্রশিক্ষণ পদ্ধতি বিকাশের দিকে অতিরিক্ত গবেষণাকে উত্সাহিত করবে।
“এটি চিন্তার একটি সম্পূর্ণ নতুন অক্ষ। প্রশিক্ষণ এবং পরীক্ষার পরিবেশের সাথে মেলানোর চেষ্টা করার পরিবর্তে, আমরা সিমুলেটেড পরিবেশ তৈরি করতে সক্ষম হতে পারি যেখানে একজন এআই এজেন্ট আরও ভাল শিখতে পারে,” বলেছেন সহ-লেখক স্পন্দন মদন, হার্ভার্ড বিশ্ববিদ্যালয়ের একজন স্নাতক ছাত্র।
কাগজটিতে এমআইটি স্নাতক ছাত্র ইশান গ্রোভারের সাথে বোনো এবং মদনও রয়েছে; মাও ইয়াসুয়েদা, ইয়েল বিশ্ববিদ্যালয়ের একজন স্নাতক ছাত্র; সিনথিয়া ব্রাজিল, মিডিয়া আর্টস এবং বিজ্ঞানের অধ্যাপক এবং MIT মিডিয়া ল্যাবের ব্যক্তিগত রোবোটিক্স গ্রুপের নেতা; হ্যান্সপিটার ফিস্টার, হার্ভার্ডের কম্পিউটার সায়েন্সের অধ্যাপক অ্যান ওয়াং; এবং গ্যাব্রিয়েল ক্র্যাম্যান, হার্ভার্ড মেডিকেল স্কুলের অধ্যাপক। অ্যাসোসিয়েশন ফর দ্য অ্যাডভান্সমেন্ট অফ আর্টিফিশিয়াল ইন্টেলিজেন্স সম্মেলনে এই গবেষণাটি উপস্থাপন করা হবে।
প্রশিক্ষণের সমস্যা
রিইনফোর্সমেন্ট লার্নিং এজেন্টরা কেন তাদের প্রশিক্ষণের অবস্থান থেকে ভিন্ন পরিবেশে পরীক্ষা করার সময় এত খারাপভাবে কাজ করে তা খুঁজে বের করার জন্য গবেষকরা বের হন।
রিইনফোর্সমেন্ট লার্নিং হল একটি ট্রায়াল-এবং-এরর পদ্ধতি যেখানে একজন এজেন্ট একটি ট্রেনিং স্পেস অন্বেষণ করে এবং তার পুরষ্কার সর্বাধিক করে এমন ক্রিয়া সম্পাদন করতে শেখে।
দলটি একটি ট্রানজিশন ফাংশন নামে একটি কৌশল তৈরি করেছে যা স্পষ্টভাবে শক্তিবৃদ্ধি শেখার সমস্যার একটি উপাদানে একটি নির্দিষ্ট পরিমাণ শব্দ যোগ করার জন্য। ট্রানজিশন ফাংশন সম্ভাব্যতাকে সংজ্ঞায়িত করে যে একটি এজেন্ট একটি রাজ্য থেকে অন্য রাজ্যে যাবে তার বেছে নেওয়া কর্মের উপর নির্ভর করে।
যদি এজেন্ট প্যাক-ম্যান খেলছে, একটি ট্রানজিশন ফাংশন সম্ভাব্যতা নির্ধারণ করতে পারে যে গেম বোর্ডে ভূতগুলি উপরে, নীচে, বামে বা ডানদিকে সরে যাবে। স্ট্যান্ডার্ড রিইনফোর্সমেন্ট লার্নিং-এ, AI একই ট্রানজিশন ফাংশন ব্যবহার করে প্রশিক্ষিত এবং পরীক্ষা করা হবে।
গবেষকরা এই ঐতিহ্যগত পদ্ধতির সাথে রূপান্তর ফাংশনে শব্দ যোগ করেছেন এবং, যেমনটি প্রত্যাশিত, এটি এজেন্টের প্যাক-ম্যান কর্মক্ষমতাকে আঘাত করেছে।
কিন্তু যখন গবেষকরা এজেন্টকে একটি শব্দ-মুক্ত প্যাক-ম্যান গেমের সাথে প্রশিক্ষিত করেন, তারপরে এটি এমন একটি পরিবেশে পরীক্ষা করেন যেখানে তারা ট্রানজিশন ফাংশনে শব্দ ইনজেক্ট করে, এটি একটি গোলমাল খেলায় প্রশিক্ষিত এজেন্টের চেয়ে ভাল পারফর্ম করে।
“সাধারণ নিয়ম হল যে আপনি আপনার অর্থের জন্য সর্বাধিক ধাক্কা পেতে প্রশিক্ষণের সময় স্থাপনার অবস্থার রূপান্তর ফাংশনটি ক্যাপচার করার চেষ্টা করুন৷ আমরা আসলে এই অন্তর্দৃষ্টিটি পরীক্ষা করেছি কারণ আমরা নিজেরাই এটি বিশ্বাস করতে পারিনি,” মদন বলেছেন৷
ট্রানজিশন ফাংশনে বিভিন্ন পরিমাণে শব্দ ইনজেক্ট করা গবেষকদের একাধিক পরিবেশ পরীক্ষা করার অনুমতি দেয়, কিন্তু এটি বাস্তবসম্মত গেম তৈরি করেনি। তারা প্যাক-ম্যানে যত বেশি শব্দ করত, ততই সম্ভাবনা ছিল যে ভূতগুলি এলোমেলোভাবে বিভিন্ন বিভাগে টেলিপোর্ট করবে।
সাধারণ প্যাক-ম্যান গেমে ইনডোর প্রশিক্ষণের প্রভাব দেখা যায় কিনা তা দেখার জন্য, তারা অন্তর্নিহিত সম্ভাব্যতাগুলিকে সামঞ্জস্য করে যাতে ভূতগুলি স্বাভাবিকভাবে চলে তবে বাম এবং ডানের পরিবর্তে উপরে এবং নীচে যাওয়ার সম্ভাবনা বেশি। গোলমাল-মুক্ত পরিবেশে প্রশিক্ষিত এআই এজেন্টরা এই বাস্তবসম্মত গেমগুলিতে এখনও ভাল পারফর্ম করেছে।
বোনো বলেছেন, “এটি কেবলমাত্র একটি অ্যাড-হক পরিবেশ তৈরি করার জন্য যেভাবে আমরা শব্দ যোগ করেছি তার জন্য নয়। এটি শক্তিবৃদ্ধি শেখার সমস্যার একটি সম্পত্তি বলে মনে হচ্ছে। এবং এটি দেখতে আরও আশ্চর্যজনক ছিল।”
অন্বেষণ ব্যাখ্যা
যখন গবেষকরা ব্যাখ্যার সন্ধানে গভীরভাবে খনন করেন, তখন তারা এআই এজেন্টরা যেভাবে প্রশিক্ষণের স্থানটি অন্বেষণ করে তার মধ্যে কিছু পারস্পরিক সম্পর্ক লক্ষ্য করেন।
যখন উভয় AI এজেন্ট বেশিরভাগ একই এলাকাগুলি অন্বেষণ করে, তখন নন-নয়েজ পরিবেশে প্রশিক্ষিত এজেন্ট আরও ভাল পারফর্ম করে, সম্ভবত কারণ এজেন্টের পক্ষে গোলমালের হস্তক্ষেপ ছাড়াই গেমের নিয়মগুলি শিখতে সহজ।
কোলাহলপূর্ণ পরিবেশে প্রশিক্ষিত এজেন্টরা যদি তাদের অনুসন্ধানের ধরণ ভিন্ন হয় তবে তারা আরও ভাল কাজ করে। এটি হতে পারে কারণ এজেন্টকে প্যাটার্নগুলি বুঝতে হবে যা এটি একটি শব্দ-মুক্ত পরিবেশে শিখতে পারে না।
বোনো ব্যাখ্যা করেন, “যদি আমি কেবল শব্দমুক্ত পরিবেশে আমার ফোরহ্যান্ড দিয়ে টেনিস খেলতে শিখি, কিন্তু তারপরেও আমাকে গোলমাল-মুক্ত পরিবেশে আমার ব্যাকহ্যান্ড দিয়ে টেনিস খেলতে হয়, তাহলে আমি যেভাবে গোলমাল-মুক্ত পরিবেশে খেলতে পারব তেমনটাও খেলতে পারব না।”
ভবিষ্যতে, গবেষকরা আরও জটিল শক্তিবৃদ্ধি শিক্ষার পরিবেশে, বা কম্পিউটার দৃষ্টি এবং প্রাকৃতিক ভাষা প্রক্রিয়াকরণের মতো অন্যান্য প্রযুক্তির সাথে কীভাবে অভ্যন্তরীণ প্রশিক্ষণের প্রভাবগুলি কার্যকর হতে পারে তা অন্বেষণ করার আশা করছেন। তারা অন্দর প্রশিক্ষণ প্রভাবের সুবিধা নেওয়ার জন্য ডিজাইন করা প্রশিক্ষণ পরিবেশ তৈরি করতে চায়, যা এআই এজেন্টদের অনিশ্চিত পরিবেশে আরও ভাল পারফর্ম করতে সহায়তা করতে পারে।