নতুন প্রশিক্ষণ পদ্ধতি AI এজেন্টদের অনিশ্চিত পরিস্থিতিতে আরও ভাল পারফর্ম করতে সাহায্য করতে পারে

নতুন প্রশিক্ষণ পদ্ধতি AI এজেন্টদের অনিশ্চিত পরিস্থিতিতে আরও ভাল পারফর্ম করতে সাহায্য করতে পারে


একটি ফ্যাক্টরিতে গৃহস্থালীর কাজ সম্পাদনের জন্য প্রশিক্ষিত একটি হোম রোবট ব্যবহারকারীর রান্নাঘরে স্থাপন করার সময় কার্যকরভাবে সিঙ্ক পরিষ্কার করতে বা ট্র্যাশ বের করতে ব্যর্থ হতে পারে, কারণ এই নতুন পরিবেশটি তার প্রশিক্ষণের অবস্থান থেকে আলাদা।

এটি এড়াতে, প্রকৌশলীরা প্রায়শই সিমুলেটেড প্রশিক্ষণের পরিবেশকে বাস্তব জগতের সাথে যতটা সম্ভব ঘনিষ্ঠভাবে মেলাতে চেষ্টা করেন যেখানে এজেন্ট মোতায়েন করা হবে।

যাইহোক, এমআইটি এবং অন্যত্র গবেষকরা এখন খুঁজে পেয়েছেন যে, এই প্রচলিত প্রজ্ঞা থাকা সত্ত্বেও, সম্পূর্ণ ভিন্ন পরিবেশে প্রশিক্ষণের ফলে কখনও কখনও একটি ভাল-কর্মক্ষমতা সম্পন্ন কৃত্রিম বুদ্ধিমত্তা এজেন্ট হয়।

তাদের ফলাফলগুলি দেখায় যে, কিছু পরিস্থিতিতে, কম অনিশ্চয়তা বা “কোলাহলপূর্ণ” বিশ্বে একটি সিমুলেটেড AI এজেন্টকে প্রশিক্ষণ দেওয়া এটিকে একই, কোলাহলপূর্ণ বিশ্বে প্রশিক্ষিত একটি প্রতিযোগী AI এজেন্টকে ছাড়িয়ে যেতে সক্ষম করে, যা তারা উভয় এজেন্টকে পরীক্ষা করতে ব্যবহার করে।

গবেষকরা এই অপ্রত্যাশিত ঘটনাটিকে অভ্যন্তরীণ প্রশিক্ষণ প্রভাব বলে।

“যদি আমরা একটি অন্দর পরিবেশে টেনিস খেলতে শিখি যেখানে কোন কোলাহল নেই, আমরা আরও সহজে বিভিন্ন শট আয়ত্ত করতে পারি। তারপর, যদি আমরা একটি কোলাহলপূর্ণ পরিবেশে যাই, যেমন বাতাসযুক্ত টেনিস কোর্ট, তাহলে আমরা যদি বাতাসের পরিবেশে শিখতে শুরু করি তার চেয়ে আমাদের ভাল টেনিস খেলার সুযোগ বেশি হতে পারে,” ব্যাখ্যা করেন এমআইটি মিডিয়া ল্যাবের গবেষণা সহকারী সেরেনা বোনো, লেখিকা একটি প্রশিক্ষণ গবেষণামূলক গবেষণাপত্রের লেখক।

নতুন প্রশিক্ষণ পদ্ধতি AI এজেন্টদের অনিশ্চিত পরিস্থিতিতে আরও ভাল পারফর্ম করতে সাহায্য করতে পারে

ভিডিও চালান

অভ্যন্তরীণ-প্রশিক্ষণ প্রভাব: ট্রানজিশন ফাংশনে বন্টনগত পরিবর্তন থেকে অপ্রত্যাশিত সুবিধা।
ভিডিও: মস্তিষ্ক, মন এবং মেশিনের জন্য এমআইটি কেন্দ্র

গবেষকরা এআই এজেন্টদের আটারি গেম খেলার প্রশিক্ষণ দিয়ে এই ঘটনাটি অধ্যয়ন করেছেন, যা তারা কিছু অনির্দেশ্যতা যোগ করে পরিবর্তন করেছে। তিনি আশ্চর্য হয়েছিলেন যে আটারি গেমস এবং গেমের বৈচিত্রের মধ্যে অভ্যন্তরীণ প্রশিক্ষণের প্রভাব অব্যাহত রয়েছে।

তারা আশা করে যে এই ফলাফলগুলি এআই এজেন্টদের জন্য আরও ভাল প্রশিক্ষণ পদ্ধতি বিকাশের দিকে অতিরিক্ত গবেষণাকে উত্সাহিত করবে।

“এটি চিন্তার একটি সম্পূর্ণ নতুন অক্ষ। প্রশিক্ষণ এবং পরীক্ষার পরিবেশের সাথে মেলানোর চেষ্টা করার পরিবর্তে, আমরা সিমুলেটেড পরিবেশ তৈরি করতে সক্ষম হতে পারি যেখানে একজন এআই এজেন্ট আরও ভাল শিখতে পারে,” বলেছেন সহ-লেখক স্পন্দন মদন, হার্ভার্ড বিশ্ববিদ্যালয়ের একজন স্নাতক ছাত্র।

কাগজটিতে এমআইটি স্নাতক ছাত্র ইশান গ্রোভারের সাথে বোনো এবং মদনও রয়েছে; মাও ইয়াসুয়েদা, ইয়েল বিশ্ববিদ্যালয়ের একজন স্নাতক ছাত্র; সিনথিয়া ব্রাজিল, মিডিয়া আর্টস এবং বিজ্ঞানের অধ্যাপক এবং MIT মিডিয়া ল্যাবের ব্যক্তিগত রোবোটিক্স গ্রুপের নেতা; হ্যান্সপিটার ফিস্টার, হার্ভার্ডের কম্পিউটার সায়েন্সের অধ্যাপক অ্যান ওয়াং; এবং গ্যাব্রিয়েল ক্র্যাম্যান, হার্ভার্ড মেডিকেল স্কুলের অধ্যাপক। অ্যাসোসিয়েশন ফর দ্য অ্যাডভান্সমেন্ট অফ আর্টিফিশিয়াল ইন্টেলিজেন্স সম্মেলনে এই গবেষণাটি উপস্থাপন করা হবে।

প্রশিক্ষণের সমস্যা

রিইনফোর্সমেন্ট লার্নিং এজেন্টরা কেন তাদের প্রশিক্ষণের অবস্থান থেকে ভিন্ন পরিবেশে পরীক্ষা করার সময় এত খারাপভাবে কাজ করে তা খুঁজে বের করার জন্য গবেষকরা বের হন।

রিইনফোর্সমেন্ট লার্নিং হল একটি ট্রায়াল-এবং-এরর পদ্ধতি যেখানে একজন এজেন্ট একটি ট্রেনিং স্পেস অন্বেষণ করে এবং তার পুরষ্কার সর্বাধিক করে এমন ক্রিয়া সম্পাদন করতে শেখে।

দলটি একটি ট্রানজিশন ফাংশন নামে একটি কৌশল তৈরি করেছে যা স্পষ্টভাবে শক্তিবৃদ্ধি শেখার সমস্যার একটি উপাদানে একটি নির্দিষ্ট পরিমাণ শব্দ যোগ করার জন্য। ট্রানজিশন ফাংশন সম্ভাব্যতাকে সংজ্ঞায়িত করে যে একটি এজেন্ট একটি রাজ্য থেকে অন্য রাজ্যে যাবে তার বেছে নেওয়া কর্মের উপর নির্ভর করে।

যদি এজেন্ট প্যাক-ম্যান খেলছে, একটি ট্রানজিশন ফাংশন সম্ভাব্যতা নির্ধারণ করতে পারে যে গেম বোর্ডে ভূতগুলি উপরে, নীচে, বামে বা ডানদিকে সরে যাবে। স্ট্যান্ডার্ড রিইনফোর্সমেন্ট লার্নিং-এ, AI একই ট্রানজিশন ফাংশন ব্যবহার করে প্রশিক্ষিত এবং পরীক্ষা করা হবে।

গবেষকরা এই ঐতিহ্যগত পদ্ধতির সাথে রূপান্তর ফাংশনে শব্দ যোগ করেছেন এবং, যেমনটি প্রত্যাশিত, এটি এজেন্টের প্যাক-ম্যান কর্মক্ষমতাকে আঘাত করেছে।

কিন্তু যখন গবেষকরা এজেন্টকে একটি শব্দ-মুক্ত প্যাক-ম্যান গেমের সাথে প্রশিক্ষিত করেন, তারপরে এটি এমন একটি পরিবেশে পরীক্ষা করেন যেখানে তারা ট্রানজিশন ফাংশনে শব্দ ইনজেক্ট করে, এটি একটি গোলমাল খেলায় প্রশিক্ষিত এজেন্টের চেয়ে ভাল পারফর্ম করে।

“সাধারণ নিয়ম হল যে আপনি আপনার অর্থের জন্য সর্বাধিক ধাক্কা পেতে প্রশিক্ষণের সময় স্থাপনার অবস্থার রূপান্তর ফাংশনটি ক্যাপচার করার চেষ্টা করুন৷ আমরা আসলে এই অন্তর্দৃষ্টিটি পরীক্ষা করেছি কারণ আমরা নিজেরাই এটি বিশ্বাস করতে পারিনি,” মদন বলেছেন৷

ট্রানজিশন ফাংশনে বিভিন্ন পরিমাণে শব্দ ইনজেক্ট করা গবেষকদের একাধিক পরিবেশ পরীক্ষা করার অনুমতি দেয়, কিন্তু এটি বাস্তবসম্মত গেম তৈরি করেনি। তারা প্যাক-ম্যানে যত বেশি শব্দ করত, ততই সম্ভাবনা ছিল যে ভূতগুলি এলোমেলোভাবে বিভিন্ন বিভাগে টেলিপোর্ট করবে।

সাধারণ প্যাক-ম্যান গেমে ইনডোর প্রশিক্ষণের প্রভাব দেখা যায় কিনা তা দেখার জন্য, তারা অন্তর্নিহিত সম্ভাব্যতাগুলিকে সামঞ্জস্য করে যাতে ভূতগুলি স্বাভাবিকভাবে চলে তবে বাম এবং ডানের পরিবর্তে উপরে এবং নীচে যাওয়ার সম্ভাবনা বেশি। গোলমাল-মুক্ত পরিবেশে প্রশিক্ষিত এআই এজেন্টরা এই বাস্তবসম্মত গেমগুলিতে এখনও ভাল পারফর্ম করেছে।

বোনো বলেছেন, “এটি কেবলমাত্র একটি অ্যাড-হক পরিবেশ তৈরি করার জন্য যেভাবে আমরা শব্দ যোগ করেছি তার জন্য নয়। এটি শক্তিবৃদ্ধি শেখার সমস্যার একটি সম্পত্তি বলে মনে হচ্ছে। এবং এটি দেখতে আরও আশ্চর্যজনক ছিল।”

অন্বেষণ ব্যাখ্যা

যখন গবেষকরা ব্যাখ্যার সন্ধানে গভীরভাবে খনন করেন, তখন তারা এআই এজেন্টরা যেভাবে প্রশিক্ষণের স্থানটি অন্বেষণ করে তার মধ্যে কিছু পারস্পরিক সম্পর্ক লক্ষ্য করেন।

যখন উভয় AI এজেন্ট বেশিরভাগ একই এলাকাগুলি অন্বেষণ করে, তখন নন-নয়েজ পরিবেশে প্রশিক্ষিত এজেন্ট আরও ভাল পারফর্ম করে, সম্ভবত কারণ এজেন্টের পক্ষে গোলমালের হস্তক্ষেপ ছাড়াই গেমের নিয়মগুলি শিখতে সহজ।

কোলাহলপূর্ণ পরিবেশে প্রশিক্ষিত এজেন্টরা যদি তাদের অনুসন্ধানের ধরণ ভিন্ন হয় তবে তারা আরও ভাল কাজ করে। এটি হতে পারে কারণ এজেন্টকে প্যাটার্নগুলি বুঝতে হবে যা এটি একটি শব্দ-মুক্ত পরিবেশে শিখতে পারে না।

বোনো ব্যাখ্যা করেন, “যদি আমি কেবল শব্দমুক্ত পরিবেশে আমার ফোরহ্যান্ড দিয়ে টেনিস খেলতে শিখি, কিন্তু তারপরেও আমাকে গোলমাল-মুক্ত পরিবেশে আমার ব্যাকহ্যান্ড দিয়ে টেনিস খেলতে হয়, তাহলে আমি যেভাবে গোলমাল-মুক্ত পরিবেশে খেলতে পারব তেমনটাও খেলতে পারব না।”

ভবিষ্যতে, গবেষকরা আরও জটিল শক্তিবৃদ্ধি শিক্ষার পরিবেশে, বা কম্পিউটার দৃষ্টি এবং প্রাকৃতিক ভাষা প্রক্রিয়াকরণের মতো অন্যান্য প্রযুক্তির সাথে কীভাবে অভ্যন্তরীণ প্রশিক্ষণের প্রভাবগুলি কার্যকর হতে পারে তা অন্বেষণ করার আশা করছেন। তারা অন্দর প্রশিক্ষণ প্রভাবের সুবিধা নেওয়ার জন্য ডিজাইন করা প্রশিক্ষণ পরিবেশ তৈরি করতে চায়, যা এআই এজেন্টদের অনিশ্চিত পরিবেশে আরও ভাল পারফর্ম করতে সহায়তা করতে পারে।



Source link

Leave a Reply

Your email address will not be published. Required fields are marked *

ドングリキツツキ エーカーのアリゾナ エイカー・トゥディ・タイラント アダマワキジバト アデレードウグイス アデリーペンギン アドミラルティセミ アフェップ鳩 アフガニスタンのせせらぎ アフガニスタンスノーフィンチ アフリカフクロウ アフリカクロアヒル アフリカクロアマツバメ アフリカアオビタキ アフリカ青シジュウカラ アフリカヒロハシ科 アフリカンシトリル アフリカクビドバト アフリカクイナ アフリカクリムゾンフィンチ アフリカカッコウ アフリカカッコウタカ アフリカンダーター アフリカサバクグイス アフリカキビタキ アフリカドワーフカワセミ アフリカエメラルドカッコー アフリカヒレフット アフリカホタル アフリカウミワシ アフリカゴールデンオリオール オオタカ アフリカグラスフクロウ アフリカアオバト キビタキ アフリカハイイロサイチョウ アフリカハイイロキツツキ アフリカハリアーホーク アフリカオオタカ アフリカンヒルバブラー アフリカの趣味 アフリカヤツガシラ アフリカレンカク アフリカヌマハリアー アフリカのオリーブ鳩 アフリカシロチョウ アフリカミヤコドリ アフリカヤシツバメ アフリカサンコウチョウ アフリカペンギン アフリカンピキュレット アフリカオオサイチョウ アフリカセキレイ アフリカンピピット アフリカのピッタ アフリカピグミーガン アフリカピグミーカワセミ アフリカ鉄道 アフリカヒヨドリ アフリカオオヨシキリ アフリカンリバーマーチン アフリカンロックピピット アフリカクロトキ アフリカコノハズク アフリカモズキビタキ アフリカシルバービル アフリカンスキマー アフリカシギ アフリカヘラサギ アフリカマダラクリーパー アフリカストーンチャット アフリカの沼地 アフリカツグミ アフリカタゲリ アフリカモリフクロウ アフリカキイロウグイス アガミサギ 機敏な暴君 アギグオオヨシキリ アガラスハシブトヒバリ アハンタツメドリ エインリーズウミツバメ アケケエ アキアポラウ アキキキ アコヘコヘ アクンワシミミズク アラゴアスアリモサ アラゴアスキュラソー アラゴアスの落葉落穂拾い アラゴアス ティラヌレット アラオトラカイツブリ アルバーティーンフクロウ アルベルティーンすすのブーブー