
ওহ মাই গড। “AI” সিস্টেমগুলি সর্বত্র অনেক সমস্যা সৃষ্টি করে, বিশ্বের অন্যতম গুরুত্বপূর্ণ প্রযুক্তি সংস্থাগুলির সক্রিয়ভাবে জলদস্যুতা প্রচার করা একটি খারাপ চেহারা৷ কিন্তু দেখা যাচ্ছে যে মাইক্রোসফটের ডেভেলপার ব্লগে হোস্ট করা একটি পোস্টের সাথে দৃশ্যত পাইরেটেড সেটটি সক্রিয়ভাবে ব্যবহার করা হচ্ছে। হ্যারি পটার একটি Azure-ভিত্তিক “AI” সিস্টেম প্রশিক্ষণের অভিনব উপায়।
মাইক্রোসফটের সিনিয়র প্রোডাক্ট ম্যানেজার পূজা কামাথ লিখেছেন, “হ্যারি পটার সিরিজ, জে কে রাউলিংয়ের লেখা, সাতটি বইয়ের একটি বিশ্বব্যাপী প্রিয় সংগ্রহ যা একজন তরুণ জাদুকর, হ্যারি পটার এবং তার বন্ধুদের যাত্রার বর্ণনা দেয় যখন তারা দুষ্ট ভলডেমর্টের নেতৃত্বে অন্ধকার শক্তির সাথে যুদ্ধ করে।” ব্লগ পোস্টটি তখন একটি কাগল ডেটাসেট লিঙ্কের দিকে নির্দেশ করে যাতে সাতটি TXT ফাইল রয়েছে, দৃশ্যত সম্পূর্ণ প্রকাশিত উপন্যাস সিরিজ।
ব্লগ পোস্টটি Azure-এর মাধ্যমে অ্যাপ্লিকেশনগুলিতে জেনারেটিভ “AI” যোগ করার জন্য একটি নির্দেশিকা ছিল। ম্যানেজার বলেছিলেন যে এটি একটি প্রশ্নোত্তর সিস্টেম তৈরি বা স্বয়ংক্রিয়ভাবে তৈরি করতে ব্যবহার করা যেতে পারে হ্যারি পটার ফ্যান ফিকশন। “এই বৈশিষ্ট্যটি অবশ্যই পটারহেডসকে আনন্দিত করবে, তাদের নতুন অ্যাডভেঞ্চারগুলি অন্বেষণ করতে এবং তাদের নিজস্ব যাদুকথা তৈরি করার অনুমতি দেবে।” এটি একটি ট্রেনে দুটি শিশুর একটি এলএলএম-উত্পন্ন চিত্র দিয়ে শেষ হয়, দৃশ্যত হ্যারি পটার এবং রন উইজলির ব্যঙ্গচিত্র, তাদের মধ্যে একটি মাইক্রোসফ্ট লোগো রয়েছে৷
একটি প্রযুক্তিগত আইনি দৃষ্টিকোণ থেকে এটি একটি বড় মজার ‘না-না’. সব হ্যারি পটার অবশ্যই, উপন্যাসগুলি লেখক সহ বিশ্বের বিভিন্ন সংস্থার কপিরাইটের অধীনে রয়েছে। অ্যামাজনে একটি দ্রুত ব্রাউজ দেখায় যে ইবুক বিন্যাসে একটি সম্পূর্ণ সংগ্রহ লেখার সময় $70 USD খরচ করে৷ কোনো প্রকার রয়্যালটি না দিয়ে বিনামূল্যে ফাইল হোস্ট করা বা ডাউনলোড করা মূলত সর্বত্রই অপরাধ। হ্যাঁ, এটি ডাউনলোড করা অন্তর্ভুক্ত, এমনকি যদি আপনি এটিকে একটি বড় ভাষার মডেলে প্লাগ করতে চান৷
মূল Microsoft How-to post 2024 সালের শেষের দিকে প্রকাশিত হয়েছিল এবং সাইট থেকে সরিয়ে দেওয়া হয়েছে (যদিও এটি এখনও ইন্টারনেট আর্কাইভের মাধ্যমে অ্যাক্সেসযোগ্য)। আরস টেকনিকার একটি প্রতিবেদন অনুসারে, এটি কাগল ডেটাসেটের ক্ষেত্রেও, যা ভুলবশত “পাবলিক ডোমেন” হিসাবে চিহ্নিত করা হয়েছিল এবং প্রায় 10,000 বার ডাউনলোড করা হয়েছিল৷ ব্লগ পোস্ট এবং পাইরেটেড ডেটা সেট উভয়ই দেড় বছর ধরে রাডারের নীচে উড়ে গেছে বলে মনে হচ্ছে, যতক্ষণ না গতকাল একটি হ্যাকার নিউজ থ্রেড তাদের প্রতি নতুন মনোযোগ এনেছে।
এটা জঘন্য যে একজন মাইক্রোসফ্ট ম্যানেজার মাইক্রোসফ্ট ব্লগে একটি পাবলিক পোস্টে ইবুক পাইরেসি সম্পর্কে এতটা নৈমিত্তিক হবেন (যদিও কামাথ হয়তো বুঝতে পারেন না কিভাবে পাবলিক ডোমেইন সিস্টেম কাজ করে এবং ধরে নিয়েছিল যে ফাইলগুলি সঠিকভাবে চিহ্নিত করা হয়েছে।) কিন্তু সবচেয়ে জনপ্রিয় বৃহৎ ভাষার মডেলগুলিকে লক্ষ লক্ষ ই-বুকগুলিতে প্রশিক্ষণ দেওয়া হয়েছে, যার মধ্যে অনেকগুলি (সম্ভবত বেশিরভাগ) অবৈধ পাইরেসির মাধ্যমে ডাউনলোড করা হয়েছে৷
লেখকরা Meta/Facebook, OpenAI, Nvidia, Alphabet/Google, Anthropic, Microsoft, এবং অন্যান্যদের বিরুদ্ধে মামলা দায়ের করেছেন, যার উদ্দেশ্য কপিরাইটযুক্ত কাজের প্রশিক্ষণ বন্ধ করা এবং/অথবা অনুমতি ছাড়াই LLM প্রশিক্ষণে অন্তর্ভুক্ত বইগুলির জন্য পারিশ্রমিক চাওয়া। আদালতে প্রাথমিক ফলাফলগুলি মিশ্রিত হয়েছে, কখনও কখনও প্রশিক্ষণের মডেলগুলির ফলাফলগুলিকে “রূপান্তরকারী” হিসাবে খুঁজে পাওয়া যায় এবং এইভাবে মূল ডেটা থেকে উল্লেখযোগ্যভাবে আলাদা, যেমন, ন্যায্য ব্যবহার, এবং কেউ কেউ বিশ্বাস করে যে চুরির প্রাথমিক কাজগুলি এখনও বিচার করা উচিত।