ভাষা নির্বাচন করুন

কার্টুন ভিডিওর জন্য বর্ণনা সৃষ্টি: কাজের আনুষ্ঠানিকীকরণ, ডেটাসেট এবং মডেল

এই গবেষণাপত্রটি ভিডিওর জন্য বর্ণনা সৃষ্টির নতুন কাজটি উপস্থাপন করেছে, পেপা পিগ থেকে একটি ডেটাসেট তৈরি করেছে এবং সময় নির্ধারণ ও বিষয়বস্তু সৃষ্টির মডেল প্রস্তাব করেছে।
audio-novel.com | PDF Size: 0.4 MB
রেটিং: 4.5/5
আপনার রেটিং
আপনি ইতিমধ্যে এই ডকুমেন্ট রেট করেছেন
PDF ডকুমেন্ট কভার - কার্টুন ভিডিওর জন্য বর্ণনা সৃষ্টি: কাজের আনুষ্ঠানিকীকরণ, ডেটাসেট এবং মডেল

1. ভূমিকা ও কাজের সংজ্ঞা

এই গবেষণাপত্রটি বর্ণনা সৃষ্টি উপস্থাপন করে, যা মাল্টিমোডাল এআই-এর একটি নতুন কাজ যেখানে ভিডিওর জন্য প্রাসঙ্গিক, গল্পে অবদান রাখে এমন ভাষ্য তৈরি করা হয়। প্রচলিত ভিডিও ক্যাপশনিং থেকে এটি আলাদা, যা শুধুমাত্র দৃশ্যমান উপাদান বর্ণনা করে। বর্ণনা উচ্চ-স্তরের, প্রসঙ্গ-সচেতন পাঠ্য সরবরাহ করে যা গল্পের ধারাকে এগিয়ে নেয় এবং নির্দিষ্ট সময়সীমায় সন্নিবেশিত করার উদ্দেশ্যে তৈরি করা হয়। ভিডিও বর্ণনা থেকে এই কাজটি আলাদা কারণ বর্ণনাগুলো মেটাডেটা নয়, বরং ভিডিও আখ্যানের অবিচ্ছেদ্য অংশ, যা প্রায়শ সরাসরি দৃশ্যমান নয় এমন তথ্য অনুমান করে।

লেখকরা যুক্তি দেখান যে, সময়গত যুক্তির অতিরিক্ত জটিলতার কারণে, স্থির চিত্রের তুলনায় ভিডিও-ভিত্তিক পাঠ্য সৃষ্টির অগ্রগতি ধীর হয়েছে। এই কাজটি কাজটিকে আনুষ্ঠানিক রূপ দিয়ে এবং একটি নিবেদিত ডেটাসেট সরবরাহ করে সেই ব্যবধান পূরণের লক্ষ্য রাখে।

2. পেপা পিগ বর্ণনা ডেটাসেট

গবেষণাকে সহজতর করতে, লেখকরা অ্যানিমেটেড সিরিজ পেপা পিগ থেকে উৎসারিত একটি নতুন ডেটাসেট তৈরি করেছেন। এই পছন্দ বাস্তব-বিশ্বের ভিডিওর জটিলতা (যেমন আলো, আড়াল) এবং প্রাপ্তবয়স্ক সংলাপ থেকে দূরে সরে গিয়ে মূল পাঠ্য সৃষ্টি কৌশলগুলোর পরিষ্কার মূল্যায়নের সুযোগ দেয়।

2.1. ডেটাসেট সংগ্রহ ও বৈশিষ্ট্য

ডেটাসেটে ভিডিও ক্লিপ এবং তাদের সংশ্লিষ্ট সাবটাইটেল জোড়া রয়েছে, যা চরিত্রের সংলাপ এবং কথকের লাইনে বিভক্ত। কথকের লাইনগুলো সত্যিকারের বর্ণনা হিসেবে কাজ করে। প্রধান বৈশিষ্ট্যগুলোর মধ্যে রয়েছে:

  • উৎস: পেপা পিগ এর পর্বসমূহ।
  • বিষয়বস্তু: জোড়া ভিডিও ক্লিপ, সংলাপ সাবটাইটেল এবং কথক সাবটাইটেল।
  • উদ্দেশ্য: বর্ণনা সৃষ্টি মডেলগুলোকে প্রশিক্ষণ দিতে এবং মূল্যায়ন করতে সারিবদ্ধ মাল্টিমোডাল ডেটা (ভিজ্যুয়াল, অডিও, টেক্সট) সরবরাহ করে।

2.2. ডেটা ফরম্যাট ও উদাহরণ

প্রতিটি ডেটা পয়েন্টে একটি ভিডিও ক্লিপের সময়সীমা, দৃশ্য (প্রতিনিধিত্বকারী স্ন্যাপশট), চরিত্রের সংলাপ এবং লক্ষ্য বর্ণনা পাঠ্য অন্তর্ভুক্ত থাকে। পিডিএফ-এর চিত্র ১-এ দেখানো হয়েছে, বর্ণনাগুলো বর্ণনামূলক (যেমন "মিস্টার ডাইনোসর তার সাথে গুটিয়ে শুয়ে আছে") বা অনুমানমূলক/প্রাসঙ্গিক (যেমন "পেপা তার ছোট ভাই জর্জের দেখাশোনা করতে পছন্দ করে") হতে পারে, যা কাজটির জটিলতা তুলে ধরে।

ডেটাসেট থেকে উদাহরণ:

সময়সীমা: ০১:২৪ – ০১:২৭
সংলাপ: (এই ক্লিপে কিছু দেখানো হয়নি)
দৃশ্য: খেলনা ডাইনোসর নিয়ে বিছানায় জর্জ।
বর্ণনা: "যখন জর্জ ঘুমাতে যায়, মিস্টার ডাইনোসর তার সাথে গুটিয়ে শুয়ে থাকে।"

3. কাজের আনুষ্ঠানিকীকরণ ও পদ্ধতি

মূল অবদান হলো বর্ণনা সৃষ্টিকে দুটি পরস্পর নির্ভরশীল উপ-কাজে আনুষ্ঠানিকভাবে বিভক্ত করা।

3.1. দ্বি-পর্যায়ের কাজ: সময় নির্ধারণ ও বিষয়বস্তু

লেখকরা একটি স্পষ্ট বিভাজন প্রস্তাব করেন:

  1. সময় নির্ধারণ সৃষ্টি: ভিডিও টাইমলাইনের মধ্যে কখন একটি বর্ণনা সন্নিবেশিত করা উচিত তা নির্ধারণ করা। এতে প্রাকৃতিক বিরতি বা মুহূর্ত চিহ্নিত করা জড়িত যেখানে আখ্যানমূলক ভাষ্য উপযুক্ত হবে।
  2. বিষয়বস্তু সৃষ্টি: একটি ভিডিও সেগমেন্ট এবং তার প্রসঙ্গ দেওয়া থাকলে, বর্ণনা পাঠ্যে কী বলা উচিত তা তৈরি করা। এর জন্য গল্পের ধারা, চরিত্রের সম্পর্ক বোঝা এবং সম্পূর্ণরূপে দৃশ্যমান নয় এমন তথ্য অনুমান করা প্রয়োজন।

এই আনুষ্ঠানিকীকরণ অ্যানিমেশন এবং চলচ্চিত্রের প্রোডাকশন পাইপলাইনকে প্রতিফলিত করে, যেখানে সময় নির্ধারণ (সম্পাদনা) এবং বিষয়বস্তু (স্ক্রিপ্টিং) প্রায়শই আলাদা কিন্তু সমন্বিত প্রক্রিয়া।

3.2. প্রস্তাবিত মডেল আর্কিটেকচার

গবেষণাপত্রটি কাজটি সমাধানের জন্য মডেলের একটি সেট উপস্থাপন করে। প্রদত্ত অংশে নির্দিষ্ট আর্কিটেকচারাল বিবরণ সংক্ষিপ্ত করা হলেও, পদ্ধতিতে সম্ভবত নিম্নলিখিতগুলো জড়িত:

  • মাল্টিমোডাল এনকোডার: ভিজ্যুয়াল বৈশিষ্ট্য (ভিডিও ফ্রেম থেকে) এবং টেক্সচুয়াল বৈশিষ্ট্য (সংলাপ সাবটাইটেল থেকে) প্রক্রিয়াকরণ।
  • সময়গত মডেলিং: সময় জুড়ে প্রসঙ্গ ধারণ করতে সিকোয়েন্স মডেল (যেমন এলএসটিএম, ট্রান্সফরমার) ব্যবহার।
  • দ্বৈত-ডিকোডার বা পাইপলাইন: বর্ণনার সময়/সেগমেন্টেশন ভবিষ্যদ্বাণী করার জন্য একটি উপাদান এবং নির্বাচিত সেগমেন্টের উপর নির্ভর করে পাঠ্য তৈরি করার জন্য অন্য একটি উপাদান।

প্রশিক্ষণের জন্য একটি সম্ভাব্য সরলীকৃত উদ্দেশ্য ফাংশন সময় এবং বিষয়বস্তুর ক্ষতি একত্রিত করতে পারে: $\mathcal{L} = \lambda_{time} \mathcal{L}_{time} + \lambda_{content} \mathcal{L}_{content}$, যেখানে $\mathcal{L}_{content}$ পাঠ্য সৃষ্টির জন্য ক্রস-এনট্রপি ক্ষতি হতে পারে এবং $\mathcal{L}_{time}$ একটি রিগ্রেশন বা বাউন্ডারি ডিটেকশন ক্ষতি হতে পারে।

4. পরীক্ষামূলক সেটআপ ও ফলাফল

মডেলগুলো নতুন তৈরি করা পেপা পিগ ডেটাসেটে মূল্যায়ন করা হয়েছে।

4.1. মূল্যায়ন মেট্রিক্স

স্ট্যান্ডার্ড ন্যাচারাল ল্যাঙ্গুয়েজ জেনারেশন (এনএলজি) মেট্রিক্স ব্যবহার করা হয়েছে, যেমন:

  • ব্লিউ (বিলিঙ্গুয়াল ইভ্যালুয়েশন আন্ডারস্টাডি): রেফারেন্স টেক্সটের বিরুদ্ধে এন-গ্রাম প্রিসিশন পরিমাপ করে।
  • রুজ (রিকল-ওরিয়েন্টেড আন্ডারস্টাডি ফর গিস্টিং ইভ্যালুয়েশন): এন-গ্রাম এবং শব্দ ক্রমের রিকলের উপর ফোকাস করে।
  • মিটিওর (মেট্রিক ফর ইভ্যালুয়েশন অফ ট্রান্সলেশন উইথ এক্সপ্লিসিট অর্ডারিং): সমার্থকতা এবং স্টেমিং বিবেচনা করে, যা মানুষের বিচারের সাথে বেশি সামঞ্জস্যপূর্ণ।
  • সিডার (কনসেনসাস-বেসড ইমেজ ডিসক্রিপশন ইভ্যালুয়েশন): মূলত ইমেজ ক্যাপশনিং-এর জন্য, এটি টিএফ-আইডিএফ ওয়েটিংয়ের মাধ্যমে ঐক্যমত পরিমাপ করে, যা সাধারণ আখ্যানমূলক বাক্যাংশ মূল্যায়নের জন্য সম্ভাব্য উপযোগী।

সময় নির্ধারণের নির্ভুলতা ভবিষ্যদ্বাণীকৃত এবং সত্যিকারের বর্ণনা সেগমেন্টগুলোর মধ্যে ইন্টারসেকশন-ওভার-ইউনিয়ন (আইওইউ) ব্যবহার করে পরিমাপ করা যেতে পারে।

4.2. প্রধান ফলাফল ও কার্যকারিতা

সম্পূর্ণ ফলাফল অংশে নেই, তবে গবেষণাপত্রটি সম্ভবত দেখায় যে:

  • ভিজ্যুয়াল এবং সংলাপ প্রসঙ্গ উভয়ই ব্যবহার করে এমন মডেলগুলো শুধুমাত্র ভিজ্যুয়াল বেসলাইনগুলোর চেয়ে ভালো কার্যকারিতা দেখায়।
  • দ্বি-পর্যায়ের পদ্ধতি (প্রথমে সময় নির্ধারণ, তারপর বিষয়বস্তু) টাইমস্ট্যাম্প সহ পাঠ্যের এন্ড-টু-এন্ড সৃষ্টির তুলনায় উপকারী।
  • বর্ণনা সৃষ্টি স্ট্যান্ডার্ড ক্যাপশনিং-এর চেয়ে বেশি চ্যালেঞ্জিং, যা এর প্রাসঙ্গিক এবং অনুমানমূলক প্রকৃতির কারণে স্বয়ংক্রিয় মেট্রিক স্কোর কমে প্রতিফলিত হয়।

কার্যকারিতা অন্তর্দৃষ্টি

মডেলগুলো বর্ণনামূলক বর্ণনার (যেমন "মিস্টার ডাইনোসর গুটিয়ে শুয়ে আছে...") তুলনায় অনুমানমূলক বর্ণনা (যেমন "পেপা তার ছোট ভাইয়ের দেখাশোনা করতে পছন্দ করে...") তৈরি করতে সবচেয়ে বেশি সংগ্রাম করে, যা গভীর আখ্যানমূলক বোঝার প্রয়োজনীয়তা তুলে ধরে।

5. প্রযুক্তিগত বিশ্লেষণ ও কাঠামো

মূল অন্তর্দৃষ্টি, যৌক্তিক প্রবাহ, শক্তি ও দুর্বলতা, কার্যকরী অন্তর্দৃষ্টি

মূল অন্তর্দৃষ্টি: গবেষণাপত্রের মৌলিক অগ্রগতি হলো এই স্বীকৃতি যে ভিডিও বর্ণনা শুধু অভিনব ক্যাপশনিং নয়—এটি একটি পরিচালক এবং সম্পাদকীয় এআই কাজ। এর জন্য মডেলটিকে গল্প সম্পাদক হিসেবে কাজ করতে হয়, শুধু কী বলতে হবে তা নয়, বরং গুরুত্বপূর্ণভাবে কখন বলতে হবে তা আখ্যানমূলক প্রভাব সর্বাধিক করার জন্য নির্ধারণ করতে হয়। এটি ঘন ভিডিও বর্ণনার (যেমন অ্যাক্টিভিটি নেট ক্যাপশন) সুপরিচিত পথ থেকে আলাদা এবং কম্পিউটেশনাল স্টোরিটেলিং এবং স্বয়ংক্রিয় ভিডিও সম্পাদনার কাছাকাছি সারিবদ্ধ করে।

যৌক্তিক প্রবাহ: লেখকদের যুক্তি প্রশংসনীয়ভাবে পরিষ্কার: ১) কার্টুন ডেটা (পেপা পিগ) ব্যবহার করে সমস্যাটি বিচ্ছিন্ন করা যাতে কোলাহলপূর্ণ বাস্তব-বিশ্বের ভিজ্যুয়াল শব্দার্থবিদ্যা দূর করা যায়, ২) একক "বর্ণনা তৈরি" কাজটিকে "সময় নির্ধারণ" (একটি সম্পাদনা সমস্যা) এবং "বিষয়বস্তু" (একটি স্ক্রিপ্টিং সমস্যা) শিল্প-মানের পাইপলাইনে বিভক্ত করা, এবং ৩) অগ্রগতি পরিমাপের জন্য একটি বেঞ্চমার্ক ডেটাসেট সরবরাহ করা। এটি কার্যকর এআই গবেষণার জন্য একটি ক্লাসিক রেসিপি: সংজ্ঞায়িত করা, বিভক্ত করা এবং বেঞ্চমার্ক করা।

শক্তি ও দুর্বলতা: শক্তি কাজের সংজ্ঞা এবং ডেটাসেট তৈরিতে—এটি সত্যিই নতুন এবং দরকারী একটি ক্ষেত্র। পেপা পিগ-এর পছন্দ বিমূর্ততার জন্য চালাক কিন্তু একটি বড় দুর্বলতাও। এটি একটি সম্ভাব্য "কার্টুন ব্যবধান" তৈরি করে; এই শৈলীবদ্ধ, নিয়ম-বদ্ধ বিশ্বে প্রশিক্ষিত মডেলগুলো লাইভ-অ্যাকশন ভিডিওর বিশৃঙ্খল, অস্পষ্ট আখ্যানগুলোর উপর বিপর্যয়করভাবে ব্যর্থ হতে পারে। রোবোটিক্সে সিমুলেটেড থেকে বাস্তব পরিবেশে মডেল স্থানান্তরের চ্যালেঞ্জে দেখা গেছে (ওপেনএআই-এর ডোমেন র্যান্ডমাইজেশন গবেষণায় আলোচিত), এটি একটি তুচ্ছ লাফ নয়। তদুপরি, গবেষণাপত্রটি ইঙ্গিত দেয় কিন্তু মূল্যায়ন সমস্যার সাথে সম্পূর্ণরূপে grapple করে না। ব্লিউ-এর মতো মেট্রিক্স আখ্যানমূলক সংহতি এবং উদ্দেশ্য ধারণ করতে কুখ্যাতভাবে দুর্বল। আপনি কীভাবে স্কোর করবেন যদি একটি বর্ণনা "গভীর অন্তর্দৃষ্টিপূর্ণ" বা "নাটকীয়ভাবে ভালো সময়ে" দেওয়া হয়?

কার্যকরী অন্তর্দৃষ্টি: অনুশীলনকারীদের জন্য, তাৎক্ষণিক উপলব্ধি হলো আখ্যানমূলক উপাদান সহ ভিডিও এআই প্রকল্পগুলোকে দ্বি-পর্যায়ের পাইপলাইন হিসেবে বিবেচনা করা। শুধু ভিডিওকে একটি টেক্সট জেনারেটরে ফিড করবেন না। প্রথমে, "আখ্যানমূলক বিট" বা "সম্পাদনা পয়েন্ট" (সময় নির্ধারণের কাজ) চিহ্নিত করতে একটি মডেল তৈরি বা ব্যবহার করুন। ভিডিও সারসংক্ষেপ এবং হাইলাইট শনাক্তকরণের জন্য এর স্বতন্ত্র মূল্য রয়েছে। দ্বিতীয়ত, বিষয়বস্তু জেনারেটরকে অবশ্যই একটি প্রসঙ্গ উইন্ডো এর উপর নির্ভরশীল হতে হবে যাতে অতীতের ভিজ্যুয়াল গল্প এবং সংলাপ উভয়ই অন্তর্ভুক্ত থাকে, শুধুমাত্র তাৎক্ষণিক ফ্রেম নয়। গবেষকদের জন্য, পরবর্তী পদক্ষেপগুলো স্পষ্ট: ১) আরও জটিল, লাইভ-অ্যাকশন আখ্যান (যেমন সিটকম বা ডকুমেন্টারি থেকে) সহ ডেটাসেট তৈরি বা অভিযোজিত করে "কার্টুন ব্যবধান" আক্রমণ করা, এবং ২) নতুন মূল্যায়ন মেট্রিক্স উদ্ভাবন করা, সম্ভবত বড় ভাষা মডেল (এলএলএম) ব্যবহার করে আখ্যানমূলক গুণমানের জন্য বিচারক হিসেবে, একটি কৌশল যা মেটা এআই এবং অ্যানথ্রপিকের কাজে উল্লিখিত সংলাপ মূল্যায়নের মতো ক্ষেত্রে জনপ্রিয়তা অর্জন করছে।

বিশ্লেষণ কাঠামো উদাহরণ কেস

দৃশ্যকল্প: একটি শিক্ষামূলক কার্টুনের একটি সংক্ষিপ্ত ক্লিপ বিশ্লেষণ করা যেখানে একটি চরিত্র একটি খেলনা তৈরি করার চেষ্টা করছে।

  1. ইনপুট সেগমেন্টেশন: ৩০-সেকেন্ডের ক্লিপটিকে ৫-সেকেন্ডের ব্যবধানে ভাগ করুন। ভিজ্যুয়াল বৈশিষ্ট্য (বস্তু: ব্লক, হতাশ চরিত্র) এবং সংলাপ ("এটা ফিট হবে না!") নিষ্কাশন করুন।
  2. সময় নির্ধারণ মডিউল: মডেলটি ১৫-সেকেন্ডের চিহ্নে (হতাশার শীর্ষে) এবং ২৮-সেকেন্ডের চিহ্নে (সাফল্যের মুহূর্তে) একটি উচ্চ "আখ্যানমূলক স্কোর" চিহ্নিত করে।
  3. প্রসঙ্গ উইন্ডো: প্রথম পয়েন্টের জন্য, বিষয়বস্তু জেনারেটরটি ১০-২০ সেকেন্ড থেকে বৈশিষ্ট্য, প্লাস সমস্ত পূর্ববর্তী সংলাপ গ্রহণ করে।
  4. বিষয়বস্তু সৃষ্টি: প্রসঙ্গের উপর ভিত্তি করে, এটি বর্ণনা তৈরি করে: "স্যাম হতাশ হচ্ছে কারণ টুকরোগুলো মিলছে বলে মনে হচ্ছে না।" দ্বিতীয় পয়েন্টের জন্য: "একটি ভিন্ন পদ্ধতি চেষ্টা করার পর, স্যাম অবশেষে আবিষ্কার করে কিভাবে ব্লকগুলো সংযুক্ত হয়।"
  5. আউটপুট: তাদের সুনির্দিষ্ট টাইমস্ট্যাম্প এবং পাঠ্য সহ দুটি বর্ণনা সেগমেন্ট।

এই কাঠামোটি সময় নির্ধারণ (সম্পাদকীয়) এবং বিষয়বস্তু (স্ক্রিপ্টিং) সিদ্ধান্তের পৃথকীকরণ প্রদর্শন করে।

6. ভবিষ্যতের প্রয়োগ ও গবেষণার দিকনির্দেশ

এই গবেষণার প্রভাব একাডেমিক বেঞ্চমার্কের বাইরে প্রসারিত:

  • প্রবেশযোগ্যতা: দৃষ্টিপ্রতিবন্ধীদের জন্য বিস্তৃত পরিসরের ভিডিও বিষয়বস্তুর জন্য বর্ণনামূলক বর্ণনার স্বয়ংক্রিয় সৃষ্টি।
  • বিষয়বস্তু সৃষ্টি ও স্থানীয়করণ: শিক্ষামূলক ভিডিও, ডকুমেন্টারি বা কর্পোরেট প্রশিক্ষণ সামগ্রীর জন্য কথকের ট্র্যাকের দ্রুত সৃষ্টি, সম্ভবত একাধিক ভাষায়।
  • ইন্টারেক্টিভ মিডিয়া ও গেমিং: গতিশীল বর্ণনা যা খেলোয়াড়ের ক্রিয়া বা দর্শকের বোধগম্যতার স্তরের সাথে খাপ খায়।
  • ভিডিও সারসংক্ষেপ: আখ্যানমূলক সারসংক্ষেপ তৈরি করা যা শুধু ক্রিয়াগুলো তালিকাভুক্ত করার পরিবর্তে প্লট পয়েন্টগুলো হাইলাইট করে।

গবেষণার প্রধান দিকনির্দেশ:

  1. শৈলীবদ্ধতা ব্যবধান পূরণ: কার্টুন ডেটা থেকে বৈচিত্র্যময়, বাস্তব-বিশ্বের ভিডিও ধারায় মডেল স্থানান্তরের কৌশল উন্নয়ন।
  2. অডিও ও সঙ্গীত অন্তর্ভুক্তি: প্রদত্ত অংশটি ভিজ্যুয়াল এবং টেক্সচুয়াল কিউ-এর উপর ফোকাস করে। ভবিষ্যতের কাজে অবশ্যই অডিও বৈশিষ্ট্য (সাউন্ড ইফেক্ট, সঙ্গীতের সুর) অন্তর্ভুক্ত করতে হবে যা বর্ণনার সময় নির্ধারণ এবং আবেগময় বিষয়বস্তুর জন্য শক্তিশালী সংকেত।
  3. ব্যক্তিগতকৃত বর্ণনা: বিভিন্ন বয়সের গোষ্ঠী, সাংস্কৃতিক প্রসঙ্গ বা পূর্ব জ্ঞানের জন্য উপযোগী বর্ণনা তৈরি।
  4. ব্যাখ্যাযোগ্য ও নিয়ন্ত্রণযোগ্য সৃষ্টি: বিষয়বস্তু স্রষ্টাদের বর্ণনার শৈলী (যেমন রসাত্মক, গম্ভীর, রহস্যময়) নির্দেশ করতে বা হাইলাইট করার জন্য মূল পয়েন্ট নির্দিষ্ট করতে অনুমতি দেওয়া।

7. তথ্যসূত্র

  • Papasarantopoulos, N., & Cohen, S. B. (2021). Narration Generation for Cartoon Videos. arXiv preprint arXiv:2101.06803.
  • Bernardi, R., et al. (2016). Automatic Description Generation from Images: A Survey of Models, Datasets, and Evaluation Measures. Journal of Artificial Intelligence Research.
  • Gatt, A., & Krahmer, E. (2018). Survey of the State of the Art in Natural Language Generation: Core tasks, applications and evaluation. Journal of Artificial Intelligence Research.
  • Zhu, J.-Y., et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV). (CycleGAN - কার্টুন ব্যবধান পূরণের জন্য প্রাসঙ্গিক শৈলী স্থানান্তর ধারণার জন্য)।
  • OpenAI. (2018). Learning Dexterous In-Hand Manipulation. (সিম-টু-রিয়াল স্থানান্তরের জন্য ডোমেন র্যান্ডমাইজেশন নিয়ে আলোচনা করে)।
  • Meta AI. (2023). Innovations in LLM-based Evaluation for Dialogue and Summarization. (মূল্যায়নকারী হিসেবে এলএলএম ব্যবহার সম্পর্কে)।
  • Mostafazadeh, N., et al. (2016). A Corpus and Cloze Evaluation for Deeper Understanding of Commonsense Stories. Proceedings of NAACL-HLT.