ভাষা নির্বাচন করুন

উচ্চারিত শব্দের ধ্বনিতাত্ত্বিক ও অর্থগত এম্বেডিং এবং কথ্য বিষয়বস্তু অনুসন্ধানে এর প্রয়োগ

উচ্চারিত শব্দের জন্য ধ্বনিতাত্ত্বিক ও অর্থগত তথ্য সমন্বিত একটি দ্বি-পর্যায়ের কাঠামো, যা সরল শব্দ মিলানোর বাইরে উন্নত কথ্য নথি অনুসন্ধান সক্ষম করে।
audio-novel.com | PDF Size: 0.3 MB
রেটিং: 4.5/5
আপনার রেটিং
আপনি ইতিমধ্যে এই ডকুমেন্ট রেট করেছেন
PDF ডকুমেন্ট কভার - উচ্চারিত শব্দের ধ্বনিতাত্ত্বিক ও অর্থগত এম্বেডিং এবং কথ্য বিষয়বস্তু অনুসন্ধানে এর প্রয়োগ

1. ভূমিকা

Word2Vec-এর মতো শব্দ এম্বেডিং কৌশলগুলি প্রসঙ্গের ভিত্তিতে পাঠ্য শব্দের মধ্যে অর্থগত সম্পর্ক ধারণ করে প্রাকৃতিক ভাষা প্রক্রিয়াকরণে বিপ্লব এনেছে। একইভাবে, কথ্য শব্দাংশ থেকে ধ্বনিতাত্ত্বিক কাঠামো আহরণের জন্য Audio Word2Vec তৈরি করা হয়েছে। তবে, প্রচলিত Audio Word2Vec শুধুমাত্র স্বতন্ত্র কথ্য শব্দের ভেতর থেকে শেখা ধ্বনিতাত্ত্বিক তথ্যের উপর মনোনিবেশ করে, বাক্যে শব্দের ক্রম থেকে উদ্ভূত অর্থগত প্রসঙ্গকে উপেক্ষা করে।

এই গবেষণাপত্রটি এই ফাঁক পূরণকারী একটি অভিনব দ্বি-পর্যায়ের কাঠামো প্রস্তাব করে। লক্ষ্য হলো কথ্য শব্দের জন্য ভেক্টর উপস্থাপনা তৈরি করা যা তাদের ধ্বনিতাত্ত্বিক গঠন এবং অর্থগত অর্থ উভয়ই ধারণ করে। এটি একটি চ্যালেঞ্জিং কাজ, কারণ গবেষণাপত্রে উল্লিখিত হয়েছে, ধ্বনিতাত্ত্বিক সাদৃশ্য এবং অর্থগত সম্পর্ক প্রায়শই পরস্পর স্বাধীন। উদাহরণস্বরূপ, "ভাই" এবং "বোন" অর্থগতভাবে কাছাকাছি কিন্তু ধ্বনিতাত্ত্বিকভাবে পৃথক, অন্যদিকে "ভাই" এবং "বিরক্ত করা" ধ্বনিতাত্ত্বিকভাবে সদৃশ কিন্তু অর্থগতভাবে সম্পর্কহীন। প্রস্তাবিত পদ্ধতিটি এই দুটি দিককে পৃথক করে এবং যৌথভাবে মডেল করার লক্ষ্য রাখে, যা অর্থগত কথ্য নথি অনুসন্ধানের মতো আরও শক্তিশালী প্রয়োগ সক্ষম করে, যেখানে শুধুমাত্র নির্দিষ্ট অনুসন্ধান শব্দ ধারণকারী নয়, বরং অনুসন্ধান ধারণার সাথে সম্পর্কিত নথিও পাওয়া যেতে পারে।

2. পদ্ধতি

মূল উদ্ভাবন হলো একটি অনুক্রমিক, দ্বি-পর্যায়ের এম্বেডিং প্রক্রিয়া যা প্রথমে ধ্বনিতাত্ত্বিক তথ্য পৃথক করার জন্য এবং তারপর তার উপর অর্থগত বোধ স্তরিত করার জন্য নকশা করা হয়েছে।

2.1 পর্যায় ১: বক্তা-বিচ্ছিন্নতা সহ ধ্বনিতাত্ত্বিক এম্বেডিং

প্রথম পর্যায়ে কাঁচা কথ্য শব্দাংশ প্রক্রিয়া করা হয়। এর প্রাথমিক উদ্দেশ্য হলো একটি মজবুত ধ্বনিতাত্ত্বিক এম্বেডিং শেখা—একটি ভেক্টর যা শব্দের ধ্বনিমালা উপস্থাপন করে—এবং একই সাথে বক্তার পরিচয় এবং রেকর্ডিং পরিবেশের মতো বিভ্রান্তিকর উপাদানগুলিকে স্পষ্টভাবে অপসারণ বা পৃথক করা। এটি অত্যন্ত গুরুত্বপূর্ণ কারণ বক্তার বৈশিষ্ট্যগুলি সংকেতকে প্রাধান্য দিতে পারে এবং অন্তর্নিহিত ধ্বনিতাত্ত্বিক বিষয়বস্তুকে অস্পষ্ট করে দিতে পারে। ডোমেন অভিযোজন বা প্রতিপক্ষ প্রশিক্ষণ দ্বারা অনুপ্রাণিত কৌশল (যেমন CycleGAN-এ বিচ্ছিন্নতা পদ্ধতির মতো) এখানে একটি বক্তা-নিরপেক্ষ ধ্বনিতাত্ত্বিক স্থান তৈরি করতে ব্যবহার করা হতে পারে।

2.2 পর্যায় ২: অর্থগত এম্বেডিং

দ্বিতীয় পর্যায়ে পর্যায় ১ থেকে প্রাপ্ত বক্তা-বিচ্ছিন্ন ধ্বনিতাত্ত্বিক এম্বেডিংগুলিকে ইনপুট হিসেবে নেওয়া হয়। তারপর এই এম্বেডিংগুলিকে একটি বাক্যের মধ্যে কথ্য শব্দের প্রসঙ্গ বিবেচনা করে প্রক্রিয়া করা হয়। এই ধ্বনিতাত্ত্বিক ভেক্টরগুলির ক্রম বিশ্লেষণ করে (যেমন, একটি পুনরাবৃত্তিমূলক নিউরাল নেটওয়ার্ক বা ট্রান্সফরমার স্থাপত্য ব্যবহার করে), মডেলটি পাঠ্য-ভিত্তিক Word2Vec-এর মতোই অর্থগত সম্পর্ক অনুমান করতে শেখে। এই পর্যায়ের আউটপুট হলো প্রতিটি কথ্য শব্দের চূড়ান্ত "ধ্বনিতাত্ত্বিক-ও-অর্থগত" এম্বেডিং।

2.3 মূল্যায়ন কাঠামো

এম্বেডিংগুলির দ্বৈত প্রকৃতি মূল্যায়ন করার জন্য, লেখকরা একটি সমান্তরাল মূল্যায়ন কৌশল প্রস্তাব করেছেন। ধ্বনিতাত্ত্বিক গুণমান মূল্যায়ন করা হয় কথ্য শব্দ শনাক্তকরণ বা ধ্বনিতাত্ত্বিক সাদৃশ্য ক্লাস্টারিং-এর মতো কাজের মাধ্যমে। অর্থগত গুণমান মূল্যায়ন করা হয় অডিও এম্বেডিংগুলিকে পূর্ব-প্রশিক্ষিত পাঠ্য শব্দ এম্বেডিং (যেমন, GloVe বা BERT এম্বেডিং) এর সাথে সারিবদ্ধ করে এবং তাদের ভেক্টর স্থানে বা অর্থগত কাজের কর্মক্ষমতার পারস্পরিক সম্পর্ক পরিমাপ করে।

3. প্রযুক্তিগত বিবরণ

3.1 গাণিতিক সূত্রায়ন

শেখার উদ্দেশ্যটি সম্ভবত একাধিক লস ফাংশনকে একত্রিত করে। পর্যায় ১-এর জন্য, একটি পুনর্গঠন বা বৈপরীত্য লস নিশ্চিত করে যে ধ্বনিতাত্ত্বিক বিষয়বস্তু সংরক্ষিত থাকে, যখন একটি প্রতিপক্ষ বা পারস্পরিক সম্পর্ক লস বক্তার তথ্য হ্রাস করে। পর্যায় ২-এর জন্য, একটি প্রসঙ্গ-ভিত্তিক পূর্বাভাস লস প্রয়োগ করা হয়, যেমন Word2Vec থেকে স্কিপ-গ্রাম বা CBOW উদ্দেশ্য। সম্পূর্ণ মডেলের জন্য একটি সম্মিলিত উদ্দেশ্য নিম্নরূপে ধারণা করা যেতে পারে:

$L_{total} = \lambda_1 L_{phonetic} + \lambda_2 L_{speaker\_inv} + \lambda_3 L_{semantic}$

যেখানে $L_{phonetic}$ ধ্বনিগত বিশ্বস্ততা নিশ্চিত করে, $L_{speaker\_inv}$ বিচ্ছিন্নতাকে উৎসাহিত করে, এবং $L_{semantic}$ প্রাসঙ্গিক শব্দ সম্পর্ক ধারণ করে।

3.2 মডেল স্থাপত্য

স্থাপত্যটি একটি গভীর নিউরাল নেটওয়ার্ক পাইপলাইন বলে ধারণা করা হয়। পর্যায় ১ স্পেক্ট্রোগ্রাম প্রক্রিয়া করার জন্য একটি কনভোলিউশনাল নিউরাল নেটওয়ার্ক (CNN) বা এনকোডার ব্যবহার করতে পারে, তারপর একটি বোতলনেক স্তর যা বক্তা-বিচ্ছিন্ন ধ্বনিতাত্ত্বিক ভেক্টর তৈরি করে। পর্যায় ২ সম্ভবত একটি ক্রম মডেল (RNN/LSTM/Transformer) ব্যবহার করে যা পর্যায়-১ ভেক্টরগুলির একটি ক্রম নেয় এবং প্রসঙ্গ-সচেতন এম্বেডিং আউটপুট করে। মডেলটি কথ্য বাক্যের একটি সংগ্রহে এন্ড-টু-এন্ড প্রশিক্ষিত হয়।

4. পরীক্ষামূলক ফলাফল

4.1 ডেটাসেট ও সেটআপ

পরীক্ষাগুলি একটি কথ্য নথি সংগ্রহে পরিচালিত হয়েছিল, সম্ভবত LibriSpeech বা সম্প্রচার সংবাদ-এর মতো উৎস থেকে প্রাপ্ত। সেটআপে দ্বি-পর্যায়ের মডেল প্রশিক্ষণ এবং স্ট্যান্ডার্ড Audio Word2Vec (শুধুমাত্র ধ্বনিতাত্ত্বিক) এবং পাঠ্য-ভিত্তিক এম্বেডিং-এর মতো বেসলাইনের সাথে তুলনা করা জড়িত ছিল।

4.2 কর্মদক্ষতা মেট্রিক্স

প্রধান মেট্রিক্সগুলির মধ্যে রয়েছে:

  • ধ্বনিতাত্ত্বিক অনুসন্ধান যথার্থতা/প্রত্যাহার: সঠিক কথ্য শব্দ মিল খুঁজে পেতে।
  • অর্থগত অনুসন্ধান MAP (গড় গড় যথার্থতা): একটি অনুসন্ধানের সাথে অর্থগতভাবে সম্পর্কিত নথি পুনরুদ্ধার করতে।
  • এম্বেডিং পারস্পরিক সম্পর্ক: অডিও এম্বেডিং এবং তাদের সংশ্লিষ্ট পাঠ্য শব্দ এম্বেডিংগুলির মধ্যে কোসাইন সাদৃশ্য।

4.3 ফলাফল বিশ্লেষণ

গবেষণাপত্রটি প্রাথমিকভাবে আশাব্যঞ্জক ফলাফল রিপোর্ট করে। প্রস্তাবিত দ্বি-পর্যায়ের এম্বেডিংগুলি অর্থগত অনুসন্ধান কাজে শুধুমাত্র ধ্বনিতাত্ত্বিক Audio Word2Vec-কে ছাড়িয়ে গেছে, সফলভাবে এমন নথি পুনরুদ্ধার করেছে যা বিষয়গতভাবে সম্পর্কিত কিন্তু অনুসন্ধান শব্দ ধারণ করে না। একই সাথে, তারা ধ্বনিতাত্ত্বিক অনুসন্ধান কাজে শক্তিশালী কর্মক্ষমতা বজায় রেখেছে, যা ধ্বনিতাত্ত্বিক তথ্যের ধারণ প্রদর্শন করে। সমান্তরাল মূল্যায়ন দেখায় যে বেসলাইন পদ্ধতির তুলনায় প্রস্তাবিত অডিও এম্বেডিং এবং পাঠ্য এম্বেডিংগুলির মধ্যে উচ্চতর পারস্পরিক সম্পর্ক রয়েছে।

মূল অন্তর্দৃষ্টি

  • দ্বি-পর্যায়ের পদ্ধতি কার্যকরভাবে ধ্বনিতাত্ত্বিক এবং অর্থগত তথ্যের শেখাকে বিচ্ছিন্ন করে।
  • পর্যায় ১-এ বক্তা বিচ্ছিন্নতা একটি পরিষ্কার ধ্বনিতাত্ত্বিক উপস্থাপনা গড়ে তোলার জন্য অত্যন্ত গুরুত্বপূর্ণ।
  • এই কাঠামো অডিও আর্কাইভে অর্থগত অনুসন্ধান সক্ষম করে, যা কীওয়ার্ড স্পটিং-এর চেয়ে একটি উল্লেখযোগ্য অগ্রগতি।

5. বিশ্লেষণ কাঠামোর উদাহরণ

কেস: একটি কথ্য বক্তৃতা অনুসন্ধান ব্যবস্থা মূল্যায়ন

দৃশ্যকল্প: একজন ব্যবহারকারী কথ্য বক্তৃতার একটি ডাটাবেসে "নিউরাল নেটওয়ার্ক অপ্টিমাইজেশন" বাক্যাংশ দিয়ে অনুসন্ধান করে।

প্রস্তাবিত এম্বেডিং সহ বিশ্লেষণ:

  1. ধ্বনিতাত্ত্বিক মিল: সিস্টেমটি এমন বক্তৃতাগুলি পুনরুদ্ধার করে যেখানে সঠিক বাক্যাংশ "নিউরাল নেটওয়ার্ক অপ্টিমাইজেশন" বলা হয়েছে (উচ্চ ধ্বনিতাত্ত্বিক সাদৃশ্য)।
  2. অর্থগত মিল: সিস্টেমটি "গ্রেডিয়েন্ট ডিসেন্ট", "ব্যাকপ্রপাগেশন", বা "অ্যাডাম অপ্টিমাইজার" নিয়ে আলোচনা করা বক্তৃতাগুলিও পুনরুদ্ধার করে, কারণ এই শব্দগুলির এম্বেডিংগুলি অনুসন্ধানের অর্থগত উপস্থানের কাছাকাছি।

মূল্যায়ন: ধ্বনিতাত্ত্বিক মিলের জন্য যথার্থতা গণনা করা হয়। অর্থগত মিলের জন্য, মানব অ্যানোটেটররা প্রাসঙ্গিকতা বিচার করে, এবং গড় গড় যথার্থতা (MAP) গণনা করা হয়। উভয় ধরনের ফলাফলের ভারসাম্য বজায় রাখার সিস্টেমের ক্ষমতা যৌথ এম্বেডিং-এর মূল্য প্রদর্শন করে।

6. প্রয়োগের সম্ভাবনা ও ভবিষ্যৎ দিকনির্দেশনা

প্রয়োগ:

  • বুদ্ধিমান ভয়েস সহকারী: আক্ষরিক কমান্ড মিলানোর বাইরে ব্যবহারকারীর অভিপ্রায় বোঝা।
  • মাল্টিমিডিয়া আর্কাইভ অনুসন্ধান: পডকাস্ট, মিটিং এবং ঐতিহাসিক অডিও রেকর্ডিং জুড়ে অর্থগত অনুসন্ধান।
  • অ্যাক্সেসিবিলিটি টুলস: অডিও-ভিত্তিক মিডিয়ায় দৃষ্টিপ্রতিবন্ধীদের জন্য উন্নত বিষয়বস্তু নেভিগেশন।
  • ক্রস-ভাষিক কথ্য অনুসন্ধান: সম্ভাব্যভাবে একটি ভাষায় বিষয়বস্তু খুঁজে পাওয়া অন্য ভাষায় একটি অনুসন্ধানের ভিত্তিতে, অর্থকে সেতু হিসেবে ব্যবহার করে।

ভবিষ্যৎ গবেষণার দিকনির্দেশনা:

  • পরিষ্কার ধ্বনিতাত্ত্বিক বৈশিষ্ট্যের জন্য আরও উন্নত বিচ্ছিন্নতা কৌশল (যেমন, Beta-VAE বা FactorVAE-এর উপর ভিত্তি করে) অন্বেষণ করা।
  • বৃহৎ-স্কেল পূর্ব-প্রশিক্ষিত বক্তৃতা মডেল (যেমন, Wav2Vec 2.0, HuBERT) এর সাথে একীভূত করা পর্যায় ১-এর জন্য একটি আরও শক্তিশালী ফ্রন্ট-এন্ড হিসেবে।
  • দীর্ঘ-পরিসরের আলোচনা এবং নথি-স্তরের অর্থ মডেল করার জন্য কাঠামো প্রসারিত করা।
  • বিরল শব্দের জন্য ফিউ-শট বা জিরো-শট লার্নিং তদন্ত করা।

7. তথ্যসূত্র

  1. Mikolov, T., et al. (2013). Efficient Estimation of Word Representations in Vector Space. arXiv:1301.3781.
  2. Chung, Y.-A., & Glass, J. (2018). Speech2Vec: A Sequence-to-Sequence Framework for Learning Word Embeddings from Speech. Interspeech.
  3. Zhu, J.-Y., et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. ICCV (CycleGAN).
  4. Baevski, A., et al. (2020). wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations. NeurIPS.
  5. Lee, H.-y., & Lee, L.-s. (2018). Audio Word2Vec: Unsupervised Learning of Audio Segment Representations using Sequence-to-sequence Autoencoder. IEEE/ACM TASLP.
  6. Chen, Y.-C., et al. (2019). Phonetic-and-Semantic Embedding of Spoken Words with Applications in Spoken Content Retrieval. arXiv:1807.08089v4.

8. বিশেষজ্ঞ বিশ্লেষণ

মূল অন্তর্দৃষ্টি: এই গবেষণাপত্রটি Audio Word2Vec-এর উপর আরেকটি ধারাবাহিক উন্নতি নয়; এটি বক্তৃতা এবং পাঠ্যের মধ্যে উপস্থাপনাগত ফাঁক বন্ধ করার দিকে একটি কৌশলগত মোড়। লেখকরা অডিওতে ধ্বনিতাত্ত্বিক এবং অর্থগত সংকেতের মধ্যে মৌলিক টানকে সঠিকভাবে চিহ্নিত করেছেন, শুধু একটি বিরক্তিকর বিষয় নয়, বরং মূল চ্যালেঞ্জ হিসেবে। তাদের দ্বি-পর্যায়ের পদ্ধতিটি একটি ব্যবহারিক, প্রকৌশল-মনস্ক সমাধান যা এই ক্ষেত্রের অনেকেই বক্তৃতাকে শুধু "কোলাহলপূর্ণ পাঠ্য" হিসেবে বিবেচনা করে উপেক্ষা করেছে। প্রকৃত অন্তর্দৃষ্টি হলো বক্তার বৈশিষ্ট্য এবং অন্যান্য ধ্বনিগত পরিবর্তনশীলতাকে প্রতিপক্ষ কোলাহল হিসেবে বিবেচনা করা যা অর্থগত শেখা শুরু হওয়ার আগেই অপসারণ করতে হবে, এটি কম্পিউটার ভিশনে বিচ্ছিন্নতা গবেষণার সাফল্য থেকে বিচক্ষণভাবে ধার করা একটি পদক্ষেপ (যেমন, CycleGAN-এর স্টাইল ট্রান্সফারের পিছনের নীতিগুলি)।

যুক্তিগত প্রবাহ: পদ্ধতির যুক্তি শক্তিশালী এবং রক্ষণযোগ্য। পর্যায় ১-এর বক্তা-নিরপেক্ষ ধ্বনিতাত্ত্বিকতার উপর ফোকাস অপরিহার্য—কাঁচা, বক্তা-নির্ভর বৈশিষ্ট্য থেকে অর্থ শেখার চেষ্টা করা নির্বোধের কাজ, যা দশক ধরে বক্তা শনাক্তকরণ গবেষণা দ্বারা নিশ্চিত হয়েছে। পর্যায় ২ তারপর প্রতিষ্ঠিত Word2Vec প্যারাডাইমকে চতুরভাবে পুনরায় উদ্দেশ্যে ব্যবহার করে, কিন্তু বিচ্ছিন্ন পাঠ্য টোকেনে কাজ করার পরিবর্তে, এটি অবিচ্ছিন্ন ধ্বনিতাত্ত্বিক এম্বেডিং-এ কাজ করে। এই প্রবাহটি মানুষের বক্তৃতা ডিকোড করার জ্ঞানীয় প্রক্রিয়াকে (ধ্বনিবিজ্ঞান → ধ্বনিমা → অর্থ) আরও ঘনিষ্ঠভাবে প্রতিফলিত করে, সেইসব এন্ড-টু-এন্ড মডেলের তুলনায় যা মধ্যবর্তী কাঠামো এড়িয়ে যায়।

শক্তি ও দুর্বলতা: প্রধান শক্তি হলো এর ব্যবহারিক প্রয়োগযোগ্যতা। কাঠামোটি সরাসরি অডিও আর্কাইভে অর্থগত অনুসন্ধান সক্ষম করে, যা তাৎক্ষণিক বাণিজ্যিক এবং গবেষণা মূল্য সহ একটি বৈশিষ্ট্য। সমান্তরাল মূল্যায়ন স্কিমটিও একটি শক্তি, যা একটি পরিষ্কার, বহুমুখী বেঞ্চমার্ক প্রদান করে। তবে, দুর্বলতা এর সম্ভাব্য ভঙ্গুরতা-তে নিহিত। পর্যায় ২-এর সাফল্য সম্পূর্ণরূপে পর্যায় ১-এর বিচ্ছিন্নতার নিখুঁততার উপর নির্ভরশীল। কোনো অবশিষ্ট বক্তা বা চ্যানেল তথ্য বিভ্রান্তিকর অর্থগত কোলাহলে পরিণত হয়। তদুপরি, মডেলটি সম্ভবত সমধ্বনি ("লিখুন" বনাম "সঠিক") নিয়ে সংগ্রাম করে, যেখানে ধ্বনিতাত্ত্বিক পরিচয় অভিন্ন কিন্তু অর্থ ভিন্ন হয়ে যায়—এটি একটি সমস্যা যা পাঠ্য এম্বেডিংগুলির নেই। গবেষণাপত্রের প্রাথমিক পরীক্ষাগুলি, যদিও আশাব্যঞ্জক, কোলাহলপূর্ণ, বহু-বক্তা, বাস্তব-বিশ্বের ডেটাসেটে স্কেলিং করে মজবুততা প্রমাণ করার প্রয়োজন।

কার্যকরী অন্তর্দৃষ্টি: অনুশীলনকারীদের জন্য, এই কাজটি একটি নীলনকশা। তাৎক্ষণিক পদক্ষেপ হলো এই দ্বি-পর্যায়ের পাইপলাইনটি মালিকানাধীন অডিও ডেটাতে প্রয়োগ এবং পরীক্ষা করা। মূল্যায়নকে অবশ্যই একাডেমিক মেট্রিক্সের বাইরে গিয়ে অনুসন্ধান সন্তুষ্টির উপর ব্যবহারকারী গবেষণা অন্তর্ভুক্ত করতে হবে। গবেষকদের জন্য, সামনের পথটি পরিষ্কার: ১) পর্যায় ১-এর জন্য একটি আরও মজবুত ফ্রন্ট-এন্ড হিসেবে সর্বশেষ স্ব-তত্ত্বাবধানে বক্তৃতা মডেল (যেমন, Facebook AI Research-এর Wav2Vec 2.0) একীভূত করা। ২) পর্যায় ২-তে RNN-এর চেয়ে দীর্ঘ-পরিসরের প্রসঙ্গ ধারণ করার জন্য ট্রান্সফরমার স্থাপত্য অন্বেষণ করা। ৩) বহুভাষিক প্রশিক্ষণ তদন্ত করা দেখার জন্য যে ধ্বনিতাত্ত্বিক-অর্থগত বিভাজন একটি ভাষা-নিরপেক্ষ অর্থগত স্থান তৈরি করে কিনা। এই গবেষণাপত্রটি একটি ভিত্তিপ্রস্তর স্থাপন করে; পরবর্তী ধাপ হলো এর উপর সত্যিকারের অডিও বোধের মহাগির্জা নির্মাণ করা।