এই গ্রীষ্মে এক সপ্তাহের জন্য, টেলর এবং তার রুমমেট গোপ্রো ক্যামেরাগুলি তাদের কপালে বেঁধে রেখেছিলেন যখন তারা ছবি আঁকতেন, ভাস্কর্য করেছিলেন এবং ঘরের কাজ করেছিলেন৷ তারা একটি এআই ভিশন মডেলকে প্রশিক্ষণ দিচ্ছিল, সাবধানে তাদের ফুটেজ সিঙ্ক করছিল যাতে সিস্টেম একই আচরণে একাধিক কোণ পেতে পারে। এটি অনেক উপায়ে কঠিন কাজ ছিল, তবে তারা এটির জন্য ভাল অর্থ প্রদান করেছিল – এবং এটি টেলরকে তার দিনের বেশিরভাগ শিল্প তৈরি করতে দেয়।
“আমরা ঘুম থেকে উঠেছি, আমাদের নিয়মিত রুটিন করেছি, এবং তারপরে আমাদের মাথায় ক্যামেরা বেঁধেছি এবং একসাথে সময়গুলি সিঙ্ক করেছি,” তিনি আমাকে বলেছিলেন। “তারপর আমরা আমাদের সকালের নাস্তা বানাতাম এবং থালা-বাসন পরিষ্কার করতাম। তারপরে আমরা আমাদের আলাদা উপায়ে গিয়ে শিল্পের কাজ করতাম।”
তাদের প্রতিদিন পাঁচ ঘন্টা সিঙ্ক করা ফুটেজ তৈরি করার জন্য নিয়োগ করা হয়েছিল, কিন্তু টেলর দ্রুত শিখেছিলেন যে তাকে কাজের জন্য দিনে সাত ঘন্টা বরাদ্দ করতে হবে, বিরতি এবং শারীরিক পুনরুদ্ধারের জন্য যথেষ্ট সময় দিতে হবে।
“এটি আপনাকে মাথাব্যথা দেবে,” সে বলল। “আপনি এটি খুলে ফেলুন এবং আপনার কপালে শুধু একটি লাল চৌকো আছে।”
টেলর, যিনি তার শেষ নাম না জানাতে বলেছিলেন, তিনি টেকক্রাঞ্চের সাথে সংযুক্ত একটি এআই কোম্পানি, টুরিং-এর ডেটা ফ্রিল্যান্সার হিসাবে কাজ করছিলেন। টিউরিং এর লক্ষ্য ছিল AI কে কীভাবে তেল চিত্র তৈরি করতে হয় তা শেখানো নয়, বরং অনুক্রমিক সমস্যা সমাধান এবং চাক্ষুষ যুক্তির চারপাশে আরও বিমূর্ত দক্ষতা অর্জন করা। একটি বৃহৎ ভাষার মডেলের বিপরীতে, টুরিং-এর ভিশন মডেলটি সম্পূর্ণভাবে ভিডিওতে প্রশিক্ষিত হবে — এবং এর বেশিরভাগই সরাসরি টুরিং দ্বারা সংগ্রহ করা হবে।
টেলরের মতো শিল্পীদের বাদ দিয়ে, টুরিং শেফ, নির্মাণ শ্রমিক এবং ইলেক্ট্রিশিয়ানদের সাথে চুক্তি করছে — যে কেউ তাদের হাত দিয়ে কাজ করে। টুরিং এর চিফ এজিআই অফিসার সুদর্শন শিবরামন টেকক্রাঞ্চকে বলেছেন যে ম্যানুয়াল সংগ্রহই একটি বৈচিত্রময় পর্যাপ্ত ডেটাসেট পাওয়ার একমাত্র উপায়।
“আমরা এটি বিভিন্ন ধরণের ব্লু-কলার কাজের জন্য করছি, যাতে প্রাক-প্রশিক্ষণ পর্বে আমাদের কাছে ডেটার বৈচিত্র্য থাকে,” শিবরামন টেকক্রাঞ্চকে বলেছেন৷ “আমরা এই সমস্ত তথ্য ক্যাপচার করার পরে, মডেলগুলি বুঝতে সক্ষম হবে কিভাবে একটি নির্দিষ্ট কাজ সম্পাদিত হয়।”
টেকক্রাঞ্চ ইভেন্ট
সান ফ্রান্সিসকো
,
অক্টোবর 27-29, 2025
ভিশন মডেলগুলিতে টিউরিং এর কাজ এআই কোম্পানিগুলি কীভাবে ডেটা নিয়ে কাজ করে তার একটি ক্রমবর্ধমান পরিবর্তনের অংশ। যেখানে প্রশিক্ষণ সেটগুলি একবার ওয়েব থেকে অবাধে স্ক্র্যাপ করা হয়েছিল বা কম বেতনের টীকাকারদের কাছ থেকে সংগ্রহ করা হয়েছিল, সংস্থাগুলি এখন সাবধানে কিউরেট করা ডেটার জন্য শীর্ষ ডলার প্রদান করছে৷
ইতিমধ্যেই প্রতিষ্ঠিত AI এর অপরিশোধিত শক্তির সাথে, কোম্পানিগুলি একটি প্রতিযোগিতামূলক সুবিধা হিসাবে মালিকানা প্রশিক্ষণ ডেটা খুঁজছে। এবং ঠিকাদারদের কাছে কাজটি চাষ করার পরিবর্তে, তারা প্রায়শই নিজেরাই কাজটি গ্রহণ করে।
ইমেইল কোম্পানি ফিক্সারযা ইমেল এবং খসড়া উত্তর বাছাই করতে AI মডেল ব্যবহার করে, এটি একটি উদাহরণ।
কিছু প্রাথমিক পরীক্ষা-নিরীক্ষার পর, প্রতিষ্ঠাতা রিচার্ড হলিংসওয়ার্থ আবিষ্কার করেন সবচেয়ে ভালো পন্থা হল দৃঢ়ভাবে ফোকাস করা প্রশিক্ষণ ডেটা সহ ছোট মডেলের একটি অ্যারে ব্যবহার করা। টুরিংয়ের বিপরীতে, ফাইক্সার অন্য কারও ভিত্তি মডেল তৈরি করছে — তবে অন্তর্নিহিত অন্তর্দৃষ্টি একই।
“আমরা বুঝতে পেরেছি যে ডেটার গুণমান, পরিমাণ নয়, এমন জিনিস যা কার্যকারিতাকে সত্যিই সংজ্ঞায়িত করে,” হলিংসওয়ার্থ আমাকে বলেছিলেন।
ব্যবহারিক পরিভাষায়, এর অর্থ হল কিছু অপ্রচলিত কর্মীদের পছন্দ। হলিংসওয়ার্থ বলেছেন, প্রাথমিক দিনগুলিতে, মডেলটি প্রশিক্ষণের জন্য প্রয়োজনীয় নির্বাহী সহকারীর দ্বারা ফাইক্সার ইঞ্জিনিয়ার এবং ম্যানেজারদের সংখ্যা কখনও কখনও চার থেকে একজনের চেয়ে বেশি ছিল।
তিনি টেকক্রাঞ্চকে বলেন, “আমরা অনেক অভিজ্ঞ নির্বাহী সহকারী ব্যবহার করেছি, কারণ আমাদের একটি ইমেলের উত্তর দেওয়া উচিত কিনা তার মৌলিক বিষয়ে প্রশিক্ষণের প্রয়োজন ছিল।” “এটি একটি খুব মানুষ-ভিত্তিক সমস্যা। মহান মানুষ খুঁজে পাওয়া খুব কঠিন।”
ডেটা সংগ্রহের গতি কখনই কমেনি, কিন্তু সময়ের সাথে সাথে হলিংসওয়ার্থ ডেটাসেটগুলির জন্য আরও মূল্যবান হয়ে ওঠেন, যখন প্রশিক্ষণ-পরবর্তী সময় আসে তখন আরও শক্তভাবে কিউরেট করা ডেটাসেটের ছোট সেট পছন্দ করেন। তিনি যেমন এটি রাখেন, “তথ্যের গুণমান, পরিমাণ নয়, এমন জিনিস যা কার্যকারিতাকে সত্যিই সংজ্ঞায়িত করে।”
এটি বিশেষভাবে সত্য যখন সিন্থেটিক ডেটা ব্যবহার করা হয়, সম্ভাব্য প্রশিক্ষণের পরিস্থিতির সুযোগ এবং মূল ডেটাসেটে যে কোনও ত্রুটির প্রভাব উভয়কেই বড় করে। দৃষ্টিভঙ্গির দিক থেকে, টুরিং অনুমান করেছেন যে এর 75% থেকে 80% ডেটা সিন্থেটিক, মূল GoPro ভিডিও থেকে এক্সট্রাপোলেটেড। তবে এটি মূল ডেটাসেটটিকে যতটা সম্ভব উচ্চ-মানের রাখা আরও গুরুত্বপূর্ণ করে তোলে।
“যদি প্রাক-প্রশিক্ষণ ডেটা নিজেই ভাল মানের না হয়, তাহলে আপনি সিন্থেটিক ডেটা দিয়ে যা করেন তাও ভাল মানের হবে না,” শিবরামন বলেছেন।
মানের উদ্বেগের বাইরে, ঘরে ঘরে ডেটা সংগ্রহ রাখার পিছনে একটি শক্তিশালী প্রতিযোগিতামূলক যুক্তি রয়েছে। Fyxer-এর জন্য, ডেটা সংগ্রহের কঠোর পরিশ্রম প্রতিযোগিতার বিরুদ্ধে কোম্পানির সেরা পরিখাগুলির মধ্যে একটি। হলিংসওয়ার্থ যেমন এটি দেখেন, যে কেউ তাদের পণ্যের মধ্যে একটি ওপেন সোর্স মডেল তৈরি করতে পারে — তবে প্রত্যেকেই এটিকে একটি কার্যকর পণ্যে প্রশিক্ষণ দেওয়ার জন্য বিশেষজ্ঞ টীকা খুঁজতে পারে না।
“আমরা বিশ্বাস করি যে এটি করার সর্বোত্তম উপায় হল ডেটার মাধ্যমে,” তিনি টেকক্রাঞ্চকে বলেন, “কাস্টম মডেল তৈরির মাধ্যমে, উচ্চ-মানের, মানব-নেতৃত্বাধীন ডেটা প্রশিক্ষণের মাধ্যমে।”
সংশোধন: এই টুকরোটির পূর্ববর্তী সংস্করণটি একটি ভুল নাম দ্বারা টুরিংকে উল্লেখ করেছে। টেকক্রাঞ্চ ত্রুটির জন্য অনুতপ্ত।





