ওয়েডসডে, উইকিমিডিয়া ডয়চল্যান্ড একটি নতুন ডাটাবেস ঘোষণা করেছে যা উইকিপিডিয়ার জ্ঞানের সম্পদ এআই মডেলগুলিতে আরও অ্যাক্সেসযোগ্য করে তুলবে।
উইকিডাটা এম্বেডিং প্রকল্প নামে পরিচিত, সিস্টেমটি একটি ভেক্টর-ভিত্তিক শব্দার্থক অনুসন্ধান-একটি কৌশল প্রয়োগ করে যা কম্পিউটারগুলিকে প্রায় 120 মিলিয়ন এন্ট্রি সমন্বিত বিদ্যমান ড্যাট উইকিপিডিয়া এবং এর বোন প্ল্যাটফর্মগুলির মধ্যে শব্দগুলির মধ্যে অর্থ এবং সম্পর্কগুলি বুঝতে সহায়তা করে।
মডেল কনটেক্সট প্রোটোকল (এমসিপি) এর জন্য নতুন সহায়তার সাথে মিলিত, এআই সিস্টেমগুলিকে ডেটা উত্সগুলির সাথে যোগাযোগ করতে সহায়তা করে এমন একটি মান, প্রকল্পটি প্রাকৃতিক বিভাগগুলিতে ফর্মগুলি এলএলএম ফর্মগুলিতে ডেটা আরও অ্যাক্সেসযোগ্য করে তোলে।
প্রকল্পটি আইবিএমের মালিকানাধীন রিয়েল-টাইম প্রশিক্ষণ-ডেটা সংস্থা নিউরাল অনুসন্ধান সংস্থা জিনা এবং ডেটাস্ট্যাক্সের সহযোগিতায় উইকিমিডিয়ার জার্মান শাখা দ্বারা পরিচালিত হয়েছিল।
উইকিডাটা বছরের পর বছর ধরে উইকিমিডিয়া বৈশিষ্ট্যগুলি থেকে মেশিন-পঠনযোগ্য ডেটা সরবরাহ করেছে, তবে প্রাক-বিদ্যমান সরঞ্জামগুলি কেবল কীওয়ার্ড অনুসন্ধান এবং স্পারকিউএল কোয়েরিগুলির জন্য অনুমোদিত, একটি নির্দিষ্ট ক্যোয়ারী ভাষা। নতুন সিস্টেমটি পুনরুদ্ধার-আগত প্রজন্মের (আরএজি) সিস্টেম উইকিপিডিয়া সম্পাদকদের সাথে আরও ভাল কাজ করবে।
গুরুত্বপূর্ণ শব্দার্থক প্রসঙ্গ সরবরাহ করতে ডেটাও কাঠামোগত করা হয়। জন্য ডাটাবেস জিজ্ঞাসা করা “বিজ্ঞানী” শব্দটি প্রতিষ্ঠানের জন্য, বিশিষ্ট পারমাণবিক বিজ্ঞানীদের পাশাপাশি বেল ল্যাবসে কাজ করা বিজ্ঞানীদের তালিকা তৈরি করবে। বিভিন্ন ভাষায় “বিজ্ঞানী” শব্দের অনুবাদ, কর্মক্ষেত্রে বিজ্ঞানীদের একটি উইকিমিডিয়া-ক্যালার্ড চিত্র এবং “রেজারচার” এবং “এসসি এর মতো সম্পর্কিত ধারণাগুলির এক্সট্রাপোলেশন রয়েছে
ডাটাবেস হয় টুলফোরজে সর্বজনীনভাবে অ্যাক্সেসযোগ্যউইকিডাটাও হোস্টিং করছে আগ্রহী বিকাশকারীদের জন্য একটি ওয়েবিনার 9 ই অক্টোবর।
টেকক্রাঞ্চ ইভেন্ট
সান ফ্রান্সিসকো
,
অক্টোবর 27-29, 2025
নতুন প্রকল্পটি আসে কারণ এআই বিকাশকারীরা উচ্চমানের ডেটা উত্সগুলির জন্য ঝাঁকুনি দিচ্ছেন যা ফিন-টিউন মডেলগুলিতে ব্যবহার করা যেতে পারে। প্রশিক্ষণ ব্যবস্থাগুলি নিজেরাই আরও পরিশীলিত হয়ে উঠেছে – প্রায়শই সমাবেশ জটিল প্রশিক্ষণ পরিবেশ হিসাবে সাধারণ ডেটাসেটগুলির পরিবর্তে – তবে তাদের এখনও ভালভাবে কাজ করার জন্য ঘনিষ্ঠভাবে সজ্জিত ডেটা প্রয়োজন। উচ্চ নির্ভুলতার প্রয়োজন এমন মোতায়েনের জন্য, নির্ভরযোগ্য ডেটার প্রয়োজনীয়তা বিশেষত জরুরি এবং কিছু উইকিপিডিয়ায় নীচে তাকিয়ে থাকতে পারে, এর ডেটা তাত্পর্যপূর্ণভাবে আরও বেশি ফ্যাক্টর ডেটাসেটগুলি যেমন সাধারণ ক্রলযা ইন্টারনেট জুড়ে স্ক্র্যাপযুক্ত ওয়েব পৃষ্ঠাগুলির একটি বিশাল সংগ্রহ।
কিছু ক্ষেত্রে, উচ্চ-মানের ডেটার জন্য ধাক্কায় এআই ল্যাবগুলির জন্য ব্যয়বহুল কনসাইডেন্স থাকতে পারে। আগস্টে, নৃতাত্ত্বিক এমন লেখকদের সাথে একজন লেখকের সাথে মামলা নিষ্পত্তি করার জন্য নৃতাত্ত $ 1.5 বিলিয়ন প্রদান র্যাংডোয়ের কোনও দাবি শেষ করতে।
প্রেসকে দেওয়া এক বিবৃতিতে উইকিডাটা এআই প্রকল্পের পরিচালক ফিলিপ সাদে বড় বড় এআই ল্যাব বা বড় প্রযুক্তি সংস্থাগুলির কাছ থেকে তার প্রকল্পের স্বাধীনতার উপর জোর দিয়েছিলেন। সাদে সাংবাদিকদের বলেন, “এই এম্বেডিং প্রকল্পের লঞ্চটি দেখায় যে শক্তিশালী এআই মুষ্টিমেয় সংস্থাগুলি দ্বারা নিয়ন্ত্রণ করতে হবে না।” “এটি উন্মুক্ত, সহযোগী এবং সমস্ত কিছু পরিবেশন করার জন্য নির্মিত হতে পারে” “



