নতুন প্রকল্প উইকিপিডিয়া ডেটা এআই -তে আরও অ্যাক্সেসযোগ্য করে তোলে

October 1, 2025

Write by : Tushar.KP


ওয়েডসডে, উইকিমিডিয়া ডয়চল্যান্ড একটি নতুন ডাটাবেস ঘোষণা করেছে যা উইকিপিডিয়ার জ্ঞানের সম্পদ এআই মডেলগুলিতে আরও অ্যাক্সেসযোগ্য করে তুলবে।

উইকিডাটা এম্বেডিং প্রকল্প নামে পরিচিত, সিস্টেমটি একটি ভেক্টর-ভিত্তিক শব্দার্থক অনুসন্ধান-একটি কৌশল প্রয়োগ করে যা কম্পিউটারগুলিকে প্রায় 120 মিলিয়ন এন্ট্রি সমন্বিত বিদ্যমান ড্যাট উইকিপিডিয়া এবং এর বোন প্ল্যাটফর্মগুলির মধ্যে শব্দগুলির মধ্যে অর্থ এবং সম্পর্কগুলি বুঝতে সহায়তা করে।

মডেল কনটেক্সট প্রোটোকল (এমসিপি) এর জন্য নতুন সহায়তার সাথে মিলিত, এআই সিস্টেমগুলিকে ডেটা উত্সগুলির সাথে যোগাযোগ করতে সহায়তা করে এমন একটি মান, প্রকল্পটি প্রাকৃতিক বিভাগগুলিতে ফর্মগুলি এলএলএম ফর্মগুলিতে ডেটা আরও অ্যাক্সেসযোগ্য করে তোলে।

প্রকল্পটি আইবিএমের মালিকানাধীন রিয়েল-টাইম প্রশিক্ষণ-ডেটা সংস্থা নিউরাল অনুসন্ধান সংস্থা জিনা এবং ডেটাস্ট্যাক্সের সহযোগিতায় উইকিমিডিয়ার জার্মান শাখা দ্বারা পরিচালিত হয়েছিল।

উইকিডাটা বছরের পর বছর ধরে উইকিমিডিয়া বৈশিষ্ট্যগুলি থেকে মেশিন-পঠনযোগ্য ডেটা সরবরাহ করেছে, তবে প্রাক-বিদ্যমান সরঞ্জামগুলি কেবল কীওয়ার্ড অনুসন্ধান এবং স্পারকিউএল কোয়েরিগুলির জন্য অনুমোদিত, একটি নির্দিষ্ট ক্যোয়ারী ভাষা। নতুন সিস্টেমটি পুনরুদ্ধার-আগত প্রজন্মের (আরএজি) সিস্টেম উইকিপিডিয়া সম্পাদকদের সাথে আরও ভাল কাজ করবে।

গুরুত্বপূর্ণ শব্দার্থক প্রসঙ্গ সরবরাহ করতে ডেটাও কাঠামোগত করা হয়। জন্য ডাটাবেস জিজ্ঞাসা করা “বিজ্ঞানী” শব্দটি প্রতিষ্ঠানের জন্য, বিশিষ্ট পারমাণবিক বিজ্ঞানীদের পাশাপাশি বেল ল্যাবসে কাজ করা বিজ্ঞানীদের তালিকা তৈরি করবে। বিভিন্ন ভাষায় “বিজ্ঞানী” শব্দের অনুবাদ, কর্মক্ষেত্রে বিজ্ঞানীদের একটি উইকিমিডিয়া-ক্যালার্ড চিত্র এবং “রেজারচার” এবং “এসসি এর মতো সম্পর্কিত ধারণাগুলির এক্সট্রাপোলেশন রয়েছে

ডাটাবেস হয় টুলফোরজে সর্বজনীনভাবে অ্যাক্সেসযোগ্যউইকিডাটাও হোস্টিং করছে আগ্রহী বিকাশকারীদের জন্য একটি ওয়েবিনার 9 ই অক্টোবর।

টেকক্রাঞ্চ ইভেন্ট

সান ফ্রান্সিসকো
,
অক্টোবর 27-29, 2025

নতুন প্রকল্পটি আসে কারণ এআই বিকাশকারীরা উচ্চমানের ডেটা উত্সগুলির জন্য ঝাঁকুনি দিচ্ছেন যা ফিন-টিউন মডেলগুলিতে ব্যবহার করা যেতে পারে। প্রশিক্ষণ ব্যবস্থাগুলি নিজেরাই আরও পরিশীলিত হয়ে উঠেছে – প্রায়শই সমাবেশ জটিল প্রশিক্ষণ পরিবেশ হিসাবে সাধারণ ডেটাসেটগুলির পরিবর্তে – তবে তাদের এখনও ভালভাবে কাজ করার জন্য ঘনিষ্ঠভাবে সজ্জিত ডেটা প্রয়োজন। উচ্চ নির্ভুলতার প্রয়োজন এমন মোতায়েনের জন্য, নির্ভরযোগ্য ডেটার প্রয়োজনীয়তা বিশেষত জরুরি এবং কিছু উইকিপিডিয়ায় নীচে তাকিয়ে থাকতে পারে, এর ডেটা তাত্পর্যপূর্ণভাবে আরও বেশি ফ্যাক্টর ডেটাসেটগুলি যেমন সাধারণ ক্রলযা ইন্টারনেট জুড়ে স্ক্র্যাপযুক্ত ওয়েব পৃষ্ঠাগুলির একটি বিশাল সংগ্রহ।

কিছু ক্ষেত্রে, উচ্চ-মানের ডেটার জন্য ধাক্কায় এআই ল্যাবগুলির জন্য ব্যয়বহুল কনসাইডেন্স থাকতে পারে। আগস্টে, নৃতাত্ত্বিক এমন লেখকদের সাথে একজন লেখকের সাথে মামলা নিষ্পত্তি করার জন্য নৃতাত্ত $ 1.5 বিলিয়ন প্রদান র‌্যাংডোয়ের কোনও দাবি শেষ করতে।

প্রেসকে দেওয়া এক বিবৃতিতে উইকিডাটা এআই প্রকল্পের পরিচালক ফিলিপ সাদে বড় বড় এআই ল্যাব বা বড় প্রযুক্তি সংস্থাগুলির কাছ থেকে তার প্রকল্পের স্বাধীনতার উপর জোর দিয়েছিলেন। সাদে সাংবাদিকদের বলেন, “এই এম্বেডিং প্রকল্পের লঞ্চটি দেখায় যে শক্তিশালী এআই মুষ্টিমেয় সংস্থাগুলি দ্বারা নিয়ন্ত্রণ করতে হবে না।” “এটি উন্মুক্ত, সহযোগী এবং সমস্ত কিছু পরিবেশন করার জন্য নির্মিত হতে পারে” “



Source link

Scroll to Top