أطلقت شركة (أوبن أي آي) OpenAI زاحفًا جديدًا للشبكة يُدعى (جي بي تي بوت) GPTBot، وهدفه البحث عن محتوى عبر الإنترنت لتدريب نماذج لغوية كبيرة مثل (جي بي تي-4) GPT-4، المستخدمة في روبوتات الدردشة مثل (شات جي بي تي) ChatGPT.
OpenAI تنشر برنامجًا يزحف عبر الإنترنت لقراءة كل شيء لتدريب ChatGPT
وأفادت الشركة في منشور على مدونتها بأن السماح لـ (جي بي تي بوت) بالوصول إلى محتوى الموقع يمكن أن يعزز دقة نماذج الذكاء الاصطناعي، ويحسن من قدراتها الشاملة وسلامتها.
وذكرت الرائدة في مجال الذكاء الاصطناعي أيضًا أن (جي بي تي بوت) يتم فرزه وتصفيته لإزالة المصادر المدفوعة مقابلها، والمعلومات الشخصية، والنصوص المخالفة للسياسات.
وتقدم (أوبن أي آي) OpenAI طريقة لحظر (جي بي تي بوت) بسهولة من خلال إضافة إدخال إلى ملف robots.txt الخاص بموقع الويب، الذي يعلم برامج الزحف مثل Google و بينغ بالمناطق التي يمكنها الوصول إليها.
بالإضافة إلى ذلك، يُتيح لمديري مواقع الويب تخصيص الأقسام التي يمكن لـ (جي بي تي بوت) الوصول إليها، ويتوفر أيضًا مجموعة من عناوين IP المخصصة لهذا الغرض لتسهيل الحجب.
طريقة حظر ChatGPT الزحف إلى مواقع الويب
كل ما عليك فعله لحظر الزحف GPTBot لمواضيع موقعك هو ادخال الحظر الى ملف robots.txt عبر اعدادات المدونة او الموقع فهي متوفرة في كل الاستضافات :
منع GPTBot
لمنع GPTBot من الوصول إلى موقعك، يمكنك إضافة GPTBot إلى ملف robots.txt الخاص بموقعك او مدونتك:
User-agent: GPTBotDisallow: /
تخصيص الوصول إلى GPTBot
للسماح لـ GPTBot بالوصول إلى أجزاء او قسم محدد فقط من موقعك ، يمكنك إضافة رمز GPTBot المميز إلى ملف robots.txt الخاص بموقعك على النحو التالي
User-agent: GPTBotAllow: /directory-1/Disallow: /directory-2/
يتم الإشارة إلى أن نماذج اللغة الكبيرة المستخدمة في (شات جي بي تي) ChatGPT تم تدريبها حتى الآن على كميات ضخمة من البيانات من خلال الشبكة، والتي تم جمعها حتى شهر سبتمبر 2021.
وبالإضافة إلى ذلك، لا يمكن إزالة البيانات التي تم استخراجها قبل هذا التاريخ بشكل رجعي. ومع ذلك، يمكن أن يؤدي حظر الزاحف الجديد الخاص بالشبكة إلى الحد على الأقل من تأثيرها، حيث سيحمي مواقع الويب المستقبلية التي ترغب في عدم تواجد محتوى مشابه.
يُعتقد أن العديد من مالكي المواقع، والذين ربما لا يروجون لفكرة نقل الذكاء الاصطناعي لاستنساخ محتواهم، يستفيدون بالفعل من إمكانية فرض الحظر.
من الأمثلة على ذلك، مجلة الخيال العلمي الشهيرة Clarkesworld، التي أعلنت عبر منصة x -التي كانت معروفة سابقًا بتويتر- أنها قامت بحجب الروبوت (جي بي تي بوت) GPTBot.
كما فعل موقع أخبار التقنية "ذا فيرج" The Verge، تم اتخاذ نفس الخطوة، وحاليًا يتم تداول عدد لا يحصى من المقالات التي تقدم نصائح حول كيفية منع الزوار الآليين من الوصول.
وتعتبر برامج زحف الشبكة شريان الحياة للإنترنت الحديث وليست مفهومًا جديدًا. في العديد من الحالات، تشجع مواقع الويب برامج الزحف مثل جوجل ومحركات البحث الأخرى على زيارتها للمساهمة في جلب زيارات الويب.
ومع ذلك، يعتقد الكثيرون من أصحاب المواقع الآن أن استخدام بياناتهم في تدريب نماذج الذكاء الاصطناعي للإنتاج غير مقبول.
على سبيل المثال، تمت ذكر دعوى قضائية حديثة ضد شركة "أوبن أي آي" OpenAI تُفيد بأن السماح لروبوت الدردشة "شات جي بي تي" ChatGPT بتدريب نفسه على كل ما كتبه آخرون عبر الإنترنت، من كتب ومقالات، دون إذن مسبق، يُعتبر عملًا مخالفًا.