Crawlee مراجعة

إطار عمل مفتوح المصدر لزحف الويب والتجريف في Node.js، أنشأه الفريق خلف Apify. يوفر مجموعة أدوات متكاملة لبناء زواحف موثوقة مع إعادة المحاولة التلقائية وتدوير البروكسي ودعم المتصفحات بلا رأس، كلها تعمل على بنيتك التحتية الخاصة.

RB
Runar BrøsteFounder & Editor
AI tools researcher and reviewerمُحدَث مارس ٢٠٢٦
مُحدَث هذا الأسبوعخطة مجانية

الأفضل لـ

  • المطورون الذين يريدون تحكماً كاملاً في بنية تحتية الزحف الخاصة بهم
  • الفرق التي تبني خطوط تجريف مخصصة تحتاج إلى أقصى قدر من المرونة
  • المتحمسون للمصدر المفتوح الذين يفضلون الحلول المستضافة ذاتياً
  • المهندسون الذين يدمجون زحف الويب في تطبيقات Node.js الحالية

تجاوز هذا إذا…

  • المستخدمون غير التقنيين الذين يحتاجون إلى خدمة تجريف مُدارة
  • الفرق التي تحتاج إلى مخرجات markdown محسّنة لنماذج اللغة أو بيانات منظمة بدون عمل إضافي
  • من يريد واجهة API مستضافة بدون إدارة الخوادم

ما هو Crawlee؟

Crawlee هو مكتبة زحف وتجريف ويب مفتوحة المصدر لـ Node.js، بنيها وتصونها الفريق خلف Apify. يوفر إطار عمل منظماً لبناء زواحف ويب موثوقة مع طوابير طلبات مدمجة وإعادة محاولة تلقائية وتدوير بروكسي ودعم للزحف القائم على HTTP وعبر المتصفحات بلا رأس. تطور المشروع من SDK الزحف الداخلي لـ Apify وأُطلق كمكتبة مستقلة مفتوحة المصدر لمنح المطورين إطار زحف بجودة إنتاجية دون الحاجة إلى منصة Apify. يدعم ثلاثة مناهج للزحف: زحف HTTP خفيف مع Cheerio للصفحات الثابتة، وأتمتة كاملة للمتصفح مع Playwright للمواقع الغنية بـ JavaScript، وPuppeteer كخلفية بديلة للمتصفح. يحتل Crawlee مكانة محددة: إنه إطار عمل للمطورين الذين يريدون بناء زواحف مخصصة مع بنية تحتية احترافية مدمجة. إنه ليس خدمة مُدارة، ولا واجهة API، ولا أداة بدون كود. تكتب منطق الزحف بـ TypeScript أو JavaScript، ويتولى Crawlee هندسة الموثوقية التي تصنع الفارق بين سكريبت يعمل على حاسوبك المحمول وزاحف يعمل في الإنتاج.

الميزات الرئيسية

فئات الزاحف هي التجريد الأساسي. يتعامل CheerioCrawler مع صفحات HTML الثابتة بكفاءة دون تشغيل متصفح. يُطلق PlaywrightCrawler وPuppeteerCrawler متصفحات بلا رأس للمواقع التي تتطلب تصيير JavaScript. تشترك الثلاثة في نفس الواجهة للتعامل مع الطلبات وتخزين البيانات وإدارة الأخطاء، لذا يمكنك التبديل بينها دون إعادة كتابة منطق الاستخراج. تتولى إدارة الطلبات التلقائية الأجزاء المملة من الزحف. تضمن RequestQueue معالجة URLs مرة واحدة بالضبط، وتتعامل مع إعادة المحاولة بانتكاسة أسية، وتحفظ الحالة حتى تتمكن من استئناف الزحف المنقطع. RequestList متاح لحالات الاستخدام الأبسط حيث لديك قائمة ثابتة من URLs مسبقاً. تدوير البروكسي مدمج في إطار العمل. تُهيّئ مجموعة بروكسي، ويُدوّر Crawlee تلقائياً بينها ويُدير الجلسات ويُتقاعد البروكسي الفاشلة. يتكامل مع خدمة بروكسي Apify لكنه يعمل أيضاً مع أي مزود بروكسي خارجي. توفر مجردات التخزين طريقة متسقة لحفظ البيانات المُزحف عليها. تخزن فئة Dataset السجلات المُستخلصة، بينما يتعامل KeyValueStore مع أزواج المفاتيح والقيم التعسفية كلقطات الشاشة أو الإعداد. بشكل افتراضي، تُخزَّن البيانات على نظام الملفات المحلي، لكن يمكنك التبديل إلى خلفيات تخزين سحابية.

سير عمل التطوير

يبدأ مشروع Crawlee النموذجي بإنشاء مشروع جديد عبر CLI أو تثبيت الحزمة مباشرة. تختار نوع زاحف (Cheerio أو Playwright أو Puppeteer) بناءً على متطلبات موقعك المستهدف، وتُعرّف معالج طلبات يعالج كل صفحة ويستخرج البيانات، وتضيف URLs البداية. يمكن أن يعمل زاحف بسيط في أقل من عشرين سطراً من الكود. بالنسبة للمواقع الأكثر تعقيداً، تتضمن دورة التطوير اختبار المحددات مقابل الصفحات الحية، والتعامل مع ترقيم الصفحات والتنقل، وإدارة الجلسات للمواقع التي تتطلب تسجيل الدخول، وبناء خط استخراج البيانات. دعم TypeScript في Crawlee يعني الحصول على التحقق من الأنواع والإكمال التلقائي في IDE، مما يقلل وقت التصحيح. النشر هو حيث تظهر مقايضة الاستضافة الذاتية. تحتاج إلى تشغيل الزاحف على بنيتك التحتية الخاصة، سواء كانت جهازاً محلياً أو خادماً سحابياً أو منصة تنسيق الحاويات. بالنسبة لزواحف المتصفح بلا رأس، تحتاج أيضاً إلى إدارة ثنائيات المتصفح ومتطلبات الموارد. منصة Apify متاحة كهدف نشر اختياري إذا أردت بنية تحتية مُدارة. اختبار الزواحف أمر صعب بطبيعته لأنك تتفاعل مع مواقع ويب حية تتغير. يساعد Crawlee بتوفير سجلات متسقة ولقطات للصفحات الفاشلة والقدرة على حفظ وإعادة تشغيل تسلسلات الطلبات. لكن التحدي الجوهري لبناء أدوات تجريف مرنة للتغييرات في المواقع يبقى مسؤوليتك.

من يجب أن يستخدم Crawlee؟

مطورو Node.js الذين يحتاجون إلى بناء زواحف ويب مخصصة بموثوقية إنتاجية هم الجمهور المستهدف. إذا كنت تعمل بالفعل في نظام JavaScript أو TypeScript البيئي وتحتاج إلى تجريف مواقع بدون حلول جاهزة، فإن Crawlee يمنحك أساساً قوياً للبناء عليه. الفرق التي تحتاج إلى تحكم كامل في منطق الزحف والبنية التحتية ستُقدّر أن Crawlee مكتبة وليس منصة. أنت تمتلك الكود والبيانات والنشر. لا توجد رسوم استخدام، ولا ارتباط بمزود، ولا قيود تتجاوز ما تستطيع بنيتك التحتية التعامل معه. المساهمون في المصدر المفتوح والمطورون الذين يُقدّرون الشفافية سيجدون مشروعاً نشطاً مع توثيق جيد وإصدارات منتظمة ومجتمع متجاوب. قاعدة الكود منظمة جيداً والمساهمات مرحب بها. Crawlee ليس الخيار المناسب للمستخدمين غير التقنيين الذين يحتاجون إلى خدمة تجريف مُدارة. يتطلب كتابة كود وإدارة بنية تحتية وتصحيح الزواحف عندما تغير المواقع توصيفها. إذا أردت واجهة API يمكنك استدعاؤها بدون إدارة الخوادم، فإن أدوات مثل Firecrawl أو ScrapingBee أبسط. إذا كنت تعمل في Python، فإن نظام Node.js البيئي الحصري لـ Crawlee يُعد أيضاً قيداً.

تفاصيل التسعير

Crawlee مجاني تماماً ومفتوح المصدر بموجب ترخيص MIT. لا توجد رسوم استخدام أو مستويات مدفوعة أو قيود على الميزات. تحصل على إطار العمل الكامل بلا تكلفة. تأتي نفقاتك من البنية التحتية. تشغيل الزواحف يتطلب موارد حوسبة، وزواحف المتصفح بلا رأس تحتاج أكثر من تلك القائمة على HTTP. يمكن لخادم سحابي متواضع التعامل مع كثير من مهام الزحف، لكن العمليات الكبيرة ذات التزامن العالي تحتاج إلى موارد أكثر بشكل متناسب. تحتاج أيضاً إلى خدمات بروكسي إذا تطلبت أهدافك تدوير IP، وهي تكلفة مستمرة. إذا أردت استضافة مُدارة، يمكن لمنصة Apify تشغيل زواحف مبنية على Crawlee كـ Actors مع جميع مزايا المنصة (الجدولة وإدارة البروكسي وتخزين البيانات). هذا يُضيف نموذج تسعير Apify فوق إطار عملك المجاني، الذي يبدأ من $49 شهرياً. مقارنةً بواجهات API التجريف المُدارة، Crawlee أرخص على نطاق واسع لأنك تدفع فقط مقابل البنية التحتية، لا رسوم لكل طلب. مقارنةً بالبناء من الصفر باستخدام Playwright أو Puppeteer الخام، Crawlee مجاني ويوفر وقتاً كبيراً في تطوير طبقة البنية التحتية.

كيف يقارن Crawlee

مقابل Apify (المنصة)، Crawlee هو البديل المستضاف ذاتياً. تحصل على نفس إطار الزحف بدون المنصة المُدارة أو السوق أو بنية البروكسي التحتية. يمنحك Crawlee تحكماً أكبر وتكاليف أقل مقابل المزيد من العمل التشغيلي. يبدأ كثير من المطورين بـ Crawlee وينتقلون إلى Apify عندما يحتاجون إلى بنية تحتية مُدارة، أو يستخدمون Crawlee محلياً للتطوير وApify للإنتاج. مقابل Scrapy (Python)، كلاهما إطارا زحف مفتوحا المصدر، لكن لنظامين بيئيين مختلفين. Scrapy هو الخيار الراسخ لمطوري Python مع نظام بيئي كبير من الإضافات. Crawlee أحدث لكنه يقدم دعماً من الدرجة الأولى لأتمتة المتصفح (Playwright/Puppeteer) التي يفتقر إليها Scrapy بشكل أصلي. إذا كنت تعمل في JavaScript، فـ Crawlee هو الخيار الواضح. إذا كنت تعمل في Python، فـ Scrapy أكثر نضجاً. مقابل استخدام Playwright أو Puppeteer الخام، يُضيف Crawlee طبقة البنية التحتية: طوابير الطلبات وإعادة المحاولة وتدوير البروكسي والتخزين. استخدام Playwright مباشرة يمنحك مرونة أكبر لكنه يتطلب بناء هذه الميزات بنفسك. لأي شيء يتجاوز سكريبتاً بسيطاً، توفر البنية التحتية المدمجة لـ Crawlee وقتاً كبيراً في التطوير.

الحكم

Crawlee هو أفضل إطار زحف مفتوح المصدر في نظام Node.js البيئي. يأخذ أنماط الموثوقية المكتسبة بصعوبة من سنوات Apify في تشغيل أدوات التجريف على نطاق واسع ويُعبّئها في مكتبة مصممة بشكل جيد. إعادة المحاولة التلقائية وتدوير البروكسي وإدارة الطلبات تحل مشاكل يحتاج كل زاحف جدي في نهاية المطاف إلى التعامل معها. القيود الرئيسية هي متطلب الاستضافة الذاتية والارتباط بـ Node.js. تحتاج إلى بنية تحتية لتشغيل زواحفك، ومعرفة بـ DevOps للحفاظ عليها تعمل، والاستعداد للتصحيح عندما تغير المواقع المستهدفة توصيفها. لا يوجد SDK لـ Python، مما يستثني شريحة كبيرة من مجتمع هندسة البيانات. لمطوري JavaScript وTypeScript الذين يبنون زواحف مخصصة، Crawlee هو نقطة بداية قوية. لن يُلغي الصعوبة المتأصلة في تجريف الويب، لكنه يتولى مخاوف البنية التحتية حتى تتمكن من التركيز على منطق الاستخراج الفريد لحالة استخدامك.

الأسعار

مجاني تماماً ومفتوح المصدر (ترخيص MIT). مستضاف ذاتياً على بنيتك التحتية الخاصة. استضافة مدفوعة اختيارية متاحة عبر منصة Apify.

Freeخطة مجانية متاحة

المزايا

  • مجاني تماماً ومفتوح المصدر بترخيص MIT
  • بنية معمارية مرنة للغاية تدعم زواحف Cheerio وPlaywright وPuppeteer
  • إعادة محاولة تلقائية مدمجة وطوابير الطلبات وتدوير البروكسي لتجريف موثوق
  • مجتمع كبير ونشط مع توثيق قوي وأمثلة
  • يمكن نشره على منصة Apify للاستضافة المُدارة عند الحاجة

العيوب

  • يتطلب الاستضافة الذاتية وجهد DevOps للتشغيل في الإنتاج
  • لا توجد نقطة نهاية API مُدارة؛ يجب عليك بناء خدمتك الخاصة ونشرها
  • لا ينتج markdown جاهزاً لنماذج اللغة أو بيانات منظمة بشكل افتراضي
  • إعداد أولي أكثر تعقيداً مقارنةً بواجهات API التجريف المستضافة
  • مقتصر على نظام Node.js البيئي بدون دعم رسمي لـ Python أو Go

المنصات

api
آخر تحقق: ٣٠ مارس ٢٠٢٦

الأسئلة الشائعة

ما هو Crawlee؟
إطار عمل مفتوح المصدر لزحف الويب والتجريف في Node.js، أنشأه الفريق خلف Apify. يوفر مجموعة أدوات متكاملة لبناء زواحف موثوقة مع إعادة المحاولة التلقائية وتدوير البروكسي ودعم المتصفحات بلا رأس، كلها تعمل على بنيتك التحتية الخاصة.
هل يوفر Crawlee خطة مجانية؟
نعم، Crawlee يوفر خطة مجانية. مجاني تماماً ومفتوح المصدر (ترخيص MIT). مستضاف ذاتياً على بنيتك التحتية الخاصة. استضافة مدفوعة اختيارية متاحة عبر منصة Apify.
لمن Crawlee الأفضل؟
Crawlee الأفضل لـ المطورون الذين يريدون تحكماً كاملاً في بنية تحتية الزحف الخاصة بهم; الفرق التي تبني خطوط تجريف مخصصة تحتاج إلى أقصى قدر من المرونة; المتحمسون للمصدر المفتوح الذين يفضلون الحلول المستضافة ذاتياً; المهندسون الذين يدمجون زحف الويب في تطبيقات Node.js الحالية.
من يجب أن يتجاوز Crawlee؟
Crawlee قد لا يكون مثاليًا لـ المستخدمون غير التقنيين الذين يحتاجون إلى خدمة تجريف مُدارة; الفرق التي تحتاج إلى مخرجات markdown محسّنة لنماذج اللغة أو بيانات منظمة بدون عمل إضافي; من يريد واجهة API مستضافة بدون إدارة الخوادم.
ما المنصات التي يدعمها Crawlee؟
Crawlee متاح على api.

Get the best AI deals in your inbox

Weekly digest of new tools, exclusive promo codes, and comparison guides.

No spam. Unsubscribe anytime.