Back to Question Center
0

سيمالت: 3 خطوات ل فب صفحة ويب القشط

1 answers:

ويب كشط، وتسمى أيضا استخراج البيانات على شبكة الإنترنت أو الحصاد على شبكة الإنترنت، عملية استخراج البيانات من موقع أو مدونة. ثم يتم استخدام هذه المعلومات لتعيين علامات وصفية، وصف ميتا، كلمات رئيسية وروابط لموقع، وتحسين أدائها العام في نتائج محرك البحث.

تستخدم تقنيتان رئيسيتان لتخليص البيانات:

  • تحليل الوثيقة - تتضمن وثيقة شمل أو هتمل يتم تحويلها إلى دوم (نموذج كائن المستند ). فب يوفر لنا ملحق دوم كبيرة - mongo data base visualization.
  • التعبيرات العادية - إنها طريقة لكشط البيانات من وثائق الويب في شكل تعبيرات عادية.

إن المسألة المتعلقة ببيانات التجريد الخاصة بموقع ويب الطرف الثالث تتعلق بحقوق الطبع والنشر الخاصة به لأنه ليس لديك إذن لاستخدام هذه البيانات. ولكن مع فب، يمكنك بسهولة كشط البيانات دون مشاكل متصلة حقوق التأليف والنشر أو منخفضة الجودة. كمبرمج فب، قد تحتاج إلى بيانات من مواقع مختلفة لأغراض الترميز. هنا أوضحنا كيفية الحصول على البيانات من مواقع أخرى بكفاءة، ولكن قبل ذلك، يجب أن نضع في اعتبارنا أنه في النهاية سوف تحصل إما index.php أو scrape.js الملفات.

الخطوة 1: إنشاء نموذج لإدخال عنوان ورل لموقع الويب:

أولا وقبل كل شيء، يجب عليك إنشاء نموذج في index.php بالنقر على زر إرسال وإدخال عنوان ورل لموقع الويب لكسر البيانات.



أدخل عنوان الموقع الإلكتروني لكشط البيانات



الخطوات 2: إنشاء وظيفة فب للحصول على بيانات الموقع:

فب وظيفة الكشط في ملف scrape.php لأنها سوف تساعد على الحصول على البيانات واستخدام مكتبة ورل. وسوف تسمح لك أيضا للاتصال والتواصل مع خوادم وبروتوكولات مختلفة دون أي مشكلة..

فونكتيون سكرابيسيتيداتا ($ website_url) {

إف (! function_exists ('curl_init')) {

يموت ('كورل غير مثبت. الرجاء التثبيت والمحاولة مرة أخرى. ')؛

}

$ كورل = curl_init

؛

curl_setopt ($ كورل، CURLOPT_URL، $ website_url)؛

curl_setopt ($ كورل، CURLOPT_RETURNTRANSFER، ترو)؛

$ أوتبوت = curl_exec ($ كورل)؛

curl_close ($ كيرل)؛

عودة $ الناتج؛

}

هنا، يمكننا أن نرى ما إذا كان قد تم تثبيت كورب فب بشكل صحيح أم لا. يجب استخدام ثلاثة كورل رئيسي في منطقة الوظائف و curl_init

سيساعد على تهيئة الجلسات، سيقوم curl_exec

بتنفيذها و curl_close

سيساعد على إغلاق الاتصال. وتستخدم المتغيرات مثل CURLOPT_URL لتعيين عناوين ورل لموقع الويب التي نحتاجها للتخلص منها. سيساعد CURLOPT_RETURNTRANSFER الثاني في تخزين الصفحات المقطوعة في النموذج المتغير بدلا من النموذج الافتراضي الذي سيعرض صفحة الويب بالكامل في نهاية المطاف.

الخطوات 3: كشط البيانات المحددة من الموقع:

حان الوقت للتعامل مع وظائف ملف فب الخاص بك وكشط قسم معين من صفحة الويب الخاصة بك. إذا كنت لا تريد كل البيانات من عنوان ورل معين، يجب عليك تحرير استخدام المتغيرات CURLOPT_RETURNTRANSFER وتسليط الضوء على الأقسام التي تريد كشط.

إف (إسيت ($ _ بوست ['سوبميت'])) {

$ هتمل = سكريبويبسيتداتا ($ _ بوست ['website_url'])؛

$ start_point = ستربوس ($ هتمل، 'لاتيست بوستس')؛

$ end_point = ستربوس ($ هتمل، ''، $ start_point)؛

$ لينغث = $ end_point- $ start_point؛

$ هتمل = سوبستر ($ هتمل، $ start_point، $ لينغث)؛

إيكو $ هتمل؛

}

نقترح عليك تطوير المعرفة الأساسية ل فب والتعبيرات العادية قبل استخدام أي من هذه الرموز أو كشط بلوق معين أو موقع لأغراض شخصية.

December 8, 2017