ការបង្រៀនតាមអ៊ីនធឺណិតពី Chrome Web ពីអ្នកជំនាញ Semalt

ប្រសិនបើអ្នកកំពុងប្រើ Google Chrome វានឹងមានផ្នែកបន្ថែមសម្រាប់កម្មវិធីរុករករបស់អ្នកដែលអាចជួយក្នុងការកោសទំព័រគេហទំព័រ។ វាត្រូវបានគេស្គាល់ថាជា 'Scrapper,' ហើយវាអាចត្រូវបានប្រើប្រាស់ដោយគ្មានបញ្ហា។ Scrapper នឹងជួយក្នុងការបញ្ឈប់មាតិកាគេហទំព័រនិងផ្ទុកលទ្ធផលទៅឯកសារ Google ។

តើធ្វើដូចម្តេចដើម្បីកោសគេហទំព័រដោយប្រើផ្នែកបន្ថែម Scraper?

ជ្រើសរើស Chrome Web Store នៅក្នុង Google Chrome;

2. នៅក្នុងផ្នែកបន្ថែមសូមអនុវត្តការស្វែងរក 'Scrapper';

លទ្ធផលស្វែងរកដំបូងគឺផ្នែកបន្ថែមដែលគេស្គាល់ថា 'Scrapper';

ជ្រើសប៊ូតុងដែលបានចុះបញ្ជីជា '' បន្ថែមទៅ Chrome ';

ត្រលប់ទៅការចុះបញ្ជីសមាជិកសភាចក្រភពអង់គ្លេស

ចុចលើ តំណភ្ជាប់ ខាងក្រោម។

ឥឡូវរកមើលសមាជិកសភាម្នាក់ហើយធានាថាការចូលត្រូវបានសម្គាល់។

ចុចកណ្តុរស្តាំដើម្បីជ្រើសរើសជម្រើស "កោសស្រដៀងគ្នា ... " ។

9. កុងសូលសម្រាប់ scrapper នឹងលេចឡើងនៅក្នុងបង្អួចផ្សេងទៀត;

10. មើលមាតិកាដែលបានខ្ចាត់ខ្ចៅនៅក្នុងកុងសូល scraper;

ដើម្បីធានាថាមាតិកាត្រូវបានរក្សាទុកជាសៀវភៅបញ្ជីហ្គូហ្គលសូមជ្រើសរើស "រក្សាទុកទៅ Google ឯកសារ ... "

ការបន្លំបន្ថែម

មុននឹងប្រកាន់ខ្ជាប់នូវរូបមន្តនេះវាមានប្រយោជន៍ក្នុងការស្វែងយល់អំពីមូលដ្ឋានគ្រឹះនៃ HTML ។ ឧទាហរណ៍អ្នកអាចអានការណែនាំខ្លីៗអំពី HTML តាមរយៈ តំណ នេះ

តោះស្រមៃមើលថាយើងចាប់អារម្មណ៍នឹងខ្សែភាពយន្តទាំងអស់ដែលសម្តែងដោយអាស៊ីអាហ្សង់ទីនដែលជាតារាសម្តែងអ៊ីតាលីដ៏ល្បីល្បាញ។

មានប័ណ្ណសារលម្អិតរបស់តួសម្តែងនៅក្នុង IMDB ។ គេហទំព័រអាស៊ីអាហ្សង់ទីនគឺ៖ http://www.imdb.com/name/nm0000782/;

2. នៅទីនេះអ្នកអាចមើលតួនាទីទាំងអស់ដែលសម្តែងដោយតួស្រី។ ចូរចាប់ផ្តើមបោះបង់ចោលព័ត៌មានដែលយើងចាប់អារម្មណ៍។

3. ព្យាយាមកោសវាតាមរបៀបដែលវាត្រូវបានពិពណ៌នាខាងលើ;

4. អ្នកនឹងឃើញថាបញ្ជីនេះត្រូវបានបង្ខូចទ្រង់ទ្រាយបន្តិច។ នេះគឺដោយសារតែការពិតដែលថាបញ្ជីនៅទីនេះអាចត្រូវបានរៀបចំឡើងខុសគ្នា។

5. ឆ្ពោះទៅក្បាលកុងសូល scraper ។ ផ្នែកខាងលើខាងឆ្វេងអ្នកនឹងឃើញប្រអប់តូចមួយដែលនិយាយថា XPath;

Xpath គឺជាប្រភេទនៃប្រភេទសំណួរដែលដំណើរការសម្រាប់ XML និង HTML ។

XPath អាចជួយកំណត់ទីតាំងនៃទំព័រដែលអ្នកចាប់អារម្មណ៍។ រឿងបន្ទាប់គឺត្រូវរកធាតុសមស្របនិងសរសេរ XPath សម្រាប់វា។

8. ឥឡូវសូមរៀបចំតារាងរបស់យើង។

9. អ្នកនឹងឃើញថា XPath ដែលមានស្រាប់របស់យើងដែលមានទិន្នន័យចាំបាច់ទាំងអស់គឺ "// div [3] / div [3] / div [2] / div";

10. XPath ជូនដំណឹងដល់ប្រព័ន្ធដើម្បីមើលឯកសារ HTML ហើយជ្រើសរើសធាតុទីបីបន្ទាប់មកធាតុទីពីរហើយបន្ទាប់មកវាទាំងអស់។

១១. ប៉ុន្តែយើងចង់អោយទិន្នន័យរបស់យើងបែកចេញ។

ប្រើប្រាស់ផ្នែកជួរឈរនៅក្នុងកុងសូលសម្រាប់ scrapper ដើម្បីធ្វើដូចនេះ។

១៣ ចូររកចំណងជើងរបស់យើងជាមុនសិន РІР‚ ប្រើអធិការកិច្ចដើម្បីមើលចំណងជើង។

14. ពិនិត្យចំណងជើងនៅក្នុងស្លាក។ បន្ថែមស្លាកទៅ XPath;

កន្សោមបង្ហាញថាដំណើរការត្រឹមត្រូវដូច្នេះធ្វើឱ្យវាក្លាយជាជួរឈរដំបូងរបស់យើង។

16. នៅក្នុងផ្នែក "ជួរឈរ" ជំនួសឈ្មោះជួរឈរដំបូងទៅជា "ចំណងជើង";

17. បន្ថែម XPath ទៅវា;

18. នៅក្នុងផ្នែកជួរឈរ XPaths មានទំនាក់ទំនងគ្នាហើយវាមានន័យថា "./b" នឹងជ្រើសរើសយក <b> ធាតុ

19. នៅក្នុង XPath សម្រាប់ជួរឈរចំណងជើងបន្ថែម "./b" ហើយជ្រើស "កោស";

២០. ឥឡូវយើងបន្តទៅមួយឆ្នាំទៀត។ ឆ្នាំអាចត្រូវបានរកឃើញនៅក្នុងរយៈពេលមួយ;

21. បង្កើតជួរឈរថ្មីដោយជ្រើសរើសយកបូកតូចនៅជាប់នឹងជួរឈរសំរាប់ចំណងជើងរបស់អ្នក។

22. ការប្រើប្រាស់ XPath "./span" បង្កើតជួរឈរសម្រាប់ "ឆ្នាំ";

23. ចុចចំណិតនិងមើលពីរបៀបដែលឆ្នាំត្រូវបានបន្ថែម;

24. រួចរាល់ហើយ

mass gmail