ការបង្រៀនតាមអ៊ីនធឺណិតពី Chrome Web ពីអ្នកជំនាញ Semalt

ប្រសិនបើអ្នកកំពុងប្រើ Google Chrome វានឹងមានផ្នែកបន្ថែមសម្រាប់កម្មវិធីរុករករបស់អ្នកដែលអាចជួយក្នុងការកោសទំព័រគេហទំព័រ។ វាត្រូវបានគេស្គាល់ថាជា 'Scrapper,' ហើយវាអាចត្រូវបានប្រើប្រាស់ដោយគ្មានបញ្ហា។ Scrapper នឹងជួយក្នុងការបញ្ឈប់មាតិកាគេហទំព័រនិងផ្ទុកលទ្ធផលទៅឯកសារ Google ។
តើធ្វើដូចម្តេចដើម្បីកោសគេហទំព័រដោយប្រើផ្នែកបន្ថែម Scraper?
ជ្រើសរើស Chrome Web Store នៅក្នុង Google Chrome;
2. នៅក្នុងផ្នែកបន្ថែមសូមអនុវត្តការស្វែងរក 'Scrapper';
លទ្ធផលស្វែងរកដំបូងគឺផ្នែកបន្ថែមដែលគេស្គាល់ថា 'Scrapper';
ជ្រើសប៊ូតុងដែលបានចុះបញ្ជីជា '' បន្ថែមទៅ Chrome ';
ត្រលប់ទៅការចុះបញ្ជីសមាជិកសភាចក្រភពអង់គ្លេស
ចុចលើ តំណភ្ជាប់ ខាងក្រោម។
ឥឡូវរកមើលសមាជិកសភាម្នាក់ហើយធានាថាការចូលត្រូវបានសម្គាល់។

ចុចកណ្តុរស្តាំដើម្បីជ្រើសរើសជម្រើស "កោសស្រដៀងគ្នា ... " ។

9. កុងសូលសម្រាប់ scrapper នឹងលេចឡើងនៅក្នុងបង្អួចផ្សេងទៀត;
10. មើលមាតិកាដែលបានខ្ចាត់ខ្ចៅនៅក្នុងកុងសូល scraper;
ដើម្បីធានាថាមាតិកាត្រូវបានរក្សាទុកជាសៀវភៅបញ្ជីហ្គូហ្គលសូមជ្រើសរើស "រក្សាទុកទៅ Google ឯកសារ ... "
ការបន្លំបន្ថែម
មុននឹងប្រកាន់ខ្ជាប់នូវរូបមន្តនេះវាមានប្រយោជន៍ក្នុងការស្វែងយល់អំពីមូលដ្ឋានគ្រឹះនៃ HTML ។ ឧទាហរណ៍អ្នកអាចអានការណែនាំខ្លីៗអំពី HTML តាមរយៈ តំណ នេះ
តោះស្រមៃមើលថាយើងចាប់អារម្មណ៍នឹងខ្សែភាពយន្តទាំងអស់ដែលសម្តែងដោយអាស៊ីអាហ្សង់ទីនដែលជាតារាសម្តែងអ៊ីតាលីដ៏ល្បីល្បាញ។
មានប័ណ្ណសារលម្អិតរបស់តួសម្តែងនៅក្នុង IMDB ។ គេហទំព័រអាស៊ីអាហ្សង់ទីនគឺ៖ http://www.imdb.com/name/nm0000782/;
2. នៅទីនេះអ្នកអាចមើលតួនាទីទាំងអស់ដែលសម្តែងដោយតួស្រី។ ចូរចាប់ផ្តើមបោះបង់ចោលព័ត៌មានដែលយើងចាប់អារម្មណ៍។
3. ព្យាយាមកោសវាតាមរបៀបដែលវាត្រូវបានពិពណ៌នាខាងលើ;
4. អ្នកនឹងឃើញថាបញ្ជីនេះត្រូវបានបង្ខូចទ្រង់ទ្រាយបន្តិច។ នេះគឺដោយសារតែការពិតដែលថាបញ្ជីនៅទីនេះអាចត្រូវបានរៀបចំឡើងខុសគ្នា។
5. ឆ្ពោះទៅក្បាលកុងសូល scraper ។ ផ្នែកខាងលើខាងឆ្វេងអ្នកនឹងឃើញប្រអប់តូចមួយដែលនិយាយថា XPath;
Xpath គឺជាប្រភេទនៃប្រភេទសំណួរដែលដំណើរការសម្រាប់ XML និង HTML ។
XPath អាចជួយកំណត់ទីតាំងនៃទំព័រដែលអ្នកចាប់អារម្មណ៍។ រឿងបន្ទាប់គឺត្រូវរកធាតុសមស្របនិងសរសេរ XPath សម្រាប់វា។
8. ឥឡូវសូមរៀបចំតារាងរបស់យើង។
9. អ្នកនឹងឃើញថា XPath ដែលមានស្រាប់របស់យើងដែលមានទិន្នន័យចាំបាច់ទាំងអស់គឺ "// div [3] / div [3] / div [2] / div";
10. XPath ជូនដំណឹងដល់ប្រព័ន្ធដើម្បីមើលឯកសារ HTML ហើយជ្រើសរើសធាតុទីបីបន្ទាប់មកធាតុទីពីរហើយបន្ទាប់មកវាទាំងអស់។
១១. ប៉ុន្តែយើងចង់អោយទិន្នន័យរបស់យើងបែកចេញ។
ប្រើប្រាស់ផ្នែកជួរឈរនៅក្នុងកុងសូលសម្រាប់ scrapper ដើម្បីធ្វើដូចនេះ។
១៣ ចូររកចំណងជើងរបស់យើងជាមុនសិន РІР‚ ប្រើអធិការកិច្ចដើម្បីមើលចំណងជើង។
14. ពិនិត្យចំណងជើងនៅក្នុងស្លាក។ បន្ថែមស្លាកទៅ XPath;

កន្សោមបង្ហាញថាដំណើរការត្រឹមត្រូវដូច្នេះធ្វើឱ្យវាក្លាយជាជួរឈរដំបូងរបស់យើង។
16. នៅក្នុងផ្នែក "ជួរឈរ" ជំនួសឈ្មោះជួរឈរដំបូងទៅជា "ចំណងជើង";
17. បន្ថែម XPath ទៅវា;
18. នៅក្នុងផ្នែកជួរឈរ XPaths មានទំនាក់ទំនងគ្នាហើយវាមានន័យថា "./b" នឹងជ្រើសរើសយក <b> ធាតុ
19. នៅក្នុង XPath សម្រាប់ជួរឈរចំណងជើងបន្ថែម "./b" ហើយជ្រើស "កោស";

២០. ឥឡូវយើងបន្តទៅមួយឆ្នាំទៀត។ ឆ្នាំអាចត្រូវបានរកឃើញនៅក្នុងរយៈពេលមួយ;
21. បង្កើតជួរឈរថ្មីដោយជ្រើសរើសយកបូកតូចនៅជាប់នឹងជួរឈរសំរាប់ចំណងជើងរបស់អ្នក។
22. ការប្រើប្រាស់ XPath "./span" បង្កើតជួរឈរសម្រាប់ "ឆ្នាំ";
23. ចុចចំណិតនិងមើលពីរបៀបដែលឆ្នាំត្រូវបានបន្ថែម;
24. រួចរាល់ហើយ