Samouczek Chrome Web Scraper od Semalt Expert

Jeśli korzystasz z Google Chrome, masz rozszerzenie do przeglądarki, które może pomóc skrobać strony internetowe. Jest znany jako „Scrapper” i można go używać bez problemów. Scrapper pomoże w zeskrobaniu zawartości strony i przesłaniu wyników do dokumentów Google.

Jak złomować witrynę za pomocą rozszerzenia Skrobak?

1. Wybierz Chrome Web Store w Google Chrome;

2. W rozszerzeniach wyszukaj „Scrapper”;

3. Pierwszym wynikiem wyszukiwania jest rozszerzenie znane jako „Scrapper”;

4. Wybierz przycisk z listy „Dodaj do Chrome”;

5. Wróć do listy brytyjskich posłów;

6. Kliknij następujący link ;

7. Teraz poszukaj jednego MP i upewnij się, że wpis jest zaznaczony;

8. Kliknij prawym przyciskiem myszy, aby wybrać opcję „Zgarnij podobny ...”;

9. Konsola scrapper wyskoczy w innym oknie;

10. Wyświetl zeskrobaną zawartość w konsoli zgarniającej;

11. Aby mieć pewność, że treść zostanie zapisana jako arkusz kalkulacyjny Google, wybierz „Zapisz w Dokumentach Google ...”

Rozszerzone skrobanie

Przed trzymaniem się tego przepisu warto zrozumieć podstawy HTML. Na przykład możesz przeczytać krótkie wprowadzenie do HTML za pomocą tego linku

Wyobraźmy sobie, że interesują nas wszystkie filmy, w których wystąpiła Asia Argento, znana włoska aktorka.

1. W IMDB znajduje się bardzo szczegółowe archiwum aktorów. Witryna Asia Argento to: http://www.imdb.com/name/nm0000782/;

2. Tutaj możesz zobaczyć wszystkie role aktorki. Zacznijmy od złomowania informacji, którymi jesteśmy zainteresowani;

3. Spróbuj zeskrobać go w sposób opisany powyżej;

4. Zobaczysz, że lista jest nieco zniekształcona. Wynika to z faktu, że lista może mieć inną strukturę;

5. Przejdź do konsoli zgarniacza. W lewym górnym rogu zobaczysz małe pole z napisem XPath;

6. Xpath jest rodzajem języka zapytań, który działa dla XML i HTML;

7. XPath może pomóc w zlokalizowaniu interesujących Cię stron. Następną rzeczą jest znalezienie odpowiedniego elementu i napisanie dla niego XPath;

8. A teraz ustawmy nasz stół;

9. Przekonasz się, że nasz istniejący XPath, który ma wszystkie potrzebne dane, to „// div [3] / div [3] / div [2] / div”;

10. XPath informuje system, aby wyświetlić dokument HTML i wybrał trzeci element, następnie drugi element, a następnie wszystkie;

11. Chcielibyśmy jednak oddzielić nasze dane;

12. Skorzystaj z sekcji kolumn w konsoli dla scrapper, aby to zrobić;

13. Najpierw znajdź nasz tytuł Ђњ Użyj Inspect Element, aby wyświetlić tytuł;

14. Sprawdź tytuł w tagu. Dodaj znacznik do XPath;

15. Wyrażenie wydaje się działać poprawnie, więc ustaw je jako pierwszą kolumnę;

16. W sekcji „Kolumny” zamień nazwę pierwszej kolumny na „tytuł”;

17. Dodaj do niego XPath;

18. W sekcji kolumny XPath są względne, co oznacza, że „./b” wybierze element <b>

19. W XPath dla kolumny tytułu dodaj „./b” i wybierz „zeskrobać”;

20. Teraz kontynuujmy przez rok. Lata można znaleźć w jednym przedziale;

21. Utwórz nową kolumnę, wybierając mały plus obok kolumny dla swojego tytułu;

22. Używając XPath „./span” utwórz kolumnę dla „year”;

23. Kliknij scrape i zobacz, jak dodano rok;

24. Gotowe!

mass gmail