Semalt: ცნობილი Unscrapable საიტები

გსურთ მონაცემების ხელით ჩაწეროთ, საჭიროა შესანიშნავი პროგრამირების უნარი. ალტერნატიულად, შეგიძლიათ გამოიყენოთ ვებ მონაცემთა მოპოვების მთელი რიგი ინსტრუმენტები, რომლებიც მიზნად ისახავს კონკრეტული ფორმატით მონაცემების წაკითხვას, სტრუქტურასა და გაფანტვას. ამასთან, ზოგი ვებსაიტზე არ არის დაფიქსირებული, რაც იმას ნიშნავს, რომ ისინი ან იყენებენ საწინააღმდეგო ჯართის საწინააღმდეგო ტექნიკას, ან რეგულარულად იცვლიან მარკირებას. მაგალითად, LinkedIn– ს, Alibaba– სა და Facebook– ს მოითხოვს შესვლის დეტალები, გთავაზობთ CAPTCHA– ში შესვლას და IP მისამართების დაბლოკვას, რათა უზრუნველყონ მათი მომხმარებლების დაცვა და კონფიდენციალურობა.
1. Facebook:
Facebook არის ერთ ერთი ყველაზე ცნობილი სოციალური ქსელის ვებ – გვერდი, რომელსაც ჰყავს 20 მილიონზე მეტი აქტიური მომხმარებელი მთელ მსოფლიოში. არსებობს უამრავი პროგრამა და მონაცემთა შეფუთვის პროგრამები, რომლებიც მიზნად ისახავს ინდივიდუალური ინფორმაციის ამოღებას Facebook- დან. სამწუხაროდ, ინსტრუმენტების უმეტესობა არ გვაწვდის ზუსტ და წაკითხულ მონაცემებს. ფეისბუქმა გაუმარტივა სპამერებსა და ჰაკერებს მისი მომხმარებლების შესახებ ინფორმაციის შეგროვება. მისი მიღება შესაძლებელია მხოლოდ HTML პარსერის საშუალებით, როგორიცაა Python, მაგრამ საიტის სუპერვიზებისა და ოსტატების უმეტესობამ კი არ იცის პითონის საფუძვლები. ამ ბოლო დროს, Facebook scraper- ი დაიწყო ამ სოციალური ქსელის ვებსაიტისგან სასიცოცხლო ინფორმაციის ამოღების მიზნით. Facebook scraper- ით შეგიძლიათ მხოლოდ Facebook მომხმარებლების სახელების და ელ.ფოსტის მისამართების შეგროვება. თუ გსურთ სიღრმისეული მონაცემების შეგროვება, თქვენ არ შეგიძლიათ გამოიყენოთ ეს ინსტრუმენტი ან სხვა მსგავსი სკაწერი.
2. LinkedIn:

LinkedIn არის კიდევ ერთი სოციალური ქსელის ვებსაიტი, რომლის გადაღება შეუძლებელია. ამასთან, ნაწილობრივი მონაცემების გადატანა შეგიძლიათ რამდენიმე ვებგვერდიდან, მაგრამ ინფორმაციის უმეტესობა მიუწვდომელია. ინფორმაციის გადაწერა შეგიძლიათ მხოლოდ LinkedIn– ის საჯარო პროფილისგან, Import.io ან Kimono Labs– ის გამოყენებით. მარკეტინგის მომხმარებლებს არ შეუძლიათ ისარგებლონ ჯართის მომსახურებით, LinkedIn- ის უსაფრთხოების ზომების გამო ამასთან, მათ დაიწყეს ტყვიის ექსტრაქტორის გამოყენება, რომელიც ეხმარება საზოგადოების პროფილების გადაფარვას. ამ ხელსაწყოს მხოლოდ პროფილის ბმულების, სახელების და ელექტრონული ფოსტის მისამართების გადაწერა შეუძლია. თუ გსურთ მიიღოთ Skype ID, Yahoo Messenger ID, სრული მისამართი და Twitter– ის მომხმარებელი, LinkedIn ამის საშუალებას არ მოგცემთ.
3. ალიბაბა:
Alibaba არის ტექნოლოგიური კონგლომერატი, რომელიც უზრუნველყოფს ბიზნეს – მომხმარებლის სამომხმარებლო მომსახურებას ინტერნეტით. სამწუხაროდ, ამ ვებგვერდიდან მონაცემების გადაწერის გზა არ არსებობს. Amazon- სა და eBay- სგან განსხვავებით, Alibaba- ს გაუჭირდა მომხმარებლებისთვის ინფორმაციის მოპოვება მისი პროდუქციის, სურათების, აღწერილობებისა და ფასების შესახებ. 2015 წელს, საზოგადოებას გააცნო მთელი რიგი ინსტრუმენტები, რომელთა საშუალებითაც შესაძლებელია მონაცემები ალიბაბას მარტივად გადაფაროს. ინსტრუმენტების უმეტესი ნაწილი ფასიანია და არ მოდის სტარტაპების მოლოდინში. Alibaba მოქმედებს ბიზნესის ფართო სპექტრს მთელ მსოფლიოში და აკავშირებს მყიდველებს მომწოდებლებთან. იმავდროულად, ეს უზრუნველყოფს მათ კონფიდენციალურობას და არავის აძლევს მონაცემების დაშლას. 2017 წლის ოქტომბრის მდგომარეობით, Alibaba– ს ყოველ პლატფორმაზე ყოველთვიურად 500 მილიონზე მეტი აქტიური მომხმარებელი ჰყავს. Cloud- ის შემოსავლების ზრდაში ალიბაბამ ღრუბლის უმთავრეს მოთამაშეებსაც კი, როგორიცაა Amazon, Google და Microsoft- ი გაუწია. მან შეასრულა საუკეთესო სტრატეგიები მისი მომწოდებლების კონფიდენციალურობის უზრუნველსაყოფად და დაბლოკავს ყველა საეჭვო IP მისამართს წამში.