Sieć jest genialnym źródłem wiedzy na każdy temat. Mogę otworzyć dowolną przeglądarkę i gdziekolwiek na świecie nie będę, otrzymam odpowiedź na każde moje pytanie w ciągu kilku chwil.

Jednakże sieć nie jest już takim wspaniałym wynalazkiem, kiedy chodzi o pozyskanie konkretnych informacji. Chodzi tu o takie przetworzenie danych z sieci, aby stały się użyteczne w podejmowaniu różnych decyzji.  Uzyskanie z sieci takich informacji, jakie chcemy, w dodatku szybko – stanowi spore wyzwanie.

Niedoskonałości Internetu

Rozwiązaniem tej niedoskonałości jest pewien mroczny sekret branży IT, o którym często się nie mówi, chodzi mianowicie o „scraping”. W skrócie to wydobywanie konkretnych danych ze stron internetowych.

Rzeczywistość jest nieco brutalna. Otóż jeśli jesteś posiadaczem jakichkolwiek danych, prowadząc na przykład sklep internetowy, nie mówiąc już o większym serwisie jak w stylu wyszukiwarki lotów, hoteli, to dane z takiej strony są niemal z pewnością „scrapowane”.

Ty nie masz o tym pojęcia, ani żadnej kontroli. Ponadto tego typu praktyki generują często sztuczny ruch na stronie, przez co mogą tylko namieszać, zniekształcając chociażby statystyki odwiedzin danej witryny i obciążając jej serwery.

Po co komu jest ten scraping?

Każdy zamknięty deal zaczyna się od leada. Jeśli zamierzasz błyskawicznie zbudować bazę danych twoich potencjalnych klientów (czyli leadów) to wykorzystaj właśnie w tym celu narzędzia do scrapowania.

W ten sposób powszechnie pozyskuje się dane osób na przykład z Linkedin. Możesz wszystko to robić ręcznie, gdyż czasem nawet najlepsze technologie nie są w stanie zastąpić tego, organicznej, ludzkiej pracy, aczkolwiek w zdecydowanej większości przypadków to program może wykonać całą robotę za Ciebie.

Import 1Na straży demokracji w dostępie do danych

W tym miejscu pojawia się właśnie startup o nazwie Import.io, który samą swoją nazwą się definiuje. Możesz dosłownie importować dowolne informacje z każdej strony internetowej i automatycznie budować z nich użyteczne bazy danych.

Jest to obecnie bardzo popularna platforma do scrapingu, która za swój główny cel postawiła sobie „demokratyzowanie” dostępu do informacji w sieci. Import.io usuwa barierę w błyskawicznym wydobywaniu informacji z niemalże każdej strony internetowej. Posiadanie właściwych informacji daje dużą moc, dlatego twórcy startupu chcą, aby każdy miał do tego jednakowy dostęp.

Aby w pełni zdemokratyzować dostęp do informacji, każdy człowiek musi mieć możliwość łatwego ich pozyskania. Obecnie wiązało się to z tym, iż koniecznym było stworzenie określonych programów/ botów, które scrapowały (czyli wydobywały) określone informacje z danej witryny.

Innymi słowy wiązało się to z koniecznością zakodowania takiego programu, co było bardzo dużą barierą wejścia w temat scrapingu dla wielu firm.

Po co pozyskuje się takie dane?

To oczywiście nie tylko leady, ale dane niezbędne w podejmowaniu kluczowych decyzji biznesowych, takie jak zmieniające się ceny lotów na Skyscanner czy hoteli na Airbnb. Wyciągając takie dane masz przewagę nad konkurencją, ponieważ możesz ocenić zmieniające się trendy na rynku szybciej.

Analizujesz jak działa konkurencja, dzięki czemu nie musisz przewidywać, zgadywać, wróżyć z fusów, tylko właściwie reagujesz. Masz niższą sprzedaż, scrapujesz strony twojej konkurencji, gdzie okazuje się, że obniżyli ceny w kilku swoich produktów, a Twoi klienci przeszli do nich. Wiesz już, co za tym stoi, możesz się do tego dostosować. To najbardziej obrazowy przykład data scrapingu.

Przykładowe wykorzystanie scrapingu

Jestem osobą nietechniczną, dlatego postanowiłem sprawdzić, czy rzeczywiście mogę w łatwy sposób stworzyć sobie bazę danych. Wziąłem do tego banalny przykład – czyli stronę z wynikami meczy flashscore.pl.

Wszystko zaczyna się banalnie – poprzez zwyczajne wklejenie adresu URL witryny, skąd chcę pozyskać dane. Następnie strona brana jest na warsztat import.io, który rozkłada ją na czynniki pierwsze i pyta, które informacje chcesz wziąć pod uwagę przy budowie bazy danych.Import 2Widok ekstraktora / API – tworzenie własnej bazy danych

Udało mi się stworzyć bardzo szybko prostą bazę danych, która zawierała przeciwników spotkania, wynik oraz godzinę spotkania. Import.io bardzo szybko stworzył bazę zawierającą 49 rekordów.

Chciałem dodać jeszcze dla każdego ze spotkań kraj w jakim spotkanie zostało rozgrywane, jednak prostym klikaniem nie byłem w stanie tego zrobić. Pomyślałem, aby dodać jeszcze wynik spotkania, które trwa jeszcze się nie skończyło. Po kliknięciu w kilka wyników „na żywo” system Import.io sam zorientował się, o jakie wydarzenia jeszcze chodzi i z automatu dodał kolejne 24 rekordy do mojej bazy danych.Import 3Wygląd bazy danych, którą udało mi się stworzyć

Moja baza danych liczy 73 rekordy, została zrobiona rzeczywiście w minutę. Jednakże nie byłem w stanie w tak łatwy sposób dodać już nieco bardziej „zaawansowanych” kolumn. Na szczęście Import.io posiada wiele instrukcji w formie wideo, które uczą, jak tworzy się nieco bardziej zaawansowane bazy danych. Trudno wymagać, aby wszystko było w 100% intuicyjne.

Całą bazę mogę sobie pobrać jako plik Excel. Import.io umożliwia tworzenie z tego raportów w postaci wykresów, grafów. Pełna analiza i to po zwykłym wklejeniu adresu URL. Dla mnie, jako laika – wypas.

Scraping dostępny dla mas

Startup działa zupełnie inaczej niż inne z branży, które udostępniają klientowi gotową bazę danych. Dzięki import.io scraping stał się w końcu dostępny dla mas. Stworzyli oni system prosty w obsłudze, który opiera się na zwykłym wklejeniu linka strony internetowej zawierającej dane. Teoretycznie ich algorytmy robią już resztę.

W praktyce udostępniają bardzo proste w obsłudze API – dzięki czemu każdy sam może określić z czego Import.io ma zbudować im bazę danych – bez konieczności kodowania. Co więcej, można również ustalić jak często baza danych ma się aktualizować, a jeśli strona źródłowa się zmieni, API będzie w stanie dostosować się do tych zmian.

Informacja to moc

Żyjemy w czasach ogromnej asymetrii informacji, kto je posiada, ten ma przewagę nad konkurentem. Dostęp do informacji to korzyści, dlatego też scraping / data mining – czyli pozyskiwanie danych, a co za tym idzie także big data /data science – jako szeroko pojmowane analizowanie ogromnych ilości zmiennych i wyciąganie z nich kluczowych wniosków jest tym, czym wielkie marki starają się zyskać przewagę nad swoimi rywalami.

Nie mamy się czego wstydzić

W temacie scrapingu wybijają się w Polsce Growbots.com, którzy osiągnęli dość spory rozgłos na wielu konferencjach branżowych, posiadają wartościowy, ciekawy produkt.

Ciekawą alternatywą jest RightHello.com, którzy mają moim zdaniem najbardziej interesujący blog ekspercki o pozyskiwaniu leadów w branży B2B, a także nie mniej ciekawe narzędzie wykorzystujące scraping w budowaniu bazy potencjalnych klientów.

Jeśli chodzi o temat data science? W tym wypadku wiem, że młody, świetny merytorycznie i praktycznie nikomu nieznany Appsilon.pl robi ciekawe rzeczy z dużymi markami w Polsce i zagranicą.

Jestem pełen nadziei, że kiedyś oni również pójdą tropem Import.io, pozyskując co najmniej 17 milionów dolarów, które udało się ugrać temu jakże fascynującemu startupowi. Do dzieła, bo branża data science oraz data scraping to bez wątpienia przyszłość.

Napisz coś od siebie!