MEGATREND POSLOVNA RJEŠENJA

Kako obogatiti skup podataka podacima s weba pomoću web scrapinga?

Megatrend
Foto: Megatrend/Ilustracija
1/2
30.06.2020.
u 09:34

Koncept web scrapinga temelji se na korištenju metoda web crawlinga, automatiziranog sustavnog pretraživanja weba postigunog praćenjem poveznica web stranica pomoću web crawlera.

Područje automatiziranog sustavnog pretraživanja weba svakim danom dobiva sve veću važnost jer količina na webu dostupnih informacija raste te informacije postaju sve vrjednije. Više informacija i bolje informacije od iznimne su važnosti za donošenje poslovnih odluka, zbog čega je korisno znati kako (automatizirano) doći do većih količina informacija na Internetu te kako izvući i obraditi tražene informacije.

Dvije glavne definicije u ovom području su web scraping i web crawling. Web scraping jest sistematizirana ekstrakcija sadržaja (tekstualnog ili medijskog) s web stranica, postignuta korištenjem alata zvanih web scraperi.

Koncept web scrapinga temelji se na korištenju metoda web crawlinga, automatiziranog sustavnog pretraživanja weba postigunog praćenjem poveznica web stranica pomoću web crawlera. Procesi web scrapinga i web crawlinga čine kontinuirani ciklus: crawlingom dolazimo do HTML dokumenata iza web stranica, iz kojih izvlačimo željeni sadržaj i poveznice na ostale web stranice pomoću scrapinga, te dalje vršimo crawling po prikupljenim poveznicama.

Foto: Megatrend/Ilustracija

Slika 1. Kontinuirani ciklus izmjene web scrapinga i web crawlinga Zašto web scraping? Poduzećima web scraping pomaže na mnogo načina. Najčešće je riječ o kompetitivnim analizama cijena, dobivanju uvida kako se pozicionirati na tržištu ispred konkurencije, te istraživanju tržišnih scenarija (trendova) prije plasiranja usluge ili proizvoda na tržište.

Osim toga, dodatni agregirani podaci s weba uvijek dobro dođu i u raznim područjima umjetne inteligencije. Obrada prirodnog jezika i IBM Watson Obrada prirodnog jezika (eng. Natural Language Processing – NLP) jedno je od područja kojemu web scraping najviše doprinosi. NLP je zajedničko potpodručje jezikoslovlja i umjetne inteligencije kojemu je zadatak dati kompjutorima vještinu čitanja i razumijevanja ljudskih jezika. Ovdje kao vodeću svjetsku platformu za rješavanje NLP problema i integraciju NLP-a u vlastite poslovne procese valja istaknuti IBM Watson. IBM Watson kao skup alata popularan je zbog jednostavnosti njihove primjene u vlastitom poslovnom okruženju. Natural Language Understanding, Tone Analyzer, Assistant i Studio samo su neki od IBM Watson alata za razne primjene umjetne inteligencije na tekstualnim podacima, a dodatna prednost platforme dolazi iz mogućnosti njihovog kombiniranja.

IBM Watson Studio je jedan od IBM Watson alata koji se koristi za iskorištavanje benefita umjetne inteligencije, točnije strojnog učenja na vlastitom skupu podataka. Ipak, veća količina i bolje informacije od velike su važnosti za procese strojnog učenja. Stoga valja posegnuti za dodatnim podacima iz web prostora. IBM Watson Studio (a ni IBM Watson platforma) nema servis namijenjen web scrapingu (što je i logično, s obzirom na raznolikost procesa web scrapinga), ali ima nešto mnogo fleksibilnije – podršku za Jupyter Notebook, interaktivnu opensource web aplikaciju za kreiranje i dijeljenje dokumenata koji mogu sadržavati kod, tekst i razne vizualizacije.

Podržava preko 40 programskih jezika, uključujući Python, najpopularniju opciju za web scraping. Tako dobivamo dodirnu točku web scrapinga s IBM Watson platformom i pomoću jednostavnih Python skripti možemo obogatiti kolekciju data asseta u alatu IBM Watson Studio, kako bi ih iskoristili za razne procese strojnog učenja i dobili vrijedne uvide.

Ako želite saznati više o web scrapingu i kako ono može pomoći Vama, slobodno se obratite stručnjacima tvrtke Megatrend poslovna rješenja na tel. +385 1 4091 300 ili na poslovna.rjesenja@megatrend.com.

Još nema komentara

Nema komentara. Prijavite se i budite prvi koji će dati svoje mišljenje.
Važna obavijest
Sukladno članku 94. Zakona o elektroničkim medijima, komentiranje članaka na web portalu i mobilnim aplikacijama Vecernji.hr dopušteno je samo registriranim korisnicima. Svaki korisnik koji želi komentirati članke obvezan je prethodno se upoznati s Pravilima komentiranja na web portalu i mobilnim aplikacijama Vecernji.hr te sa zabranama propisanim stavkom 2. članka 94. Zakona.

Za komentiranje je potrebna prijava/registracija. Ako nemate korisnički račun, izaberite jedan od dva ponuđena načina i registrirajte se u par brzih koraka.

Želite prijaviti greške?

Još iz kategorije