Lietuviškų puslapių crawlinimas su Gabija

2017-09-14 12:30:52

Sveiki,

nors planavau pirmiausia pradėti rašyti apie sanu savo projektus, kurių prisikaupė per keletą metų, bet šią savaitę užsižaidžiau su web crawlinimu ir panašu, kad pirmas postas apie tai, kas įsikraupštė į mano galvą visai netikėtai. Ruošdamasis CodeAcademy PHP Bootcampui iš gilaus GitHub stalčiaus išsitraukiau projektą "Raven", kurį susilipdžiau prieš gal pusmetį tam, kad galėčiau nusisiurbti goSavy puslapio turinį ir apsiskaičiuot paskolų esančių antrinėje rinkoje naudingumą (ROI). Esminė problema ta, kad tingėdamas aiškintis Python, "Raven" sulipdžiau su PHP - gavau veikiantį bet gan lėta darinį. Bet apie "Raven" vėliau..

Taigi šį kartą norėjosi pažiūrėti kaip maksimaliai greitai ir kaip efektyviai galima susirinkti iš interneto puslapio nuorodas ir tuomet jau atidaryti tas svetaines ir susirinkti nuorodas jose ir taip toliau..

Man vienintelis žinomas variantas, kitas nei PHP, buvo Python su Beautiful Soup pasirašyti savo skriptą, kuris tai ir padarytų.

Pradžia nebuvo sunki, tik vis išmušdavo iš vėžių Python kalboje būtinas indentavimas ir kabliataškio eilutės gale nebuvimas. Bet šiaip dar kartą pasitivirtino faltas, kad neblogai mokant bent vieną programavimo kalbą, kitas perprasti yra gerokai lengviau..

Taigi reikėjo visų pirma išsirinklti startinę svetainę, nuo kurios turėtų viskas prasidėti. Labiausiai, mano manymu, tam tinkamas buvo koks nors online katalogas su lietuviškais webais (mane domino tik .lt domenai, nes kitaip būtų gerokai per didelis scope tokiam projektui). Pasirinkau On.lt nes Vladas Palubinskas ten priklauęs daug nuorodų.. Turėtų būti geras startas..