Internet je juče doživeo jedan od najvećih tehničkih kolapsa u posljednjih nekoliko godina, a krivac nije bio hakerski napad, sabotaža ili preopterećenje servera. Problem je nastao zbog jedne konfiguracione datoteke koja je postala prevelika i izazvala lančani pad čitavog sistema.
Cloudflare je objavio zvanično objašnjenje incidenta i potvrdio da je sve krenulo iznutra.
Iako su korisnici širom svijeta dobijali poruke o grešci i sumnjali na masovan DDoS napad, Cloudflare je naglasio da nije bilo nikakve zlonamjerne aktivnosti. Pad je zahvatio ogroman broj sajtova i aplikacija, a oporavak je trajao satima dok se sistem nije vratio u normalu.
Do prekida je došlo kada je greška u internim dozvolama unutar baze podataka dovela do generisanja loše konfiguracione datoteke za sistem za upravljanje botovima. Ta datoteka trebalo je da razlikuje ljudski od automatizovanog saobraćaja, ali umjesto toga je udvostručena, postala prevelika i srušila dio sistema za usmjeravanje saobraćaja.
Zbog toga je došlo do masovnog generisanja takozvanih 5xx grešaka, što znači da serveri nisu mogli da obrade zahtjeve. Krah je bio toliko širok da su pali i sajtovi koji inače služe za provjeru prekida, uključujući i one koje korisnici obično posjete kada žele da saznaju zašto su servisi nedostupni.
Konfiguraciona datoteka nije bila loša uvijek, već periodično. Sistem ju je generisao na svakih nekoliko minuta i, u zavisnosti od toga koji čvor obrađuje upit, ponekad je bila ispravna, a ponekad neispravna.
Ove fluktuacije dodatno su otežale dijagnostiku i učinile da kvar izgleda nestabilno, što je produžilo vrijeme oporavka.
Cloudflare priznaje najteži pad još od 2019. godine
Nakon identifikacije problema, inženjeri Cloudflarea zaustavili su distribuciju loše datoteke i ručno ubacili prethodnu, ispravnu verziju.
Kompanija najavljuje nova interna pravila koja treba da spriječe slične incidente, uključujući strože kontrole konfiguracija i brže globalno isključivanje pojedinih funkcija kada nastane greška.
Osnivač Cloudflare-a Metju Prins izvinio se korisnicima i naveo da je ovo “najgori pad rada kompanije od 2019. godine”, kao i da će projekti za povećanje otpornosti sistema biti prioritet u narednom periodu, prenosi Telegraf.