Netrukus po to, kai D.Trumpo administracija pradėjo eiti pareigas JAV sausio pabaigoje, buvo panaikinta daugiau nei 8000 puslapių keliose vyriausybės svetainėse ir duomenų bazėse, „New York Times“ rasta. Nors daugelis iš jų buvo atkurta, tūkstančiams puslapių buvo išvalyti nuorodos į lyčių ir įvairovės iniciatyvas, pavyzdžiui, ir kitus, įskaitant JAV tarptautinės plėtros agentūrą (USAID) svetainę.
Iki vasario 11 d., A Federalinis teisėjas valdė kad vyriausybinės agentūros privalo atkurti visuomenės prieigą prie puslapių ir duomenų rinkinių, kuriuos prižiūri Ligų kontrolės ir prevencijos centrai (CDC) ir Maisto ir vaistų administracija (FDA). Nors daugelis mokslininkų panikoje pabėgo į internetinius archyvus, ironiškai, tTeisingumo departamentas teigė, kad gydytojams, kurie iškėlė bylą, nebuvo padaryta žala, nes pašalinta informacija buvo Galima rasti interneto archyve„Wayback“ mašina. Atsakydamas federalinis teisėjas rašė„Teismas nėra įtikinamas“, pažymėdamas, kad vartotojas turi žinoti originalų archyvuoto puslapio URL, kad galėtų jį peržiūrėti.
Administracijos teisinis argumentas „buvo šiek tiek įdomus pagyrimas“, – sako Markas Grahamas„Wayback Machine“ direktorius, kuris mano, kad teisėjo nutarimas buvo „apropos“. Per pastarąsias kelias savaites interneto archyvas ir kitos archyvinės svetainės sulaukė dėmesio vyriausybės duomenų bazių ir svetainių išsaugojimui. Tačiau šie projektai vyko daugelį metų. Pavyzdžiui, interneto archyvas buvo įkurtas kaip ne pelno siekianti organizacija, skirta suteikti visuotinę prieigą prie žinių beveik prieš 30 metų, ir dabar jis kiekvieną dieną registruoja daugiau nei milijardą URL, sako Grahamas.
Nuo 2008 m. Interneto archyvas taip pat surengė prieinamą kopiją Termino žiniatinklio archyvo pabaigabendradarbiavimas, dokumentuojantis federalinės vyriausybės vietas prieš ir po administracijos pakeitimų. Naujausioje kolekcijoje ji jau yra archyvavo daugiau nei 500 terabaitų medžiagos.
Papildomi nuskaitymai
Interneto archyvo stiprumas yra mastelis, sako Grahamas. „Mes dažnai galime (išsaugoti) dalykus greitai, mastu. Tačiau mes neturime didelės analizės patirties. “ Tuo tarpu tokios grupės kaip aplinkosaugos duomenys ir valdymo iniciatyva bei sveikatos priežiūros žurnalistų asociacija teikia pagalbą aktyvistams ir akademikams, identifikuojantiems ir dokumentuoti pokyčius.
Harvardo teisės mokyklos bibliotekos inovacijų laboratorija taip pat prisijungė prie pastangų jo duomenų.gov archyvas16 TB kolekcija, kurioje yra daugiau nei 311 000 viešų duomenų rinkinių ir kasdien atnaujinama su naujais duomenimis. Projektas prasidėjo 2024 m. Pabaigoje, kai biblioteka suprato, kad duomenų rinkiniai dažnai praleidžiami kituose žiniatinklio nuskaitymuose, sako Jackas Cushmanasprograminės įrangos inžinierius ir bibliotekos inovacijų laboratorijos direktorius.
„Galite praleisti bet ką, kur turite bendrauti su„ JavaScript “, su mygtuku ar su forma“. —Jackas Cushmanas, bibliotekos inovacijų laboratorija
Įprastas nuskaitymas neturi problemų fiksuoti pagrindinį HTML, PDF ar CSV failus. Tačiau interaktyvių interneto paslaugų, kurias skatina duomenų bazės, archyvavimas kelia iššūkį. Pavyzdžiui, neįmanoma archyvuoti tokią svetainę kaip „Amazon“, pavyzdžiui, sako Grahamas.
Duomenų rinkiniai, kuriuos bibliotekos inovacijų laboratorija (LIL) dirba archyvui, yra panašiai sudėtinga. „Jei darote žiniatinklio nuskaitymą ir tiesiog spustelėjate iš nuorodos į nuorodą, kaip tai daro termino archyvo pabaiga, galite praleisti bet ką, kur turite bendrauti su„ JavaScript “arba su mygtuku ar su forma, kur turite paklausti Norėdami gauti leidimą, tada registruokite ar atsisiųskite ką nors “, – aiškina Cushmanas.
„Mes norėjome padaryti tai, kas papildė esamus žiniatinklio nuskaitymus, ir tai, kaip mes tai padarėme, buvo patekti į API“, – sako jis. Eidama į API, kurie apeina tinklalapius, kad būtų galima tiesiogiai pasiekti duomenis, LIL programa galėtų gauti išsamų duomenų rinkinių katalogą – CSV, „Excel“, XML ar kitus failų tipus – ir patraukia susijusius URL, kad būtų sukurtas archyvas. „Data.gov“ atveju Cushmanas ir jo kolegos parašė scenarijų, norėdami išsiųsti tinkamus 300 užklausų, kurios kiekvienoje užklausoje pateiktų 1 000 elementų, tada peržiūrėkite 300 000 bendrų elementų, kad surinktumėte duomenis. „Tai, ko mes ieškome, yra sritys, kuriose kai kurie automatizavimas atrakins daug naujų duomenų, kurie kitaip nebus atrakinti“, – sako Cushmanas.
Kitas svarbus LIL archyvo veiksnys buvo įsitikinti, kad duomenys yra tinkamu formatu. „Galite ką nors gauti žiniatinklio nuskaityme, kur (duomenys) yra 100 000 tinklalapių, tačiau labai sunku jį sugrąžinti į skaičiuoklę ar ką nors, ką galite išanalizuoti“, – sako Cushmanas. Tai, kad tai galima naudoti, tiek duomenų formate, tiek vartotojo sąsajoje, padeda sukurti tvarų archyvą.
Daugybė egzempliorių saugo daiktus
Svarbiausias interneto duomenų išsaugojimo raktas yra principas, kurį grindžiamas akronimu užraktai: daugybė egzempliorių saugo daiktus.
Kai praėjusių metų spalį interneto archyvas patyrė kibernetinę ataką, archyvas perėmė svetainę tris su puse savaitės, kad patikrintų visą svetainę ir įgyvendintų saugumo atnaujinimus. „Bibliotekos tradiciškai Visada buvo užpultasTaigi tai niekuo nesiskiria “, – sako Grahamas. Kaip savo gynybos dalis, archyvas Dabar turi keletą medžiagų kopijų skirtingose fizinėse vietose, tiek JAV viduje, tiek už jos ribų
„JAV vyriausybė yra didžiausia pasaulyje leidėja“, – pažymi Grahamas. Ji skelbia medžiagą įvairiomis temomis ir „didžioji jos dalis yra naudinga žmonėms ne tik šioje šalyje, bet ir visame pasaulyje, nesvarbu, ar tai būtų energija, sveikata, ar žemės ūkis, ar saugumas“. Ir tai, kad daugelis asmenų ir organizacijų prisideda prie skaitmeninio pasaulio išsaugojimo, iš tikrųjų yra geras dalykas.
„Tikslas yra tas, kad tos kopijos yra įvairios kiekvienoje metrikoje, apie kurią galite galvoti. Jie turėtų būti įvairių rūšių žiniasklaidoje. Juos turėtų kontroliuoti skirtingi žmonės, turintys skirtingus finansavimo šaltinius, skirtingais formatais “, – sako Cushmanas. „Kiekviena jūsų atsarginių kopijų panašumo forma sukelia nuostolių riziką“. „Data.gov“ archyvas pirminė kopija yra saugoma per debesies paslaugą su kitais kaip atsarginę kopiją. Archyve taip pat yra atvirojo kodo programinė įranga, kad būtų lengva atkartoti.
Be kopijų palaikymo, Cushmanas sako, kad svarbu įtraukti kriptografinius parašus ir laiko žymes. Kiekvieną kartą sukuriant archyvą, jis pasirašomas su kriptografiniu kūrėjo el. Pašto adreso ir laiko įrodymu, kuris gali padėti patikrinti archyvo pagrįstumą.
Nuolatinis iššūkis
Nuo tada, kai prezidentas Trumpas pradėjo eiti pareigas, iš JAV federalinių svetainių buvo pašalinta daug medžiagos–Kiekybiškai daugiau nei ankstesnės naujos administracijos, sako Grahamas. Tačiau pasauliniu mastu tai nėra precedento neturintis, priduria jis.
JAV nuo Billo Clintono buvo pakeistos oficialios vyriausybės tinklalapiai su kiekviena nauja administracija, pažymi Jasonas Scottas, „laisvo archyvo archyvaras“ interneto archyve ir skaitmeninės išsaugojimo svetainės archyvo komandos įkūrėjas. „Tai chaotiškesnis“, – sako Scottas. Tačiau „internetas yra labai aukštas entropijos subjektas …„ Google “yra archyvas, pavyzdžiui, prekybos centras yra maisto muziejus“.
Skaitmeninių archyvarų darbas yra sunkus, ypač turint daugybę svetainių, kurios egzistavo per interneto standartų raidą. Tačiau šios pastangos nėra naujos. „Didėjimas bus susijęs tik su disko vietos ir pralaidumo ištekliais, o ne vykstančiu procesu“, – sako Scottas.
„Cushman“, dirbant su šiuo projektu, pabrėžė viešųjų duomenų vertę. „Vyriausybės duomenys, kuriuos turime, yra tarsi GPS signalas“, – sako jis. „Tai nepasako, kur kreiptis, tačiau tai pasako, kas yra aplink mus, kad galėtume priimti sprendimus. Pirmą kartą su tuo įsitraukimas į tai tikrai padėjo man įvertinti, kokį lobį turime. “
Iš jūsų svetainės straipsnių
Susiję straipsniai visame internete