Når det kommer til online databaser og informationer, der findes indenfor, hvad der almindeligvis er kendt som den "usynlige web 10 søgemaskiner til at udforske det usynlige web 10 søgemaskiner til at udforske det usynlige web Vi er fortrolige med internettet. Men vidste du, at der er en stor cache med oplysninger, at søgemaskiner som Google ikke har direkte adgang til? Dette er den usynlige web. Læs mere ", jeg er ikke din typiske bruger. Selvfølgelig bruger jeg lidt for meget af min tid til at sigte gennem online databaser på steder som National Archives og CIA FOIA læsesalen, men jeg må sige, at intet gør mig mere begejstret, end når jeg finder et HTML-baseret bord fyldt med mængder af tilsyneladende komplekse og ikke-forbundne data.
Faktum er datatabeller en guldmine af vigtige sandheder. Data hentes ofte af hærer af dataindsamlingsgrunter med støvler på jorden. Du har fået folk fra den amerikanske folketælling, der rejser hele landet for oplysninger om husstand og familie. Du har ikke-kommercielle miljøgrupper at indsamle alle mulige interessante oplysninger om miljø, forurening, global opvarmning og meget mere. Og hvis du er i den paranormale eller ufologi, er der også løbende opdaterede informationstabeller om observationer af mærkelige genstande i himlen over os.
Ironisk nok ville du tro at enhver regering i verden ville være interesseret i at vide, hvilken slags udenlandske fartøjer der ses i skyer over ethvert land, men tilsyneladende ikke - i hvert fald ikke i USA alligevel. I Amerika er samlingen af usædvanlige observationer af håndværk blevet henvist til hold af amatørhobbyister, der flocker til nye UFO-observationer som møller til en flamme. Min interesse for disse observationer stammer faktisk ikke fra en fascination med udlændinge eller håndværk fra andre planeter, men fra en videnskabelig fascination med mønstre - hvor og hvorfor flere mennesker ser ting på himlen, og om disse observationer kunne afspejle noget meget reelt og meget mere ned til jorden faktisk foregår.
For at udforske mængderne af data indsamlet af hold af UFO-hobbyister har jeg faktisk udviklet en måde at importere store HTML-tabeller af data til i et Google-regneark og derefter manipulere og analysere disse data for at udvinde og opdage meningsfuld og vigtig information. I denne artikel vil jeg vise dig, hvordan du gør det samme.
Vigtige HTML-data i Google Regneark
I dette eksempel vil jeg vise dig, hvordan du importerer data, som kan lagres i en tabel på ethvert websted på internettet, til dit Google regneark. Tænk på den enorme mængde data, der er tilgængelig på internettet i dag i form af HTML-tabeller. Wikipedia alene har data i tabeller for emner som global opvarmning, US Census Bureau har tonsvis af befolkningsdatasæt, og en lille smule Googling vil lande dig meget mere ud over det.
I mit eksempel starter jeg med en database på det nationale UFO-rapporteringscenter, der faktisk ser ud til, at det kan være en dyb webdatabase med forespørgselsstil, men hvis du observerer webadressestrukturering, er det faktisk en semi-kompleks web- baserede rapporteringssystem bestående af statiske websider og statiske HTML-tabeller - præcis hvad vi ønsker, når vi leder efter data, der skal importeres.
NUForc.org er en af de organisationer, der fungerer som en af de største rapporteringscentre for UFO-observationer. Det er ikke det eneste, men det er stort nok til at finde nye datasæt med aktuelle observationer for hver måned. Du vælger at se dataene sorteret efter kriterier som stat eller dato, og hver af dem leveres i form af en statisk side. Hvis du sorterer efter dato og derefter klikker på den seneste dato, vil du se, at tabellen der er opført der er en statisk webside opkaldt efter datoformatet.
Så vi har nu et mønster til regelmæssigt at udtrække de seneste observationsoplysninger fra denne HTML-baserede database. Alt du skal gøre er at importere den første tabel, brug den seneste indtastning (den øverste) for at identificere den seneste opdatering, og brug derefter datoen for denne indlæg til at oprette URL-linket, hvor den nyeste HTML-datatabel eksisterer. Hvis du gør dette, skal du blot bruge et par tilfælde af ImportHTML-funktionen, og derefter et par kreative anvendelser af tekstmanipulation. Når du er færdig, har du en af de fedeste, selvopdaterende rapporteringsarketter af din helt egen. Lad os komme igang.
Importerer tabeller og manipuleringsdata
Det første skridt er selvfølgelig at skabe det nye regneark.
Så, hvordan importerer du HTML-tabeller? Alt du behøver er den webadresse, hvor bordet er gemt, og nummeret på tabellen på siden - som regel den første er 1, den anden er 2 osv. Da jeg kender webadressen til de første tabeloversigt datoer og tæller af observationer opført, er det muligt at importere ved at skrive følgende funktion i celle A1.
= importhtml ( ”http://www.nuforc.org/webreports/ndxpost.html?” & H2, ”bord”, 1)
H2 holder funktionen " = time (nu ()) ", så tabellen opdateres hver time. Dette er sandsynligvis ekstremt for data, der opdaterer dette sjældent, så jeg kunne nok komme væk med at gøre det dagligt. Alligevel bringer ovenstående ImportHTML-funktion i tabellen som vist nedenfor.
Du skal gøre en smule data manipulation på denne side, før du kan sammenlægge URL'en til den anden tabel med alle UFO-observationerne. Men gå videre og lav det andet ark på projektmappen.
Før du forsøger at bygge det andet ark, er det på tide at udtrække postdatoen fra denne første tabel for at opbygge linket til den anden tabel. Problemet er, at datoen er bragt ind som et datoformat, ikke en streng. Så først skal du bruge TEKST-funktionen til at konvertere rapportpostdatoen til en streng:
= tekst (A2, ”mm / dd / åå”)
I den næste celle til højre skal du bruge SPLIT-funktionen med "/" afgrænseren for at bryde datoen op i måned, dag og år.
= split (D2, ”/”)
Ser godt ud! Men hvert nummer skal tvinges til to cifre. Du gør dette i cellerne lige under dem ved hjælp af kommandoen TEXT igen.
= tekst (E2, ”00")
Et format på "00" (det er nuller) tvinger to cifre, eller en "0" som pladsholder.
Nu er du klar til at genopbygge hele webadressen til den nyeste HTML-tabel med nye observationer. Du kan gøre dette ved at bruge CONCATENATE-funktionen og sammenlægge alle de oplysninger, du lige har hentet fra den første tabel.
= SAMMENKÆDNING ( ”http://www.nuforc.org/webreports/ndxp”, G3, E3, F3, ”.html”)
Nu på det nye ark, du har lavet ovenfor (det tomme ark), skal du lave en ny "importhtml" -funktion, men denne gang for den første URL-linkparameter, så du vil navigere tilbage til det første regneark og klik på cellen med URL-linket, du netop har oprettet.
Den anden parameter er "tabel", og den sidste er "1" (fordi observationstabellen er den første og eneste på siden). Hit enter, og nu har du lige importeret hele det antal observationer, der blev bogført på den pågældende dato.
Så det tror du nok, det er en god nyhedsakt og alt - det betyder jo, at hvad du har gjort, er hentet eksisterende information fra et bord på internettet og migreret til et andet bord, omend en privat i din Google Docs-konto. Ja det er sandt. Men nu, at det er i din egen private Google Docs-konto, har du fået hånden værktøjerne og funktionerne til bedre at analysere disse data og begynde at opdage fantastiske forbindelser.
Brug af pivotrapporter til at analysere importerede data
For nylig skrev jeg en artikel om brug af pivotrapporter i Google-regneark Bliv ekspertdatabasejournalist ved hjælp af Google Regnearkrapportværktøjer Bliv ekspertdataanalytiker natten ved hjælp af Google Regneark Rapportværktøjer Vidste du, at et af de største værktøjer for alle til at udføre data analyse er faktisk Google regneark? Årsagen til dette er ikke kun fordi det kan gøre næsten alt hvad du måske vil ... Læs mere for at udføre alle slags cool data analyse feats. Nå kan du lave den samme fantastiske dataanalysakrobatik på de data, du har importeret fra internettet - hvilket giver dig mulighed for at afdække interessante forbindelser, som muligvis ingen andre har afdækket før dig.
For eksempel kan jeg fra den endelige observationstabel beslutte at bruge en pivotrapport for at se på antallet af forskellige unikke former, der er rapporteret i hver stat, sammenlignet med det samlede antal observationer i den pågældende tilstand. Endelig filtrerer jeg også på noget, der nævner "udlændinge" i kommentarfeltet, for forhåbentlig at udrydde nogle af de mere wingnut-poster.
Dette afslører faktisk nogle ret interessante ting lige uden for flagermuset, som det faktum, at Californien klart har det højeste antal rapporterede observationer af en anden stat sammen med sondringen om at rapportere det højeste antal håndværkformer i landet. Det viser også, at Massachusetts, Florida og Illinois også er store hittere i UFO-observationsafdelingen (i hvert fald i de seneste data).
En anden cool ting om Google Regneark er det store udvalg af diagrammer til rådighed for dig, herunder en Geo-Map, der lader dig oprette "hot spots" af data i et grafisk format, der virkelig skiller sig ud og gør disse forbindelser inden for dataene helt oplagte.
Hvis du tænker på det, er det virkelig kun toppen af isbjerget. Hvis du nu kan importere data fra datatabeller på en hvilken som helst side på internettet, skal du bare tænke på mulighederne. Få de seneste lagernumre eller de seneste top 10 bøger og forfattere på New York Times bestseller-listen eller de største sælgende biler i verden. Der er HTML-tabeller derude på næsten ethvert emne, du kan forestille dig, og i mange tilfælde opdateres disse tabeller ofte.
ImportHtml giver dig mulighed for at tilslutte dit Google-regneark til internettet og matche de data, der findes derude. Det kan blive dit eget personlige nav med information, som du kan bruge til at manipulere og massere i et format, som du rent faktisk kan arbejde med. Det er bare en meget meget cool ting at elske om Google Regneark.
Har du nogensinde importeret data til dine regneark? Hvilke slags interessante ting har du opdaget i disse data? Hvordan brugte du dataene? Del dine oplevelser og ideer i kommentarfeltet nedenfor!
Billedkreditter: Business Graph