Gør visionære webforskningsstudier ved hjælp af dyb webdata og Excel web forespørgsler

Hvad ville du sige, hvis jeg fortalte dig, at du har de værktøjer til din rådighed for at gøre banebrydende, jordskælvende forskning? Nå, det gør du, og jeg vil vise dig hvordan.

Hvad ville du sige, hvis jeg fortalte dig, at du har de værktøjer til din rådighed for at gøre banebrydende, jordskælvende forskning?  Nå, det gør du, og jeg vil vise dig hvordan.
Reklame

Hvad ville du sige, hvis jeg fortalte dig, at du har de værktøjer til din rådighed for at gøre banebrydende, jordskælvende forskning? Nå, det gør du, og jeg vil vise dig hvordan.

Regeringer, akademiske institutioner og nonprofit forskningsorganisationer offentliggør tabeller fyldt med data til det offentlige område. Uden nogen, der bruger disse oplysninger, vil dens sande værdi aldrig blive kendt. Desværre har få mennesker indsigt, færdigheder eller værktøjer til at tage dataene og skabe interessante sammenhænge mellem tilsyneladende ikke-forbundne oplysninger.

Baggrund

Meget af den forskning, jeg gør for min egen blog, involverer at grave igennem det såkaldte usynlige web 10 søgemaskiner til at udforske det usynlige web 10 søgemaskiner til at udforske det usynlige web Vi er fortrolige med internettet. Men vidste du, at der er en stor cache med oplysninger, at søgemaskiner som Google ikke har direkte adgang til? Dette er den usynlige web. Læs mere for at afdække data, der er blevet frigivet til offentligheden, men skjult fra søgemaskiner De 5 mest avancerede søgemaskiner på nettet De 5 mest avancerede søgemaskiner på nettet Læs mere i en online database. Dette er den dybe webside TorSearch har til formål at være Google for det dybe web. TorSearch sigter mod at være Google for det dybe web. Tor er en skjult service og en del af Deep Web. TorSearch er en ny anonym søgemaskine, som dets grundlægger Chris MacNaughton vil lave "Google of Tor". Læs mere, og det er overflod af værdifulde data. Meget ofte kommer jeg på tværs af websider, der bare er chockfyldt med nogle af de mest værdifulde data om emner, der kører spektret fra folketællingsdata til epidemiologiske undersøgelser af sjældne sygdomme. Jeg har hele tiden nye ideer om, hvordan man kan forsøge at korrelere disse forskellige datakilder ved hjælp af forskellige værktøjer - og et af de mest værdifulde værktøjer, jeg har fundet, er Web Query inde i Microsoft Excel.

Find interessante datakorrelationer

Det, jeg skal vise dig i dag, er et eksempel på, hvordan du kan bruge Excel Web Queries til at trække data fra forskellige hjemmesider og diagramme dem mod hinanden for at søge efter potentielle korrelationer mellem dataene.

Vejen til at starte en øvelse som denne er at komme op med en interessant hypotese. For eksempel - for at holde tingene interessant her - vil jeg tilfældigt postulere, at skyrocketing autisme satser i USA skyldes enten vaccine inokulationer eller den stigende forekomst af elektromagnetiske felter i og omkring børn, såsom mobiltelefoner. Det er en skør hypotese, som man kan finde på de fleste konspirationsteori websites, men det gør det sjovt. Så lad os komme i gang, skal vi?

Først skal du åbne Excel, gå over til data menupunktet og finde ikonet "Fra web" i menulinien.

web-query-excel1

Dette er, hvad du vil bruge til at importere de forskellige datatabeller fra de mange hjemmesider derude, der har udgivet dem.

Importerer webdata til Excel

Så i gamle dage skulle du forsøge at kopiere dataene fra den tabel på en webside, indsætte den i Excel, og derefter håndtere alle de vanvittige formateringsproblemer, der er involveret i at gøre det. Total besvær, og mange gange er det bare ikke hovedpine værd. Nå, med Excel Web Queries, er disse dage væk. Selvfølgelig, før du kan importere dataene, skal du bruge Google din vej rundt på nettet for at finde de data, du har brug for i tabelformat. I mit tilfælde fandt jeg et websted, der havde offentliggjort Department of Education statistikker for antallet af amerikanske offentlige skoleelever, der blev identificeret som autisme. Et godt bord der gav tal fra 1994 hele vejen igennem 2006.

Så du klikker bare på "Fra internettet", indsæt webside-URL'en i forespørgselsadressefeltet, og rul derefter ned på siden, indtil du ser den gule pil ved siden af ​​tabellen med de data, du vil importere.

web-query-excel2

Klik på pilen, så den bliver en grøn markering.

web-query-excel3

Endelig fortæl Excel, hvilket felt du vil indsætte borddataene i, inde i dit nye regneark.

web-query-excel4

Så - Voila! Dataene flyder automatisk direkte ind i dit regneark.

web-query-excel5
Så med en tendens til offentlig skole autisme satser fra 1996 til 2006 på plads, er det tid til at gå ud på jagt efter vaccination og mobiltelefon brug tendenser så godt.

Heldigvis fandt jeg hurtigt trends for mobiltelefonabonnenter i USA fra 1985 til 2012. Fremragende data til denne undersøgelse. Igen brugte jeg Excel Web Query-værktøjet til at importere den tabel.

web-query-excel6

Jeg importerede denne tabel i et rent, nyt ark. Derefter opdagede jeg vaccinationstendenser for procentdel af skolebørn vaccineret til forskellige sygdomme. Jeg importerede denne tabel ved hjælp af Web Query-værktøjet i et tredje ark. Så endelig havde jeg tre ark med de tre tabeller fyldt med de tilsyneladende ikke-forbundne data, jeg havde opdaget på nettet.

web-query-excel8

Det næste trin bruger Excel til at analysere dataene og forsøge at identificere eventuelle korrelationer. Det er her et af mine foretrukne dataanalyseværktøjer kommer i spil - PivotTable.

Analysere data i Excel med pivottabellen

Det er bedst at oprette din PivotTable i et helt nyt, tomt ark. Du vil bruge guiden til hvad du skal gøre. Hvis du vil aktivere guiden PivotTable i Excel, skal du trykke på Alt-D samtidig, indtil et meddelelsesvindue dukker op. Så slip disse knapper, og tryk på "P" tasten. Så vil du se guiden pop op.

web-query-excel10

I guiden første vindue vil du vælge "Flere konsolideringsområder", som giver dig mulighed for at vælge data fra alle de ark, du har importeret. Ved at gøre dette kan du konsolidere alle de tilsyneladende ikke-relaterede data til en, kraftig pivotabel. I nogle tilfælde må du muligvis massere nogle af dataene. For eksempel var jeg nødt til at rette feltet "År" i autismetabellen, så det viste "1994" i stedet for "1994-95" - hvilket gjorde det bedre med bordene på de andre ark, som også havde det primære år Mark.

web-query-excel11

Det fælles felt mellem data er det, du har brug for for at forsøge at korrelere oplysninger, så husk det, når du jager på internettet for dine data.

Når pivottabellen er færdig, og du har alle de forskellige dataværdier, der vises i et bord, er det tid til at lave en visuel analyse for at se, om der er en åbenbar forbindelse, der springer ud på dig.

Visualisering af data er nøgle

At have en masse tal i et bord er fantastisk, hvis du er økonom, men den hurtigste og nemmeste måde at have det "aha!" Øjeblik, når du forsøger at finde forbindelser som en nål i en høstak, er via diagrammer og grafer. Når du har din PivotChart på plads med alle de datasæt, du har samlet, er det tid til at oprette din graf. Normalt vil en linjediagram være bedst, men det afhænger af dataene. Der er tidspunkter, hvor et stregdiagram fungerer meget bedre. Prøv at forstå, hvilken slags data du kigger på, og hvilke formular sammenligninger fungerer bedst.

I dette tilfælde ser jeg på data over tid, så en linjediagram er virkelig den bedste måde at se tendenser gennem årene. Kortlægning af autismesatser (grøn) mod nedsat vaccinationshastighed (mørkeblå), kyllingepoks-vacciner (lyseblå) og mobiltelefonbrug (lilla) forekom en ulige korrelation pludselig i denne stikprøve af data, som jeg spillede med.

web-query-excel12

Det er mærkeligt nok, at trenden i mobiltelefonbrug fra 1994 til 2006 næsten matchede stigningen i autisme satser i samme tidsrum. Mens mønsteret var helt uventet, er det et perfekt eksempel på, hvordan sammenbindende interessante data kan afsløre fascinerende kundeemner - giver dig større indsigt og motivation til at holde skubbe frem og søge efter flere data, som yderligere kan styrke din hypotese.

En sammenhæng som ovenstående viser ikke noget. Der er mange tendenser, der stiger over tid - mønsteret kunne være tilfældigt, men det kunne også være et vigtigt spor i din løbende søgen efter flere data på internettet. Heldigvis har du et kraftfuldt værktøj kaldet Excel Web Queries, der gør den søgen bare lidt lettere.

Fotokredit: Kevin Dooley via photopin cc

In this article