Hvordan Big Datas bliver mindre

Forfatter: Judy Howell
Oprettelsesdato: 28 Juli 2021
Opdateringsdato: 11 Kan 2024
Anonim
Is Big Data Getting Too Big?
Video.: Is Big Data Getting Too Big?

Indhold


Tag væk:

Hvordan man indsamler og analyserer big data er kun en side af ligningen; den anden er, hvordan man forstår det.

Den 4. oktober 2012 meddelte Mark Zuckerberg, at den havde nået en stor milepæl: 1 milliard aktive brugere. For at bringe dette i fare, fortalte han en interviewer, at de eneste andre virksomheder med 1 milliard kunder var "sandsynligvis Coca Cola og McDonalds".

Dette er kun et eksempel på det meget store antal virksomheder, som nu er nødt til at tackle. Tal så store, at de fleste virkelig ikke kan få deres arme omkring sig, så at sige. Hvad der sker er, at disse tal bliver abstraktioner. De er så store, de er bare ikke rigtige for os.

Hertil kommer, at vi behandler og gemmer mere og mere information hver dag, og vi finder os næsten ikke i stand til at håndtere både datamængden og størrelsen på de individuelle værdier. Google behandler omkring 24 petabytes om dagen, mens videospelet "World of Warcraft" bruger 1,3 petabytes til opbevaring til at opretholde sit spil.


Nu er det store tal. Problemet bliver derefter ikke kun, hvordan man håndterer så enorme mængder data, men også hvordan man forstå dem. Heldigvis kommer hjælp fra en række retninger i disse områder. (Få lidt baggrund for, hvordan big data bruges i denne infografiske, humaniserende Big Data.)

Hvordan daterne bliver mindre

I de sidste par år har far til World Wide Web, Sir Tim Berners-Lee, været aktivt i kampagne for åbne data, der er defineret som data, der er tilgængelige for alle til at udforske og analysere. I en TED-video giver Berners-Lee eksempler på, hvordan adgang til data førte til eksponering af racisme i Ohio og hjalp med til at give meget tiltrængte sundhedsydelser til flygtningelejre i Haiti.Det er tydeligt, at dette er applikationer, hvor data er flyttet fra abstraktion til virkelighed.

Den måske mest kendte udvikler af metoder til at præsentere statistiske data i letforståelig grafik er Hans Rosling. Hans Gapminder-program, software, der konverterer international statistik til bevægelig, interaktiv grafik, kan downloades på alle slags pc'er. (Du kan finde nogle gode eksempler på, hvordan det bruges i denne TED-tale. Udviklingen af ​​Gapminder diskuteres på en anden samtale.) Glem cirkeldiagrammer: Denne software præsenterer statistikker ikke kun på en måde, der giver mening, men på den måde gør indtryk . Du får aldrig gåsehud fra bogstatistikker, men disse grafikpakker er nok nok til at sprænge dit sind.


Mens Rosling er en professor, der er velbevandret i statistik, er David McCandless en journalist, der først for nylig blev interesseret i design af metoder til at præsentere dataanalyse på en måde, der virkelig informerer. Hans TED-tale præsenterer eksempler på datavisualiseringer af så forskellige undersøgelser som samfundsmæssige bekymringer omkring videospil, effektiviteten af ​​vitamintilskud og romantiske opdelinger efter sæson og måned. For McCandless viser data en unik ny retning inden for journalistik og en måde at udforske et emne og give indsigt på en måde, der aldrig før var mulig. (Du kan tjekke nogle virkelig fantastiske eksempler på, hvordan dette anvendes i Data Journalism Handbook.)

Chris Jordan tager en anden tilgang. I modsætning til Rosling og McCandless trækker Jordan på sin baggrund som kunstner for at præsentere information om emner som dødsfald fra rygning, fængselsfanger, receptpligtig stofmisbrug og andre større emner på en måde, der er både smuk og magtfuld. Dens information - eller data - som kunst, og i Jordans-sagen nogle ret stærk politisk kommentar. (Du kan tjekke Jordans arbejde her.)

Ingen fejl, ingen stress - Din trinvis vejledning til oprettelse af livsændrende software uden at ødelægge dit liv

Du kan ikke forbedre dine programmeringsevner, når ingen er interesseret i softwarekvalitet.

Jordan, Rosling og McCandless er kun tre af de mange mennesker, der forsøger at gøre brug af de store data, der nu findes i verden, men denne gruppe af big data-pionerer vokser.

Handelens værktøjer

Før vi kan forvandle data til noget nyttigt, skal vi først give mening om det. Værktøjer skal oprettes for at give mening om den enorme udvidelse af fakta og data, der genereres hvert år af forskere, akademikere og virksomheder. En EMC-sponsoreret IDC-undersøgelse i 2011 viste, at data fordobles konstant, og at det tager mindre end to år hver gang. Undersøgelsen oplyste endvidere, at der vil blive oprettet og replikeret en kolossal 1,8 zettabyte i 2011.

ZB?

Yup, der er 1.000 exabyte og en eksabyte er 1.000 petabyte (som du måske husker er 1.000 terabyte, hvilket igen er 1.000 gigabyte).

Nu er der et antal, der er svære at lægge dine arme rundt! EMC-undersøgelsen forsøger at få det til ved at give nogle interessante eksempler på, hvad 1,8 zettabyte svarer til:

  • Hver person i USA twitrer tre tweets i minuttet i 26.976 år direkte
  • Hver person i verden, der har mere end 215 millioner MR-scanninger i høj opløsning om dagen
  • Over 200 milliarder HD-film (hver to timers længde). Det ville tage en person 47 millioner år at se hver film, hvis de så hele dagen hver dag.
  • Mængden af ​​information, der er nødvendig for at udfylde 57,5 ​​milliarder 32 GB Apple iPads.

Med så mange iPads kunne vi:

  • Opret en væg af iPads, 4,005 miles lange og 61 meter høje, der strækker sig fra Anchorage, Alaska, til Miami, Florida.
  • Byg den store iPad-væg i Kina. (Det ville være dobbelt så høj som originalen.)
  • Byg en 20-fots høj mur omkring Sydamerika
  • Dæk 86 procent af Mexico City
  • Byg et bjerg 25 gange højere end Mt. Fuji

For at kunne gøre disse data nyttige - for at omdanne dem til nyttige oplysninger, har vi ikke kun brug for apps og "mashups" - gifte sig med tjenester som Google Earth og New York Times International overskrifter eller en NYC Restaurant Guide med NYC Health Dept Evalueringer - men også meget kraftfulde værktøjer til at filtrere, sortere og analysere datamasser for at give de oplysninger, der er nødvendige til beslutningstagning, videnskabelige undersøgelser og vanskelig analyse. IBM har udviklet sådanne værktøjer, som de samlet refererer til som Smarter Analytics, til brug sammen med sine big data og cloud-tjenester. Det samler software, hardware og konsulenttjenester for at forsøge at levere den informationsplatform, som skal træffes forretningsmæssige og videnskabelige beslutninger. Hewlett-Packard, Oracle og mange andre it-virksomheder rækker også ud til klienter med produkter for at forsøge at håndtere denne informationssikkerhed effektivt.

Big Data, stort potentiale

For at realisere potentialet i denne nye datalder, har vi brug for mange flere systemer og apps. Vi har brug for it-fagfolk med uddannelse og færdigheder i det 21. århundrede. Vi har brug for applikationsspecialister, der virkelig forstår arbejdet og behovene hos virksomheder, industri, regeringsorganer, militæret, iværksættere og forskere. Vi har også brug for rolige og modne analytikere, der vil sætte spørgsmålstegn ved de vurderinger, der er truffet på grundlag af dataanalyse. Det vil være let at blive overvældet af de magtfulde computerværktøjer, der arbejder "magi" på masser af data. Sund fornuft skal altid være fremherskende eller i det mindste kræve omarbejdning af dataene.

Vi ved allerede, at potentialet for store data er ubegrænset, men det er også kapaciteten til fejl. Derfor kan de værktøjer, der er bygget til at give mening om al denne information, være nøglen til at pakke vores arme rundt om big data-problemet.