TEMA BROJA
Priredila: Ilijana Jakšić Pavlović
Superračunari/big data
Veliki podaci za male ljude
Veliki podaci (big data)predstavljaju pojam koji označava velike i složene setove podataka, tačnije kombinaciju strukturiranih, polu-strukturiranih i nestrukturiranih podataka koje treba obratiti. Ovi setovi predstavljaju prave riznice informacija i koriste se kod projekata naprednih analitičkih aplikacija. Sistemi koji obrađuju i skladište ove grupe podataka su komponenta arhitekture upravljanja podacima u organizacijama. Big data se često opisuje oznakom 3V: veliki obim podataka u mnogim sredinama, širok dijapazon tipova podataka u velikim sistemima podataka i brzina kojom se sakupljaju, generišu i obrađuju podaci (engleski: volume, variety, velocity). Ove karakteristike prvi je identifikovao Dag Lejni, tadašnji analitičar u Meta Group Inc, 2001. Potom ih je popularizovao Gartner, 2005. Nedavno je dodato još nekoliko slova V prilikom opisivanja velikih podataka: istinitost, vrednost i promenljivost (veracity, value, variability).
Iako se veliki podaci ne mogu izjednačiti ni sa jednim specifičnim obimom podataka, razmeštaj podataka često uključuje terabajte (TB), petabajte (PB) pa čak i egzabajte (EB) podataka.
Kompanije koriste velike podatke koji su prikupljeni u njihovim sistemima kako bi unapredili operacije, obezbedili bolji korisnički servis, napravili personalizovane marketinške kampanje zasnovane na specifičnim preferencijama klijenata i, naposletku, povećale profitabilnost. Sistemi koji koriste velike podatke imaju konkurentnu prednost nad onima koji nemaju tu mogućnost pošto donose brže odluke s boljim informacijama - pod uslovom da su podaci korišćeni na efikasan način.
Na primer, korišćenje velikih podataka omogućava preduzećima da se bolje orijentišu na potrebe kupaca. Istorijski i podaci u realnom vremenu mogu se upotrebiti za ocenjivanje klijenata, čime se omogućava preduzećima da ažuriraju i poboljšaju svoje marketinške strategije i imaju bolji odziv u vezi s potrebama i željama klijenata.
Velike podatke koriste medicinski istraživači za identifikovanje faktora rizika bolesti, kao i lekari pri dijagnostifikovanju bolesti i stanja kod pojedinaca. Štaviše, podaci izvedeni iz elektronske zdravstvene evidencije, društvenih medija, internet mreže i drugih izvora obezbeđuju zdravstvenim organizacijama i vladinim agencijama ažurne informacije o izbijanju i opasnostima od infektivnih bolesti.
U industriji energije, veliki podaci pomažu naftnim i gasnim kompanijama da pronađu lokacije za bušenje i da nadgledaju rad naftovoda; isto tako, komunalne službe ga koriste za praćenje stanja električnih mreža. Firme koje pružaju finansijske usluge koriste sisteme velikih podataka za upravljanje rizičnim plasmanima i analizu marketinških podataka u realnom vremenu. Proizvođači i transportne kompanije oslanjaju se na velike podatke kako bi upravljale svojim lancima snabdevanja i optimizovale rute za isporuke.
Primeri velikih podataka
Grupacija velikih podataka potiče iz mnoštva različitih izvora, kao što su: poslovni transakcioni sistemi, baze podataka klijenata, medicinske evidencije, prijava na internetu, mobilnih aplikacija, društvenih mreža, baze naučnih istraživanja, generisanih podataka i senzora podataka u realnom vremenu koji se koriste kod interneta stvari (internet of thing), međuumrežavanje fizičkih objekata, vozila, zgrada i drugih stvari sa ugrađenom elektronikom, softverima i senzorima, čime se omogućava razmena podataka sa proizvođačem. Podaci mogu biti ostavljeni u sirovoj formi u velikim sistemima podataka ili prethodno obrađeni pomoću alatki za “rudarenje” podacima ili softvera za pripremu podataka tako da ih spreme za određenu analitičku upotrebu.
Koristeći korisničke podatke kao primer, različite grane analitike mogu se obrađivati pomoću informacija pronađenih u ovim setovima.
Rasvetljavanje slova V kod velikih podataka
Obim je najčešće navođena karakteristika velikih podataka. Nije nužno da setovi sadrže veliku količinu podataka, ali većina je obimna zbog prirode podataka koji se u njima sakupljaju i skladište. Veliki podaci predstavljaju kolekciju podataka iz različitih izvora, od dobro do loše definisanih, izvedenih putem ljudskih ili mašinskih izvora. Takođe, oni obuhvataju širok dijapazon tipova podataka, a u to spada sledeće:
- strukturirani podaci u bazama podataka i skladištima podataka čija je osnova programski jezik Structured Query Language SQL);
- nestrukturirani podaci, kao što su tekstovi i dokumenti koji se drže po klasterima ili u sistemima baze podataka; i
- polustrukturirani podaci, kao što su registracije na veb serverima.
- Najrazličitiji tipovi podataka mogu se čuvati u takozvanom jezeru podataka (data lake), što je uglavnom zasnovano na Hadoop-u ili uslugama skladištenja objekata na oblaku (cloud). Pored toga, aplikacije velikih podataka često obuhvataju više izvora podataka koji u suprotnom ne bi bili integrisani.
- Brzina (velocity) se odnosi na generisanje podataka i njihovu obradu. U mnogim slučajevima, setovi velikih podataka ažuriraju se u realnom (ili skoro realnom) vremenu, umesto dnevnih, nedeljnih ili mesečnih ažuriranja u mnogim tradicionalnim bazama podataka. Analitičke aplikacije velikih podataka gutaju i analiziraju podatke uspostavljajući uzajamne odnose među njima a potom pružaju odgovor ili rezultat na osnovu sveobuhvatnog upita. To podrazumeva da stručnjaci zaduženi za istraživanje podataka i ostali analitičari moraju da do nasitnijeg detalja razumeju dostupne podatke i da imaju osećaj za vrstu odgovora koje traže da bi dobijene informacije bile korisne.
Još osobina velikih podataka
Slovo ” v” opisuju velike podatke, a istinitost podataka odnosi se na stepen verovatnoće u grupama podataka. Neprecizni i sirovi podaci sakupljeni iz više različitih izvora, kao što su platforme društvenih mreža i veb stranice, mogu da prouzrokuju ozbiljne probleme s kvalitetom podataka na koje teško može da se ukaže. Na primer, kompanija koja sakuplja setove velikih podataka iz preko stotinu izvora možda može da identifikuje netačne podatke, ali njenim analitičarima je potrebno poreklo informacije da bi ušli u trag lokaciji gde su podaci uskladišteni kako bi se ispravile greške.
Neprecizni podaci dovode do netačne analize i mogu umanjiti vrednost analitike. Količina nepreciznih podataka mora se uzeti u razmatranje pre nego što bude iskorišćena u aplikacijama analize velikih podataka. Timovi stručnjaka i analitičara vode računa da postoji dovoljna količina ispravnih podataka dostupnih za dobijanje ispravnih rezultata.
Kako se čuvaju i obrađuju veliki podaci
Snaga računara potrebna za brzu obradu većeg obima i različiti tipovi podataka mogu da “preplave” server ili grupu servera. Organizacije mogu da primene odgovarajući korake ka obradi velikih podataka da bi postigli zahtevanu brzinu. To može da uključi stotine ili hiljade servera koji mogu da raspodeljuju obradu i zajedno funkcionišu u grozdastoj arhitekturi, često zasnovanoj na tehnologiji kao što su Hadoop ili Apache Spark.
Postizanje brzine na isplativi način takođe predstavlja izazov. Mnogi su rezervisani prema investiranja u ekstenzivni server i infrastrukturu skladištenja kako bi se izborili sa opterećenjem velikih podataka, posebno oni koji ne funkcionišu 24 sata, sedam dana u nedelji. Kao posledica toga, računarstvo u javnom oblaku je sada primarno sredstvo za hosting sistema velikih podataka. Provajder javnog oblaka može da uskladišti petabajt podataka i da poveća zahtevani broj servera dovoljno dugo da završi analitički projekat velikih podataka. Ustanova plaća samo prostor za čuvanje i utrošeno vreme , a oblak se može isključiti dok ne bude ponovo potreban.
Izazovi i veliki podaci
Pored kapaciteta obrade i problema s troškovima, dizajniranje arhitekture velikih podataka je još jedan od uobičajenih izazova za korisnike. Sistemi velikih podataka moraju biti prilagođeni specifičnim potrebama organizacije. Raspoređivanje i upravljanje sistemima velikih podataka zahteva nove veštine u poređenju sa onima koje imaju administratori i proizvođači fokusirani na relacioni softver. Oba problema mogu se olakšati korišćenjem usluge oblaka, ali IT menadžeri moraju pažljivo da prate upotrebu oblaka kako troškovi ne bi izmakli kontroli. Takođe, migriranje lokalnih skupova podataka i obrada obima posla na oblaku često je preveliki proces za organizacije.
Poseban izazov predstavlja dostupnost sistema velikih podataka naučnicima i analitičarima, naročito u sredinama koje obuhvataju mešavinu različitih platformi i skladišta podataka. Da bi pomogli analitičarima da pronađu prave podatke, IT sektor i ostali sve više rade na pravljenju kataloga podataka koji objedinjuju upravljanje metapodacima i funkcije veza podataka.
Ljudska strana analitike velikih podataka
Vrednost i efikasnost velikih podataka zavise od radnika kojima je povereno razumevanje podataka i formulisanje odgovarajućih upitnika za usmeravanje analitičkih projekata. Neke od alatki velikih podataka ispunjavaju potrebe specijalizovanih niša na tržištu i omogućavaju tehnički manje obučenim licima da koriste svakodnevne poslovne podatke kod analitičkih aplikacija. Druge tehnologije, kao što su Hadoop uređaji za prenos podataka, pomažu preduzećima da primene odgovarajuću infrastrukturu, da se uhvate u koštac s projektima velikih podataka a da, u isto vreme, smanje na minimum potrebu za hardverskim i distribuiranim softverskim znanjem.
Veliki podaci mogu se upoređivati sa malim podacima, još jednim terminom koji evoluira i često se koristi za opisivanje podataka čiji obim i format mogu lako da se koriste za samouslužnu analitiku. Jedan od često citiranih aksioma je: „Veliki podaci su za mašine a mali za ljude“.
Priredila: Ilijana Jakšić Pavlović
Kompletni tekstove sa slikama i prilozima potražite u magazinu
"PLANETA" - štampano izdanje ili u ON LINE prodaji Elektronskog izdanja
"Novinarnica"
|