Planeta Br. 101 | SUPERRAČUNARI/big data

www.planeta.rs

MAGAZIN ZA NAUKU, ISTRAŽIVANJA I OTKRIĆA

» MENI

Home

Redakcija

Linkovi

Kontakt

» BROJ 101

Godina XVIII
Jul-Avgust-Septembar 2021.

» IZBOR IZ BROJEVA


Br. 119 Sept. 2024g	Br. 120 Nov. 2024g

Br. 117 Maj 2024g	Br. 118 Jul 2024g

Br. 115 Jan. 2024g	Br. 116 Mart 2024g

Br. 113 Sept. 2023g	Br. 114 Nov. 2023g

Br. 111 Maj 2023g	Br. 112 Jul 2023g

Br. 109 Jan. 2023g	Br. 110 Mart 2023g

Br. 107 Sept. 2022g	Br. 108 Nov. 2022g

Br. 105 Maj 2022g	Br. 106 Jul 2022g

Br. 103 Jan. 2022g	Br. 104 Mart 2022g

Br. 101 Jul 2021g	Br. 102 Okt. 2021g

Br. 99 Jan. 2021g	Br. 100 April 2021g

Br. 97 Avgust 2020g	Br. 98 Nov. 2020g

Br. 95 Mart 2020g	Br. 96 Maj 2020g

Br. 93 Nov. 2019g	Br. 94 Jan. 2020g

Br. 91 Jul 2019g	Br. 92 Sep. 2019g

Br. 89 Mart 2019g	Br. 90 Maj 2019g

Br. 87 Nov. 2018g	Br. 88 Jan. 2019g

Br. 85 Jul 2018g	Br. 86 Sep. 2018g

Br. 83 Mart 2018g	Br. 84 Maj 2018g

Br. 81 Nov. 2017g	Br. 82 Jan. 2018g

Br. 79 Jul. 2017g	Br. 80 Sep. 2017g

Br. 77 Mart. 2017g	Br. 78 Maj. 2017g

Br. 75 Septembar. 2016g	Br. 76 Januar. 2017g

Br. 73 April. 2016g	Br. 74 Jul. 2016g

Br. 71 Nov. 2015g	Br. 72 Feb. 2016g

Br. 69 Jul 2015g	Br. 70 Sept. 2015g

Br. 67 Januar 2015g	Br. 68 April. 2015g

Br. 65 Sept. 2014g	Br. 66 Nov. 2014g

Br. 63 Maj. 2014g	Br. 64 Jul. 2014g

Br. 61 Jan. 2014g	Br. 62 Mart. 2014g

Br. 59 Sept. 2013g	Br. 60 Nov. 2013g

Br. 57 Maj. 2013g	Br. 58 Juli. 2013g

Br. 55 Jan. 2013g	Br. 56 Mart. 2013g

Br. 53 Sept. 2012g	Br. 54 Nov. 2012g

Br. 51 Maj 2012g	Br. 52 Juli 2012g

Br. 49 Jan 2012g	Br. 50 Mart 2012g

Br. 47 Juli 2011g	Br. 48 Oktobar 2011g

Br. 45 Mart 2011g	Br. 46 Maj 2011g

Br. 43 Nov. 2010g	Br. 44 Jan 2011g

Br. 41 Jul 2010g	Br. 42 Sept. 2010g

Br. 39 Mart 2010g	Br. 40 Maj 2010g.

Br. 37 Nov. 2009g.	Br.38 Januar 2010g

Br. 35 Jul.2009g	Br. 36 Sept.2009g

Br. 33 Mart. 2009g.	Br. 34 Maj 2009g.

Br. 31 Nov. 2008g.	Br. 32 Jan 2009g.

Br. 29 Jun 2008g.	Br. 30 Avgust 2008g.

Br. 27 Januar 2008g	Br. 28 Mart 2008g.

Br. 25 Avgust 2007	Br. 26 Nov. 2007

Br. 23 Mart 2007.	Br. 24 Jun 2007

Br. 21 Nov. 2006.	Br. 22 Januar 2007.

Br. 19 Jul 2006.	Br. 20 Sept. 2006.

Br. 17 Mart 2006.	Br. 18 Maj 2006.

Br 15. Oktobar 2005.	Br. 16 Januar 2006.

Br 13 April 2005g	Br. 14 Jun 2005g

Br. 11 Okt. 2004.	Br. 12 Dec. 2004.

Br. 9 Avg 2004.	Br. 10 Sept. 2004.

Br. 7 April 2004.	Br. 8 Jun 2004.

Br. 5 Dec. 2003.	Br. 6 Feb. 2004.

Br. 3 Okt. 2003.	Br. 4 Nov. 2003.

Br. 1 Jun 2003.	Br. 2 Sept. 2003.

» Glavni naslovi

TEMA BROJA

Priredila: Ilijana Jakšić Pavlović

Superračunari/big data

Veliki podaci za male ljude

Veliki podaci (big data)predstavljaju pojam koji označava velike i složene setove podataka, tačnije kombinaciju strukturiranih, polu-strukturiranih i nestrukturiranih podataka koje treba obratiti. Ovi setovi predstavljaju prave riznice informacija i koriste se kod projekata naprednih analitičkih aplikacija.
Sistemi koji obrađuju i skladište ove grupe podataka su komponenta arhitekture upravljanja podacima u organizacijama. Big data se često opisuje oznakom 3V: veliki obim podataka u mnogim sredinama, širok dijapazon tipova podataka u velikim sistemima podataka i brzina kojom se sakupljaju, generišu i obrađuju podaci (engleski: volume, variety, velocity). Ove karakteristike prvi je identifikovao Dag Lejni, tadašnji analitičar u Meta Group Inc, 2001. Potom ih je popularizovao Gartner, 2005. Nedavno je dodato još nekoliko slova V prilikom opisivanja velikih podataka: istinitost, vrednost i promenljivost (veracity, value, variability).
Iako se veliki podaci ne mogu izjednačiti ni sa jednim specifičnim obimom podataka, razmeštaj podataka često uključuje terabajte (TB), petabajte (PB) pa čak i egzabajte (EB) podataka.

Kompanije koriste velike podatke koji su prikupljeni u njihovim sistemima kako bi unapredili operacije, obezbedili bolji korisnički servis, napravili personalizovane marketinške kampanje zasnovane na specifičnim preferencijama klijenata i, naposletku, povećale profitabilnost. Sistemi koji koriste velike podatke imaju konkurentnu prednost nad onima koji nemaju tu mogućnost pošto donose brže odluke s boljim informacijama - pod uslovom da su podaci korišćeni na efikasan način.
Na primer, korišćenje velikih podataka omogućava preduzećima da se bolje orijentišu na potrebe kupaca. Istorijski i podaci u realnom vremenu mogu se upotrebiti za ocenjivanje klijenata, čime se omogućava preduzećima da ažuriraju i poboljšaju svoje marketinške strategije i imaju bolji odziv u vezi s potrebama i željama klijenata.
Velike podatke koriste medicinski istraživači za identifikovanje faktora rizika bolesti, kao i lekari pri dijagnostifikovanju bolesti i stanja kod pojedinaca. Štaviše, podaci izvedeni iz elektronske zdravstvene evidencije, društvenih medija, internet mreže i drugih izvora obezbeđuju zdravstvenim organizacijama i vladinim agencijama ažurne informacije o izbijanju i opasnostima od infektivnih bolesti.
U industriji energije, veliki podaci pomažu naftnim i gasnim kompanijama da pronađu lokacije za bušenje i da nadgledaju rad naftovoda; isto tako, komunalne službe ga koriste za praćenje stanja električnih mreža. Firme koje pružaju finansijske usluge koriste sisteme velikih podataka za upravljanje rizičnim plasmanima i analizu marketinških podataka u realnom vremenu. Proizvođači i transportne kompanije oslanjaju se na velike podatke kako bi upravljale svojim lancima snabdevanja i optimizovale rute za isporuke.

Primeri velikih podataka

Grupacija velikih podataka potiče iz mnoštva različitih izvora, kao što su: poslovni transakcioni sistemi, baze podataka klijenata, medicinske evidencije, prijava na internetu, mobilnih aplikacija, društvenih mreža, baze naučnih istraživanja, generisanih podataka i senzora podataka u realnom vremenu koji se koriste kod interneta stvari (internet of thing), međuumrežavanje fizičkih objekata, vozila, zgrada i drugih stvari sa ugrađenom elektronikom, softverima i senzorima, čime se omogućava razmena podataka sa proizvođačem. Podaci mogu biti ostavljeni u sirovoj formi u velikim sistemima podataka ili prethodno obrađeni pomoću alatki za “rudarenje” podacima ili softvera za pripremu podataka tako da ih spreme za određenu analitičku upotrebu.
Koristeći korisničke podatke kao primer, različite grane analitike mogu se obrađivati pomoću informacija pronađenih u ovim setovima.

Rasvetljavanje slova V kod velikih podataka

Obim je najčešće navođena karakteristika velikih podataka. Nije nužno da setovi sadrže veliku količinu podataka, ali većina je obimna zbog prirode podataka koji se u njima sakupljaju i skladište. Veliki podaci predstavljaju kolekciju podataka iz različitih izvora, od dobro do loše definisanih, izvedenih putem ljudskih ili mašinskih izvora. Takođe, oni obuhvataju širok dijapazon tipova podataka, a u to spada sledeće:

strukturirani podaci u bazama podataka i skladištima podataka čija je osnova programski jezik Structured Query Language SQL);
nestrukturirani podaci, kao što su tekstovi i dokumenti koji se drže po klasterima ili u sistemima baze podataka; i
polustrukturirani podaci, kao što su registracije na veb serverima.
Najrazličitiji tipovi podataka mogu se čuvati u takozvanom jezeru podataka (data lake), što je uglavnom zasnovano na Hadoop-u ili uslugama skladištenja objekata na oblaku (cloud). Pored toga, aplikacije velikih podataka često obuhvataju više izvora podataka koji u suprotnom ne bi bili integrisani.
Brzina (velocity) se odnosi na generisanje podataka i njihovu obradu. U mnogim slučajevima, setovi velikih podataka ažuriraju se u realnom (ili skoro realnom) vremenu, umesto dnevnih, nedeljnih ili mesečnih ažuriranja u mnogim tradicionalnim bazama podataka. Analitičke aplikacije velikih podataka gutaju i analiziraju podatke uspostavljajući uzajamne odnose među njima a potom pružaju odgovor ili rezultat na osnovu sveobuhvatnog upita. To podrazumeva da stručnjaci zaduženi za istraživanje podataka i ostali analitičari moraju da do nasitnijeg detalja razumeju dostupne podatke i da imaju osećaj za vrstu odgovora koje traže da bi dobijene informacije bile korisne.

Još osobina velikih podataka

Slovo ” v” opisuju velike podatke, a istinitost podataka odnosi se na stepen verovatnoće u grupama podataka. Neprecizni i sirovi podaci sakupljeni iz više različitih izvora, kao što su platforme društvenih mreža i veb stranice, mogu da prouzrokuju ozbiljne probleme s kvalitetom podataka na koje teško može da se ukaže. Na primer, kompanija koja sakuplja setove velikih podataka iz preko stotinu izvora možda može da identifikuje netačne podatke, ali njenim analitičarima je potrebno poreklo informacije da bi ušli u trag lokaciji gde su podaci uskladišteni kako bi se ispravile greške.
Neprecizni podaci dovode do netačne analize i mogu umanjiti vrednost analitike. Količina nepreciznih podataka mora se uzeti u razmatranje pre nego što bude iskorišćena u aplikacijama analize velikih podataka. Timovi stručnjaka i analitičara vode računa da postoji dovoljna količina ispravnih podataka dostupnih za dobijanje ispravnih rezultata.

Kako se čuvaju i obrađuju veliki podaci

Snaga računara potrebna za brzu obradu većeg obima i različiti tipovi podataka mogu da “preplave” server ili grupu servera. Organizacije mogu da primene odgovarajući korake ka obradi velikih podataka da bi postigli zahtevanu brzinu. To može da uključi stotine ili hiljade servera koji mogu da raspodeljuju obradu i zajedno funkcionišu u grozdastoj arhitekturi, često zasnovanoj na tehnologiji kao što su Hadoop ili Apache Spark.
Postizanje brzine na isplativi način takođe predstavlja izazov. Mnogi su rezervisani prema investiranja u ekstenzivni server i infrastrukturu skladištenja kako bi se izborili sa opterećenjem velikih podataka, posebno oni koji ne funkcionišu 24 sata, sedam dana u nedelji. Kao posledica toga, računarstvo u javnom oblaku je sada primarno sredstvo za hosting sistema velikih podataka. Provajder javnog oblaka može da uskladišti petabajt podataka i da poveća zahtevani broj servera dovoljno dugo da završi analitički projekat velikih podataka. Ustanova plaća samo prostor za čuvanje i utrošeno vreme , a oblak se može isključiti dok ne bude ponovo potreban.

Izazovi i veliki podaci

Pored kapaciteta obrade i problema s troškovima, dizajniranje arhitekture velikih podataka je još jedan od uobičajenih izazova za korisnike. Sistemi velikih podataka moraju biti prilagođeni specifičnim potrebama organizacije. Raspoređivanje i upravljanje sistemima velikih podataka zahteva nove veštine u poređenju sa onima koje imaju administratori i proizvođači fokusirani na relacioni softver. Oba problema mogu se olakšati korišćenjem usluge oblaka, ali IT menadžeri moraju pažljivo da prate upotrebu oblaka kako troškovi ne bi izmakli kontroli. Takođe, migriranje lokalnih skupova podataka i obrada obima posla na oblaku često je preveliki proces za organizacije.

Poseban izazov predstavlja dostupnost sistema velikih podataka naučnicima i analitičarima, naročito u sredinama koje obuhvataju mešavinu različitih platformi i skladišta podataka. Da bi pomogli analitičarima da pronađu prave podatke, IT sektor i ostali sve više rade na pravljenju kataloga podataka koji objedinjuju upravljanje metapodacima i funkcije veza podataka.

Ljudska strana analitike velikih podataka

Vrednost i efikasnost velikih podataka zavise od radnika kojima je povereno razumevanje podataka i formulisanje odgovarajućih upitnika za usmeravanje analitičkih projekata. Neke od alatki velikih podataka ispunjavaju potrebe specijalizovanih niša na tržištu i omogućavaju tehnički manje obučenim licima da koriste svakodnevne poslovne podatke kod analitičkih aplikacija. Druge tehnologije, kao što su Hadoop uređaji za prenos podataka, pomažu preduzećima da primene odgovarajuću infrastrukturu, da se uhvate u koštac s projektima velikih podataka a da, u isto vreme, smanje na minimum potrebu za hardverskim i distribuiranim softverskim znanjem.
Veliki podaci mogu se upoređivati sa malim podacima, još jednim terminom koji evoluira i često se koristi za opisivanje podataka čiji obim i format mogu lako da se koriste za samouslužnu analitiku. Jedan od često citiranih aksioma je: „Veliki podaci su za mašine a mali za ljude“.

Priredila: Ilijana Jakšić Pavlović

Kompletni tekstove sa slikama i prilozima potražite u magazinu
"PLANETA" - štampano izdanje ili u ON LINE prodaji Elektronskog izdanja
"Novinarnica"