Big Data: Datuen Prozesamendua eta Analisia
Enviado por Chuletator online y clasificado en Informática y Telecomunicaciones
Escrito el en vasco con un tamaño de 4,96 KB
Definizioa: Datuen prozesamendu eta analisia errazten duen teknologia multzoa da, bolumen eta konplexutasuna oso handiak direnean (ohiko makinetarako konputu ahalmenerako handiegia).
Jarraitzen duen PROZESUA:
1. Informazioa atzitu, 2. Datuak Gorde, 3. Tratamendua, 4. Balioak Eman.
Lau multzo nagusi daude datuen prozesamenduan:
1. Data Mining-> Datu bankuetan ereduak, modeloak, etab. ateratzea analisi prediktibo bati begira.
2. Data Analytics-> Ezagutzak automatizatzea datu-multzo baten, eta kontsulta eta datuak gehitzeko prozedurak erabiltzea
3. Data Analysis-> Datumultzoen analisiari buruzko informazio gehiago lortzeko giza jarduerak.
4. Data Science-> Datuen ezagutzaren erauzketa gidatzen duten printzipio eta oinarrien multzoa, zientifikoak nahiz aplikatuak.
Big Data eta Machine Learning beste teknologia eta algoritmo multzoak dira, aurrekoak egitera eramaten gaituena.
Big Data: Bultzatzailea
Alde batetik, Datu Uharka!!! Datuen fluxua geroz eta handiagoa; baita datuen maiztasuna eta abiadura
1. Faktorea: Bi egunetik behin sortzen dugun informazioa, mundo hasieratik 2003.urterarte sortutakoa baino handiagoa da.
2. Faktorea: Munduko datu guztien %90 azken 2 urteetan sortua da.
3. Faktorea: Mezu elektronikoak, instagrameko argazkiak eta like-ak...
Datu kopuru guzti hau onuragarria da ereduen zehaztasunerako.
Bestetik, Cloud Computing!! edo Konputazioa Hodeian!! Eskaera konputazioa; edozein lekutan eta edozein ordutan. Datuak merke prozesatu ahal izatea.
Big Data: Zerk bihurtzen du baliotsu?
Big Data-> Modelu hobeak -> Zehaztasun handiagoa
EREDU HOBEAK eta EMAITZA ZEHATZAGOAK sortzeko gaitasuna (datuen uharka dela eta hain zuzen ere).
DATU UHARKEN INTEGRAZIOA
PERTSONAK
MAKINAK: Big datareb arrakasta honetan datza. Datu iturri hau integratzean batez ere.
ERAKUNDEAK: Azalera mapa, zerbitzuen eguneraketa, datu baseak, etabar
Big Data: Makinak sortutako datuak
Datu iturririk handiena da. Kamarak, erloju inteligenteak, enpresetako makinak, kotxeak, sateliteak...
Big Data: Pertsonak sortutako datuak
Desegituraketaren erronka du; sare sozialetetik, etab. ateratzen dira datu hauek. Erronka kudeaketa egitea da, ez baitute egitura zehatz bat.
Big Data: Erakundeak sortutako datuak
Siloen arazoa: Datuak egituratuak daude, baina bakoitza bere datu basean eta bere egitura propioarekin. Baliotsua bateratzea eta egitura bateratua sortzea.
Big Data: Gakoa-> Datuen Integrazioa
Benetako balioa hainbat datu-iturri mota integratu eta eskalan aztertzetik etorriko da.
Helburua? Datuk kudeatzea eta programazio bidez erabili daitekeen zerbaitetan bihurtzea.
Faseak:
1. Aurkikuntza, 2. Atzipena eta berrikuspena: Ezertarako balio ez dutenak kendu, egitura aurkitu etab. Datu txarrak edo faltsuak baditugu, modeloak ez du ahal bezain ondo prozesatuko. 3. Modelatu eta Eraldatu
Kudeaketa zikloa:
1- Atzitzea, 2-Gordetzea 3-Tratamendua y 4-Balio ematea
Datuen Integrazioak
Konplexutasuna murriztu Datuen atzitzea handitu Datu-sistemak bateratzen ditu
Big Data: Datu Motak
1. Egituratuak: Tauletan gordetzen ohi dira, eta formatuaren definizio argia dute. Adb: Zenbakiak, Datak, string
2. Ez-Egituratuak: Ez dute modu tradizionalean gordetzeko moduko formatu berezirik. Adb: PowerPoint, PDF, Testua
3. Semi-Egituratuak: Egitura antzekoa dute, baina hau ez da behar bezain erregularra. Adb: HTML
Big Data: 5 V-ak:
1. Volumen: Informazio-bolumen handia eskatzen du. Gailu teknologikoen erabilera masiboa dela eta, milaka datu atzeman, prozesatu eta azter daitezke minutuz minutu. ERRONKA Datu masiboak prozesatzeko eta aztertzeko gaitasun teknikoak garatzea
2. Variedad: Bildutako datuak hainbat iturritik atera daitezke (testua, irudiak, ahotsa, informazio geoespaziala) eta formatuak (egituratuak, ezegituratuak, etabar.) ERRONKA Berain integrazioa eta prozesatzea
3. Velocidad: Datuak sortzeko abiadura eta datuen erritmoa. Gainera, balio-bizitza laburreko datuk atzeman eta unean bertan aztertu behar dira. ERRONKA Prozesamendu abiadura & Prozesamendua denbora_errealean (streaming)
4. Egiazkotasuna/Veracidad: Alborapenak, zarata eta irregulartasunak datuetan. Arazoak sor daitezke: erregistro osatu gabeak edo okerrak, eremu jakin batzuetan daturik ez izatea, etabar. ERRONKA Datuen kalitatea arautzea
5. Valor/Balioa: Nola lortzen dugu balioa informazio-bolumen handi horretatik?