Big Data: Datuen Prozesamendua eta Analisia

Enviado por Chuletator online y clasificado en Informática y Telecomunicaciones

Escrito el en vasco con un tamaño de 4,96 KB

Definizioa: Datuen prozesamendu eta analisia errazten duen teknologia multzoa da, bolumen eta konplexutasuna oso handiak direnean (ohiko makinetarako konputu ahalmenerako handiegia).

Jarraitzen duen PROZESUA:

1. Informazioa atzitu, 2. Datuak Gorde, 3. Tratamendua, 4. Balioak Eman.

Lau multzo nagusi daude datuen prozesamenduan:

1. Data Mining-> Datu bankuetan ereduak, modeloak, etab. ateratzea analisi prediktibo bati begira.

2. Data Analytics-> Ezagutzak automatizatzea datu-multzo baten, eta kontsulta eta datuak gehitzeko prozedurak erabiltzea

3. Data Analysis-> Datumultzoen analisiari buruzko informazio gehiago lortzeko giza jarduerak.

4. Data Science-> Datuen ezagutzaren erauzketa gidatzen duten printzipio eta oinarrien multzoa, zientifikoak nahiz aplikatuak.

Big Data eta Machine Learning beste teknologia eta algoritmo multzoak dira, aurrekoak egitera eramaten gaituena.

Big Data: Bultzatzailea

Alde batetik, Datu Uharka!!! Datuen fluxua geroz eta handiagoa; baita datuen maiztasuna eta abiadura

1. Faktorea: Bi egunetik behin sortzen dugun informazioa, mundo hasieratik 2003.urterarte sortutakoa baino handiagoa da.

2. Faktorea: Munduko datu guztien %90 azken 2 urteetan sortua da.

3. Faktorea: Mezu elektronikoak, instagrameko argazkiak eta like-ak...

Datu kopuru guzti hau onuragarria da ereduen zehaztasunerako.

Bestetik, Cloud Computing!! edo Konputazioa Hodeian!! Eskaera konputazioa; edozein lekutan eta edozein ordutan. Datuak merke prozesatu ahal izatea.

Big Data: Zerk bihurtzen du baliotsu?

Big Data-> Modelu hobeak -> Zehaztasun handiagoa

EREDU HOBEAK eta EMAITZA ZEHATZAGOAK sortzeko gaitasuna (datuen uharka dela eta hain zuzen ere).

DATU UHARKEN INTEGRAZIOA

PERTSONAK

MAKINAK: Big datareb arrakasta honetan datza. Datu iturri hau integratzean batez ere.

ERAKUNDEAK: Azalera mapa, zerbitzuen eguneraketa, datu baseak, etabar

Big Data: Makinak sortutako datuak

Datu iturririk handiena da. Kamarak, erloju inteligenteak, enpresetako makinak, kotxeak, sateliteak...

Big Data: Pertsonak sortutako datuak

Desegituraketaren erronka du; sare sozialetetik, etab. ateratzen dira datu hauek. Erronka kudeaketa egitea da, ez baitute egitura zehatz bat.

Big Data: Erakundeak sortutako datuak

Siloen arazoa: Datuak egituratuak daude, baina bakoitza bere datu basean eta bere egitura propioarekin. Baliotsua bateratzea eta egitura bateratua sortzea.

Big Data: Gakoa-> Datuen Integrazioa

Benetako balioa hainbat datu-iturri mota integratu eta eskalan aztertzetik etorriko da.

Helburua? Datuk kudeatzea eta programazio bidez erabili daitekeen zerbaitetan bihurtzea.

Faseak:

1. Aurkikuntza, 2. Atzipena eta berrikuspena: Ezertarako balio ez dutenak kendu, egitura aurkitu etab. Datu txarrak edo faltsuak baditugu, modeloak ez du ahal bezain ondo prozesatuko. 3. Modelatu eta Eraldatu

Kudeaketa zikloa:

1- Atzitzea, 2-Gordetzea 3-Tratamendua y 4-Balio ematea

Datuen Integrazioak

Konplexutasuna murriztu Datuen atzitzea handitu Datu-sistemak bateratzen ditu

Big Data: Datu Motak

1. Egituratuak: Tauletan gordetzen ohi dira, eta formatuaren definizio argia dute. Adb: Zenbakiak, Datak, string

2. Ez-Egituratuak: Ez dute modu tradizionalean gordetzeko moduko formatu berezirik. Adb: PowerPoint, PDF, Testua

3. Semi-Egituratuak: Egitura antzekoa dute, baina hau ez da behar bezain erregularra. Adb: HTML

Big Data: 5 V-ak:

1. Volumen: Informazio-bolumen handia eskatzen du. Gailu teknologikoen erabilera masiboa dela eta, milaka datu atzeman, prozesatu eta azter daitezke minutuz minutu. ERRONKA Datu masiboak prozesatzeko eta aztertzeko gaitasun teknikoak garatzea

2. Variedad: Bildutako datuak hainbat iturritik atera daitezke (testua, irudiak, ahotsa, informazio geoespaziala) eta formatuak (egituratuak, ezegituratuak, etabar.) ERRONKA Berain integrazioa eta prozesatzea

3. Velocidad: Datuak sortzeko abiadura eta datuen erritmoa. Gainera, balio-bizitza laburreko datuk atzeman eta unean bertan aztertu behar dira. ERRONKA Prozesamendu abiadura & Prozesamendua denbora_errealean (streaming)

4. Egiazkotasuna/Veracidad: Alborapenak, zarata eta irregulartasunak datuetan. Arazoak sor daitezke: erregistro osatu gabeak edo okerrak, eremu jakin batzuetan daturik ez izatea, etabar. ERRONKA Datuen kalitatea arautzea

5. Valor/Balioa: Nola lortzen dugu balioa informazio-bolumen handi horretatik?

Entradas relacionadas: