Stordata

Datasenter kan lagre gigantiske datasett

Stordata [1] (fra engelsk «big data») er datasett som er så store eller komplekse at de er vanskelige å analysere med vanlige dataprosesseringsverktøy.[2]

Stordata, eller «big data» på engelsk, er moteord som ofte benyttes i markedsføring av selskaper som har utviklet teknologi som er i stand til å behandle slike datasett. Ofte brukes begrepet noe feilaktig som et synonym for enhver form for dataanalyse, uavhengig av om IT-folk vil regne datasettene som «store».

Hvor store er stordata?

Datateknologien blir stadig kraftigere og de lagrede datamengdene større. Derfor varierer det over tid hva som regnes som stordata. Tidligere var gigabyte (tusen millioner byte: 1 GB = 1000 MB) og terabyte (en milliard byte: 1 TB = 1000 GB = 1000000 MB) å regne for stordata. I dag snakker man oftere om peta- og exabyte (1 petabyte = 1000 terabyte, 1 exabyte = 1000 petabyte).

Siden det er vanskelig å definere stordata som en størrelse, er det blitt vanligere å avgrense stordata gjennom egenskapene dataene har, f.eks. at stordata er data som er mest mulig fullstendige, detaljerte og identifiserende[2] (se lenger nede i artikkelen om Egenskaper ved stordata).

Grunnlag for stordata

Det er minst fem teknologiske utviklinger som sammen har lagt grunnlaget for stordatabehandling:[2]

  • Prosesseringskraft har øket enormt de siste tiårene samtidig som prisen har gått ned. Moores lov (eller rettere Moores observasjon) sier at antallet transistorer som det er plass til på en integrert krets dobler seg hver 18-24 måned. En vanlig mobiltelefon har i dag større regnekraft enn en superdatamaskin fra 1970-tallet.
  • Lagringskapasitet har også øket enormt de siste tiårene. Datalagring er blitt langt billigere, raskere og mer pålitelig. I tillegg kommer nye teknologier som lagring på grid i skyen og nye NOSQL-databaser.
  • Kommunikasjonskapasitet har også øket enormt og blitt billigere, ikke minst på grunn av fiberoptiske kabler. De kraftigste kablene i dag kan overføre på ett sekund all datatrafikk som ble overført på internettet i løpet av en hel måned på slutten av 1990-tallet.
  • Allestedsnærværende og gjennomtrengende databehandling vil si at vi i stadig større grad omgis av datainnsamlende og -behandlende apparater, både dem vi bærer med oss (de allestedsnærværende, som mobiltelefoner og smartklokker) og dem som bygges inn i omgivelsene våre (de gjennomtrengende, som smarte hus og byer). I tillegg til at vi omgis av stadig flere datainnsamlende og -behandlende apparater, blir hver av dem stadig mer digitale, nettverkstilknyttede og smarte, og dermed mer egnet for stordatafangst.
  • Standardidentifikatorer gjør det mulig å identifisere fenomener som personer, gjenstander, informasjon og lokasjoner unikt. Eksempler på slike identifikatorer er: personnummer, førerkortnummer, passnummer, kontonavn osv for personer; produkt- og RFID-koder for kommersielle produkter; kjennemerke og autopass-ID for biler; MAC-adresser for datautstyr; IMEI-nummer for mobiltelefoner; IMSI-nummer for SIM-kort; ISBN-, ISSN- og DOI-numre for ulike typer publikasjoner; URI/IRI-er for vevressurser; gateadresser, postnumre og geokoordinater for geografiske lokasjoner. Det finnes mange flere. Identifikatorene gjør det mulig å knytte sammen data som kommer fra ulike kilder, men som handler om samme fenomen, f.eks. om samme person, eller som handler om relatert fenomener, f.eks. at en person er eier av en gjenstand og holder til på et bestemt sted.

Kilder til stordata

Hovedkildene til stordata er direkte og automatisk datainnsamling og frivillig dataproduksjon.[2] I tillegg kommer åpne data.

Direkte datainnsamling

Direkte datainnsamling er innsamling av data gjennom aktiviteter der innsamling av data er blant hovedmålene. Direkte datainnsamling kan være rettet mot gjenstander, steder eller, særlig, mot personer:[2]

  • Offentlig registrering skjer ved folketellinger og ved registrering av f eks fødsler, dødsfall og helseforhold.
  • Kunde- eller klientregistrering skjer ved mange typer henvendelser til kommersielle, ideelle og offentlige virksomheter.
  • Nettovervåkning er automatisert innsamling av logging av internett- og teletrafikk. Viktige formål er å forebygge og oppdage nettkriminalitet og terrorhandlinger.
  • Områdeovervåkning er automatisert innsamling av bilde- og andredata fra et geografisk avgrenset område, f eks ved hjelp av digitale overvåkningskamera eller fra satellitt. Mens slikt utstyr tidligere var analogt og isolert er det i dag stadig oftere digitalt, koblet i nettverk og i økende grad smart, noe som gjør det bedre egnet til stordatainnsamling, f eks når overvåkningskameraer i økende grad blir i stand til å utføre ansikts- og irisgjenkjenning i sanntid. Ulike værovervåkningssystemer hører også til denne gruppen.

Automatisk datainnsamling

Automatisk datainnsamling er (mer eller mindre nødvendig) datainnsamling som en sideeffekt av andre typer aktiviteter:[2]

  • Teknologibruk, f eks av smarttelefoner, digital-TV bokser og smart-TV-er logges rutinemessig, både lokalt i ustyret og av og til på avstand, f eks hos utstyrsprodusenten eller i skyen. Slike objekter — som består av et vanlig fysisk objekt sammen med en løpende oppdatert logg over objektets historie — kalles på engelsk et «logject» (på norsk f eks «loggjekt»).
  • Nettransaksjoner logges rutinemessig. F eks logger mange nettbutikker alle detaljer om hvordan brukerne navigerer gjennom butikken, såkalte klikkstrømmer.
  • Medisinsk utstyr logger rutinemessig pasient- og andre data som siden kan benyttes til administrasjons- og forskningsformål.

Frivillig dataproduksjon

Frivillig dataproduksjon vil si at brukerne selv bidrar til store datasett:[2]

  • Sosiale medier er IKT-plattformer for brukergenerering og -deling av innhold. Mikrobloggetjenester som Twitter er en kilde til slike stordata.
  • Undervåkning (fra engelsk «sousveillance», av fransk: «sous-», under) er når brukerne selv aktivt deler persondata, samlet inn f eks av skrittellere og andre typer bevegelsesmålere.
  • Nettdugnad (engelsk: «crowdsourcing») er bruk av IKT-verktøy til massesamarbeid for å produsere nye produkter (Wikipedia) eller for å evaluere eksisterende produkter i stor skala (TripAdvisor). Slike dugnadsresultater kan være datasett som i seg selv er store (f eks Wikipedia og Wikidata) eller som kan inngå i stordatasett ved kombinering.

Åpne data

Åpne data, som forvaltnings- og forskningsdata, er data som er gjort alment tilgjengelige av offentlige, ideelle og, av og til, kommersielle organisasjoner. Enkelte åpne datasett er stordatasett i seg selv, f eks forskningsdata fra internasjonale forskningsfasiliteter som CERN eller fra maskiner for DNA-sekvensering. Andre åpne datasett kan inngå i stordata i kombinasjon med andre datasett.

Egenskaper ved stordata

Datastørrelse

Hva som regnes som stordata har gjennom årene utviklet seg kraftig. Det har gått fra at man anså gigabyte (1000 megabyte) med data som store mengder data til at man i dag snakker om peta- (1000 terabyte) og exabyte (1000 petabyte).[2]

De tre v-ene

I stedet for å definere stordata kun ut fra størrelse målt i byter, kan man identifisere typiske egenskaper ved stordata. De tre v-ene regnes som sentrale:[2]

  • Volum vil som sagt si at stordata har et volum som setter nye og strenge krav til både behandling, lagring og overføring.
  • Velositet (eller hastighet, fra engelsk «velocity») vil si at stordata gjerne registreres i sanntid og derfor både må analyseres og vokser raskt. Enkelte stordatastrømmer blir ikke lagret i sin helhet, men blir analysert i sanntid, slik at kun resultatene lagres.
  • Variasjon (engelsk «variability») vil si at stordata gjerne er satt sammen fra mange ulike kilder. De er derfor en blanding av strukturerte, semistrukturerte og ustrukturerte data.

Tidligere datateknologier var i stand til å støtte to av disse tre egenskapene samtidig. Det er nytt med stordata at samme løsninger støtter alle tre.[2]

De fem v-ene

På engelsk er det vanlig å legge enda to v-er til de tre første:[3]

  • Troverdighet (på engelsk «veracity» eller «trustworthiness») vil si at siden stordata gjerne er satt sammen fra mange ulike kilder, er det viktig å ha oversikt over hvor pålitelige, nøyaktige og korrekte de ulike delene av stordatasettet er.
  • Verdi betyr at stordata må ha personlig, kommersiell, ideell eller samfunnsmessig verdi.

Flere egenskaper ved stordata

Andre viktige egenskaper ved stordata er:[2]

  • Fullstendighet (engelsk: «exhaustiveness») vil si at stordatasett gjerne inneholder data om alle fenomenene det handler om, mens tradisjonelle (små-)datasett i stedet beskriver (mest mulig representative) utvalg av aktuelle fenomener. Der et vanlig datasett f eks kan representere et utvalg av typiske husholdninger i Norge, vil et tilsvarende stordatasett i stedet inneholde data om alle norske husholdninger.
  • Finkornethet (engelsk: «fine-grained resolution») vil si at stordatasett gjerne inneholder så detaljerte data som mulig. Der et tradisjonelt (små-)datasett for en vevbutikk kan beskrive en nettbruker ved besøkshyppighet og besøkslengde, vil et tilsvarende stordatasett beskrive hvert eneste tastetrykk og museklikk brukeren har gjort i hvert enkelt av sine besøk i nettbutikken.
  • Indeksikalitet vil si at stordatasett forsøker å bruke standardidentifikatorer (se over) på alle fenomenene som er beskrevet. Identifikatorene gjør det mulig å knytte sammen data som kommer fra ulike kilder, men som handler om samme fenomen, f eks om samme person.
  • Relasjonalitet vil si at data om ulike fenomener i et stordatasett er knyttet sammen ved hjelp av disse identifikatorene, f eks at en person kjenner en annen person og er eier av en fysisk gjenstand.
  • Utvidbarhet (engelsk: «extensibility») betyr at det må være mulig og enkelt å legge nye typer data — kanskje fra andre kilder — til eksisterende stordatasett.
  • Skalerbarhet betyr at teknologier for stordata må tåle rask vekst i datamengde og behandlingsbehov.

Behandling av stordata

Når datamengdene blir store, medfører det utfordringer i innsamling, lagring, analyse, søking, utveksling og visualisering av data. En vanlig teknikk er å behandle stordata er å dele opp og distribuere datasett slik at de kan behandles parallelt. Maskinlæringsteknikker og kunstig intelligens er også sentrale. Dessuten benyttes informasjonsvisualisering til å få oversikt over og analysere store datasett.

Bruk av stordata

Utviklingen mot større datasett er basert på evnen til å trekke ekstra informasjon fra analyser av et enkelt sett med store mengder sammenhengende data, sammenlignet med separate, mindre sett med samme totale mengden data som gjør det mulig for tilkoblinger slik at man kan finne forretningstrender, fastslå kvaliteten på forskning, forebygge sykdommer, sammenligne juridiske siteringer, bekjempe kriminalitet og holde et øye med trafikkforhold i sanntid.

Se også

Referanser

  1. ^ Kartlegging og vurdering av stordata i offentlig sektor (PDF) (Rapport til Kommunal- og moderniseringsdepartementet). Utarbeidet av Vivento AS. 7. mars 2016. Arkivert fra originalen (PDF) 8. mars 2016. 
  2. ^ a b c d e f g h i j k Kitchin, Rob (2014). The data revolution: Big data, open data, data infrastructures and their consequences. Sage. 
  3. ^ Berhard Marr (6. mars 2014). «Big Data: The 5 Vs Everyone Must Know». LinkedIn. Besøkt 28. august 2016. 

Read other articles:

Bagian dari seriPendidikan di Indonesia Kementerian Pendidikan, Kebudayaan, Riset, dan Teknologi Republik Indonesia Pendidikan anak usia dini TK RA KB Pendidikan dasar (kelas 1–6) SD MI Paket A Pendidikan dasar (kelas 7–9) SMP MTs Paket B Pendidikan menengah (kelas 10–12) SMA MA SMK MAK SMA SMTK SMAK Utama Widya Pasraman Paket C Pendidikan tinggi Perguruan tinggi Akademi Akademi komunitas Institut Politeknik Sekolah tinggi Universitas Lain-lain Madrasah Pesantren Sekolah alam Sekolah ru...

 

Krankenhaus Diakovere Henriettenstift Ort Hannover Bundesland Niedersachsen Staat Deutschland Leitung Thomas Kersting, Stefan David (Geschäftsführung), Direktorium: Michael Fantini (Ärztlicher Direktor), Sabine Mischer (Pflegedirektorin), Markus Wolf (Kaufmännischer Direktor)[1] Zugehörigkeit Diakovere Gründung 1. Juli 1859 Website Website der Henriettenstiftung Vorlage:Infobox_Krankenhaus/Logo_fehltVorlage:Infobox_Krankenhaus/Träger_fehltVorlage:Coordinate/Wartung/KrankenhausV...

 

ドラゴンボールZ絶望への反抗!!残された超戦士・悟飯とトランクスジャンル テレビアニメ原作 鳥山明企画 清水賢治、金田耕司(フジテレビ)森下孝三(東映動画)脚本 戸田博史監督 西尾大介(シリーズディレクター)演出 上田芳裕出演者 野沢雅子鶴ひろみ草尾毅中原茂伊藤美紀八奈見乗児ほかオープニング 影山ヒロノブ『CHA-LA HEAD-CHA-LA』エンディング 影山ヒロノブ

Parque San MartínGeografiaPaís  ArgentinaProvíncia Buenos AiresPartido Merlo (partido)Altitude 16 mCoordenadas 34° 41′ 00″ S, 58° 43′ 45″ OFuncionamentoEstatuto cidade da Argentina (d)HistóriaEvento chave city status (en) (1975)IdentificadoresCódigo postal B1721Prefixo telefônico 0220editar - editar código-fonte - editar Wikidata Parque San Martín é uma cidade da Argentina, localizada no partido de Merlo na província de Buenos Aires.[1] Parque San Martín fo...

 

المواقع الإباحية هي أي مواد إباحية يمكن الوصول إليها عبر الإنترنت، عن طريق مواقع الويب أو ند لند أو مشاركة الملفات أو يوزنت. أدى توفر إمكانية الوصول على نطاق واسع للشبكة العنكبوتية العالمية عام 1991 إلى نمو وانتشار المواقع الإباحية. وجدت دراسة أجريت سنة 2015 حصول «

 

Zinc ore group This article is about calamine in mineralogy. For the calamine used in calamine lotion, see Calamine. For other uses, see Calamine (disambiguation). Specimen of calamine from mine at Granby, MissouriCrystalline matrix of hemimorphite from the Sterling Hill mine, New JerseyMined example from the 17th century brass-producing town of Stolberg, Jülich Calamine is a historic name for an ore of zinc. The name calamine was derived from lapis calaminaris, a Latin corruption of Greek c...

У Вікіпедії є статті про інші значення цього терміна: Тацуно. Координати: 35°58′57″ пн. ш. 137°59′15″ сх. д. / 35.98250° пн. ш. 137.98750° сх. д. / 35.98250; 137.98750 Тацуно Країна Японія Острів Хонсю Регіон Тюбу Префектура  Наґано ISO 3166-2 20382-3 Площа 169,02 км² (1 квіт...

 

Blaster Arma de Blade Runner Réplica de la pistola Blaster de Rick Deckard.Tipo Arma de fuego cortaCreador(es) Terry LewisHistoria de servicioOperadores Policías blade runnersPropietario(s) Rick DeckardKHistoria de producciónVariantes LAPD 2019 BlasterLAPD 2049 Blaster2049 Blaster[editar datos en Wikidata] Blaster, traducida ocasionalmente como bláster, es el nombre del arma corta ficticia que emplean principalmente los policías blade runners en la franquicia de ciencia ficció...

 

Private school in New Orleans, Louisiana, United StatesCabrini High SchoolAddress1400 Moss StreetNew Orleans, Louisiana 70119United StatesCoordinates29°58′53″N 90°5′18″W / 29.98139°N 90.08833°W / 29.98139; -90.08833InformationTypePrivateMottoRespect Excellence ServiceReligious affiliation(s)Roman Catholic(Missionaries of the Sacred Heart)Patron saint(s)St. Frances Xavier CabriniEstablished1905 (orphanage), 1959 (present school)FounderMother CabriniPresident...

Interpretation of science intended for a general audience For other uses, see Popular science (disambiguation). For broader coverage of this topic, see Science communication. Title page of Mary Somerville's On the Connexion of the Physical Sciences (1834), an early popular-science book. Popular science (also called pop-science or popsci) is an interpretation of science intended for a general audience. While science journalism focuses on recent scientific developments, popular science is more ...

 

City in Nebraska, United StatesFremont, NebraskaCityFremont's historic downtown is listed in the National Register of Historic Places. Nickname(S):F-Town FMT The MontLocation in NebraskaCoordinates: 41°26′22″N 96°29′14″W / 41.43944°N 96.48722°W / 41.43944; -96.48722CountryUnited StatesStateNebraskaCountyDodgeFounded1856IncorporatedJune 17, 1871Government • MayorJoey Spellerberg[1]Area[2] • Total10.86 sq mi (...

 

العلاقات اللاتفية الناميبية لاتفيا ناميبيا   لاتفيا   ناميبيا تعديل مصدري - تعديل   العلاقات اللاتفية الناميبية هي العلاقات الثنائية التي تجمع بين لاتفيا وناميبيا.[1][2][3][4][5] مقارنة بين البلدين هذه مقارنة عامة ومرجعية للدولتين: وجه المقارن...

Passport of the Republic of The Gambia issued to Gambian citizens Gambian passportThe front cover of a contemporary Gambian passport.TypePassportFirst issued2002[1] (current version)PurposeIdentificationEligibilityGambian citizenshipExpiration5 years Gambian passports are issued to Gambian citizens to travel outside the Gambia. Physical properties Surname Given names Nationality Gambian Date of birth Sex Place of birth Date of Expiry Passport number Languages The data page/inform...

 

Japanese manga series This article is about manga series. For the head of the escape from Stalag Luft III, see Roger Bushell. This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Big X – news · newspapers · books · scholar · JSTOR (March 2009) (Learn how and when to remove this template message) Big XCover of Big...

 

خطوط يونان الصينية الجوية China Yunnan Airlines中西北 航空公司 航空公司   إياتاMU إيكاوCES رمز النداءCHINA EASTERN تاريخ الإنشاء 1992 الجنسية الصين  المطارات الرئيسية مطار كونمينغ وجيابا الدولي التحالفات سكاي تيم حجم الأسطول 64 الوجهات 88 الشركة الأم شركة طيران شرق الصين المقرات الرئيسية مقره...

HuskyProduct typeDie-cast scale model vehiclesProduced byMettoyCountryU.K.Introduced1964; 59 years ago (1964)Related brandsCorgi ToysMarketsWorldwidePrevious ownersMettoy Husky was a brand name for a line of business die-cast toy scale model vehicles manufactured by Mettoy Playcraft Ltd. of Swansea, Wales, which also made the larger Corgi Toys. Husky Models was re-branded Corgi Junior in 1970, and a further range called Corgi Rockets was developed to race on track sets....

 

Colloquialism for Jewish New Year holiday, 10 Days of Awe, Repentance and Atonement For other uses, see High Holy Days (disambiguation). See also: Jewish holidays Ashkenazi-style shofar. The shofar is used during the High Holy Days. In Judaism, the High Holy Days, also known as High Holidays or Days of Awe (Yamim Noraim; Hebrew: יָמִים נוֹרָאִים, Yāmīm Nōrāʾīm) consist of: strictly, the holidays of Rosh Hashanah (Jewish New Year) and Yom Kippur (Day of Atonement); by exte...

 

Book by Brian Cleeve The Far Hills Hardback first edition 1952AuthorBrian CleeveCountryUnited KingdomLanguageEnglishGenreNovelPublisherJarrold'sPublication date1952Media typePrint (hardback)Pages238 pp (hardback edition) The Far Hills was the first of Irish author Brian Cleeve's novels to be published. Written when he lived in South Africa, it is a roman à clef about his time in Dublin immediately after World War II. The novel paints an unflattering picture of lower middle-class life in...

National coat of arms of Brazil This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Coat of arms of Brazil – news · newspapers · books · scholar · JSTOR (May 2020) (Learn how and when to remove this template message) Coat of arms of BrazilArmigerFederative Republic of BrazilAdopted11 May 1992SupportersA Mullet p...

 

Đại dịch COVID-19 tại Ấn ĐộDịch bệnhCOVID-19Chủng virusSARS-CoV-2Vị tríẤn ĐộTrường hợp đầu tiênKeralaNgày đầu30 tháng 1 năm 2020(3 năm, 10 tháng, 1 tuần và 1 ngày)Nguồn gốcVũ Hán, Hồ Bắc, Trung QuốcTrường hợp xác nhận45.002.179 [1]Tử vong533.300 [1]Vùng lãnh thổ28 bang và 8 lãnh thổ liên bangTỷ lệ tử vong1.19%Vắc-xin1.027.420.246[1] (tổng lượt tiêm chủng)95...

 

Strategi Solo vs Squad di Free Fire: Cara Menang Mudah!