Вялікія даныя

Вялікія даныя (вялікія звесткі) — тэрмін для азначэння набораў даных (англ.: data sets), якія з’яўляюцца настолькі вялікімі і складанымі, што традыцыйнае прыкладное праграмнае забеспячэнне для апрацоўкі даных не падыходзіць. Праблемы аналізу вялікіх даных уключаюць збор, захаванне, аналіз, пошук, абмен, перадачу, візуалізацыю, фільтрацыю, абнаўленне, канфідэнцыяльнасць і крыніцу даных. Цяперашняе выкарыстанне тэрміна «вялікія даныя», як правіла, адносіцца да выкарыстання прагнастычнай аналітыкі, аналітыкі паводзін карыстальнікаў або некаторых іншых перадавых метадаў аналітыкі даных і рэдка — да пэўнага памеру набору даных.

Візуалізацыя штодзенных правак Вікіпедыі, створаная IBM. Тэкст і малюнкі Вікіпедыі займаюць тэрабайты памяці і з’яўляюцца прыкладам вялікіх даных.
Рост лічбавых магчымасцяў глабальнага захоўвання інфармацыі.[1]

Аналіз набораў даных можа знайсці новыя сувязі для «выяўлення бізнес тэндэнцый, прадухілення хвароб, змагання са злачыннасцю і інш.»[2] Навукоўцы, бізнесмены, медыкі-практыкі, рэкламшчыкі і ўрады вельмі часта сустракаюцца са складанасцямі з вялікімі данымі ў такіх галінах як інтэрнэт-пошук, фінансавая і бізнес-інфарматыка. Навукоўцы сутыкаюцца з абмежаваннямі ў працы электроннай навукі (e-Science), якая ўключае метэаралогію, геноміку[2], канэктоміку, складаныя фізіялагічныя сімуляцыі, біялагічныя і экалагічныя даследаванні[3].

Наборы даных растуць вельмі хутка і часткова таму што яны вельмі танна збіраюцца шэрагам мабільных прылад з інфа-сэнсарамі, у паветры (remote sensing), праграмнымі логамі, камерамі, мікрафонамі, радыё-рыдэрамі (radio-frequency identification (RFID)) і бесправаднымі сэнсарнымі сеткамі[4][5]. Сусветныя тэхналагічныя магчымасці захоўвання інфармацыі на чалавека падвойваліся кожныя 40 месяцаў з 1980-ых[6]; у 2012 кожны дзень ствараецца 2,5 эксабайт (2.5×1018) дадзеных[7]. Для буйных прадпрыемстваў узнікае новае пытанне, хто павінен валодаць вялікімі данымі, якія ўздзейнічаюць на ўсю арганізацыю[8].

Сістэмы кіравання рэляцыйнымі базамі даных і статыстычнае праграмнае забеспячэнне для візуалізацыі даных часта адчуваюць цяжкасці з апрацоўкай і аналізам вялікіх даных. Часта такая задача патрабуе «праграмнага забеспячэння, здольнага працаваць паралельна на дзясятках, сотнях і нават тысячах сервераў»[9]. Што лічыць «вялікімі данымі» залежыць ад магчымасцяў карыстальнікаў і іх інструментаў. «Для некаторых арганізацый сутыкненне з сотнямі гігабайт даных можа выклікаць неабходнасць пераглядзець варыянты кіравання данымі. Для іншых могуць спатрэбіцца дзясяткі ці сотні тэрабайт, перш чым памер даных стане важным фактарам.»[10].

Характарыстыкі

Вялікія даныя могуць быць апісаны наступнымі характарыстыкамі[11][12]:

Аб’ём
Колькасць згенераваных і захаваных даных. Памер даных вызначае каштоўнасць і патэнцыйна дапамагае іх разуменню, а таксама вызначае тое, ці можна лічыць іх вялікімі данымі. Памер вялікіх даных звычайна перавышае тэрабайты і петабайты.
Разнастайнасць
Тып і прырода даных. Гэта дапамагае людзям, якія аналізуюць такія даныя эфектыўна выкарыстоўваць выніковае разуменне.
Хуткасць
У гэтым кантэксце хуткасць, з якой гэтыя даныя генеруюцца і апрацоўвацца, сустракаюць патрабаванні і выклікі, якія ляжаць на шляху росту і развіцця.
Варыятыўнасць
Непаслядоўнасць такіх даных можа прадухіляць працэсы кіравання імі.
Праўдападобнасць
Якасць сабраных даных можа значна адрознівацца і ўздзейнічаць на дакладнасць аналізу.

Зноскі