Zamonaviy axborot tizimlarida foydalaniladigan axborot (ayniqsa video, audio multimediali malumotlar) hajmini jadal osishi oldimizga ushbu axborotni malumotlar bazasida saqlash va ularni boshqarishning yangi murakkab masalalarni qoyadi. Quyida katta hajmdagi multimedia malumotlarni tashkil qilishga, shuningdek ular bilan ishlash vositalari tahlil qilib chiqamiz.
Katta hajmli multimedia malumotlar tortta asosiy xarakteristikaga ega boladi: hajm, xilma-xillik, tezlik, narhi.
1. Hajm. Insonlar va mashinalar tomonidan xosil qilinayotgan malumotlarning osib borayotgan soni, axborot texnologiyalari infrastrukturalariga malumotlarni saqlash, ishlov berish va taqdim etishida yangi talablarni qoyadi.
2. Xilma-xillik. Turli strukturalarda taqdim etilgan malumotlar xilma-xil boladi. Bular kredit kartalar boyicha operatsiyalar boladimi, ilmiy tadqiqot natijalari boladimi, fotografik suratlar boladimi, video va audio malumotlar boladimi barchasi oziga xos ishlov va saqlash shart sharoitlarini talab etadi.
3. Tezlik. Tezlik deganda nafaqat malumotlarning malumotlar bazasiga kelib tushish tezligi, balki bu malumotlar bazasidan olinadigan malumotlarni chiqarib lish tezligi ham anglanadi.
4. Narhi. Katta hajmdagi malumotlar – qimmat resurs hisoblanadi. Malumot dolzarbligi, foydaliligi va ichidagi kontentiga qarab uning qanchalik qimat baholigi aniqlanadi.
Katta hajmli malumotlarni saqlash
Yangi axborot texnologiyalari, qurilmalari va kommunikatsiya vositalarining paydo bolishi bilan, insonlar tomonidan ishlab chiqarilayotgan malumotlar soni ham geometrik progressiya boyicha ortib bormoqda. Shu bilan birga malumotlarning foydaliligi koeffitsienti juda past bolishi mumkin. Aksariyati befoyda, bekorchi malumotlardan iborat. Shundan kelib chiqadiki, barcha ishlab chiqarilgan malumotlardan oldin izchil ishlov berilgandan keyingina foydalanish mumkin boladi.
Katta hajmdagi malumotlar an’anaviy kompyuter tizimlari tomonidan amalga oshirib bolmaydigan ishlov berishni talab qiladi.
Katta hajmdagi malumotlar turli tizim va dasturlar tomonidan yaratilgan axborotni oz ichiga oladi:
• Qora quti: vertolyot, samolyotlar, dengiz va kosmik kemalarning axborot ta’minoti qismiga kiradi. Uning vazifasiga boshqaruv ob’ekti xarakteristikalari togrisidagi axborotni, ekipaj ovozini yozib borish kiradi.
• Ijtimoiy multimedia malumotlar: ijtimoiy tarmoqlar orqali tarqatilatgan axborot.
• Fond birjalari: kompaniyalar orasidagi oldi-sotdi muomalalar togrisidagi malumotni saqlash.
• Energotizimlar: bunday malumotlar energetik tarmoqning uzellari va kuchlanishlarini oz ichiga oladi.
• Transport tizimi: modellar, xarateristkalar, masofalar, GPS media malumotlar – transport va yol tarmogi haqidagi barcha malumotlarni qamraydi.
• Qidiruv tizimlari: turli malumotlar bazasidan izlash ishlari.
Natijada, katta hajmdagi malumotlar katta hajmga, katta tezlikka. ega bolgan uch xil tipga ajratiladi:
• Strukturalangan malumotlar – relyatsion MB
• Yarim strukturalangan malumotlar - XML-fayllar
• Strukturalanmagan malumotlar – tasvir, video, audio, Word, PDF, Text formatdagi fayllar.
MapReduce taqsimlangan malumotlar modeli
MapReduce dasturiy tizim Google kompaniyasi tomonidan yaratigan bolib, Google File System taqsimlangan fayl tizim asosida amalga oshirilgan. Bu maxsulot Google kompaniyasining xususiy mulki hisoblanadi va faqat shu kompaniyaning dasturiy maxsulotlarida ishlatiladi.
Mazkur modelning boshqa realizatsiyalari ham mavjud. Erkin tarqatuvda – Apache Hadoop loyihasida ishlab chiqilgan Hadoop MapReduce maxsulot ham bor. Mazkur texnologiya HDFS (Hadoop Distributed File System) taqsimlangan fayl tizimidan foydalanishga asoslanadi. MapReduce erkin va ochiq dasturi maxsulot hisoblanadi. MapReduce modelida barcha hisoblash muolajalari "kalit-qiymat" deb atalgan kiruvchi juftlik toplami ustida amalga oshiriladi. Har bir hisob natijasida "kalit-qiymat" chiquvchi juftlik toplami xosil boladi.
MapReduce muhitida hisoblashlarni amalga oshirishda ikkita muhim funksiyalardan foydalaniladi: «Map» va «Reduce».
MapReduce amalga oshiriladigan loyihalar quyidagi xarakteristikali taqsimlangan klasterlar muhitida ishlashga yonaltirilgan:
• Dasturlarni bajarish muhiti uzellari odatda Linux operatsion tizimli umumiy kompyuterlardan iborat;
• Klaster yuzlab yoki minglab kompyuterlardan iborat;
• Malumotlarni saqlash uchun qimmat bolmagan disk qurilmalaridan foydalaniladi;
• Mazkur disklarda joylashgan malumotlarni boshqarish uchun taqsimlangan fayl tizimidan foydalaniladi;
MapReduce texnologiyasi katta hajmdagi malumotlarga minglab kompyuterlar orqali ishlov berishga moljallangan. Shuning uchun, unda albatta alohida kompyuterlarning ishdan chiqishi holatlariga turgunlik bolishi kerak.
Agar ma’lum uzel sorovlarga belgilangan vaqt oraligida javob bermasa, tizim uni ishdan chiqqan deb hisoblaydi va boshqa uzelni jalb qiladi.
MapReduce texnologiyasi, minglab kompyuterlarni jalb qilish bilan, turgunlik va kengayish talablarini ta’minlay oladi. MapReduce avvaldan strukturalanmagan (matnli) malumotlar bilan ishlashga moljallanganiga qaramay, undan katta hajmdagi strukturalangan malumotlarga ishlov berishda foydalanish mumkin.
Hadoop texnologiyasi
Apache Hadoop maxsuloti oddiy qurilmalarda joylashtirilishi mumkin bolgan erkin Java-platforma hisoblanadi. Loyiha Google File System materiallarini qayta ishlash natijasida tugilgan bolib, katta klasterlarda ishlaydigan taqsimlangan ilovalarni ishlashiga yordam beradi.
Mazkur texnologiya ilovalarga malumotlar bilan ishonchli va tez ishlashni ta’minlaydi. Maxsulotda MapReduce deb tanilgan hisoblash paradigmasi qollangan. Shunga kora ilova kop sonli kichik masalalarga ajratilgan bolib, masalalarning har biri ixtiyoriy uzelda ishlashi mumkin. Qoshimcha, malumotlarni klasterning hisoblash uzellarida saqlashga moljallangan, taqsimlangan fayl tizimidan foydalaniladi. Bu klasterni juda yuqori agregatlashtirilgan otkazish xususiyatiga erishitiradi.
Mazkur tizimlar ilovalalarni oson kengayishiga (minglab uzellarni petabayt malumotlarga ishlov berishiga) yol qoyib beradi.
Hadoop texnologiya Facebook, Twitter, Rackspace i eBay kabi veb-loyihalarda foydalaniladi. Shuningdek IBM, EMC, Dell i Oracle kabi dasturiy maxsulotlarda kollaniladi.
Hadoop ning asosiy texnik xarakteristikalariga quyidagilar kiradi:
• Kengayuvchanligi: platforma petabayt (1015) malumotlarni saqlash va ishlov bera olishi bilan chiziqli kengayishi mumkin;
• Ishdan chiqishga turgunligi: barcha saqlanayotgan malumotlar keragidan ortiq, barcha uzilib qolgan ishlov berish masalalari qaytadan boshlanadi;
• Krossplatformalik: Hadoop kutubxonalari asosan Java tilida yozilgan bolib, Java mashinani qollab quvvatlaydigan ixtiyoriy operatsion tizim ostida ishlashi mumkin.
• Masalalarni avtomatik tarzda parallellashtirish: Hadoop texnologiya dasturchilarga korinib turadigan "shaffof" abstraksiyalar xosil qiladi. Shu bilan ularni malumotlarni parallel ishlov berish natijalarini loyihalash, boshqarish va agregatsiya qilish ishlaridan forig qiladi.
Hadoop dan foydalanishning afzalliklari quyidagilarda namoyon boladi:
• Qayshqoqlik: strukturalangan va strukturalanmagan malumotlar tipini saqlash va tahlil qilish;
• Samaraliylik: kop hollarda terabayt malumotlarni saqlash va ularga ishlov berish boshqa mavjud texnologiyalarga nisbatan arzon narhga tushadi.
• Klasterni arzon xosil qilish: Hadoop-klasterlarni xosil qilish uchun qimmat server apparat ta’minoti talab qilinmaydi.
• Nisbatan yengil moslashuvchanlik: Hadoop keng va aktiv rivojlanaytgan ekosistemaga ega;
• Minimal risk: platforma yadrosini notogri ishlashi bilan bogliq risklarning minimalligi. Hozirgi kunda Hadoop platformadan petabayt malumotlardan foydalanishda ishlatiladi;
• «Open Source» litsenziya: Hadoop platformani qollash va egalik qilishning arzon narhdaligi;
• «Open Source» litsenziya: Hadoop platformani qollash va egalik qilishning arzon narhdaligi;
• Platformadan foydalanadigan ishlab chiqaruvchilar sonining kopligi.
Forrester Research kompaniyasi analitiklarining fikricha, Apache Hadoop platforma barcha katta kompaniyalarning AT-infrastrukturalari uchun standart vazifasini otaydi.
NoSQL yondashuv
NoSQL atama "nafaqat SQL " yoki "SQL emas" deganini anglatadi. Mazkur atama 2009 yildan boshlab, interet-texnologiyalar va ijtimoiy tarmoqlarning rivoji malumotlarni saqlash va ularga ishlov berishga yangicha yondashuvlarni keltirib chiqarganda, mashhurlashdi. Bu paytga kelib, dasturchilar an’anaviy relyatsion malumotlar bazasi ota qimmatga tushayotgani yoki yetarlicha tez ishlamayotganligi kabi masala va muammolarga ropara kelgan edilar.
Shuni aytib otish kerakki, NoSQL-yechim relyatsion malumotlar bazalaridan butunlay voz kechishni yoki ular almashtirishni kozda tutmaydi.
Afzalliklar sifatida quyidagilarni aytish mumkin:
• Kengayuvchanlik: mavjud an’anaviy MBBT lar uchun gorizontal kengayish masalasi odatda juda qiyin va qimmat hisoblanadi. Kop NoSQL-yechimlar shu sababga kora loyihalashtirilgan.
• Tezlik: hisoblash samarasi – muhim omillardan hisoblanadi. Kop masalalar uchun an’anaviy MBBT relyatsion model, tranzaksiyalar, ishonchlilik va h.k. kabi xususiyatlarining hammasi bir payitda kerak bolavermaydi. Bu xususiyatlarning hammasi yoki ba’zilaridan voz kechish NoSQL katta tezlikka erishishiga olib keladi.
• Replikatsiyalar: serverni ishdan chiqishi yoki tarmoqqa ulanib bolmaslik ehtimolligi ixtiyoriy axborot tizimidan ishonchliylik xususiyatini talab qiladi. Barqaror ishlashning asosiy usuli – replikatsiya. Malumotlar bazasinireplikatsiya rejimida ishlashga otishi NoSQL-yechimlarning imkoniyatlaridan biri.
• Yaratish va boshqarishning oddiyligi. Ornatish va sozlash masalalari , yana qoshimcha NoSQL-yechimlarni qollash, relyatsion MB ga kora, oddiroq va kam harajat bilan amalga oshiriladi. Shuning uchun ishlab chiqish va tadbiq etish tezligi muhim omillardan sanalgan loyihalarda kopincha NoSQL-tizimlar tanlanadi.
Ba’zi tipdagi masalalar uchun malumotlarni taqdim etishning relyatsion modeli har doim ham eng yaxshi usul hisoblanavermaydi.
Ilovalarni ishlab chiqishda relyatsion modelni ishlatilayotgan malumotlar modeliga akslantiruvchi alohida oraliq ob’ektlardan foydalanish oddiy holga aylangan. Bunday holat loyiha tannarhini oshirib yuboradi va tizimni murakkablashtirib yuborishi mumkin.
NoSQL texnologiyasi malumotlar modelining keng toplamini taqdim etadi. Konkret masala uchun mos modelni tanlash kifoya qiladi: hujjat korinishadgi malumotlar modeli, maydonlardan tashkil topgan malumotlar, "kalit-qiymat" yozuvlar, graflar va h.k.
Hujjatga yonaltirilgan MBBT maydonlardan iborat hujjatlar kolleksiyasi korinishidagi malumotlarni saqlaydi. An’anaviy MB bunday malumotlarni ozaro boglangan jadvallarda saqlaydi: asosiy malumotlar yuitta jadvalda, qoshimcha maydonlar boglangan boshqa jadvallarda saqlanadi. Shu bilan birga hujjatga-yonaltirilgan MB murakkab sorovlar qilib bolmaydi. Bunday malumotlarda hujjatlar boglanish bolmaydi.
Graflarga-yonaltirilgan MB. Bunday MB graf korinishida berilgan malumotlarni samarali saqlaydi. Ular mohiyatlar toplami va ularning ozaro munosabati orasidagi boglanishlarni saqlashga ideal togri keladi.
Misol tariqasida ijtimoiy graflar, tizim ob’ektlari orasidagi boglanishlarni olish mumkin.
R dasturlash tili
R dasturlash tili universal til bolib quyidagi sohalarda foydalanish uchun ishlab chiqilgan: malumotlarni tahlili, klassik statistik testlar, yuqori darajadagi grafika.
R tili katta hajmli malumotlar sohasida foydali instrument hisoblanib, IBM SPSS, InfoSphere, Mathematica ga qoshilgan.
Mazkur til koproq statistikaga moljallangan. R tili kuchli skript tillar oilasiga kiradi. Unda matnga ishlov berishda doimiy ilovalardan foydalaniladi. Har xil korinishdagi va tartiblanmagan katta hajmdagi malumotlarga ishlov berishda R tili imkoniyatlaridan foydalanish mumkin.
Yana muhim xususiyatlaridan biri – tekin va erkin tarqatilishi mumkin. R tili ochiq kodga ega.
Kamchiliklarida shuni aytish mumkinki, R platforma malumotlarni saqlash joyi emas. Malumotlarni boshqa ilovada kiritib, keyin uni R muhitiga import qilinishi kerak.