Big Data – semuanya sudah diresapi dengan ini

— Diperbarui:
Big Data – semuanya sudah diresapi dengan ini
Gambar: Supawat Kaydeesud | Dreamstime

Istilah “data besar” secara harfiah berarti sejumlah besar informasi yang disimpan di media apa pun.

Selain itu, volume ini sangat besar sehingga tidak praktis untuk memprosesnya menggunakan perangkat lunak atau perangkat keras biasa, dan dalam beberapa kasus sama sekali tidak mungkin.

Big Data bukan hanya data itu sendiri, tetapi juga teknologi untuk memproses dan menggunakannya, metode untuk menemukan informasi yang diperlukan dalam susunan besar. Masalah data besar masih terbuka dan vital untuk sistem apa pun yang telah mengumpulkan berbagai informasi selama beberapa dekade.

Istilah ini dikaitkan dengan ekspresi “Volume, Kecepatan, Variasi” – prinsip-prinsip yang digunakan untuk bekerja dengan data besar. Ini secara langsung jumlah informasi, kecepatan pemrosesannya dan berbagai informasi yang disimpan dalam larik. Baru-baru ini, satu prinsip lagi telah ditambahkan ke tiga prinsip dasar – Nilai, yang berarti nilai informasi. Artinya, harus berguna dan diperlukan dalam istilah teoritis atau praktis, yang akan membenarkan biaya penyimpanan dan pemrosesannya.

Sumber Data Besar

Jejaring sosial adalah contoh sumber data besar yang khas – setiap profil atau halaman publik adalah satu tetes kecil di lautan informasi yang tidak terstruktur. Selain itu, terlepas dari jumlah informasi yang disimpan dalam profil tertentu, interaksi dengan masing-masing pengguna harus secepat mungkin.

DevOps – Pengembangan & Operasi
DevOps – Pengembangan & Operasi

Data besar terus terakumulasi di hampir setiap bidang kehidupan manusia. Ini termasuk industri apa pun yang terkait dengan interaksi manusia atau komputasi. Ini adalah media sosial, dan obat-obatan, dan sektor perbankan, serta sistem perangkat yang menerima banyak hasil perhitungan harian. Misalnya, pengamatan astronomi, informasi meteorologi dan informasi dari perangkat suara Bumi.

Informasi dari berbagai sistem pelacakan secara real time juga dikirim ke server perusahaan tertentu. Siaran televisi dan radio, basis panggilan operator seluler – interaksi setiap orang dengan mereka minimal, tetapi secara keseluruhan, semua informasi ini menjadi data besar.

Teknologi data besar telah menjadi bagian integral dari R&D dan perdagangan. Selain itu, mereka mulai menangkap bidang administrasi publik – dan di mana-mana pengenalan sistem yang lebih dan lebih efisien untuk menyimpan dan memanipulasi informasi diperlukan.

Sejarah kemunculan dan perkembangan Big Data

Istilah “data besar” pertama kali muncul di media pada tahun 2008, ketika editor Nature Clifford Lynch menerbitkan sebuah artikel tentang cara memajukan masa depan sains dengan bantuan teknologi data besar. Sampai tahun 2009, istilah ini dianggap hanya dari sudut pandang analisis ilmiah, tetapi setelah rilis beberapa artikel lagi, pers mulai banyak menggunakan konsep Big Data – dan terus menggunakannya hingga saat ini.

Big Data
Gambar: T.L.Furrer | Dreamstime

Pada tahun 2010, upaya pertama untuk memecahkan masalah pertumbuhan data besar mulai muncul. Produk perangkat lunak dirilis, tindakan yang ditujukan untuk meminimalkan risiko saat menggunakan susunan informasi yang sangat besar.

Pada tahun 2011, perusahaan besar seperti Microsoft, Oracle, EMC dan IBM menjadi tertarik pada big data – mereka adalah yang pertama menggunakan Big data dalam strategi pengembangan mereka, dan cukup berhasil.

Cookie adalah file misterius yang hanya diketahui oleh sedikit orang
Cookie adalah file misterius yang hanya diketahui oleh sedikit orang

Universitas mulai mempelajari data besar sebagai mata pelajaran terpisah pada tahun 2013 – sekarang tidak hanya ilmu data, tetapi juga teknik, bersama dengan mata pelajaran komputasi, sedang menghadapi masalah di bidang ini.

Teknik dan metode untuk menganalisis dan memproses data besar

Metode utama analisis dan pemrosesan data meliputi:

Metode kelas atau penggalian data

Metode-metode ini cukup banyak, tetapi disatukan oleh satu hal: perangkat matematika yang digunakan dalam hubungannya dengan pencapaian di bidang teknologi informasi.

Crowdsourcing

Teknik ini memungkinkan Anda untuk mendapatkan data secara bersamaan dari beberapa sumber, dan jumlah yang terakhir praktis tidak terbatas.

Pengujian A/B

Dari seluruh jumlah data, satu set elemen kontrol dipilih, yang secara bergantian dibandingkan dengan set serupa lainnya, di mana salah satu elemen telah diubah. Melakukan tes tersebut membantu untuk menentukan fluktuasi parameter yang memiliki efek terbesar pada populasi kontrol. Berkat volume Big Data, dimungkinkan untuk melakukan sejumlah besar iterasi, dengan masing-masing mendekati hasil yang paling dapat diandalkan.

Desain Berbasis Domain – Pemrograman DDD
Desain Berbasis Domain – Pemrograman DDD

Analisis Prediktif

Spesialis di bidang ini mencoba untuk memprediksi dan merencanakan terlebih dahulu bagaimana objek yang dikendalikan akan berperilaku untuk membuat keputusan yang paling menguntungkan dalam situasi ini.

Pembelajaran mesin (kecerdasan buatan)

Hal ini didasarkan pada analisis empiris informasi dan konstruksi selanjutnya dari algoritma belajar mandiri untuk sistem.

Analisis jaringan

Metode paling umum untuk mempelajari jejaring sosial – setelah menerima data statistik, simpul yang dibuat dalam kisi dianalisis, yaitu interaksi antara pengguna individu dan komunitas mereka.

Prospek dan tren pengembangan data besar

Pada tahun 2017, ketika big data bukan lagi sesuatu yang baru dan tidak dikenal, kepentingannya tidak hanya tidak berkurang, tetapi bahkan meningkat. Sekarang para ahli bertaruh bahwa analisis data dalam jumlah besar akan tersedia tidak hanya untuk organisasi raksasa, tetapi juga untuk bisnis kecil dan menengah. Pendekatan ini direncanakan akan dilaksanakan dengan menggunakan komponen-komponen berikut:

Penyimpanan Awan

Penyimpanan dan pemrosesan data menjadi lebih cepat dan lebih ekonomis – dibandingkan dengan biaya pemeliharaan pusat data Anda sendiri dan kemungkinan perluasan staf, menyewa cloud tampaknya menjadi alternatif yang jauh lebih murah.

Big Data
Gambar: Dzmitry Ryzhykau | Dreamstime

Menggunakan Data Gelap

Yang disebut “data gelap” adalah semua informasi non-digital tentang perusahaan yang tidak memainkan peran kunci dalam penggunaan langsungnya, tetapi dapat berfungsi sebagai alasan untuk beralih ke format penyimpanan informasi baru.

Kecerdasan Buatan dan Pembelajaran Mendalam

Teknologi pembelajaran kecerdasan mesin, yang meniru struktur dan operasi otak manusia, paling cocok untuk memproses sejumlah besar informasi yang terus berubah. Dalam hal ini, mesin akan melakukan semua yang harus dilakukan seseorang, tetapi kemungkinan kesalahan sangat berkurang.

Desain UX – Desain Pengalaman Pengguna
Desain UX – Desain Pengalaman Pengguna

Blockchain

Teknologi ini memungkinkan Anda untuk mempercepat dan menyederhanakan berbagai transaksi Internet, termasuk transaksi internasional. Keuntungan lain dari Blockchain adalah mengurangi biaya transaksi.

Pelayanan mandiri dan potongan harga

Pada tahun 2017, direncanakan untuk memperkenalkan “platform layanan mandiri” – ini adalah platform gratis di mana perwakilan dari usaha kecil dan menengah akan dapat secara independen mengevaluasi data yang mereka simpan dan mensistematisasikannya.

Data besar dalam pemasaran dan bisnis

Semua strategi pemasaran entah bagaimana didasarkan pada manipulasi informasi dan analisis data yang ada. Itu sebabnya penggunaan big data dapat memprediksi dan memungkinkan untuk menyesuaikan perkembangan perusahaan selanjutnya.

Rumah pintar – masa depan ada di sini
Rumah pintar – masa depan ada di sini

Misalnya, lelang RTB yang dibuat berdasarkan data besar memungkinkan Anda menggunakan iklan dengan lebih efisien – produk tertentu hanya akan ditampilkan kepada grup pengguna yang tertarik untuk membelinya.

Apa manfaat menggunakan teknologi big data dalam pemasaran dan bisnis?

  1. Dengan bantuan mereka, Anda dapat membuat proyek baru dengan lebih cepat, yang kemungkinan besar akan menjadi populer di kalangan pembeli.
  2. Mereka membantu menghubungkan kebutuhan pelanggan dengan layanan yang sudah ada atau yang direncanakan dan dengan demikian menyesuaikannya.
  3. Metode data besar memungkinkan Anda menilai tingkat kepuasan semua pengguna saat ini dan setiap pengguna satu per satu.
  4. Meningkatkan loyalitas pelanggan dicapai melalui metode pemrosesan data besar.
  5. Menarik audiens target di Internet menjadi lebih mudah karena kemampuan untuk mengontrol data dalam jumlah besar.
Big Data
Gambar: Josefkubes | Dreamstime

Misalnya, salah satu layanan paling populer untuk memprediksi kemungkinan popularitas produk tertentu adalah Google.trends. Ini banyak digunakan oleh pemasar dan analis, memungkinkan mereka mendapatkan statistik tentang penggunaan produk tertentu di masa lalu dan perkiraan untuk musim berikutnya. Ini memungkinkan para pemimpin perusahaan untuk mendistribusikan anggaran iklan secara lebih efektif, menentukan di area mana yang terbaik untuk menginvestasikan uang.

Contoh penggunaan Big Data

Pengenalan aktif teknologi Big Data ke pasar dan ke dalam kehidupan modern dimulai tepat setelah mereka mulai digunakan oleh perusahaan terkenal di dunia yang memiliki pelanggan di hampir setiap sudut dunia.

Infografis – seni menyajikan informasi
Infografis – seni menyajikan informasi

Ini adalah raksasa sosial seperti Facebook dan Google, IBM., Serta struktur keuangan seperti Master Card, VISA dan Bank of America.

Misalnya, IBM menerapkan teknik data besar untuk transaksi tunai. Dengan bantuan mereka, 15% lebih banyak transaksi penipuan terdeteksi, yang meningkatkan jumlah dana yang dilindungi sebesar 60%. Masalah dengan kesalahan positif sistem juga terpecahkan – jumlahnya berkurang lebih dari setengahnya.

VISA juga menggunakan Big Data, melacak upaya penipuan untuk melakukan transaksi tertentu. Berkat ini, mereka setiap tahun menghemat lebih dari 2 miliar dolar AS dari kebocoran.

Kementerian Tenaga Kerja Jerman telah berhasil memangkas biaya sebesar 10 miliar euro dengan menerapkan sistem data besar dalam pekerjaan mengeluarkan tunjangan pengangguran. Pada saat yang sama, terungkap bahwa seperlima warga negara menerima manfaat ini tanpa alasan.

Big Data juga tidak melewati industri game. Dengan demikian, pengembang World of Tanks melakukan studi informasi tentang semua pemain dan membandingkan indikator aktivitas mereka yang tersedia. Ini membantu memprediksi kemungkinan pergantian pemain di masa mendatang – berdasarkan asumsi yang dibuat, perwakilan organisasi dapat berinteraksi dengan pengguna secara lebih efektif.

Iklan Google: mengapa Anda harus menggunakannya
Iklan Google: mengapa Anda harus menggunakannya

Organisasi terkenal yang menggunakan data besar juga termasuk HSBC, Nasdaq, Coca-Cola, Starbucks, dan AT&T.

Masalah Data Besar

Masalah terbesar dengan data besar adalah biaya pemrosesannya. Ini dapat mencakup peralatan yang mahal dan biaya upah untuk spesialis yang memenuhi syarat yang mampu melayani informasi dalam jumlah besar. Jelas, peralatan harus diperbarui secara berkala agar tidak kehilangan kinerja minimumnya seiring dengan peningkatan jumlah data.

Big Data
Gambar: Anatoly Stojko | Dreamstime

Masalah kedua lagi-lagi terkait dengan banyaknya informasi yang perlu diolah. Jika, misalnya, sebuah penelitian tidak memberikan 2-3, tetapi sejumlah besar hasil, sangat sulit untuk tetap objektif dan memilih dari aliran data umum hanya yang akan memiliki dampak nyata pada keadaan suatu fenomena.

Masalah privasi Data Besar. Dengan sebagian besar layanan layanan pelanggan beralih ke penggunaan data online, sangat mudah untuk menjadi target penjahat dunia maya berikutnya. Bahkan hanya dengan menyimpan informasi pribadi tanpa melakukan transaksi online dapat menimbulkan konsekuensi yang tidak diinginkan bagi pelanggan penyimpanan cloud.

Cloud gaming – teknologi mutakhir di bagian depan game
Cloud gaming – teknologi mutakhir di bagian depan game

Masalah kehilangan informasi. Tindakan pencegahan tidak perlu dibatasi pada pencadangan data satu kali yang sederhana, tetapi membuat setidaknya 2-3 salinan cadangan penyimpanan. Namun, seiring dengan meningkatnya volume, kompleksitas redundansi meningkat – dan spesialis TI berusaha menemukan solusi terbaik untuk masalah ini.

Pasar teknologi data besar di Rusia dan di seluruh dunia

Pada 2014, 40% dari pasar data besar adalah layanan. Sedikit lebih rendah (38%) dari indikator ini adalah pendapatan dari penggunaan Big Data di perangkat komputer. Sisanya 22% dalam perangkat lunak.

Produk yang paling berguna di segmen global untuk memecahkan masalah Big Data, menurut statistik, adalah platform analitik In-memory dan NoSQL. 15 dan 12 persen pasar, masing-masing, ditempati oleh perangkat lunak analitik Log-file dan platform Columnar. Namun Hadoop/MapReduce dalam prakteknya mengatasi masalah big data tidak terlalu efektif.

Sandi Caesar untuk menjaga keamanan TI
Sandi Caesar untuk menjaga keamanan TI

Hasil penerapan teknologi data besar:

  • pertumbuhan kualitas layanan pelanggan;
  • mengoptimalkan integrasi rantai pasokan;
  • optimasi perencanaan organisasi;
  • percepatan interaksi dengan pelanggan;
  • meningkatkan efisiensi pemrosesan permintaan pelanggan;
  • mengurangi biaya layanan;
  • mengoptimalkan pemrosesan permintaan klien.

Buku terbaik tentang Big Data

“Wajah Manusia dari Data Besar” oleh Rick Smolan dan Jennifer Erwitt

Cocok untuk studi awal teknologi pemrosesan data besar – dengan mudah dan jelas memberi Anda informasi terbaru. Ini memperjelas bagaimana kelimpahan informasi telah mempengaruhi kehidupan sehari-hari dan semua bidangnya: sains, bisnis, kedokteran, dll. Berisi banyak ilustrasi, sehingga dirasakan tanpa banyak usaha.

Pengantar Data Mining oleh Pang-Ning Tan, Michael Steinbach, dan Vipin Kumar

Juga buku yang berguna untuk pemula tentang Big Data, yang menjelaskan cara bekerja dengan data besar dengan cara “dari yang sederhana hingga yang rumit”. Ini mencakup banyak poin penting pada tahap awal: persiapan untuk pemrosesan, visualisasi, OLAP, serta beberapa metode untuk menganalisis dan mengklasifikasikan data.

Jacque Fresco – seorang ilmuwan luar biasa di zaman kita
Jacque Fresco – seorang ilmuwan luar biasa di zaman kita

Python Machine Learning oleh Sebastian Raska

Panduan praktis untuk menggunakan dan bekerja dengan data besar menggunakan bahasa pemrograman Python. Cocok untuk mahasiswa teknik maupun profesional yang ingin memperdalam ilmunya.

“Hadoop for Dummies”, Dirk Derus, Paul S. Zikopoulos, Roman B. Melnik

Hadoop adalah proyek yang dirancang khusus untuk bekerja dengan program terdistribusi yang mengatur eksekusi tindakan pada ribuan node secara bersamaan. Mengenalnya akan membantu untuk memahami lebih detail aplikasi praktis data besar.