Istilah “data besar” secara harfiah berarti sejumlah besar informasi yang disimpan di media apa pun.
- Sumber Data Besar
- Sejarah kemunculan dan perkembangan Big Data
- Teknik dan metode untuk menganalisis dan memproses data besar
- Prospek dan tren pengembangan data besar
- Data besar dalam pemasaran dan bisnis
- Contoh penggunaan Big Data
- Masalah Data Besar
- Pasar teknologi data besar di Rusia dan di seluruh dunia
- Buku terbaik tentang Big Data
Selain itu, volume ini sangat besar sehingga tidak praktis untuk memprosesnya menggunakan perangkat lunak atau perangkat keras biasa, dan dalam beberapa kasus sama sekali tidak mungkin.
Big Data bukan hanya data itu sendiri, tetapi juga teknologi untuk memproses dan menggunakannya, metode untuk menemukan informasi yang diperlukan dalam susunan besar. Masalah data besar masih terbuka dan vital untuk sistem apa pun yang telah mengumpulkan berbagai informasi selama beberapa dekade.
Sumber Data Besar
Jejaring sosial adalah contoh sumber data besar yang khas – setiap profil atau halaman publik adalah satu tetes kecil di lautan informasi yang tidak terstruktur. Selain itu, terlepas dari jumlah informasi yang disimpan dalam profil tertentu, interaksi dengan masing-masing pengguna harus secepat mungkin.
Data besar terus terakumulasi di hampir setiap bidang kehidupan manusia. Ini termasuk industri apa pun yang terkait dengan interaksi manusia atau komputasi. Ini adalah media sosial, dan obat-obatan, dan sektor perbankan, serta sistem perangkat yang menerima banyak hasil perhitungan harian. Misalnya, pengamatan astronomi, informasi meteorologi dan informasi dari perangkat suara Bumi.
Informasi dari berbagai sistem pelacakan secara real time juga dikirim ke server perusahaan tertentu. Siaran televisi dan radio, basis panggilan operator seluler – interaksi setiap orang dengan mereka minimal, tetapi secara keseluruhan, semua informasi ini menjadi data besar.
Teknologi data besar telah menjadi bagian integral dari R&D dan perdagangan. Selain itu, mereka mulai menangkap bidang administrasi publik – dan di mana-mana pengenalan sistem yang lebih dan lebih efisien untuk menyimpan dan memanipulasi informasi diperlukan.
Sejarah kemunculan dan perkembangan Big Data
Istilah “data besar” pertama kali muncul di media pada tahun 2008, ketika editor Nature Clifford Lynch menerbitkan sebuah artikel tentang cara memajukan masa depan sains dengan bantuan teknologi data besar. Sampai tahun 2009, istilah ini dianggap hanya dari sudut pandang analisis ilmiah, tetapi setelah rilis beberapa artikel lagi, pers mulai banyak menggunakan konsep Big Data – dan terus menggunakannya hingga saat ini.

Pada tahun 2010, upaya pertama untuk memecahkan masalah pertumbuhan data besar mulai muncul. Produk perangkat lunak dirilis, tindakan yang ditujukan untuk meminimalkan risiko saat menggunakan susunan informasi yang sangat besar.
Pada tahun 2011, perusahaan besar seperti Microsoft, Oracle, EMC dan IBM menjadi tertarik pada big data – mereka adalah yang pertama menggunakan Big data dalam strategi pengembangan mereka, dan cukup berhasil.
Universitas mulai mempelajari data besar sebagai mata pelajaran terpisah pada tahun 2013 – sekarang tidak hanya ilmu data, tetapi juga teknik, bersama dengan mata pelajaran komputasi, sedang menghadapi masalah di bidang ini.
Teknik dan metode untuk menganalisis dan memproses data besar
Metode utama analisis dan pemrosesan data meliputi:
Metode kelas atau penggalian data
Metode-metode ini cukup banyak, tetapi disatukan oleh satu hal: perangkat matematika yang digunakan dalam hubungannya dengan pencapaian di bidang teknologi informasi.
Crowdsourcing
Teknik ini memungkinkan Anda untuk mendapatkan data secara bersamaan dari beberapa sumber, dan jumlah yang terakhir praktis tidak terbatas.
Pengujian A/B
Dari seluruh jumlah data, satu set elemen kontrol dipilih, yang secara bergantian dibandingkan dengan set serupa lainnya, di mana salah satu elemen telah diubah. Melakukan tes tersebut membantu untuk menentukan fluktuasi parameter yang memiliki efek terbesar pada populasi kontrol. Berkat volume Big Data, dimungkinkan untuk melakukan sejumlah besar iterasi, dengan masing-masing mendekati hasil yang paling dapat diandalkan.
Analisis Prediktif
Spesialis di bidang ini mencoba untuk memprediksi dan merencanakan terlebih dahulu bagaimana objek yang dikendalikan akan berperilaku untuk membuat keputusan yang paling menguntungkan dalam situasi ini.
Pembelajaran mesin (kecerdasan buatan)
Hal ini didasarkan pada analisis empiris informasi dan konstruksi selanjutnya dari algoritma belajar mandiri untuk sistem.
Analisis jaringan
Metode paling umum untuk mempelajari jejaring sosial – setelah menerima data statistik, simpul yang dibuat dalam kisi dianalisis, yaitu interaksi antara pengguna individu dan komunitas mereka.
Prospek dan tren pengembangan data besar
Pada tahun 2017, ketika big data bukan lagi sesuatu yang baru dan tidak dikenal, kepentingannya tidak hanya tidak berkurang, tetapi bahkan meningkat. Sekarang para ahli bertaruh bahwa analisis data dalam jumlah besar akan tersedia tidak hanya untuk organisasi raksasa, tetapi juga untuk bisnis kecil dan menengah. Pendekatan ini direncanakan akan dilaksanakan dengan menggunakan komponen-komponen berikut:
Penyimpanan Awan
Penyimpanan dan pemrosesan data menjadi lebih cepat dan lebih ekonomis – dibandingkan dengan biaya pemeliharaan pusat data Anda sendiri dan kemungkinan perluasan staf, menyewa cloud tampaknya menjadi alternatif yang jauh lebih murah.

Menggunakan Data Gelap
Yang disebut “data gelap” adalah semua informasi non-digital tentang perusahaan yang tidak memainkan peran kunci dalam penggunaan langsungnya, tetapi dapat berfungsi sebagai alasan untuk beralih ke format penyimpanan informasi baru.
Kecerdasan Buatan dan Pembelajaran Mendalam
Teknologi pembelajaran kecerdasan mesin, yang meniru struktur dan operasi otak manusia, paling cocok untuk memproses sejumlah besar informasi yang terus berubah. Dalam hal ini, mesin akan melakukan semua yang harus dilakukan seseorang, tetapi kemungkinan kesalahan sangat berkurang.
Blockchain
Teknologi ini memungkinkan Anda untuk mempercepat dan menyederhanakan berbagai transaksi Internet, termasuk transaksi internasional. Keuntungan lain dari Blockchain adalah mengurangi biaya transaksi.
Pelayanan mandiri dan potongan harga
Pada tahun 2017, direncanakan untuk memperkenalkan “platform layanan mandiri” – ini adalah platform gratis di mana perwakilan dari usaha kecil dan menengah akan dapat secara independen mengevaluasi data yang mereka simpan dan mensistematisasikannya.
Data besar dalam pemasaran dan bisnis
Semua strategi pemasaran entah bagaimana didasarkan pada manipulasi informasi dan analisis data yang ada. Itu sebabnya penggunaan big data dapat memprediksi dan memungkinkan untuk menyesuaikan perkembangan perusahaan selanjutnya.
Misalnya, lelang RTB yang dibuat berdasarkan data besar memungkinkan Anda menggunakan iklan dengan lebih efisien – produk tertentu hanya akan ditampilkan kepada grup pengguna yang tertarik untuk membelinya.
Apa manfaat menggunakan teknologi big data dalam pemasaran dan bisnis?
- Dengan bantuan mereka, Anda dapat membuat proyek baru dengan lebih cepat, yang kemungkinan besar akan menjadi populer di kalangan pembeli.
- Mereka membantu menghubungkan kebutuhan pelanggan dengan layanan yang sudah ada atau yang direncanakan dan dengan demikian menyesuaikannya.
- Metode data besar memungkinkan Anda menilai tingkat kepuasan semua pengguna saat ini dan setiap pengguna satu per satu.
- Meningkatkan loyalitas pelanggan dicapai melalui metode pemrosesan data besar.
- Menarik audiens target di Internet menjadi lebih mudah karena kemampuan untuk mengontrol data dalam jumlah besar.

Misalnya, salah satu layanan paling populer untuk memprediksi kemungkinan popularitas produk tertentu adalah Google.trends. Ini banyak digunakan oleh pemasar dan analis, memungkinkan mereka mendapatkan statistik tentang penggunaan produk tertentu di masa lalu dan perkiraan untuk musim berikutnya. Ini memungkinkan para pemimpin perusahaan untuk mendistribusikan anggaran iklan secara lebih efektif, menentukan di area mana yang terbaik untuk menginvestasikan uang.
Contoh penggunaan Big Data
Pengenalan aktif teknologi Big Data ke pasar dan ke dalam kehidupan modern dimulai tepat setelah mereka mulai digunakan oleh perusahaan terkenal di dunia yang memiliki pelanggan di hampir setiap sudut dunia.
Ini adalah raksasa sosial seperti Facebook dan Google, IBM., Serta struktur keuangan seperti Master Card, VISA dan Bank of America.
Misalnya, IBM menerapkan teknik data besar untuk transaksi tunai. Dengan bantuan mereka, 15% lebih banyak transaksi penipuan terdeteksi, yang meningkatkan jumlah dana yang dilindungi sebesar 60%. Masalah dengan kesalahan positif sistem juga terpecahkan – jumlahnya berkurang lebih dari setengahnya.
VISA juga menggunakan Big Data, melacak upaya penipuan untuk melakukan transaksi tertentu. Berkat ini, mereka setiap tahun menghemat lebih dari 2 miliar dolar AS dari kebocoran.
Kementerian Tenaga Kerja Jerman telah berhasil memangkas biaya sebesar 10 miliar euro dengan menerapkan sistem data besar dalam pekerjaan mengeluarkan tunjangan pengangguran. Pada saat yang sama, terungkap bahwa seperlima warga negara menerima manfaat ini tanpa alasan.
Big Data juga tidak melewati industri game. Dengan demikian, pengembang World of Tanks melakukan studi informasi tentang semua pemain dan membandingkan indikator aktivitas mereka yang tersedia. Ini membantu memprediksi kemungkinan pergantian pemain di masa mendatang – berdasarkan asumsi yang dibuat, perwakilan organisasi dapat berinteraksi dengan pengguna secara lebih efektif.
Organisasi terkenal yang menggunakan data besar juga termasuk HSBC, Nasdaq, Coca-Cola, Starbucks, dan AT&T.
Masalah Data Besar
Masalah terbesar dengan data besar adalah biaya pemrosesannya. Ini dapat mencakup peralatan yang mahal dan biaya upah untuk spesialis yang memenuhi syarat yang mampu melayani informasi dalam jumlah besar. Jelas, peralatan harus diperbarui secara berkala agar tidak kehilangan kinerja minimumnya seiring dengan peningkatan jumlah data.

Masalah kedua lagi-lagi terkait dengan banyaknya informasi yang perlu diolah. Jika, misalnya, sebuah penelitian tidak memberikan 2-3, tetapi sejumlah besar hasil, sangat sulit untuk tetap objektif dan memilih dari aliran data umum hanya yang akan memiliki dampak nyata pada keadaan suatu fenomena.
Masalah privasi Data Besar. Dengan sebagian besar layanan layanan pelanggan beralih ke penggunaan data online, sangat mudah untuk menjadi target penjahat dunia maya berikutnya. Bahkan hanya dengan menyimpan informasi pribadi tanpa melakukan transaksi online dapat menimbulkan konsekuensi yang tidak diinginkan bagi pelanggan penyimpanan cloud.
Masalah kehilangan informasi. Tindakan pencegahan tidak perlu dibatasi pada pencadangan data satu kali yang sederhana, tetapi membuat setidaknya 2-3 salinan cadangan penyimpanan. Namun, seiring dengan meningkatnya volume, kompleksitas redundansi meningkat – dan spesialis TI berusaha menemukan solusi terbaik untuk masalah ini.
Pasar teknologi data besar di Rusia dan di seluruh dunia
Pada 2014, 40% dari pasar data besar adalah layanan. Sedikit lebih rendah (38%) dari indikator ini adalah pendapatan dari penggunaan Big Data di perangkat komputer. Sisanya 22% dalam perangkat lunak.
Produk yang paling berguna di segmen global untuk memecahkan masalah Big Data, menurut statistik, adalah platform analitik In-memory dan NoSQL. 15 dan 12 persen pasar, masing-masing, ditempati oleh perangkat lunak analitik Log-file dan platform Columnar. Namun Hadoop/MapReduce dalam prakteknya mengatasi masalah big data tidak terlalu efektif.
Hasil penerapan teknologi data besar:
- pertumbuhan kualitas layanan pelanggan;
- mengoptimalkan integrasi rantai pasokan;
- optimasi perencanaan organisasi;
- percepatan interaksi dengan pelanggan;
- meningkatkan efisiensi pemrosesan permintaan pelanggan;
- mengurangi biaya layanan;
- mengoptimalkan pemrosesan permintaan klien.
Buku terbaik tentang Big Data
“Wajah Manusia dari Data Besar” oleh Rick Smolan dan Jennifer Erwitt
Cocok untuk studi awal teknologi pemrosesan data besar – dengan mudah dan jelas memberi Anda informasi terbaru. Ini memperjelas bagaimana kelimpahan informasi telah mempengaruhi kehidupan sehari-hari dan semua bidangnya: sains, bisnis, kedokteran, dll. Berisi banyak ilustrasi, sehingga dirasakan tanpa banyak usaha.
Pengantar Data Mining oleh Pang-Ning Tan, Michael Steinbach, dan Vipin Kumar
Juga buku yang berguna untuk pemula tentang Big Data, yang menjelaskan cara bekerja dengan data besar dengan cara “dari yang sederhana hingga yang rumit”. Ini mencakup banyak poin penting pada tahap awal: persiapan untuk pemrosesan, visualisasi, OLAP, serta beberapa metode untuk menganalisis dan mengklasifikasikan data.
Python Machine Learning oleh Sebastian Raska
Panduan praktis untuk menggunakan dan bekerja dengan data besar menggunakan bahasa pemrograman Python. Cocok untuk mahasiswa teknik maupun profesional yang ingin memperdalam ilmunya.
“Hadoop for Dummies”, Dirk Derus, Paul S. Zikopoulos, Roman B. Melnik
Hadoop adalah proyek yang dirancang khusus untuk bekerja dengan program terdistribusi yang mengatur eksekusi tindakan pada ribuan node secara bersamaan. Mengenalnya akan membantu untuk memahami lebih detail aplikasi praktis data besar.