Apa itu arsitektur data?
Arsitektur data adalah kerangka kerja menyeluruh yang menjelaskan dan mengatur pengumpulan, manajemen, dan penggunaan data organisasi. Organisasi saat ini memiliki volume data sangat besar yang berasal dari berbagai sumber data dan tim berbeda yang ingin mengakses data tersebut untuk analitik, machine learning, kecerdasan buatan, dan aplikasi lainnya. Arsitektur data modern menghadirkan sistem kohesif yang membuat data dapat diakses dan dapat digunakan sambil memastikan keamanan dan kualitas data. Hal ini menentukan kebijakan, model data, proses, dan teknologi yang memungkinkan organisasi memindahkan data di departemen dengan mudah dan memastikannya tersedia kapan pun dibutuhkan—termasuk akses waktu nyata—sekaligus mendukung sepenuhnya kepatuhan terhadap peraturan.
Apa saja komponen dari setiap arsitektur data?
Komponen arsitektur data utama diberikan di bawah ini.
Sumber data
Sumber data dapat berupa aplikasi yang dapat diakses publik, sistem pemantauan dan telemetri, perangkat IoT dan sensor pintar, aplikasi yang mendukung operasi bisnis, penyimpanan pengetahuan internal, arsip data, penyimpanan data pihak ketiga, dan lainnya. Data terstruktur dan tidak terstruktur memasuki organisasi dengan kecepatan, volume, dan frekuensi yang bervariasi.
Basis data
Sistem basis data yang dibuat khusus mendukung aplikasi modern dan fitur-fiturnya yang berbeda. Mereka dapat berupa relasional atau nonrelasional, beberapa menyimpan data sebagai tabel terstruktur dan yang lain menyimpan tipe data tidak terstruktur sebagai dokumen atau pasangan kunci-nilai. Basis data biasanya menyimpan data khusus domain yang terkait dengan kasus penggunaan terbatas. Namun, data dapat digunakan di luar sistem saat ini. Misalnya, data dari aplikasi yang dapat diakses publik dapat digunakan untuk analitik pemasaran atau perencanaan dan perlu dikeluarkan dari basis data untuk diproses. Demikian pula, data yang diproses dari tempat lain harus dimuat ulang ke dalam basis data aplikasi analitik atau machine learning (ML).
Danau data
Danau data adalah repositori terpusat untuk penyimpanan data mentah dalam skala besar. Arsitektur data menjelaskan bagaimana data bergerak dari basis data yang berbeda ke danau data dan kembali ke basis data yang berbeda sesuai kebutuhan untuk penggunaan. Danau data menyimpan data dalam format native atau terbuka, sehingga memungkinkan untuk memformat dan menghapus sebelum digunakan. Hal ini mendukung integrasi data dan memisahkan silo data dalam organisasi.
Analitik data
Komponen analitik data mencakup gudang data tradisional, pelaporan batch, dan teknologi streaming data untuk pemberitahuan dan pelaporan waktu nyata. Mereka dapat digunakan untuk melakukan kueri satu kali dan kasus penggunaan analitik lanjutan. Analitik tidak dibatasi oleh silo data karena arsitektur data membuka akses dan memungkinkan lebih banyak kebebasan bagi semua orang untuk menggunakan aset data organisasi.
Kecerdasan buatan
ML dan AI sangat penting untuk strategi data modern guna membantu organisasi memprediksi skenario masa depan dan membangun kecerdasan ke dalam aplikasi. Ilmuwan data menggunakan data dari danau untuk bereksperimen, mengidentifikasi kasus penggunaan kecerdasan, dan melatih model baru. Bahkan setelah pelatihan, model AI memerlukan akses berkelanjutan ke data segar untuk menghasilkan output yang relevan dan bermanfaat. Arsitektur data modern mencakup semua teknologi dan infrastruktur yang mendukung pelatihan model dan inferensi AI.
Tata kelola data
Tata kelola data menentukan peran, tanggung jawab, dan standar untuk penggunaan data. Hal ini menguraikan siapa yang dapat mengambil tindakan apa, atas data apa, menggunakan metode apa, dan dalam situasi apa. Hal ini mencakup kualitas data dan manajemen keamanan data. Arsitek data menentukan proses untuk mengaudit dan melacak penggunaan data untuk kepatuhan peraturan yang berkelanjutan.
Manajemen metadata merupakan bagian integral dari tata kelola data. Arsitektur data mencakup alat dan kebijakan untuk menyimpan dan berbagi metadata. Hal ini menguraikan mekanisme untuk menyediakan penyimpanan metadata pusat saat sistem yang berbeda dapat menyimpan dan menemukan metadata serta menggunakannya untuk melakukan kueri dan memproses aset data lebih lanjut.
Bagaimana arsitektur data diimplementasikan?
Hal ini merupakan praktik terbaik untuk mengimplementasikan arsitektur data modern Anda secara berlapis. Lapisan mengelompokkan proses dan teknologi berdasarkan sasaran yang berbeda. Detail implementasi fleksibel, tetapi lapisan memandu pilihan teknologi dan bagaimana mereka harus berintegrasi.
Lapisan staging
Lapisan staging adalah titik entri untuk data dalam arsitektur. Hal ini menangani penyerapan data mentah dari berbagai sumber, termasuk format terstruktur, semiterstruktur, dan tidak terstruktur. Anda ingin lapisan ini menjadi sefleksibel mungkin.
Jika skema (format dan tipe data) diterapkan secara kaku di lapisan ini, kasus penggunaan hilir menjadi terbatas. Misalnya, menerapkan semua nilai tanggal sebagai format bulan, tahun membatasi kasus penggunaan masa mendatang yang memerlukan pemformatan hh/bb/tttt. Pada saat yang sama, Anda menginginkan konsistensi. Misalnya, jika nomor telepon disimpan sebagai string dan digunakan seperti itu, tetapi beberapa sumber data lain mulai menghasilkan data yang sama dengan numerik, hal ini menyebabkan jalur data rusak.
Menyeimbangkan fleksibilitas dengan konsistensi mengharuskan Anda untuk membagi lapisan ini menjadi dua sublapisan.
Lapisan mentah
Lapisan mentah menyimpan data yang tidak diubah persis seperti saat data tersebut diterima, sehingga mempertahankan format dan struktur asli tanpa transformasi. Hal ini adalah repositori di seluruh korporasi untuk eksplorasi data, pengauditan, dan reproduktifitas. Tim dapat mempertahankan dan menganalisis data dalam status semula jika diperlukan, sehingga memastikan transparansi dan keterlacakan.
Lapisan standar
Lapisan standar menyiapkan data mentah untuk konsumsi dengan menerapkan validasi dan transformasi sesuai dengan standar yang ditentukan sebelumnya. Misalnya, di lapisan ini, semua nomor telepon akan dikonversi menjadi string, semua nilai waktu ke format tertentu, dll. Dengan demikian menjadi antarmuka bagi semua pengguna dalam organisasi untuk mengakses data terstruktur dan terjamin kualitasnya.
Lapisan standar dalam arsitektur data sangat penting untuk mengaktifkan inteligensi bisnis (BI) mandiri, analitik rutin, dan alur kerja ML. Hal ini menerapkan standar skema sekaligus meminimalkan gangguan yang disebabkan oleh perubahan skema.
Lapisan yang sesuai
Integrasi data dari sumber yang berbeda diselesaikan di lapisan yang sesuai. Hal ini menciptakan model data korporasi terpadu di seluruh domain. Misalnya, data pelanggan dapat memiliki detail yang berbeda di departemen yang berbeda—detail pesanan diambil oleh penjualan, riwayat keuangan diambil oleh akun, dan minat serta aktivitas online diambil oleh pemasaran. Lapisan yang sesuai menciptakan pemahaman bersama tentang data tersebut di seluruh organisasi. Berikut manfaat utamanya:
- Definisi entitas inti yang konsisten dan terpadu di seluruh organisasi.
- Kepatuhan terhadap peraturan keamanan dan privasi data.
- Fleksibilitas yang menyeimbangkan keseragaman di seluruh korporasi dengan kustomisasi khusus domain melalui pola terpusat dan terdistribusi.
Hal ini tidak secara langsung digunakan untuk inteligensi bisnis operasional tetapi mendukung analisis data eksplorasi, BI mandiri, dan pengayaan data khusus domain.
Lapisan yang diperkaya
Lapisan ini mentransofmrasi data dari lapisan sebelumnya menjadi set data yang disebut produk data yang disesuaikan untuk kasus penggunaan tertentu. Produk data dapat berkisar dari dasbor operasional yang digunakan untuk pengambilan keputusan harian hingga profil pelanggan terperinci yang diperkaya dengan rekomendasi yang dipersonalisasi atau wawasan tindakan terbaik berikutnya. Mereka di-host di berbagai basis data atau aplikasi yang dipilih berdasarkan kasus penggunaan tertentu.
Organisasi membuat katalog produk data dalam sistem manajemen data terpusat untuk dapat ditemukan dan diakses oleh tim lain. Hal ini mengurangi redundansi dan memastikan bahwa data yang diperkaya dan berkualitas tinggi dapat diakses dengan mudah.
Apa saja tipe arsitektur data?
Ada dua pendekatan berbeda untuk lapisan yang sesuai yang membuat tipe arsitektur data yang berbeda.
Arsitektur data terpusat
Dalam arsitektur data terpusat, lapisan yang sesuai berfokus pada pembuatan dan pengelolaan entitas umum, seperti pelanggan atau produk, yang digunakan secara umum di seluruh korporasi. Entitas ditentukan dengan serangkaian atribut generik terbatas untuk manajemen data yang lebih mudah dan penerapan yang luas. Misalnya, entitas pelanggan dapat menyertakan atribut inti seperti nama, usia, profesi, dan alamat.
Arsitektur data tersebut mendukung tata kelola data terpusat, terutama untuk informasi sensitif seperti informasi pengenal pribadi (PII) atau informasi kartu pembayaran (PCI). Manajemen metadata terpusat memastikan bahwa data dikatalogkan dan diatur secara efektif, dengan pelacakan silsilah dan kontrol siklus hidup untuk transparansi serta keamanan.
Namun, model ini menghindari memasukkan semua atribut yang mungkin, karena pengelolaan persyaratan data yang rumit secara terpusat memperlambat pengambilan keputusan dan inovasi. Sebaliknya, properti khusus domain, seperti tayangan kampanye pelanggan (hanya diperlukan oleh pemasaran), diturunkan dalam lapisan yang diperkaya oleh masing-masing unit bisnis.
Teknologi data fabric berguna dalam mengimplementasikan arsitektur data terpusat.
Arsitektur data terdistribusi
Setiap domain membuat dan mengelola lapisan yang sesuai miliknya sendiri dalam arsitektur data terdistribusi. Misalnya, pemasaran berfokus pada atribut seperti segmen pelanggan, tayangan kampanye, dan konversi, sementara akuntansi memprioritaskan properti seperti pesanan, pendapatan, dan laba bersih.
Arsitektur data terdistribusi memungkinkan fleksibilitas dalam menentukan entitas dan propertinya tetapi menghasilkan beberapa set data untuk entitas umum. Ketertemuan dan tata kelola set data terdistribusi ini dicapai melalui katalog metadata pusat. Pemangku kepentingan dapat menemukan dan menggunakan set data yang sesuai sambil mengawasi proses pertukaran data.
Teknologi jala data berguna dalam mengimplementasikan arsitektur data terdistribusi.
Apa itu kerangka arsitektur data?
Kerangka kerja arsitektur data adalah pendekatan terstruktur untuk merancang arsitektur data. Hal ini menyediakan serangkaian prinsip, standar, model, dan alat yang memastikan proses manajemen data yang efisien selaras dengan tujuan bisnis organisasi. Anda dapat menganggapnya sebagai cetak biru standar yang digunakan arsitek data untuk membangun arsitektur data kualitas tinggi dan komprehensif.
Beberapa contoh kerangka kerja arsitektur data meliputi
Kerangka kerja DAMA-DMBOK
Kerangka kerja Data Management Body of Knowledge (DAMA-DMBOK) menguraikan praktik, prinsip, dan proses terbaik untuk manajemen data yang efektif di seluruh siklus hidupnya. Hal ini mendukung pembentukan praktik manajemen data yang konsisten sekaligus memastikan keselarasan dengan tujuan bisnis. Dengan memperlakukan aset data sebagai sumber daya strategis, DAMA-DMBOK memberikan panduan yang dapat ditindaklanjuti untuk meningkatkan pengambilan keputusan dan efisiensi operasional.
Kerangka kerja Zachman
Kerangka kerja Zachman adalah kerangka kerja arsitektur korporasi yang menggunakan format matriks untuk menentukan hubungan antara perspektif yang berbeda (seperti pemilik bisnis, desainer, dan pembangun) serta enam interogatif utama (Apa, Bagaimana, Di mana, Siapa, Kapan, dan Mengapa). Organisasi dapat memvisualisasikan bagaimana data sesuai dengan keseluruhan operasi mereka, sehingga memastikan bahwa proses terkait data selaras dengan tujuan bisnis dan persyaratan sistem. Kerangka kerja Zachman dikenal luas karena kemampuannya untuk membawa kejelasan pada dependensi data dan sistem di seluruh korporasi.
TOGAF
The Open Group Architecture Framework (TOGAF) memperlakukan arsitektur data sebagai komponen penting dari sistem yang lebih luas, yang menekankan penciptaan model data, aliran data, dan struktur tata kelola yang mendukung kebutuhan organisasi. Hal ini menetapkan proses data standar, sehingga memastikan interoperabilitas sistem dan manajemen data yang efisien. Kerangka kerja ini sangat bermanfaat bagi korporasi besar yang ingin menyelaraskan strategi IT dan bisnis mereka melalui pendekatan terpadu.
Bagaimana arsitektur data dibandingkan dengan istilah terkait lainnya?
Terminologi data yang berbeda terdengar mirip tetapi memiliki makna yang sangat berbeda. Kami memberikan beberapa penjelasan di bawah ini.
Arsitektur data vs. arsitektur informasi
Arsitektur informasi adalah organisasi dan penyajian informasi kepada pengguna akhir. Istilah ini berlaku untuk antarmuka pengguna, situs web, atau sistem konten dan berkaitan dengan aksesibilitas informasi pengguna akhir. Prinsip dan alat dalam arsitektur informasi berfokus pada navigasi, kategorisasi, dan kemampuan pencarian—misalnya, dalam penyimpanan pengetahuan online atau basis data dokumen.
Sebaliknya, arsitektur data berfokus pada merancang dan mengelola semua data organisasi. Hal ini berkaitan dengan semua infrastruktur data teknis backend, sementara arsitektur informasi hanya berfokus pada bagaimana pengguna akhir berinteraksi dengan dan menafsirkan informasi.
Arsitektur data vs. rekayasa data
Rekayasa data adalah implementasi praktis dari arsitektur data. Arsitek data menyediakan rencana tingkat tinggi untuk mengelola aset data organisasi. Mereka merancang sistem data yang dapat diskalakan selaras dengan tujuan bisnis dan kebijakan keamanan. Rekayasawan data mengimplementasikan rencana—membangun, memelihara, dan mengoptimalkan jalur data. Mereka memastikan data diserap, dihapus, ditransformasi, dan dikirim untuk analisis sesuai aturan arsitektur data.
Arsitektur data vs. pemodelan data
Pemodelan data adalah proses dalam arsitektur data yang menciptakan representasi visual dari setiap pengumpulan data. Hal ini termasuk membuat model data konseptual, logis, dan fisik yang menguraikan data dalam koleksi. Model data logis secara diagram mewakili batasan data, nama entitas, dan hubungan untuk implementasi dengan cara platform independen. Model data fisik lebih lanjut menyempurnakan model logis untuk implementasi di atas teknologi data tertentu.
Arsitektur data memiliki cakupan yang jauh lebih luas di luar pemodelan data. Di luar atribut dan hubungan data, arsitektur tersebut juga menentukan strategi yang lebih luas untuk manajemen data di seluruh organisasi. Hal ini mencakup infrastruktur, kebijakan, dan teknologi untuk integrasi data yang selaras dengan tujuan organisasi.
Bagaimana AWS dapat mendukung persyaratan arsitektur data Anda?
AWS menyediakan serangkaian layanan analitik komprehensif untuk setiap lapisan arsitektur data Anda—mulai dari penyimpanan dan manajemen hingga tata kelola data dan AI. AWS menawarkan layanan yang dibuat khusus dengan performa harga terbaik, skalabilitas, dan biaya terendah. Misalnya,
- Basis data di AWS mencakup lebih dari 15 layanan basis data yang dibuat khusus untuk mendukung beragam model data relasional dan nonrelasional.
- Danau data di AWS mencakup layanan yang menyediakan penyimpanan data mentah tak terbatas dan membangun danau data yang aman dalam hitungan hari alih-alih bulan.
- Integrasi data dengan AWS mencakup layanan yang menyatukan data dari beberapa sumber agar Anda dapat mentransformasi, mengoperasionalkan, dan mengelola data di seluruh organisasi Anda.
AWS Well-Architected membantu arsitek data cloud membangun infrastruktur yang aman, beperforma tinggi, tangguh, dan efisien. Pusat Arsitektur AWS menyertakan pedoman berbasis kasus penggunaan untuk mengimplementasikan berbagai arsitektur data modern di organisasi Anda.
Mulai dengan arsitektur data di AWS dengan membuat akun gratis sekarang.