Spark SQL’e opsiyonel bağlanma yöntemlerinden biri olan STS, Spark’ı dağıtık yapıda in-memory sorgu motoru gibi kullanmaya olanak sağlıyor. Bu servis ile sparkda yapısal hale getirilmiş olan veriler ile farklı databaselerde bulunan verilere aynı sessiondan erişebilmek mümkün.

Bu modda son kullanıcılar veya uygulamalar (örneğin BI Toolları), herhangi bir kod yazmaya, veri taşımaya gerek kalmadan SQL sorgularını doğrudan Spark SQL ile çalıştırabilirler. Bunun için sparkla gelen start-thriftserver servisini çalıştırmak yeterli.

start-thriftserver.sh file’ı SPARK_HOME/sbin dizini altında bulabilirsiniz. Default değer olarak hostname :localhost, port numarası olarak 10000 ile çalışır (localhost:10000). Opsiyonel olarak alabileceği parametreleri görebilmek için ise start-thriftserver.sh — help komutunu çalıştırmanız yeterli.

start-thriftserver.sh…


Genellikle farklı ortamlarda (HDFS,S3,RDBMS vb.) tutulan verileri bir araya getirip analiz edebilmek için ETL/ELT yöntemleri ile veriyi taşımak zorunda kalıyoruz. Bu durum hem operasyonel olarak hem de finansal olarak maliyetli bir işlem. Bu yazımda veriyi bulunduğu ortamlardan (S3 ve Oracle) taşımadan Presto ile nasıl sorgulayabileceğimizi göreceğiz.

Presto, ilk olarak Facebook tarafından geliştirilmeye başlanmış daha sonra Presto Foundation (Linux Foundation tarafından da destekleniyor) tarafından desteklenen gigabayttan petabaytlara kadar her boyuttaki farklı veri kaynaklarına karşı etkileşimli analitik sorguları çalıştırmak için kullanılan açık kaynaklı SQL sorgu motorudur.

S3 ise (Simple Storage Service), dosya(object) olarak verilerinizi saklamanızı sağlayan AWS ürünüdür.

Büyük Veri Analitiğinde veriden…


Delta Lake, Linux Foundation tarafından desteklenen datalake’e güvenilirlik getiren açık kaynaklı bir depolama katmanıdır.

  • İlişkisel veri tabanlarında oluduğu gibi ACID işlemlerini destekler.
  • Streaming ve batch işlemlerinizi birleştirmenize olanak sağlar.
  • Mevcut datalake üzerinde çalışır ve Apache Spark API’leri ile tamamen uyumludur.
  • Delta Lake sunmuş olduğu ACID desteğiyle datalakeleri veri ambarı gibi kullanmanızı sağlar. Örneğin Slowly Changing Dimension işlemini mümkün kılar.
  • Spark ile uyumlu çalıştığından ötürü, kullanılması durumunda data pipeline sürelerinde olumlu katkı sağlar.
  • HDF, Amazon S3 ve Cloud depolama servisleri ile uyumlu çalışır.

Apache Spark ile uyumluluk

Aşağıdaki tabloda Delta Lake sürümleri ve bunların uyumlu Apache Spark sürümlerini görebilirsiniz.

Delta Lake Kullanımı

Bilgisayarıma kurulu Spark Version 2.4.7 …

Samet Surmez

Data Engineer

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store