Logo VAST

Úložná datová platforma VAST S3

VAST-S3-Storage-Data-Platform-product

Informace o produktu

Specifikace

  • Název produktu: Nástroj pro migraci VAST S3
  • Verze: 1.0
  • Cílová skupina: datoví inženýři, datoví architekti, systémoví administrátoři
  • Kompatibilita: konfigurace úložiště Hadoop, Hive, S3

Návod k použití produktu

Volba 1: Migrace dat do S3 s DistCp pomocí adaptéru S3A

  • Případ použití: Ideální pro scénáře hromadného přenosu dat.
  • Účel: Efektivně přesuňte velké množství nezpracovaných dat z HDFS do S3.

kroky:

  1. Nakonfigurujte /etc/hadoop/conf/core-site.xml:
                    fs.s3a.access.key RBY76D9A.. fs.s3a.secret.key aBa6Odt/u/ua2J3ACABpa2.. fs.s3a.path.style.access true fs.s3.enable-storage-classes true fs.s3a.connection. ssl.enabled false fs.s3a.endpoint http://vippool.yourvastcluster.com
    

    Ujistěte se, že fs.s3a.endpoint je název DNS pro fond VIP.

  2. Spusťte příkaz DistCp:
    hadoop distcp hdfs://your-hdfs-path/target_data/ s3a://vast-hadoop-s3-bucket/target_data
  3. Ověřte přenos dat:
    hdfs dfs -ls s3a://vast-hadoop-s3-bucket/target_data

Možnost 2: Migrace podregistrových tabulek a použití podregistru-Meta s S3A

  • Případ použití: Ideální pro zachování metadat tabulky Hive.
  • Účel: Migrujte struktury tabulek Hive, schémata a metadata z HDFS do S3.

Často kladené otázky (FAQ)

  • Otázka: Kdo je cílovou skupinou tohoto nástroje?
    A: Datoví inženýři, datoví architekti a systémoví administrátoři spravující ukládání a migraci dat v prostředích Hadoop.
  • Otázka: Jaké jsou předpoklady pro použití tohoto nástroje pro migraci?
    A: Doporučuje se znát konfigurace úložiště Hadoop, Hive a S3.

Průvodce doporučenými postupy pro migraci dat HDFS a podregistrových tabulek na VAST S3

Abstraktní

Tato příručka poskytuje komplexní přehledview osvědčených postupů pro migraci dat z tradičních tabulek Hive/HDFS do úložiště VAST S3 pomocí adaptéru S3A. Nabízí několik možností přizpůsobených různým případům použití, včetně hromadného přenosu dat, zachování metadat tabulky Hive, zajištění konzistence dat a minimalizace prostojů. Podle kroků uvedených v příslušných částech si datoví inženýři a administrátoři mohou vybrat nejvhodnější metodu migrace na základě svých specifických požadavků a zajistit tak efektivní přenos dat s minimálním dopadem na probíhající operace. Tato příručka obsahuje předpoklady, podrobné kroky migrace a optimalizační tipy pro usnadnění hladkého a efektivního procesu migrace.

Publikum
Tato příručka je určena pro datové inženýry, datové architekty a systémové administrátory odpovědné za správu ukládání a migraci dat v prostředích Hadoop. Doporučuje se znát konfigurace úložiště Hadoop, Hive a S3.

Předpoklady

  • Uživatel VAST s příslušnými oprávněními a přístupem S3, tajné klíče: Správa uživatelů
  • Segment S3 na clusteru VAST: Správa segmentů
  • Zásady přiřazené identity pro vlastníka segmentu: Správa přístupu S3
  • Síťové připojení mezi VIP VAST a clusterem Hadoop: Konfigurace sítě
  • Hadoop nainstalovaný lokálně s DistCp

Možnosti migrace

Možnost 1: Migrace dat do S3 s DistCp pomocí adaptéru S3A

Use Case
Tato možnost je ideální pro scénáře hromadného přenosu dat, kde je primárním cílem efektivní přesun velkého množství nezpracovaných dat z HDFS do S3. Je to vhodné, když se nemusíte starat o metadata podregistrové tabulky.

Účel
Hlavním účelem použití DistCp (Distributed Copy) s adaptérem S3A je využít jeho možnosti paralelního kopírování k rychlému a efektivnímu přenosu dat z HDFS do úložiště S3. Tato metoda zajišťuje přesun dat škálovatelným a robustním způsobem.

Kroky

  1. Konfigurace /etc/hadoop/conf/core-site.xml: Aktualizujte konfiguraci Hadoop file zahrnout pověření S3A a informace o koncovém bodu.
    • fs.s3a.access.key
    • RBY76D9A..
    • fs.s3a.secret.key
    • aBa6Odt/u/ua2J3ACABpa2..
    • fs.s3a.path.style.access
    • věrný
    • fs.s3.enable-storage-classes
    • věrný
    • fs.s3a.connection.ssl.povoleno
    • falešný
    • fs.s3a.endpoint
    • http://vippool.yourvastcluster.com</value>
    • Ujistěte se, že fs.s3a.endpoint je název DNS pro fond VIP, aby bylo aktivováno vyvažování mezi CNODE.
  2. Provedení příkazu DistCp: Pomocí příkazu DistCp zkopírujte data z cesty HDFS do cílového segmentu S3. hadoop distcp hdfs://your-hdfs-path/target_data/ s3a://vast-hadoop-s3-bucket/target_data
  3. Ověřte přenos dat: Po přenosu ověřte, zda byla data zkopírována správně, uvedením obsahu bucketu S3.
    hdfs dfs -ls s3a://vast-hadoop-s3-bucket/target_data

Volba 2: Migrace úlových tabulek a použití Hive-Meta s S3A

Případ použití:
Tato možnost je ideální pro scénáře, kde je klíčové migrovat tabulky Hive spolu s jejich metadaty, aby bylo zajištěno zachování schématu Hive a definic tabulek. Je vhodný pro zachování integrity a funkčnosti tabulek Hive po migraci na S3.

Účel:
Primárním účelem této metody je bezproblémová migrace struktur tabulek Hive, včetně definic schémat a metadat, z HDFS na S3. To zajišťuje, že tabulky podregistru zůstanou dotazovatelné a udrží si svou definovanou strukturu v novém prostředí úložiště.

Konfigurace úlu S3A
kroky:
Nahradit s názvem vašeho kbelíku S3A. Tento exampSoubor vytvoří databázi Hive s názvem mydb a tabulku s názvem mytable uloženou jako text file v S3A.

  1. Konfigurace Hive pro S3A: Nastavte konektor S3A jako výchozí filesystém pro Hive. nastavit fs.defaultFS=s3a:// /
  2. Vytvořit databázi podregistru: Vytvořte novou databázi podregistru, která bude ukládat migrované tabulky. VYTVOŘIT DATABÁZI mydb;
  3. Vytvořit tabulku Hive v S3: Vytvořte tabulku v databázi Hive, která odkazuje na data uložená v S3. CREATE TABLE mydb.mytable (col1 INT, col2 STRING)
    ULOŽENO JAKO TEXTFILE
    LOCATION 's3a:// /mytable/';
  4. Ověřte vytvoření tabulky: Ujistěte se, že tabulka byla úspěšně vytvořena a ukazuje na správné umístění S3.
    UKAŽTE TABULKY;

Pomocí těchto kroků můžete efektivně migrovat tabulky Hive do S3, přičemž zachováte schéma a metadata a zajistíte, že tabulky zůstanou funkční a lze se na ně dotazovat v novém umístění. Tato metoda je nezbytná pro scénáře, kde je zásadní zachování logické struktury tabulek Hive.

Nadview – Migrace bez výpadků

Use Case:
Tato metoda je ideální pro scénáře, kdy je třeba data migrovat do nového úložiště, aniž by došlo k výpadkům nebo narušení probíhajících operací.

Účel:
Bezproblémová migrace dat z jednoho úložiště do druhého a zajištění nepřetržité dostupnosti dat během procesu migrace.

Kroky

  1. Vytvořit novou tabulku: Vytvořte novou tabulku v požadovaném umístění úložiště pomocí stejného schématu jako původní tabulka. CREATE TABLE newtable LIKE mytable;
  2. Kopírování dat do nové tabulky: Pomocí příkazu INSERT INTO zkopírujte data z původní tabulky do nové tabulky.
    INSERT INTO newtable SELECT * FROM mytable;
  3. Aktualizace odkazů na původní tabulku: Po zkopírování dat aktualizujte všechny odkazy na původní tabulku, aby ukazovaly na novou tabulku.
    ALTER TABLE mytable_external SET LOCATION 'nové_umístění' ;
  4. Zrušte původní tabulku: Poté, co se přesvědčíte, že všechny odkazy byly aktualizovány a nová tabulka funguje správně, původní tabulku uvolněte, abyste uvolnili prostředky.
    DROP TABLE mytable;

Podle těchto kroků můžete migrovat tabulku Apache Hive z jednoho úložiště na druhé bez jakýchkoli prostojů, což zajistí nepřetržitou dostupnost dat a minimální narušení vašich operací.

Možnost 2a: Migrace pomocí Hive Snapshots (CTAS)

Use Case:
Tato metoda je ideální pro scénáře vyžadující transačně konzistentní snímek dat. Je to užitečné pro migraci dat, zálohování nebo analýzu na stabilním snímku.

Účel:
Primárním účelem CTAS (Create Table As Select) je vytvořit konzistentní snímek dat v určitém časovém okamžiku. Tím je zajištěno, že budou zahrnuty všechny změny v datech až do okamžiku snímku, což poskytuje stabilní stav dat pro migraci nebo analýzu.

Kroky:

  1. Create Snapshot (Source Table): Vytvořte snímek zdrojové tabulky pomocí příkazu CREATE TABLE AS SELECT. Tento příkaz vytvoří novou tabulku store _sales_snap a naplní ji daty z store _ sales. Tím zajistíte, že žádné změny provedené v tabulce store_ sales po tomto okamžiku neovlivní proces migrace.
    CREATE TABLE store_sales_snap AS SELECT * FROM store_sales;
  2. Export Snapshot (Source Table): Exportujte data snímku do požadovaného umístění S3 pomocí příkazu INSERT OVERWRITE DIRECTORY. Tím se data z HDFS přesunou do bucketu VAST S3, což je cílové úložiště. INSERT OVERWRITE DIRECTORY 's3://my-s3-bucket/export -path' SELECT * FROM store_sales_snap;
  3. Obnovit tabulku (cílovou tabulku): Vytvořte novou tabulku v cíli a nasměrujte ji na exportovaná data na S3. Příkaz CREATE TABLE … LIKE vytvoří novou cílovou tabulku tabulky _ store _ sales se stejným schématem jako store _ sales. Příkaz ALTER TABLE … SET LOCATION změní umístění prodeje cílového _ obchodu _ na cestu S3, kam byla exportována data snímku.
    CREATE TABLE destination_store_sales LIKE store_sales; ALTER TABLE destination_store_sales SET LOCATION 's3://my-s3-bucket/export-path';

V tomto procesu migrace se vytvoří snímek zdrojové tabulky (prodej _ prodejny) a exportuje se do segmentu S3. A
nová tabulka (destinace _ obchod _ prodej) je pak vytvořena v cíli se stejným schématem a je propojena s exportovanými daty na S3. Tato metoda zajišťuje konzistentní a izolovanou migraci dat ze zdroje do cíle.

Možnost 2b: Migrace pomocí S3 Temp Bucket

Případ použití:
Tato metoda je ideální pro scénáře, kdy potřebujete zajistit konzistenci dat během migrace pomocí dočasného segmentu S3 jako zprostředkujícího úložiště.

Účel:
Primárním účelem použití dočasného kbelíku S3 je poskytnout jakotaging oblast, která zajišťuje konzistenci dat během procesu migrace z HDFS na VAST S3.

kroky:

  1. Export zdrojové tabulky do dočasného segmentu S3: Zkopírujte data z tabulky prodejů na HDFS do dočasného umístění na S3. To se provádí pomocí příkazu EXPORT TABLE.
    EXPORTOVAT TABULKU prodej_prodejů DO 's3://your_temp_bucket/store_sales_temp';
  2. Vytvoření cílové tabulky v podregistru: Definujte schéma a umístění pro cílovou tabulku na S3. Použijte
    Příkaz CREATE EXTERNAL TABLE pro vytvoření schématu tabulky podobné tabulce prodej _prodej a zadání formátu úložiště dat (např. PARQUET).
    VYTVOŘIT EXTERNÍ TABULKU store_sales_s3 (
    • ss_sold_date_sk INT,
    • ss_sold_time_sk INT,
    • ss_item_sk INT,
    • ss_customer_sk INT,
    • ss_cdemo_sk INT,
    • ss_hdemo_sk INT,
    • ss_addr_sk INT,
    • ss_store_sk INT,
    • ss_promo_sk INT,
    • ss_ticket_number INT,
    • ss_quantity INT,
    • ss_wholesale_cost DECIMAL(7,2;XNUMX),
    • ss_list_price DECIMAL(7,2),
    • ss_sales_price DECIMAL(7,2),
    • ss_ext_discount_amt DECIMAL(7,2;XNUMX);
    • ss_ext_sales_price DECIMAL(7,2),
    • ss_ext_wholesale_cost DECIMAL(7,2;XNUMX),
    • ss_ext_list_price DECIMAL(7,2),
    • ss_ext_tax DECIMAL(7,2;XNUMX);
    • ss_coupon_amt DECIMAL(7,2;XNUMX);
    • ss_net_paid DECIMAL(7,2;XNUMX),
    • ss_net_paid_inc_tax DECIMAL(7,2;XNUMX),
    • ss_net_profit DECIMAL(7,2;XNUMX)
    • SKLADOVANÉ JAKO PARKETY
    • LOCATION 's3://your_target_bucket/store_sales_s3';
  3. Importujte data z dočasného segmentu S3 do cílové tabulky: Naplňte tabulku store _sales_s3 daty z dočasného segmentu S3. Pomocí příkazu INSERT OVERWRITE TABLE zkopírujte data z dočasného umístění S3 do tabulky store _sales_s3 na S3.
    INSERT OVERWRITE TABLE store_sales_s3 SELECT * FROM 's3://your_temp_bucket/store_sales_temp';
  4. Zahoďte dočasný kbelík S3 a jeho obsah: Vyčistěte to odstraněním dočasných dat. Po dokončení migrace dat již není dočasné úložiště potřeba. Použijte Hadoop file systémový příkaz k odstranění dočasného bloku S3. hadoop fs -rm -r s3a://your_temp_bucket/store_sales_temp

Tato metoda usnadňuje efektivní migraci dat z HDFS do S3 pomocí dočasného segmentu S3 jako zprostředkujícího úložiště. Zajišťuje konzistenci dat a umožňuje definice schématu a formátu úložiště v cílovém umístění.

Možnost 2c: Migrace dat tabulek pomocí jednoduchých příkazů INSERT

Use Case
Tato metoda je ideální pro přímou migraci, kdy je potřeba data zkopírovat ze zdrojové tabulky na HDFS do cílové tabulky na VAST S3 bez nutnosti mezikroků nebo složitých konfigurací.

Účel:
Primárním účelem je vytvořit novou tabulku na VAST S3 a zkopírovat data ze zdrojové tabulky na HDFS přímo pomocí jednoduchých příkazů Hive SQL.

Kroky:

  1. Vytvoření cílové tabulky na S3: Vytvořte novou tabulku na VAST S3 se stejným schématem jako zdrojová tabulka na HDFS.
    Pomocí příkazu CREATE EXTERNAL TABLE definujte schéma tabulky a určete formát úložiště dat (např. PARQUET) a umístění na S3.
    VYTVOŘIT EXTERNÍ TABULKU store_sales_s3 (
    • ss_sold_date_sk INT,
    • ss_sold_time_sk INT,
    • ss_item_sk INT,
    • ss_customer_sk INT,
    • ss_cdemo_sk INT,
    • ss_hdemo_sk INT,
    • ss_addr_sk INT,
    • ss_store_sk INT,
    • ss_promo_sk INT,
    • ss_ticket_number INT,
    • ss_quantity INT
    • )
    • SKLADOVANÉ JAKO PARKETY
    • LOCATION 's3://your_target_bucket/store_sales_s3';
  2. Kopírování dat ze zdrojové tabulky do cílové tabulky: Pomocí příkazu INSERT INTO zkopírujte data ze zdrojové tabulky na HDFS do cílové tabulky na S3.
    INSERT INTO store_sales_s3 SELECT * FROM store_sales;
  3. Ověřte migraci dat: Ujistěte se, že data byla úspěšně zapsána do cílové tabulky na S3. Pomocí dotazu SELECT COUNT(*) načtěte počet řádků v cílové tabulce a porovnejte jej se zdrojovou tabulkou, abyste ověřili, že všechny záznamy byly migrovány.ds

Pomocí jednoduchých příkazů CREATE TABLE, INSERT INTO a SELECT COUNT(*) můžete efektivně migrovat data ze zdrojové tabulky na HDFS do cílové tabulky na VAST S3. Tato metoda zajišťuje zachování schématu a
umožňuje přímou validaci migrace dat.

Možnost 2d: Migrace externí tabulky na VAST S3 z podregistru na tabulku HDFS

Případ použití:
Tato metoda je ideální pro migraci externích tabulek z Hive na HDFS na VAST S3, zachování logické struktury a rozdělení datové sady pro optimalizovaný výkon dotazů.

Účel:
Primárním účelem je vytvořit novou rozdělenou tabulku na VAST S3 se schématem odpovídajícím zdrojové tabulce z HDFS. To zajišťuje, že metadata jsou uložena v Hive, zatímco skutečná data jsou uložena v S3, což umožňuje efektivní ukládání a vyhledávání dat.

kroky:

  1. Vytvoření cílové tabulky S3: Vytvořte novou rozdělenou externí tabulku na VAST S3 se schématem, které odpovídá zdrojové tabulce na HDFS. Pomocí příkazu CREATE EXTERNAL TABLE definujte schéma tabulky, určete formát dat (např. PARQUET) a nastavte umístění na sektor VAST S3.
    VYTVOŘTE EXTERNÍ TABULKU tlc_taxi_data_s3_partitioned (
    VendorID INT,
    • tpep_pickup_datetime TIMESTAMP,
    • tpep_dropoff_datetime TIMESTAMP,
    • počet cestujících BIGINT,
    • trip_distance DOUBLE,
    • RatecodeID BIGINT,
    • store_and_fwd_flag STRING,
    • PULocationID INT,
    • DOLocationID INT,
    • typ_platby BIGINT,
    • dvojnásobek částky jízdného,
    • extra DOUBLE,
    • mta_tax DOUBLE,
    • spropitné DOUBLE,
    • Mýtné_částka DOUBLE,
    • zlepšení_příplatek DOUBLE,
    • celková_částka DOUBLE,
    • Congestion_surcharge DOUBLE,
    • Letištní_poplatek DOUBLE
    • )
    • ROZDĚLENO (rok STRING, měsíc STRING)
    • SKLADOVANÉ JAKO PARKETY
    • LOCATION 's3a://cloudera/hive/tlc_taxi_data_s3_partitioned'
    • TBLPROPERTIES ('external.table.purge'='true');
    • Dělení na oddíly: Klauzule PARTITIONED BY určuje, že data by měla být rozdělena podle roku a měsíce, což optimalizuje výkon dotazu.
    • Umístění: LOCATION určuje cestu VAST S3, kam budou data uložena.
    • Vlastnosti tabulky: TBLPROPERTIES je nastaven tak, aby zajistil, že když je tabulka zrušena, data zůstanou v S3.
  2. Naplnění dělené tabulky pomocí podregistru v tabulce HDFS: Pomocí příkazu INSERT INTO TABLE naplňte dělenou tabulku tlc _ taxi _ data _ s3 _ daty ze zdrojové tabulky.
    • Klauzule PARTITION zajišťuje, že data jsou při zápisu do S3 rozdělena podle roku a měsíce.
    • INSERT INTO TABLE tlc_taxi_data_s3_partitioned PARTITION (rok, měsíc) SELECT
    • VendorID,
    • tpep_pickup_datetime,
    • tpep_dropoff_datetime,
    • počet_cestujících,
    • výlet_vzdálenost,
    • RatecodeID,
    • store_and_fwd_flag,
    • PULocationID,
    • DOLocationID,
    • typ_platby,
    • částka_ jízdného,
    • další,
    • mta_tax,
    • spropitné,
    • výše mýtného,
    • příplatek_ za zlepšení,
    • celková_částka,
    • příplatek za přetížení,
    • letištní_poplatek,
    • SUBSTRING(INPUT__FILE__NAME, -16, 4) AS rok,
    • SUBSTRING(INPUT__FILE__NAME, -11, 2) AS měsíc
    • FROM tlc_taxi_intermediary;

Funkce SUBSTRING: Extrahujte informace o roce a měsíci z file jméno, za předpokladu specifické konvence pojmenování.
Vytvořením externí rozdělené tabulky na VAST S3 a jejím naplnění daty z Hive tabulky na HDFS tato metoda zajišťuje efektivní ukládání a načítání dat při zachování logické struktury datové sady. Tento přístup využívá dělení k optimalizaci výkonu dotazů a poskytuje bezproblémovou cestu migrace pro externí tabulky.

Sledování migrace

Ke sledování průběhu procesu exportu a importu v Apache Hive lze použít různé nástroje a techniky. Zde je několik možností, které je třeba zvážit:

  1. Úl CLI nebo Beeline:
    • Pomocí rozhraní příkazového řádku (CLI) Hive nebo Beeline můžete sledovat průběh operací exportu a importu. Když spustíte dotazy, CLI nebo Beeline zobrazí průběh a stav dotazu.
    • Příkazy: Průběh můžete sledovat kontrolou protokolů nebo pomocí příkazů SHOW JOBS nebo SHOW SESSIONS. view stav běžících úloh nebo relací.
  2. Správce zdrojů Hadoop:
    • Hadoop Resource Manager poskytuje a web rozhraní pro sledování průběhu operací exportu a importu Hive.
    • Vlastnosti: View stav spuštěných úloh a úloh, kontrola využití zdrojů a sledování průběhu úlohy prostřednictvím Správce zdrojů web rozhraní.
  3. Nástroje pro monitorování třetích stran:
    • Ke sledování služby Hive využijte monitorovací nástroje třetích stran, jako je Ganglia, Nagios nebo Datadog.
    • Výhody: Tyto nástroje nabízejí různé metriky a vizualizace, které vám pomohou sledovat výkon a stav služby Hive a jejích komponent. Poskytují další informace o výkonu systému a mohou vás upozornit na jakékoli problémy, které mohou nastat během procesu migrace.

Využitím těchto nástrojů a technik můžete efektivně sledovat průběh migrace vašich dat, zajistit, že exportní a importní operace probíhají podle očekávání, a umožní vám rychle řešit jakékoli problémy, které mohou nastat.

Optimalizace výkonu S3A pro migraci

S3A je a file implementace systému pro Apache Hadoop, která umožňuje aplikacím Hadoop číst a zapisovat data do úložiště S3. Poskytuje alternativu k nativnímu HDFS Hadoop file systém, který uživatelům umožňuje ukládat a přistupovat k datům na S3 efektivně. Optimalizace nastavení S3A může výrazně zlepšit výkon migrace dat z HDFS na VAST S3.

Základní konfigurace (žádné optimalizace):
Níže je exampsoubor základní konfigurace core-site.xml pro S3A bez jakéhokoli ladění:

  • fs.defaultFS
  • s3a://temp1
  • hadoop.tmp.dir
  • /home/hadoop/tmp
  • fs.s3a.access.key
  • AG8SSUT6SE436AEXBPRE
  • fs.s3a.secret.key
  • SIOPRO3jsvT1maTyMxetaOvXDpRsyrAX78zcEVEEE
  • fs.s3a.path.style.access
  • věrný
  • fs.s3.enable-storage-classes
  • věrný
  • fs.s3a.connection.ssl.povoleno
  • falešný
  • fs.s3a.endpoint
  • http://vippool.yourvastcluster.com

TTL nulové ladění:
Klient S3A ukládá připojení ke koncovému bodu z důvodů výkonu. Chcete-li zlepšit výkon, nastavte
TTL (time to live) na nulu, což zajišťuje schopnost VAST škálovat přes více Cnode.
Do souboru core-site.xml přidejte následující:

  • fs.s3a.endpoint.connection.ttl
  • 0

Další ladění pro S3A:
Pro optimalizaci výkonu S3A lze vyladit další parametry:

Vícedílná velikost

  • Účel: Určuje velikost každé části při odesílání velkých rozměrů files až S3. Zvětšením této velikosti můžete zlepšit výkon nahrávání pro větší soubory files snížením počtu dílů.
  • Výchozí hodnota: 128 MB
  • Optimální hodnota: Optimální hodnota závisí na šířce pásma sítě, velikosti nahrávaných dat a třídě úložiště S3. Vyšší hodnoty zlepšují výkon pro velké files, ale může zvýšit riziko selhání nahrávání kvůli problémům se sítí. Například nastavení velikosti více částí na 10 MB může zvýšit rychlost odesílání pro menší files, ale nemusí být optimální pro velmi velké files, které by mohly těžit z větší velikosti více částí.
    • fs.s3a.multipart.size 10 mil

Rychlé nahrávání aktivních bloků

  • Účel: Určuje maximální počet aktivních bloků k paralelnímu nahrávání během rychlého nahrávání. To může výrazně zlepšit výkon pro velké files.
  • Výchozí hodnota: 4
  • Optimální hodnota: Optimální hodnota závisí na šířce pásma sítě, počtu dostupných jader a
    Třída úložiště S3. Vyšší hodnoty umožňují více paralelních nahrávání, ale mohou zvýšit využití šířky pásma sítě a připojení k S3. NapřampNastavení na 100 může zvýšit propustnost odesílání, pokud šířka pásma sítě a služba S3 zvládne zvýšený počet připojení.
    • fs.s3a.fast.upload.active.blocks 100

Maximální počet vláken

  • Účel: Určuje maximální počet vláken, které může S3A použít filesystémový konektor pro paralelní provoz. To zahrnuje nahrávání, stahování, výpis objektů a mazání objektů.
  • Výchozí hodnota: 256
  • Optimální hodnota: Optimální hodnota závisí na šířce pásma sítě, třídě úložiště S3 a dostupných prostředcích klient/server. Zvýšení hodnoty může zlepšit paralelní operace, ale může zvýšit využití zdrojů a latenci. NapřampPokud to šířka pásma sítě a prostředky CPU zvládnou, zvýšení počtu vláken na 100 může zlepšit rychlost souběžných operací.
    • fs.s3a.threads.max 100

Velikost bloku

  • Účel: Nastavuje velikost bloku pro a file uloženy v S3. Files jsou rozděleny do bloků a každý blok je uložen jako samostatný objekt S3.
  • Výchozí hodnota: 32 MB
  • Optimální hodnota: Optimální hodnota závisí na file velikost, přístupové vzory a šířku pásma sítě. Větší velikosti bloků snižují počet vytvořených objektů S3 a zlepšují výkon čtení/zápisu pro velké files. Menší velikosti bloků jsou vhodnější pro malé files nebo málo často používanými údaji. Například nastavení velikosti bloku na 100 MB může být výhodné pro pracovní zátěže zahrnující velké, sekvenční přístupy files.
    • fs.s3a.block.size 100 m

Další ladění pro VAST:
Od verze VAST 4.7 SP10 je k dispozici nastavení optimalizace (vtool) pro zpracování dat založených na Hadoop do VAST S3. Toto nastavení může výrazně zvýšit výkon migrace dat.

kroky:

  1. Konfigurace clusteru HDFS:
    Nastavením prahové hodnoty a velikosti tak, aby přesáhly skutečnou velikost, zajistěte, aby bylo nahrávání z více částí zakázáno files. Napřample, pokud vaše files jsou obecně 1 GB nebo větší, nastavte práh a velikost na 1 GB. Upravte podle toho, pokud vaše files jsou větší. Zakázání vícedílného nahrávání pro menší files zjednodušuje proces nahrávání a snižuje režii.
    • Konfigurace core-site.xml:
    • fs.s3a.multipart.threshold 1G
    • fs.s3a.multipart.size 1G
    • fs.s3a.fast.upload věrný
  2. Použít optimalizaci VAST:
    • Pomocí SSH se připojte k jednomu z CNODE na VAST.
    • Použijte nastavení optimalizace pomocí příkazu vtool. Toto nastavení optimalizuje proces kopírování pomocí odkazů, snižuje čas a zdroje potřebné pro migraci dat.
      vtool vsettings set S3_COPY_USING_LINK=true

Implementací těchto konfigurací a optimalizací můžete výrazně zlepšit výkon S3A pro migraci dat z HDFS na VAST S3 a zajistit tak efektivnější a škálovatelnější proces přenosu dat.

Další informace o univerzálním úložišti a o tom, jak vám může pomoci vyřešit problémy s aplikacemi, nás kontaktujte na adrese ahoj@vastdata.com.
©2024 VAST Data, Inc. Všechna práva vyhrazena. Všechny ochranné známky patří jejich příslušným vlastníkům.

Dokumenty / zdroje

Úložná datová platforma VAST S3 [pdfUživatelská příručka
S3, S3 Storage Data Platform, Storage Data Platform, Data Platform, Platform

Reference

Zanechte komentář

Vaše emailová adresa nebude zveřejněna. Povinná pole jsou označena *