✨
Singularity
日本語
日本語
  • 概要
    • Singularityとは何ですか
    • V1またはV2
  • インストール
    • バイナリのダウンロード
    • Dockerを使用してインストールする
    • ソースからビルドする
    • 本番環境への展開
  • データの準備
    • はじめに
    • パフォーマンスのチューニング
  • コンテンツの配布
    • CARファイルの配布
  • 取引の実施
    • 取引スケジュールの作成
  • トピック
    • インライン準備
    • ベンチマーク
  • 💻CLIリファレンス
    • メニュー
    • Ez Prep
    • バージョン
    • 管理者
      • 初期化
      • リセット
      • データセットの移行
      • スケジュールの移行
    • ダウンロード
    • CARの抽出
    • 取引
      • スケジュール
        • 作成
        • リスト
        • 更新
        • 一時停止
        • 再開
      • 手動送信
      • リスト
    • 実行
      • API
      • データセットワーカー
      • コンテンツプロバイダー
      • 取引トラッカー
      • 取引プッシャー
      • ダウンロードサーバー
    • ウォレット
      • インポート
      • リスト
      • 削除
    • ストレージ
      • 作成
        • Acd
        • Azureblob
        • B2
        • Box
        • Drive
        • Dropbox
        • Fichier
        • Filefabric
        • Ftp
        • Google Cloud Storage
        • Gphotos
        • Hdfs
        • Hidrive
        • Http
        • Internetarchive
        • Jottacloud
        • Koofr / Digi Storage
          • Digistorage
          • Koofr / Digi Storage
          • Other
        • ローカル
        • Mailru
        • Mega
        • Netstorage
        • Onedrive
        • Opendrive
        • Oos
          • Env_auth
          • Instance_principal_auth
          • No_auth
          • Resource_principal_auth
          • User_principal_auth
        • Pcloud
        • Premiumizeme
        • Putio
        • Qingstor
        • AWS S3 and compliant
          • Aws
          • Alibaba
          • Arvancloud
          • Ceph
          • Chinamobile
          • Cloudflare
          • Digitalocean
          • Dreamhost
          • Huaweiobs
          • Ibmcos
          • Idrive
          • Ionos
          • Liara
          • Lyvecloud
          • Minio
          • Netease
          • Other
          • Qiniu
          • Rackcorp
          • Scaleway
          • Seaweedfs
          • Stackpath
          • Storj
          • Tencentcos
          • Wasabi
        • Seafile
        • Sftp
        • Sharefile
        • Sia
        • Smb
        • Storj
          • 既存
          • 新規
        • Sugarsync
        • Swift
        • Uptobox
        • Webdav
        • Yandex
        • Zoho
      • エクスプローラー
      • リスト
      • 削除
      • アップデート
        • Acd
        • Azureblob
        • B2
        • Box
        • Drive
        • Dropbox
        • Fichier
        • Filefabric
        • Ftp
        • Google Cloud Storage
        • Gphotos
        • Hdfs
        • Hidrive
        • Http
        • Internetarchive
        • Jottacloud
        • Koofr / Digi Storage
          • Digistorage
          • Koofr / Digi Storage
          • Other
        • ローカル
        • Mailru
        • Mega
        • Netstorage
        • Onedrive
        • Opendrive
        • Oos
          • Env_auth
          • Instance_principal_auth
          • No_auth
          • Resource_principal_auth
          • User_principal_auth
        • Pcloud
        • Premiumizeme
        • Putio
        • Qingstor
        • AWS S3 and compliant
          • Aws
          • Alibaba
          • Arvancloud
          • Ceph
          • Chinamobile
          • Cloudflare
          • Digitalocean
          • Dreamhost
          • Huaweiobs
          • Ibmcos
          • Idrive
          • Ionos
          • Liara
          • Lyvecloud
          • Minio
          • Netease
          • Other
          • Qiniu
          • Rackcorp
          • Scaleway
          • Seaweedfs
          • Stackpath
          • Storj
          • Tencentcos
          • Wasabi
        • Seafile
        • Sftp
        • Sharefile
        • Sia
        • Smb
        • Storj
          • 既存
          • 新規
        • Sugarsync
        • Swift
        • Uptobox
        • Webdav
        • Yandex
        • Zoho
      • 名前変更
    • Prep
      • 作成
      • リスト
      • 状態
      • 名前変更
      • ソースの添付
      • 出力の添付
      • 出力の解除
      • スキャンの開始
      • スキャンの一時停止
      • パックの開始
      • パックの一時停止
      • Daggenの開始
      • Daggenの一時停止
      • ピースのリスト
      • ピースの追加
      • エクスプローラー
      • ウォレットの添付
      • ウォレットのリスト
      • ウォレットの解除
  • 🌐Web APIリファレンス
    • 取引スケジュール
    • 取引
    • ファイル
    • ジョブ
    • ピース
    • 準備
    • ストレージ
    • ウォレット関連
    • ウォレット
    • 仕様
  • ❓FAQ
    • データベースがロックされています
Powered by GitBook
On this page
  • 概要
  • CARの取得方法
  • オーバーヘッド
  • インライン準備の有効化

Was this helpful?

Edit on GitHub
  1. トピック

インライン準備

Previous取引スケジュールの作成Nextベンチマーク

Last updated 1 year ago

Was this helpful?

概要

データの準備には、通常、ローカルファイルシステム上のフォルダである元のデータソースを32GiB未満のCARファイルのコレクションに変換する従来の方法があります。この方法では、データの準備者が2倍のストレージ容量を必要とするため、非常に高価になります。たとえば、1PiBのデータセットの準備にはCARファイル用に別の1PiBのストレージが必要となり、合計2PiBのストレージスペースが必要となります。

インライン準備では、CARファイルのブロックを元のデータソースに対応付けることにより、エクスポートされたCARファイルを保存する必要がなくなります。

従来のデータ準備のダイアグラム
インラインデータ準備のダイアグラム

CARの取得方法

インライン準備では、CARファイルは元のデータソースとメタデータデータベースを使用してHTTP経由で提供できます。なぜなら、元のデータソースのバイト範囲をCARファイルのバイト範囲にマッピングする方法を知っているからです。

CARファイルをHTTP経由で提供するには、単にcontent providerを起動します。

singularity run content-provider

注:このコマンドはローカルのHTTPサーバーを実行します。インターネット経由でアクセス可能にする場合は、nginxなどのリバースプロキシの背後に配置することを検討してください。

これにより、データソースがすでにリモートストレージシステム(S3やFTPなど)の場合、ファイルの内容はSingularityコンテンツプロバイダを介してストレージプロバイダにプロキシされるため、パフォーマンスのボトルネックとなります。

この課題に対する解決策として、SingularityメタデータAPIおよびSingularityダウンロードユーティリティを使用する方法があります。

SingularityメタデータAPIを実行するには、

singularity run api

次に、Singularityダウンロードユーティリティ(ストレージプロバイダ上で実行)

singularity download <piece_cid>

SingularityメタデータAPIは、元のデータソースからCARファイルをどのように組み立てるかの計画を返し、Singularityダウンロードユーティリティはこの計画を解釈し、元のデータからローカルのCARファイルにデータをストリーミングします。中間での変換や組み立ては何も行われず、すべてがストリームとして機能します。

メタデータAPIは、元のデータソースからデータにアクセスするために必要な資格情報を返しません。ストレージプロバイダは、自分でデータソースへのアクセス権を取得し、その資格情報をsingularity downloadコマンドに提供する必要があります。

オーバーヘッド

インライン準備には、主に必要なストレージ容量に関するわずかなオーバーヘッドが発生します。また、計算および帯域幅のオーバーヘッドもわずかです。

データの各ブロックのメタデータはデータベースの行として保存され、1MiBのデータブロックごとに100バイトのディスク容量が必要です。1PiBのデータセットの場合、このメタデータマッピングを保存するために10TiBのディスク容量が必要です。これは通常問題ではありませんが、多数の小さいファイルを含むデータセットは、著しく高いディスクオーバーヘッドをもたらす場合があります。

その後、CARファイルが元のデータソースから動的に再生成されると、データベースでこれらのマッピングをクロスリファレンスする必要があります。ただし、これは一般的には懸念されません。1GB/秒の帯域幅は、1,000のデータベースエントリの検索に相当し、これはすべてのサポートされているデータベースバックエンドのボトルネック能力からはるかに少ないです。さらに、将来の最適化により、このオーバーヘッドはさらに削減される可能性があります。

インライン準備の有効化

インライン準備は、暗号化が必要ないデータセットに自動的に有効になります。データセットの作成時に出力ディレクトリが指定されると、CARファイルはその場所にエクスポートされます。CARの取得要求は、これらのディレクトリを優先します。CARファイルがユーザーによって削除されると、システムは元のデータソースからの取得に戻ります。