✨
Singularity
日本語
日本語
  • 概要
    • Singularityとは何ですか
    • V1またはV2
  • インストール
    • バイナリのダウンロード
    • Dockerを使用してインストールする
    • ソースからビルドする
    • 本番環境への展開
  • データの準備
    • はじめに
    • パフォーマンスのチューニング
  • コンテンツの配布
    • CARファイルの配布
  • 取引の実施
    • 取引スケジュールの作成
  • トピック
    • インライン準備
    • ベンチマーク
  • 💻CLIリファレンス
    • メニュー
    • Ez Prep
    • バージョン
    • 管理者
      • 初期化
      • リセット
      • データセットの移行
      • スケジュールの移行
    • ダウンロード
    • CARの抽出
    • 取引
      • スケジュール
        • 作成
        • リスト
        • 更新
        • 一時停止
        • 再開
      • 手動送信
      • リスト
    • 実行
      • API
      • データセットワーカー
      • コンテンツプロバイダー
      • 取引トラッカー
      • 取引プッシャー
      • ダウンロードサーバー
    • ウォレット
      • インポート
      • リスト
      • 削除
    • ストレージ
      • 作成
        • Acd
        • Azureblob
        • B2
        • Box
        • Drive
        • Dropbox
        • Fichier
        • Filefabric
        • Ftp
        • Google Cloud Storage
        • Gphotos
        • Hdfs
        • Hidrive
        • Http
        • Internetarchive
        • Jottacloud
        • Koofr / Digi Storage
          • Digistorage
          • Koofr / Digi Storage
          • Other
        • ローカル
        • Mailru
        • Mega
        • Netstorage
        • Onedrive
        • Opendrive
        • Oos
          • Env_auth
          • Instance_principal_auth
          • No_auth
          • Resource_principal_auth
          • User_principal_auth
        • Pcloud
        • Premiumizeme
        • Putio
        • Qingstor
        • AWS S3 and compliant
          • Aws
          • Alibaba
          • Arvancloud
          • Ceph
          • Chinamobile
          • Cloudflare
          • Digitalocean
          • Dreamhost
          • Huaweiobs
          • Ibmcos
          • Idrive
          • Ionos
          • Liara
          • Lyvecloud
          • Minio
          • Netease
          • Other
          • Qiniu
          • Rackcorp
          • Scaleway
          • Seaweedfs
          • Stackpath
          • Storj
          • Tencentcos
          • Wasabi
        • Seafile
        • Sftp
        • Sharefile
        • Sia
        • Smb
        • Storj
          • 既存
          • 新規
        • Sugarsync
        • Swift
        • Uptobox
        • Webdav
        • Yandex
        • Zoho
      • エクスプローラー
      • リスト
      • 削除
      • アップデート
        • Acd
        • Azureblob
        • B2
        • Box
        • Drive
        • Dropbox
        • Fichier
        • Filefabric
        • Ftp
        • Google Cloud Storage
        • Gphotos
        • Hdfs
        • Hidrive
        • Http
        • Internetarchive
        • Jottacloud
        • Koofr / Digi Storage
          • Digistorage
          • Koofr / Digi Storage
          • Other
        • ローカル
        • Mailru
        • Mega
        • Netstorage
        • Onedrive
        • Opendrive
        • Oos
          • Env_auth
          • Instance_principal_auth
          • No_auth
          • Resource_principal_auth
          • User_principal_auth
        • Pcloud
        • Premiumizeme
        • Putio
        • Qingstor
        • AWS S3 and compliant
          • Aws
          • Alibaba
          • Arvancloud
          • Ceph
          • Chinamobile
          • Cloudflare
          • Digitalocean
          • Dreamhost
          • Huaweiobs
          • Ibmcos
          • Idrive
          • Ionos
          • Liara
          • Lyvecloud
          • Minio
          • Netease
          • Other
          • Qiniu
          • Rackcorp
          • Scaleway
          • Seaweedfs
          • Stackpath
          • Storj
          • Tencentcos
          • Wasabi
        • Seafile
        • Sftp
        • Sharefile
        • Sia
        • Smb
        • Storj
          • 既存
          • 新規
        • Sugarsync
        • Swift
        • Uptobox
        • Webdav
        • Yandex
        • Zoho
      • 名前変更
    • Prep
      • 作成
      • リスト
      • 状態
      • 名前変更
      • ソースの添付
      • 出力の添付
      • 出力の解除
      • スキャンの開始
      • スキャンの一時停止
      • パックの開始
      • パックの一時停止
      • Daggenの開始
      • Daggenの一時停止
      • ピースのリスト
      • ピースの追加
      • エクスプローラー
      • ウォレットの添付
      • ウォレットのリスト
      • ウォレットの解除
  • 🌐Web APIリファレンス
    • 取引スケジュール
    • 取引
    • ファイル
    • ジョブ
    • ピース
    • 準備
    • ストレージ
    • ウォレット関連
    • ウォレット
    • 仕様
  • ❓FAQ
    • データベースがロックされています
Powered by GitBook
On this page
  • インライン準備
  • DAG の更新
  • データ準備における並列処理
  • スキャン
  • パッキング
  • サーバーの最終更新時刻を使用する
  • リトライ戦略
  • ネットワークリクエストのリトライ
  • ネットワーク I/O のリトライ
  • アクセスできないファイルのスキップ

Was this helpful?

Edit on GitHub
  1. データの準備

パフォーマンスのチューニング

PreviousはじめにNextCARファイルの配布

Last updated 1 year ago

Was this helpful?

シンギュラリティでは、データの準備パフォーマンスを最適化するためのさまざまな設定が用意されています。このガイドでは、これらの設定について詳しく説明し、効果的にチューニングするための手順を提供します。

インライン準備

  • 説明: インライン準備により、CAR ファイルを保存するための余分なディスク容量が不要になります。ただし、データベースの検索と保存にわずかなオーバーヘッドが発生します。

  • 影響: オーバーヘッドは通常無視できる程度ですが、多くの小さなファイルを含むデータセットの場合には重要な要素となることがあります。

  • 設定: 無効にするには、singularity prep create に --no-inline オプションを使用します。

  • 詳細情報:

DAG の更新

  • 説明: シンギュラリティは、準備中に各ディレクトリの DAG と CID を更新します。これにより、変更のリアルタイムの追跡が可能になります。

  • 影響: CAR ファイルの準備ごとにディレクトリが更新されるため、わずかなデータベースのオーバーヘッドが発生します。

  • 設定: 無効にするには、singularity prep create に --no-dag オプションを使用します。

データ準備における並列処理

スキャン

  • 説明: スキャンは、ソースストレージをトラバースしてファイルリストを作成する作業です。ローカルストレージでは高速ですが、S3 のようなリモートストレージでは遅くなる可能性があります。

  • 設定:

    • 並列処理の有効化: singularity storage create または singularity storage update で --client-scan-concurrency <number> オプションを使用します。

    • 注意: 有効にすると、ファイルが非決定的な順序で処理される可能性があります。

パッキング

  • 説明: パッキングは、複数のファイルを単一の CAR ファイルに結合する、CPU と I/O の両方に負荷のかかる操作です。ネットワーク制約があるリモートストレージでは、並列処理を増やすことが有益です。

  • 設定:

    • 並列処理の調整: singularity run dataset-worker で --concurrency <number> オプションを使用します。

サーバーの最終更新時刻を使用する

  • 説明: AWS S3 のような一部のリモートストレージでは、カスタムの mtime とサーバー側の最終更新時刻を提供しています。シンギュラリティはデフォルトでカスタムの mtime をチェックし、利用可能でない場合にはサーバーの最終更新時刻を使用します。

  • 影響: カスタムの mtime のチェックをスキップして直接サーバーの最終更新時刻を使用することで、リモートストレージへのリクエスト回数を減らすことができます。

  • 設定: singularity storage create または singularity storage update で --client-use-server-mod-time オプションを使用して、サーバーの時刻を優先しオブジェクトのメタデータ取得をバイパスします。

リトライ戦略

ネットワークリクエストのリトライ

  • 説明: リモートフォルダのリスト取得やファイルのオープンが失敗した場合、シンギュラリティは RClone のリトライメカニズムを利用します。

  • 設定: リトライ回数を増やすには、singularity storage create または singularity storage update で --client-low-level-retries <number> オプションを使用します。

ネットワーク I/O のリトライ

  • 説明: ネットワークリクエストは成功しても、不安定なネットワーク接続のためにネットワーク I/O が失敗する場合があります。シンギュラリティはリトライと最後の成功したポイントからの再開をサポートしています。

  • 設定: singularity storage create または singularity storage update で以下のフラグを使用します。

 --client-retry-backoff value      # IO 読み取りエラーのリトライのための遅延バックオフ(デフォルト: 1s)
 --client-retry-backoff-exp value  # IO 読み取りエラーの指数関数的な遅延バックオフ(デフォルト: 1.0)
 --client-retry-delay value        # IO 読み取りエラーの再試行前の初期遅延(デフォルト: 1s)
 --client-retry-max value          # IO 読み取りエラーの最大リトライ回数(デフォルト: 10)

アクセスできないファイルのスキップ

  • 説明: 権限によりリモートストレージから特定のファイルにアクセスできない場合があります。これらの問題は、ファイルを開こうとしたときにのみ表面化し、パッキングジョブが失敗する原因となります。

  • 設定: singularity storage create または singularity storage update で --client-skip-inaccessible-files オプションを使用して、アクセスできないファイルをスキップします。

インライン準備