シナリオで1日毎のデータ(Azure BLOB sotrageのコンテナーに保管)を毎日インポートしたい。

Munekazu
Munekazu Partner, Dataiku DSS Core Designer, Dataiku DSS ML Practitioner, Dataiku DSS Adv Designer, Registered Posts: 8 Partner

お世話になっております。

現在、私はAzure BLOB sotrageに保管している日付データを自動で読み込むプロジェクトを作成しております。その際にシナリオ機能を利用し、自動で読み込むためのスクリプトをPythonで書いていますが、うまくいきません。

方法をご教授いただければ幸いです。

またPython以外の方法で自動実行できる方法があれば併用で教えていただけますと幸いです。

よろしくお願いいたします。

Comments

  • Munekazu
    Munekazu Partner, Dataiku DSS Core Designer, Dataiku DSS ML Practitioner, Dataiku DSS Adv Designer, Registered Posts: 8 Partner

    補足情報として、日付の更新するコードはできております。

    Azure BLOB sotrageに接続するPythonコードが上手く書けず、困っています。

  • Tsuyoshi
    Tsuyoshi Dataiker, PartnerAdmin, Dataiku DSS Core Designer, Dataiku DSS ML Practitioner, Dataiku DSS Adv Designer, Registered Posts: 114 Dataiker

    @MunekazuK
    さん、ご質問ありがとうございます!

    Azure Blob Storageとの接続であれば、標準コネクターで接続して、ビジュアルフロー上で変換処理を行えます。今回、Pythonコードで接続しようとされている理由は何かございますでしょうか?

    Dataikuドキュメント: Azure Blob Storageとの接続
    https://doc.dataiku.com/dss/latest/connecting/azure-blob.html

    Monosnap (3) Overview _ Dataiku 2024-04-27 06-47-54.png

    上記のように、シナリオからビジュアルフローを呼び出す形で対応できるのであれば、その方が良いと思います。もし、Pythonからの呼び出しが必要な背景・理由などがありましたら、その点を教えていただけますと幸いです。

  • Tsuyoshi
    Tsuyoshi Dataiker, PartnerAdmin, Dataiku DSS Core Designer, Dataiku DSS ML Practitioner, Dataiku DSS Adv Designer, Registered Posts: 114 Dataiker

    ちなみに、「既存のPythonコードをそのまま使いたいため、すべてをPythonで完結させたい」ということが理由の場合、例えば以下のようなドキュメントを参考にしていただくことになると思います。(私も実際に試したわけではないので、あくまでも参考情報としてご連絡します。)

    マイクロソフト社ドキュメント:Azure Blob Storage と Python で作業を開始する

    上記の場合、必要に応じてPythonライブラリーをDataikuのCode Envに追加する必要があります。

  • Munekazu
    Munekazu Partner, Dataiku DSS Core Designer, Dataiku DSS ML Practitioner, Dataiku DSS Adv Designer, Registered Posts: 8 Partner

    ご回答ありがとうございます。

    こちら説明不足で大変申し訳ございませんでした。

    接続先のコネクションは用意してありますAzure Blob storageのコネクションを使用しております。

    やりたいこととして、1日ごとのデータ(例2024xxxx.csv)をシナリオ機能を使って、プロジェクトにアップロードすることです。

    現在できている内容は、データセットのsettingの参照の部分を変化する設定をしております。こちらは自動化(time trigger/24h)もできていますが、アップロードしていたデータを更新する動きになります。

    目的は、過去のデータは残したまま、新たらしくできたデータを自動的にimportする方法が知りたいことです。(おそらくPythonでコードを書くしかないと思っております。)

    もし方法をご存知でしたら教えていただければ幸いです。

    よろしくお願いいたします。

  • Tsuyoshi
    Tsuyoshi Dataiker, PartnerAdmin, Dataiku DSS Core Designer, Dataiku DSS ML Practitioner, Dataiku DSS Adv Designer, Registered Posts: 114 Dataiker

    背景のご説明をいただきまして、ありがとうございます!


    目的は、過去のデータは残したまま、新たらしくできたデータを自動的にimportする方法が知りたいことです。(おそらくPythonでコードを書くしかないと思っております。)


    そうですね・・上記の要件を実現するためには、やはりPythonのステップを記述する必要があると考えられます。何卒よろしくお願いいたします。

Setup Info
    Tags
      Help me…