-
Dataiku cloudでSparkを使う方法について
GCP環境で立ち上げたDataiku cloudでsparkを使おうとするとエラーが出てしまいます。 ドキュメントにはDataiku cloudではデフォルトでSparkが使えると書いてあるのですがPysparkレシピを実行すると画像のようなエラーが出ます。何か設定をする必要があるのでしょうか。 (globalのほうで質問をしてしまったのですが日本コミュニティのほうに再度質問させていただきます。失礼しました。) Operating system used: Windows11
-
LLM Mesh機能を利用して、全体に対する要約を実施したい。
例えばX(Twitter)のデータで、それぞれの投稿(1つぶやき)を要約することはSummarizeレシピでできると思いますが、とある日の全関連投稿(Ex. Dataiku)に関する投稿の要約を行いたい場合、どのように実施できますか? Ex. 投稿内容:Dataiku 投稿日:今日(12/25) → つまり、12/25に世界中でDataikuについて投稿があったものを要約(傾向を把握)したい。
-
Dataikuからローカルにデータフレームを読み込む際のpandasのエラーについて
以下のリンクをもとに環境からdataikuライブラリをpip installし、ローカルのJupiter Labを用いてデータフレームを読み込んでいます。…
-
Snowflakeでスキーマに半角カッコを持つ列の読み込みでエラーが発生する。
以下のように半角カッコを持つスキーマを読み込んだ際の挙動に関する質問です。 Dataikuに読み込むと以下の図のように半角カッコがアンダースコアに自動変換されます。 ただし、この状態で読み込むと列名の対応で以下のエラーが発生します。 アンダースコアを半角カッコに手動で変更すると読み込むことができますが、データ更新時に再度スキーマの設定がアンダースコアに戻り、同様の設定が必要になるという状況です。 やりたいこととしては、 ・半角カッコを含むスキーマを持つデータセットを読み込む。 ・データ更新時も適切に動作する。…
-
ScenarioのForce Buildの挙動について
DataikuのScenarioについて、 [Build dependencies then these items] かつ [Force Build] の設定にした際は上流から設定したデータセットまでのレシピが全て実施され、データセットが再構築される認識です。 そこでご質問なのですが、同じシナリオ内で特定のデータセットAを[Build dependencies then these items] かつ [Force Build] の設定でビルドしたのち、下流の他のデータセットBを同じ設定でビルドした場合、下流のデータセットBのビルドの際は最初のデータセットAも再構築されますでしょうか?…
-
処理速度について
異なるDataiku Cloudの環境で同じフローを構築したのですが、処理にかかる時間が大きく異なります。 原因としてDataiku Coludを立ち上げているインスタンスの性能が影響しているからでしょうか? 特にPythonレシピに大きな差が生まれます。 また、処理速度を速める方法をして何かございますでしょうか?
-
Trainレシピの「実行」を押した際の挙動に関するご質問
モデルをデプロイした後にフローに表示されるTrainレシピを、フロー上のメニューから実行した場合の挙動をご存じの方いますでしょうか?データを更新し再学習をかけようとする際にフロー上からかけられるのか試したところ学習されている挙動が見えずでして…添付画像の「実行」を押した際の挙動について知りたく起票致しました。 よろしくお願いいたします。
-
DSSのメモリを解放したい
メモリ不足が原因と思われるエラーで処理が実行できないことが続いています。 ノートブックのカーネルをシャットダウンする以外にメモリを解放する方法はありますでしょうか? jupyter notebookで!topを実行した結果なのですが、Rのノートブックもカーネルをシャットダウンしているのにメモリが解放されません。DSSの設定画面などで操作できるのでしょうか? また、USERに書いてあるユーザーが誰なのか組織内で特定する方法はありますか? dssuser+がRを使っているようで、これが自分じゃないかと思うのですが、実行したい処理が終わったらちゃんとメモリを解放してそれを確認する、ということもしたいです。 よろしくお願いいたします。
-
pythonレシピで生成し、マネージドフォルダにpickleしたモデルのファインチューニング
タイトル通り、pythonレシピで生成し、マネージドフォルダにpickleしたモデルが有れば、そのモデルを読み込んで追加のエポックを回したり、ファインチューニングするような処理を検討しています。 しかし、同一のマネージドフォルダをpythonレシピのインプットとアウトプット両方にするとエラーが発生してしまいます。 マネージドフォルダからさらに中のモデルを別のマネージドフォルダに移して、それを読み込むなどの実装はデータの冗長性の観点から避けたいと考えています。…
-
Hugging faceのモデル追加について
LLM MeshのHugging face で埋め込みを行う際にデフォルトのモデルだけでなく違うモデルも追加してみたいのですがどのようなやり方で追加するのでしょうか?またAPI tokenが必要になるのでしょうか。 追加したいモデルはintfloat/multilingual-e5-largeです。