Japan User Group (Data Haiker)
-
統計レシピの仕様について
統計レシピの仕様について2点質問があります。 統計レシピでOne sample Student t-testを行う際、Altenative hypothesesで対立仮説を設定してると認識しています。そのため自動的に帰無仮説も決まっていると認識しています。 そのため 帰無仮説:H0 population mean =hypotheses mean 対立仮説:H1 population mean ≠hypotheses mean と仮定されているということでしょうか? この時、出力結果としてでるconclusionでREJECTEDとなる場合、これは対立仮説を却下し帰無仮説を採択しているという仕様でよろしいでしょうか?
-
RAGハンズオンのデータ
-
プロジェクトシナリオのPythonトリガーについて
DataDesignerのユーザープロフィールで、シナリオのトリガーをPythonトリガーを設定することは可能でしょうか? 環境はDataikuCloudでPlanはDataiku for Data Analyticsです。 DataDesignerのプロフィールだとコードレシピやノートブックは使えない認識ではあったのですが、Pythonトリガーも同様なのか確認をしたく質問させていただきました。
-
LLM の埋め込みレシピの結果をデータセットとして出力
LLMの埋め込みレシピを使って、テキストを埋め込みベクトルに変換し、そのテキストと埋め込みベクトルを一緒にデータセットとして出力することは可能でしょうか?
-
Dataiku 定番デモ集(日本語版)のご紹介
Dataikuの日本語デモ動画で、よく使われそうなものを以下のプレイリストにまとめました。Dataiku関連の動画は色々と公開されていますが、Dataikuの機能や画面を日本語で紹介する際、一般的なデモ動画は、リストからすぐに探していただけると思います。ぜひご活用ください!
-
DSSのメモリを解放したい
メモリ不足が原因と思われるエラーで処理が実行できないことが続いています。 ノートブックのカーネルをシャットダウンする以外にメモリを解放する方法はありますでしょうか? jupyter notebookで!topを実行した結果なのですが、Rのノートブックもカーネルをシャットダウンしているのにメモリが解放されません。DSSの設定画面などで操作できるのでしょうか? また、USERに書いてあるユーザーが誰なのか組織内で特定する方法はありますか? dssuser+がRを使っているようで、これが自分じゃないかと思うのですが、実行したい処理が終わったらちゃんとメモリを解放してそれを確認する、ということもしたいです。 よろしくお願いいたします。
-
LLMレシピのファインチューニングについて
LLMレシピでファインチューニングを行う場合、以下の添付の画像のように「Fine-tuning not available:your license does not allow you to use this recipe」とポップアップがでており、使用できません 調べてみると以下のドキュメントがさしあたり、LLM Mesh add onなるものが必要とのことでした。このことについても調べてみても目的の情報が見つけることができていません。 ファインチューニングレシピの実装について詳しいドキュメントを教えていただけますでしょうか。
-
pythonレシピで生成し、マネージドフォルダにpickleしたモデルのファインチューニング
タイトル通り、pythonレシピで生成し、マネージドフォルダにpickleしたモデルが有れば、そのモデルを読み込んで追加のエポックを回したり、ファインチューニングするような処理を検討しています。 しかし、同一のマネージドフォルダをpythonレシピのインプットとアウトプット両方にするとエラーが発生してしまいます。 マネージドフォルダからさらに中のモデルを別のマネージドフォルダに移して、それを読み込むなどの実装はデータの冗長性の観点から避けたいと考えています。…
-
Hugging faceのモデル追加について
LLM MeshのHugging face で埋め込みを行う際にデフォルトのモデルだけでなく違うモデルも追加してみたいのですがどのようなやり方で追加するのでしょうか?またAPI tokenが必要になるのでしょうか。 追加したいモデルはintfloat/multilingual-e5-largeです。
-
内部統計データ(シナリオの実行)の取得が出来ない
https://doc.dataiku.com/dss/latest/connecting/internal-stats.html 上記URLにあるように、internal stats datasetからsenario runsのtypeを選択すれば、環境内のシナリオ実行履歴が取得できると想定してデータセットを作ろうとしましたが、以下のようなエラー文でアクセスが拒否されます。 You may not create a StatsDB dataset DataikuCloudでData Designerのユーザープロファイルをもっています。 こちらはどのような権限があれば見れるデータセットなのでしょうか。