【Data Haiker】ハンズオン用データ(ローンの審査)

Nanae
Nanae Dataiker, Dataiku DSS Core Designer, Dataiku DSS ML Practitioner, Dataiku DSS Adv Designer, Registered Posts: 9 Dataiker

2025年2月13日開催の「初!大阪開催【Data Haiker】 Dataiku無料版ハンズオンでデータスキルをアップしよう!」のデータは、本ページ下部からダウンロードしてください。「train.csv」と「test.csv」を使用します。

SIGNATEで現在開催中のコンペ「第2回 金融データ活用チャレンジ」のデータを用いるので、SIGNATEからダウンロードしても構いません。ハンズオン終了後にこのコンペに投稿できる形までデータを加工します。ハンズオン終了後すぐに、コンペに投稿したい方は予めコンペに登録しておくことをおすすめします。

データ説明

ヘッダ名称値例データ型説明
CityBILLINGSstr借り手の会社の所在地(市)
StateFLstr借り手の会社の所在地(州)
BankStateILstr貸し手の所在地(州)
Sector(*)0int産業分類コード(詳細は後述)
Term120int融資の期間(月)
NoEmp2int融資を受ける前の事業の従業員数
NewExist1.0float新規ビジネスかどうか
*1 = 既存のビジネス、2 = 新規ビジネス
CreateJob1int企業が融資資金を使用して創出すると予想される雇用の数
RetainedJob0int融資を受けたことで企業が維持すると予想される雇用の数
FranchiseCode21intどのブランドのフランチャイズであるかを識別する一意の5桁のコード
*0または1は非フランチャイズを意味する
UrbanRural1int*1 = 都市部、2 = 田舎、0 = 未定義
RevLineCrNstrリボルビング信用枠か
*Y = はい、N = いいえ
LowDocNstr15 万ドル未満のローンを 1 ページの短い申請で処理できるプログラムか
*Y = はい、N = いいえ
DisbursementDate12-Jan-05str融資の支払日
DisbursementGross$80,000.00 str銀行によって支払われた金額
GrAppv$108,000.00str銀行によって承認されたローンの総額
SBA_Appv$102,000.00strSBAが保証する承認されたローンの金額
ApprovalDate30-Sep-94str米国中小企業庁の承認日
ApprovalFY1994int承認された財務年度
MIS_Status1int

ローンの状態(目的変数)
*0 = 債務不履行、1 = 完済

Sectorについて

カテゴリ意味カテゴリ意味
11農業、林業、漁業、狩猟53不動産、賃貸・リース
21鉱業、採石業、石油・天然ガス採掘54専門的、科学的、技術的サービス
22公共事業(電力、ガス、水道)55企業経営管理
23建設業56行政支援、廃棄物・浄化サービス
31~33製造業61教育サービス
42卸売業62医療、社会援助
44~45小売業71芸術、娯楽、レクリエーション
48~49運輸業、倉庫業72宿泊、飲食サービス
51情報産業81その他(公共行政を除く)
52金融、保険92公共行政

SIGNATEへの投稿する際のデータフォーマット

投稿用サンプルファイル(sample_submission.csv)のフォーマットに倣い、1列目に評価用データのインデックス、2列目に予測した数値を記入したファイルを作成し、ヘッダ無しのcsv形式にする必要があります。

Setup Info
    Tags
      Help me…