【Data Haiker】ハンズオン用データ(ローンの審査)
Nanae
Dataiker, Dataiku DSS Core Designer, Dataiku DSS ML Practitioner, Dataiku DSS Adv Designer, Registered Posts: 9 Dataiker
2025年2月13日開催の「初!大阪開催【Data Haiker】 Dataiku無料版ハンズオンでデータスキルをアップしよう!」のデータは、本ページ下部からダウンロードしてください。「train.csv」と「test.csv」を使用します。
SIGNATEで現在開催中のコンペ「第2回 金融データ活用チャレンジ」のデータを用いるので、SIGNATEからダウンロードしても構いません。ハンズオン終了後にこのコンペに投稿できる形までデータを加工します。ハンズオン終了後すぐに、コンペに投稿したい方は予めコンペに登録しておくことをおすすめします。
データ説明
ヘッダ名称 | 値例 | データ型 | 説明 |
---|---|---|---|
City | BILLINGS | str | 借り手の会社の所在地(市) |
State | FL | str | 借り手の会社の所在地(州) |
BankState | IL | str | 貸し手の所在地(州) |
Sector(*) | 0 | int | 産業分類コード(詳細は後述) |
Term | 120 | int | 融資の期間(月) |
NoEmp | 2 | int | 融資を受ける前の事業の従業員数 |
NewExist | 1.0 | float | 新規ビジネスかどうか *1 = 既存のビジネス、2 = 新規ビジネス |
CreateJob | 1 | int | 企業が融資資金を使用して創出すると予想される雇用の数 |
RetainedJob | 0 | int | 融資を受けたことで企業が維持すると予想される雇用の数 |
FranchiseCode | 21 | int | どのブランドのフランチャイズであるかを識別する一意の5桁のコード *0または1は非フランチャイズを意味する |
UrbanRural | 1 | int | *1 = 都市部、2 = 田舎、0 = 未定義 |
RevLineCr | N | str | リボルビング信用枠か *Y = はい、N = いいえ |
LowDoc | N | str | 15 万ドル未満のローンを 1 ページの短い申請で処理できるプログラムか *Y = はい、N = いいえ |
DisbursementDate | 12-Jan-05 | str | 融資の支払日 |
DisbursementGross | $80,000.00 | str | 銀行によって支払われた金額 |
GrAppv | $108,000.00 | str | 銀行によって承認されたローンの総額 |
SBA_Appv | $102,000.00 | str | SBAが保証する承認されたローンの金額 |
ApprovalDate | 30-Sep-94 | str | 米国中小企業庁の承認日 |
ApprovalFY | 1994 | int | 承認された財務年度 |
MIS_Status | 1 | int | ローンの状態(目的変数) |
Sectorについて
カテゴリ | 意味 | カテゴリ | 意味 |
---|---|---|---|
11 | 農業、林業、漁業、狩猟 | 53 | 不動産、賃貸・リース |
21 | 鉱業、採石業、石油・天然ガス採掘 | 54 | 専門的、科学的、技術的サービス |
22 | 公共事業(電力、ガス、水道) | 55 | 企業経営管理 |
23 | 建設業 | 56 | 行政支援、廃棄物・浄化サービス |
31~33 | 製造業 | 61 | 教育サービス |
42 | 卸売業 | 62 | 医療、社会援助 |
44~45 | 小売業 | 71 | 芸術、娯楽、レクリエーション |
48~49 | 運輸業、倉庫業 | 72 | 宿泊、飲食サービス |
51 | 情報産業 | 81 | その他(公共行政を除く) |
52 | 金融、保険 | 92 | 公共行政 |
SIGNATEへの投稿する際のデータフォーマット
投稿用サンプルファイル(sample_submission.csv)のフォーマットに倣い、1列目に評価用データのインデックス、2列目に予測した数値を記入したファイルを作成し、ヘッダ無しのcsv形式にする必要があります。