성공적인 입찰을 위한 데이터 분석 (토건, 토목, 시공 편)

주요 용어 정리

기초금액: 공사 입찰을 위한 기준 금액 (부가가치세가 합산된 금액)
예가: 기초금액±3% 으로 형성되며, 이 안에 들어오는 금액으로 입찰 해야함.(결국, 예가에 근접한 가격을 입찰해야함)
예정가격: 예가(%)를 기초금액에 곱한 가격
사정율: 예정가격을 기준으로 예정가격을 예측하는 비율. (1등 선정된 업체의 예가)

그 외 다소 생소한 용어들이 존재하나, 분석에 있어 주요한 용어만 설명합니다.

입찰 선정 방식

예가에 가장 근접한 기업이 입찰 받음. 단, 예가보다는 높은 금액을 입찰해야 합니다.

예시

기초금액: 1억원

입찰급액 - A기업: 9900만원 - B기업: 1억 1000만원 - C기업: 1억 2000만원

사정율 - A기업: 99.0%, (1억원 대비 99.0% 이므로) - B기업: 101.0%, (1억원 대비 101.0% 이므로) - C기업: 102.0%, (1억원 대비 102.0% 이므로)

시나리오 1) 예가: 1억 1500만원

C기업 입찰. B기업이 예가에는 더 근접한 금액을 제시했지만, 예가보다 낮으므로, C기업이 입찰 받습니다.

데이터 분석 방식

나라장터에서 필요한 데이터 크롤링
pandas, numpy, matplotlib등을 활용하여 분석 및 시각화 진행
sklearn, xgboost, lgbm을 활용하여 데이터 예측 수행

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
import matplotlib as mpl

# 유니코드 깨짐현상 해결
mpl.rcParams['axes.unicode_minus'] = False

# 나눔고딕 폰트 적용
plt.rcParams["font.family"] = 'NanumGothic'

# 경고 무시
warnings.filterwarnings('ignore')
%matplotlib inline

데이터 로드

train =  pd.read_csv('data/train.csv')

컬럼 출력

train.columns

Index(['번호', '공고업종', '지역', '공고번호', '발주기관', '입찰일시', '기초금액', '추정가격', '낙찰하한율',
       '예정가격', '예가', '낙찰하한가', '투찰', '업체명', '대표자', '투찰금액', '투찰율', '기초대비',
       '업체별사정율', 'num_1_num', 'num_1_money', 'num_1_per', 'num_2_num',
       'num_2_money', 'num_2_per', 'num_3_num', 'num_3_money', 'num_3_per',
       'num_4_num', 'num_4_money', 'num_4_per', 'num_5_num', 'num_5_money',
       'num_5_per', 'num_6_num', 'num_6_money', 'num_6_per', 'num_7_num',
       'num_7_money', 'num_7_per', 'num_8_num', 'num_8_money', 'num_8_per',
       'num_9_num', 'num_9_money', 'num_9_per', 'num_10_num', 'num_10_money',
       'num_10_per', 'num_11_num', 'num_11_money', 'num_11_per', 'num_12_num',
       'num_12_money', 'num_12_per', 'num_13_num', 'num_13_money',
       'num_13_per', 'num_14_num', 'num_14_money', 'num_14_per', 'num_15_num',
       'num_15_money', 'num_15_per', 'total', 'Unnamed: 65', 'Unnamed: 66'],
      dtype='object')

1. 예가

train['예가'].head()

0    99.4075 % (-0.5924 % )
1    99.2730 % (-0.7269 % )
2    99.1207 % (-0.8792 % )
3    99.8778 % (-0.1221 % )
4    99.6818 % (-0.3181 % )
Name: 예가, dtype: object

예가에 대한 전처리 작업 수행. 필요한 숫자 소수점 4째자리 까지 추출

train['예가'] = train['예가'].str.extract(r'(\d+[.]\d+)')

예가를 object -> float로 변환

# float로 변경
train['예가'] = train['예가'].astype('float32')

예가는 97 ~ 103의 범위를 가져야 함.

이에 어긋나는 데이터는 drop

train.loc[(train['예가'] < 97) | (train['예가'] > 103), '예가']

7377      0.000000
8646      0.000000
9522      0.000000
10945    90.908997
15187    59.200001
15268     0.000000
16133     0.000000
16382     0.000000
16543     0.000000
17183     0.000000
25247    96.362503
29316     0.000000
Name: 예가, dtype: float32

drop_idx = train.loc[(train['예가'] < 97) | (train['예가'] > 103), '예가'].index

train = train.drop(drop_idx)

예가가 NaN인 값을 확인하고 `drop`

train.loc[train['예가'].isnull()]

	번호	공고업종	지역	공고번호	발주기관	입찰일시	기초금액	추정가격	낙찰하한율	예정가격	...	num_13_per	num_14_num	num_14_money	num_14_per	num_15_num	num_15_money	num_15_per	total	Unnamed: 65	Unnamed: 66
31788	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	...	99.890635	7214	NaN	99.905027	7188	NaN	99.899742	NaN	NaN	99.891641

1 rows × 67 columns

drop_idx = train.loc[train['예가'].isnull()].index

train = train.drop(drop_idx)

예가에 대한 데이터 분포 확인

sns.distplot(train['예가'])

train['예가'].describe()

count    31776.000000
mean        99.905418
std          0.732136
min         97.069199
25%         99.406502
50%         99.912399
75%        100.410723
max        102.201698
Name: 예가, dtype: float64

2. 가격

train.filter(regex='금액|가격').head()

	기초금액	추정가격	예정가격	투찰금액
0	166,200,000 원	151,090,909 원	165,215,275 원	145,039,600
1	49,000,000 원	44,545,455 원	48,643,800 원	42,786,020
2	35,000,000 원	31,818,182 원	34,692,275 원	30,530,000
3	27,000,000 원	24,545,455 원	26,967,025 원	23,688,450
4	64,460,000 원	58,600,000 원	64,254,925 원	56,382,000

가격에 대한 원 단위를 제거 및 ,를 제거합니다.

price_cols = train.filter(regex='금액|가격').columns
price_cols

Index(['기초금액', '추정가격', '예정가격', '투찰금액'], dtype='object')

train[price_cols].head()

	기초금액	추정가격	예정가격	투찰금액
0	166,200,000 원	151,090,909 원	165,215,275 원	145,039,600
1	49,000,000 원	44,545,455 원	48,643,800 원	42,786,020
2	35,000,000 원	31,818,182 원	34,692,275 원	30,530,000
3	27,000,000 원	24,545,455 원	26,967,025 원	23,688,450
4	64,460,000 원	58,600,000 원	64,254,925 원	56,382,000

,를 제거합니다.

for col in price_cols:
    train[col] = train[col].str.replace(',', '')
    train[col] = train[col].str.replace('원', '')

train[price_cols].head()

	기초금액	추정가격	예정가격	투찰금액
0	166200000	151090909	165215275	145039600
1	49000000	44545455	48643800	42786020
2	35000000	31818182	34692275	30530000
3	27000000	24545455	26967025	23688450
4	64460000	58600000	64254925	56382000

NaN값을 채워줍니다.

type을 int로 변경하기 전 NaN 값을 채워줍니다.

train[price_cols].isnull().sum()

기초금액     0
추정가격    66
예정가격     0
투찰금액     0
dtype: int64

train[price_cols] = train[price_cols].fillna(0)

train[price_cols].isnull().sum()

기초금액    0
추정가격    0
예정가격    0
투찰금액    0
dtype: int64

train[price_cols].head()

	기초금액	추정가격	예정가격	투찰금액
0	166200000	151090909	165215275	145039600
1	49000000	44545455	48643800	42786020
2	35000000	31818182	34692275	30530000
3	27000000	24545455	26967025	23688450
4	64460000	58600000	64254925	56382000

train[price_cols].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 31776 entries, 0 to 31787
Data columns (total 4 columns):
기초금액    31776 non-null object
추정가격    31776 non-null object
예정가격    31776 non-null object
투찰금액    31776 non-null object
dtypes: object(4)
memory usage: 1.2+ MB

float 타입으로 가격 컬럼을 변환

train[price_cols] = train[price_cols].astype('float32')

train[price_cols].head()

	기초금액	추정가격	예정가격	투찰금액
0	166200000.0	151090912.0	165215280.0	145039600.0
1	49000000.0	44545456.0	48643800.0	42786020.0
2	35000000.0	31818182.0	34692276.0	30530000.0
3	27000000.0	24545456.0	26967024.0	23688450.0
4	64460000.0	58600000.0	64254924.0	56382000.0

train[price_cols].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 31776 entries, 0 to 31787
Data columns (total 4 columns):
기초금액    31776 non-null float32
추정가격    31776 non-null float32
예정가격    31776 non-null float32
투찰금액    31776 non-null float32
dtypes: float32(4)
memory usage: 744.8 KB

NaN 값을 drop 하였으므로, index 를 초기화한다

train = train.reset_index(drop=True)

명시된 예정 가격과 예가 비율 * 기초금액과 가격이 과연 같을까?

train['기초금액'][:5]

0    166200000.0
1     49000000.0
2     35000000.0
3     27000000.0
4     64460000.0
Name: 기초금액, dtype: float32

train['예정가격'][:5]

0    165215280.0
1     48643800.0
2     34692276.0
3     26967024.0
4     64254924.0
Name: 예정가격, dtype: float32

train['예가'][:5]

0    99.407501
1    99.273003
2    99.120697
3    99.877800
4    99.681801
Name: 예가, dtype: float32

기초금액 x 예가 = 예정가격 정말 일치할까? (왜냐하면, 소수 4째짜리까지만 반영되기 때문에 다를 수 있다)

10개만 테스트해 보겠다.

for i in range(10):
    calculated_price = train['기초금액'][i] * train['예가'][i] / 100
    printed_price = train['예정가격'][i]
    diff = abs(calculated_price - printed_price)
    print('명시된 가격과 계산된 금액의 차이: {:.2f} 원'.format(diff))

명시된 가격과 계산된 금액의 차이: 17.28 원
명시된 가격과 계산된 금액의 차이: 26.56 원
명시된 가격과 계산된 금액의 차이: 31.52 원
명시된 가격과 계산된 금액의 차이: 17.28 원
명시된 가격과 계산된 금액의 차이: 35.04 원
명시된 가격과 계산된 금액의 차이: 46.72 원
명시된 가격과 계산된 금액의 차이: 157.44 원
명시된 가격과 계산된 금액의 차이: 123.52 원
명시된 가격과 계산된 금액의 차이: 18.72 원
명시된 가격과 계산된 금액의 차이: 143.36 원

전체 평균 차이 계산

total_size = len(train)
diff = 0
for i in range(total_size):
    calculated_price = train['기초금액'][i] * train['예가'][i] / 100
    printed_price = train['예정가격'][i]
    diff += abs(calculated_price - printed_price)
diff /= total_size
print('평균 오차 가격: {:.2f} 원'.format(diff))

평균 오차 가격: 358.07 원

금액&가격 컬럼간 corr() 확인

column들이 매우 높은 상관관계를 가지고 있다.

따라서, 이중 하나의 컬럼만 지정해서 활용하면 될 것으로 보입니다.

가장 base가 되는 기초금액 컬럼을 활용하겠습니다.

train[price_cols].corr()

	기초금액	추정가격	예정가격	투찰금액
기초금액	1.000000	0.998769	0.999979	0.998075
추정가격	0.998769	1.000000	0.998765	0.996852
예정가격	0.999979	0.998765	1.000000	0.998081
투찰금액	0.998075	0.996852	0.998081	1.000000

sns.heatmap(train[price_cols].corr(), annot=True)

3. 날짜

train['입찰일시'].head()

0    2020-03-13 16:00
1    2020-03-13 16:00
2    2020-03-13 16:00
3    2020-03-13 16:00
4    2020-03-13 16:00
Name: 입찰일시, dtype: object

NaN 값 확인

train['입찰일시'].isnull().sum()

날짜를 변환 (datetime)

train['입찰일시'] = pd.to_datetime(train['입찰일시'])

train['year'] = train['입찰일시'].dt.year
train['month'] = train['입찰일시'].dt.month
train['day'] = train['입찰일시'].dt.day
train['hour'] = train['입찰일시'].dt.hour
train['minute'] = train['입찰일시'].dt.minute
train['dayofweek'] = train['입찰일시'].dt.dayofweek
train['weekofyear'] = train['입찰일시'].dt.weekofyear
train['dayofyear'] = train['입찰일시'].dt.dayofyear
train['quarter'] = train['입찰일시'].dt.quarter

연도 확인

plt.figure(figsize=(10, 6))
sns.countplot(train['year'])
plt.title('연도별 공고 현황', fontsize=18)
plt.show()

분기별 공고 현황

plt.figure(figsize=(10, 6))
sns.countplot(train['quarter'])
plt.title('분기별 공고 현황', fontsize=18)
plt.show()

월별 공고 현황

plt.figure(figsize=(10, 6))
sns.countplot(train['month'])
plt.title('월별 공고 현황', fontsize=18)
plt.show()

일별 공고 현황

plt.figure(figsize=(10, 6))
sns.countplot(train['day'])
plt.title('일자별 공고 현황', fontsize=18)
plt.show()

시간대별 공고 현황

plt.figure(figsize=(10, 6))
sns.countplot(train['hour'])
plt.title('시간대별 공고 현황', fontsize=18)
plt.show()

분(minute)별 공고 현황

plt.figure(figsize=(10, 6))
sns.countplot(train['minute'])
plt.title('분별 공고 현황', fontsize=18)
plt.show()

요일별 공고 현황

0: 월요일 ~ 6: 일요일
일요일은 역시 공고가 없다.
토요일은 공고가 2건 있었다.

plt.figure(figsize=(10, 6))
sns.countplot(train['dayofweek'])
plt.title('요일별 공고 현황', fontsize=18)
plt.show()

4. 지역

train['지역'].value_counts()

전남                4141
경북                3884
경기                3756
경남                3480
강원                3259
전북                2544
충남                2204
충북                1631
서울                1608
부산                 821
제주                 813
대구                 729
인천                 722
대전                 425
광주                 344
울산                 338
전국                 240
세종                 138
전국,경기              128
전국,경북               58
전국,서울               57
전국,전남               44
전국,전북               38
전국,경남               37
서울,경기               36
전국,충남               31
전국,충북               28
전국,강원               27
전국,부산               23
전국,인천               23
                  ... 
전국,세종               12
충남,세종                9
전국,대전                8
전국,제주                8
부산,경남                7
인천,경기                5
서울,인천,경기             5
전북,전남                3
충남,전북                3
대전,충북,충남,세종          3
대전,충북,세종             2
대전,충남                2
대전,충북,충남             2
인천,경기,전남             1
부산,울산                1
울산,경남                1
충북,충남,전북             1
서울,경기,강원             1
경남,전남                1
전국,서울,경기             1
경기,강원                1
경기,강원,충북             1
대구,경북,경남             1
강원,경북,전남             1
부산,울산,경북             1
전국,울산,경남             1
강원,충북                1
광주,전북,전남             1
서울,인천                1
부산,대구,울산,경북,경남       1
Name: 지역, Length: 65, dtype: int64

지역을 , 기준으로 분리합니다.

area = train['지역'].str.split(',')

area.head()

0    [경기]
1    [충남]
2    [충남]
3    [강원]
4    [전북]
Name: 지역, dtype: object

최소 값과, 최대 값을 살펴봅니다.

area_count = area.apply(lambda x: len(x))
area_count.min(), area_count.max()

(1, 5)

각각의 데이터를 분리하여 column을 만들도록 합니다.

area_split = train["지역"].str.split(",", n=5, expand=True)

area_split.iloc[[345, 12390, 1646, 16326]]

	0	1	2	3	4
345	전국	None	None	None	None
12390	대전	충남	None	None	None
1646	전국	울산	경남	None	None
16326	부산	대구	울산	경북	경남

area_key = list(train['지역'].value_counts()[:18].keys())
area_key

['전남',
 '경북',
 '경기',
 '경남',
 '강원',
 '전북',
 '충남',
 '충북',
 '서울',
 '부산',
 '제주',
 '대구',
 '인천',
 '대전',
 '광주',
 '울산',
 '전국',
 '세종']

data = np.zeros(shape=(len(area), 18))
data.shape

(31776, 18)

area_df = pd.DataFrame(columns=area_key, data=data)

지역과 지역 값 컬럼을 합칩니다

area_merged = pd.concat([area, area_df], axis=1)

area_merged.tail()

	지역	전남	경북	경기	경남	강원	전북	충남	충북	서울	부산	제주	대구	인천	대전	광주	울산	전국	세종
31771	[경남]	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0
31772	[전국]	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0
31773	[전국]	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0
31774	[충북]	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0
31775	[경남]	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0

list에 지역이 포함된 경우 1로 체크합니다

def check_area(data):
    for d in data['지역']:
        data[d] = 1
    return data

area = area_merged.apply(check_area, axis=1)

area.head()

	지역	경기	강원	전북	충남
0	[경기]	1.0	0.0	0.0	0.0
1	[충남]	0.0	0.0	0.0	1.0
2	[충남]	0.0	0.0	0.0	1.0
3	[강원]	0.0	1.0	0.0	0.0
4	[전북]	0.0	0.0	1.0	0.0

area.iloc[1646]

지역    [전국, 울산, 경남]
전남               0
경북               0
경기               0
경남               1
강원               0
전북               0
충남               0
충북               0
서울               0
부산               0
제주               0
대구               0
인천               0
대전               0
광주               0
울산               1
전국               1
세종               0
Name: 1646, dtype: object

지역은 drop합니다

area = area.drop('지역', 1)

area.head()

	경기	강원	전북	충남
0	1.0	0.0	0.0	0.0
1	0.0	0.0	0.0	1.0
2	0.0	0.0	0.0	1.0
3	0.0	1.0	0.0	0.0
4	0.0	0.0	1.0	0.0

area.shape

(31776, 18)

train.shape

(31776, 76)

5. 업체별 사정율

사정율이란 개찰후 결정된 예정가격과 예비가격기초금액같의 차이를 백분율로 나타낸것이라고 정의 할 수 있습니다.

법률적인 개념은 아니지만 입찰담당자들 사이에 널리 쓰이는 개념입니다.

예를 들어

기초금액 : 100억

예정가격 : 101억이라면

사정율을 1%라고 합니다.

즉, 표면적으로 보이는 투찰율은 다르지만 사정율을 계산해서 보면 패턴을 볼 수 있다는 것이지요.

특정발주처나 특정업체의 입찰 패턴을 분석할 때 투찰율을 분석하면 아무런 결과를 얻을 수가 없습니다.

그러나 사정율로 분석을 하게 되면 패턴을 발견할 수도 있습니다.

복수예비가격을 사전에 발표하는 발주처의 성향을 분석할때도 금액만으로는 원하는 결과를 얻을수 없습니다.

각각의 예비가격에 대한 사정율을 계산해서 일정기간 분석해 보면 패턴이 있음을 알 수 있습니다.

train['업체별사정율'].head()

0    99.4565
1    99.5138
2    99.4114
3    99.9886
4    99.6845
Name: 업체별사정율, dtype: object

train.loc[train['업체별사정율'].str.contains('-'), '업체별사정율'].head(10)

288      ( - )
345      ( - )
854      ( - )
1046     ( - )
2227     ( - )
2292     ( - )
2764     ( - )
2765     ( - )
2798     ( - )
3056     ( - )
Name: 업체별사정율, dtype: object

( - ) 이루어진 데이터는 0으로 치환합니다

train.loc[train['업체별사정율'].str.contains('-'), '업체별사정율'] = np.nan

train['업체별사정율'] = train['업체별사정율'].fillna(0)

업체별 사정율의 데이터를 float로 변경합니다

train['업체별사정율'] = train['업체별사정율'].astype('float32')

7. 불필요한 컬럼 정리

train.columns

Index(['번호', '공고업종', '지역', '공고번호', '발주기관', '입찰일시', '기초금액', '추정가격', '낙찰하한율',
       '예정가격', '예가', '낙찰하한가', '투찰', '업체명', '대표자', '투찰금액', '투찰율', '기초대비',
       '업체별사정율', 'num_1_num', 'num_1_money', 'num_1_per', 'num_2_num',
       'num_2_money', 'num_2_per', 'num_3_num', 'num_3_money', 'num_3_per',
       'num_4_num', 'num_4_money', 'num_4_per', 'num_5_num', 'num_5_money',
       'num_5_per', 'num_6_num', 'num_6_money', 'num_6_per', 'num_7_num',
       'num_7_money', 'num_7_per', 'num_8_num', 'num_8_money', 'num_8_per',
       'num_9_num', 'num_9_money', 'num_9_per', 'num_10_num', 'num_10_money',
       'num_10_per', 'num_11_num', 'num_11_money', 'num_11_per', 'num_12_num',
       'num_12_money', 'num_12_per', 'num_13_num', 'num_13_money',
       'num_13_per', 'num_14_num', 'num_14_money', 'num_14_per', 'num_15_num',
       'num_15_money', 'num_15_per', 'total', 'Unnamed: 65', 'Unnamed: 66',
       'year', 'month', 'day', 'hour', 'minute', 'dayofweek', 'weekofyear',
       'dayofyear', 'quarter'],
      dtype='object')

cols = ['업체명', 
        '기초금액', 
        '예가', 
        '업체별사정율',
        'year', 
        'month', 
        'day', 
        'hour', 
        'minute', 
        'dayofweek', 
        'weekofyear', 
        'dayofyear', 
        'quarter', 
       ]

train[cols].head()

	업체명	기초금액	예가	업체별사정율	year	month	day	hour	dayofweek	weekofyear	dayofyear	quarter
0	제이티건설(주)	166200000.0	99.407501	99.456497	2020	3	13	16	4	11	73	1
1	통일종합건설 주식회사	49000000.0	99.273003	99.513802	2020	3	13	16	4	11	73	1
2	성문건설 주식회사	35000000.0	99.120697	99.411400	2020	3	13	16	4	11	73	1
3	(주)덕산종합건설	27000000.0	99.877800	99.988602	2020	3	13	16	4	11	73	1
4	(유)아라야	64460000.0	99.681801	99.684502	2020	3	13	16	4	11	73	1

train[cols].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 31776 entries, 0 to 31775
Data columns (total 13 columns):
업체명           31776 non-null object
기초금액          31776 non-null float32
예가            31776 non-null float32
업체별사정율        31776 non-null float32
year          31776 non-null int64
month         31776 non-null int64
day           31776 non-null int64
hour          31776 non-null int64
minute        31776 non-null int64
dayofweek     31776 non-null int64
weekofyear    31776 non-null int64
dayofyear     31776 non-null int64
quarter       31776 non-null int64
dtypes: float32(3), int64(9), object(1)
memory usage: 2.8+ MB

df에 정리된 train 데이터와 area 데이터를 합칩니다

df = pd.concat([train[cols], area], axis=1)

df.head()

	업체명	기초금액	예가	업체별사정율	year	month	day	hour	dayofweek	...
0	제이티건설(주)	166200000.0	99.407501	99.456497	2020	3	13	16	4	...
1	통일종합건설 주식회사	49000000.0	99.273003	99.513802	2020	3	13	16	4	...
2	성문건설 주식회사	35000000.0	99.120697	99.411400	2020	3	13	16	4	...
3	(주)덕산종합건설	27000000.0	99.877800	99.988602	2020	3	13	16	4	...
4	(유)아라야	64460000.0	99.681801	99.684502	2020	3	13	16	4	...

5 rows × 31 columns

지역도 잘 합쳐져 있는지 확인합니다

df.iloc[:, 13:].tail()

	경남	충북	전국
31771	1.0	0.0	0.0
31772	0.0	0.0	1.0
31773	0.0	0.0	1.0
31774	0.0	1.0	0.0
31775	1.0	0.0	0.0

train['지역'].tail()

31771    경남
31772    전국
31773    전국
31774    충북
31775    경남
Name: 지역, dtype: object

업체별사정율 -> 사정율 (컬럼명 변환)

df = df.rename(columns={'업체별사정율': '사정율'})

df.head()

	업체명	기초금액	예가	사정율	year	month	day	hour	dayofweek	...
0	제이티건설(주)	166200000.0	99.407501	99.456497	2020	3	13	16	4	...
1	통일종합건설 주식회사	49000000.0	99.273003	99.513802	2020	3	13	16	4	...
2	성문건설 주식회사	35000000.0	99.120697	99.411400	2020	3	13	16	4	...
3	(주)덕산종합건설	27000000.0	99.877800	99.988602	2020	3	13	16	4	...
4	(유)아라야	64460000.0	99.681801	99.684502	2020	3	13	16	4	...