
导入数据
这里首先导入二手房数据,可参考我前一节的文章获取数据 Python爬虫实战,链家二手房数据轻松抓取!,或者在公众号后台回复「加群」,可在粉丝群内获取本节的案例数据。
import pandas as pd#读取二手房数据文件file_path = r'C:\Users\尚天强\Desktop\data\二手房数据.xlsx'df = pd.read_excel(file_path)
显示数据的前几行以了解其结构。
# 显示数据的前几行以了解其结构df.head()

数据清洗
# 删除字段中的文字和标点符号,保留其数字,并转换成数字类型df['房屋总价(万元)'] = df['房屋总价'].str.extract(r'(\d+\.?\d*)').astype(float)# 删除字段中的文字和标点符号,保留其数字,并转换成数字类型df['房屋面积(平方米)'] = df['面积'].str.extract(r'(\d+\.?\d*)').astype(float)#数据处理后的结果df.head()

按照房屋朝向对于房屋数进行统计。
# 重新统计'朝向'分组的条目数作为朝向房屋数orientation_counts = df['朝向'].value_counts().reset_index()orientation_counts.columns = ['朝向', '朝向房屋数']orientation_counts.head()

数据可视化
import matplotlib.pyplot as plt # 导入 matplotlib.pyplot 用于绘图plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签plt.rcParams['axes.unicode_minus']=False #用来正常显示负号# 生成散点图plt.figure(figsize=(9, 6))plt.scatter(df['房屋面积(平方米)'], df['房屋总价(万元)'], color='green')plt.title("房屋面积与房屋总价的散点图")plt.xlabel("房屋面积(平方米)")plt.ylabel("房屋总价(万元)")# 显示图表plt.show()
由图可以得出,兰州市二手房房屋总价与房屋面积呈现正相关的关系。

此外,研究各个朝向的房屋数量,使用pyecharts做一个玫瑰图。
from pyecharts.charts import Pie,Scatterfrom pyecharts import options as opts# 生成玫瑰图cate =orientation_counts['朝向'].tolist()data = orientation_counts['朝向房屋数'].tolist()#玫瑰图美化pie = Pie(init_opts=opts.InitOpts(width='800px', height='600px', bg_color='white'))pie.add('',[list(z) for z in zip(cate, data)],radius=['10%', '70%'],center=['50%', '65%'], rosetype="radius").set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}")#设置数据标签).set_global_opts(title_opts=opts.TitleOpts(title='各朝向房屋数',pos_left='350',pos_bottom='1',title_textstyle_opts=opts.TextStyleOpts(color='black', font_size=16)),legend_opts=opts.LegendOpts(is_show=False)#去除图例)#在线展示图表pie.render_notebook()
由玫瑰图可以看出,南北朝向的房屋数最多,有1358间房源,占比总数近一半,其次是南朝向的房屋数量也较多。

通过对兰州市二手房市场数据深入分析,可看出,总价与房屋面积之间存在正相关关系,而且,不同朝向的房源数量也呈现一定规律,受到城市规划、居民生活习惯以及市场需求等多种因素影响。
关注和星标『大话数据分析』
👆点击关注|设为星标|干货速递👆
前蚂蚁金服数据运营,现京东经营分析,公众号、知乎、头条「大话数据分析」主理人,专注于数据分析的实践与分享,掌握Python、SQL、PowerBI、Excel等数据分析工具,擅长运用技术解决企业实际问题。

