大数跨境
0
0

Python爬完数据只会做词云?练习pandas各种操作不香吗!

Python爬完数据只会做词云?练习pandas各种操作不香吗! 数据分析与统计学之美
2021-03-07
1

本文简介

这篇文章,是黄同学为学习Pandas的朋友准备的,希望能够帮助到你们。

我想告诉你们,爬取到的数据,不只是用来做词云图,还可以做学习Pandas哦

▲点击上述公众号,回复“素材”

获取本文练习数据

做数据分析的朋友应该知道,我们获取到的一手数据,往往是杂乱无章,不规则的。在进行数据建模和数据可视化之前,“数据处理”就显得尤为重要

Pandas作为一个优秀的数据处理库,在进行数据处理的时候,显得极为方便。在我们日常的Pandas学习中,我们针对自己爬虫得到的数据,不仅仅是做一个词云图,还可以利用它来帮我们熟练使用Pandas

今天,咱们拿到了一份数据,我以这份数据来来着大家讲解一些常用的Pandas操作。

从上图可以看出:这份数据看起来极其乱,我们以此数据为例,利用Pandas清理出一份“好的数据”。

注意:下面我只是为大家做一个演示,文章中涉及到的详细知识,大家自行下去研究。当然,这份数据也会提供给大家。

1. 相关库的导入及数据的读取

df = pd.read_csv(r"G:\8泰迪\python_project\51_job\job_info1.csv",engine="python",header=None)
# 为数据框指定行索引
df.index = range(len(df))
# 为数据框指定列索引
df.columns = ["岗位名","公司名","工作地点","工资","发布日期","经验与学历","公司类型","公司规模","行业","工作描述"]

解释:这里是一份csv数据,我们需要使用pandas中的read_csv()函数读取函数,里面的engine和header参数需要了解一下。同时,这份数据没有列标题,我们还为这列数据设置了列字段。

2. 数据去重

# 去重之前的记录数
print("去重之前的记录数",df.shape)
# 记录去重
df.drop_duplicates(subset=["公司名","岗位名"],inplace=True)
# 去重之后的记录数
print("去重之后的记录数",df.shape)

解释:“去重”需要依据我们的业务需求,什么样的数据才算重复呢?在这里,我们认为:公司的公司名和和发布的岗位名一致,就看作是重复值。因此,使用drop_duplicates()函数,基于“岗位名”和“公司名”做一个重复值的剔除。当然,需要注意对函数中subset和inplace参数的理解。

3. 岗位名字段的处理

① 岗位名字段的探索

df["岗位名"].value_counts()
df["岗位名"] = df["岗位名"].apply(lambda x:x.lower())

解释:首先利用value_counts()函数对每个岗位出现的频次做一个统计。“岗位名字段”太杂乱,不便于我们做统计分析。接着,我们使用aaply()函数配合lower()函数,将岗位名中的大写英文字母统一转换为小写字母,也就是说“AI”和“Ai”属于同一个东西。

② 构造想要分析的目标岗位,做一个数据筛选

job_info.shape
target_job = ['算法''开发''分析''工程师''数据''运营''运维']
index = [df["岗位名"].str.count(i) for i in target_job]
index = np.array(index).sum(axis=0) > 0
job_info = df[index]
job_info.shape

解释:首先我们构造了如上七个目标岗位的关键字眼。然后利用count()函数统计每一条记录中,是否包含这七个关键字眼,如果包含就保留这个字段,不过不包含就删除这个字段。最后查看筛选之后还剩余多少条记录。

③ 目标岗位标准化处理(由于目标岗位太杂乱,我们需要统一一下)

job_list = ['数据分析'"数据统计","数据专员",'数据挖掘''算法'
            '大数据','开发工程师''运营''软件工程''前端开发',
            '深度学习''ai''数据库''数据库''数据产品',
            '客服''java''.net''andrio''人工智能''c++',
            '数据管理',"测试","运维"]
job_list = np.array(job_list)
def rename(x=None,job_list=job_list):
    index = [i in x for i in job_list]
    if sum(index) > 0:
        return job_list[index][0]
    else:
        return x
job_info["岗位名"] = job_info["岗位名"].apply(rename)
job_info["岗位名"].value_counts()
# 数据统计、数据专员、数据分析统一归为数据分析
job_info["岗位名"] = job_info["岗位名"].apply(lambda x:re.sub("数据专员","数据分析",x))
job_info["岗位名"] = job_info["岗位名"].apply(lambda x:re.sub("数据统计","数据分析",x))

解释:首先我们定义了一个想要替换的目标岗位job_list,将其转换为ndarray数组。然后定义一个函数,如果某条记录包含job_list数组中的某个关键词,那么就将该条记录替换为这个关键词,如果某条记录包含job_list数组中的多个关键词,我们只取第一个关键词替换该条记录。接着使用value_counts()函数统计一下替换后的各岗位的频次。最后,我们将“数据专员”、“数据统计”统一归为“数据分析”。

4. 工资水平字段的处理

工资水平字段的数据类似于“20-30万/年”、“2.5-3万/月”和“3.5-4.5千/月”这样的格式。我们需要做一个统一的变化,将数据格式转换为“元/月”,然后取出这两个数字,求一个平均值。

job_info["工资"].str[-1].value_counts()
job_info["工资"].str[-3].value_counts()

index1 = job_info["工资"].str[-1].isin(["年","月"])
index2 = job_info["工资"].str[-3].isin(["万","千"])
job_info = job_info[index1 & index2]

def get_money_max_min(x):
    try:
        if x[-3] == "万":
            z = [float(i)*10000 for i in re.findall("[0-9]+\.?[0-9]*",x)]
        elif x[-3] == "千":
            z = [float(i) * 1000 for i in re.findall("[0-9]+\.?[0-9]*", x)]
        if x[-1] == "年":
            z = [i/12 for i in z]
        return z
    except:
        return x

salary = job_info["工资"].apply(get_money_max_min)
job_info["最低工资"] = salary.str[0]
job_info["最高工资"] = salary.str[1]
job_info["工资水平"] = job_info[["最低工资","最高工资"]].mean(axis=1)

解释:首先我们做了一个数据筛选,针对于每一条记录,如果最后一个字在“年”和“月”中,同时第三个字在“万”和“千”中,那么就保留这条记录,否则就删除。接着定义了一个函数,将格式统一转换为“元/月”。最后将最低工资和最高工资求平均值,得到最终的“工资水平”字段。

5. 工作地点字段的处理

由于整个数据是关于全国的数据,涉及到的城市也是特别多。我们需要自定义一个常用的目标工作地点字段,对数据做一个统一处理。

#job_info["工作地点"].value_counts()
address_list = ['北京''上海''广州''深圳''杭州''苏州''长沙',
                '武汉''天津''成都''西安''东莞''合肥''佛山',
                '宁波''南京''重庆''长春''郑州''常州''福州',
                '沈阳''济南''宁波''厦门''贵州''珠海''青岛',
                '中山''大连','昆山',"惠州","哈尔滨","昆明","南昌","无锡"]
address_list = np.array(address_list)

def rename(x=None,address_list=address_list):
    index = [i in x for i in address_list]
    if sum(index) > 0:
        return address_list[index][0]
    else:
        return x
job_info["工作地点"] = job_info["工作地点"].apply(rename)

解释:首先我们定义了一个目标工作地点列表,将其转换为ndarray数组。接着定义了一个函数,将原始工作地点记录,替换为目标工作地点中的城市。

6. 公司类型字段的处理

job_info.loc[job_info["公司类型"].apply(lambda x:len(x)<6),"公司类型"] = np.nan
job_info["公司类型"] = job_info["公司类型"].str[2:-2]

7. 行业字段的处理

每个公司的行业字段可能会有多个行业标签,但是我们默认以第一个作为该公司的行业标签。

job_info["行业"] = job_info["行业"].apply(lambda x:re.sub(",","/",x))
job_info.loc[job_info["行业"].apply(lambda x:len(x)<6),"行业"] = np.nan
job_info["行业"] = job_info["行业"].str[2:-2].str.split("/").str[0]

8. 经验与学历字段的处理

这个字段处理的不太好,大家可以自行下去研究一下。

job_info["学历"] = job_info["经验与学历"].apply(lambda x:re.findall("本科|大专|应届生|在校生|硕士",x))
def func(x):
    if len(x) == 0:
        return np.nan
    elif len(x) == 1 or len(x) == 2:
        return x[0]
    else:
        return x[2]
job_info["学历"] = job_info["学历"].apply(func)

9. 公司规模字段的处理

#job_info["公司规模"].value_counts()
def func(x):
    if x == "['少于50人']":
        return "<50"
    elif x == "['50-150人']":
        return "50-150"
    elif x == "['150-500人']":
        return '150-500'
    elif x == "['500-1000人']":
        return '500-1000'
    elif x == "['1000-5000人']":
        return '1000-5000'
    elif x == "['5000-10000人']":
        return '5000-10000'
    elif x == "['10000人以上']":
        return ">10000"
    else:
        return np.nan
job_info["公司规模"] = job_info["公司规模"].apply(func)

整个清洗的过程,涉及到pandas的很多知识,大家可以以此为基础,下去好好整理一下。

【声明】内容源于网络
0
0
数据分析与统计学之美
免费领10w字"Python知识手册",共400页,后台回复“十万”领取!
内容 1080
粉丝 0
数据分析与统计学之美 免费领10w字"Python知识手册",共400页,后台回复“十万”领取!
总阅读210
粉丝0
内容1.1k