How to efficiently assign unique ID to individuals with multiple entries based on name in very large df(如何在超大DF中根据姓名有效地为具有多个条目的个人分配唯一ID)
本文介绍了如何在超大DF中根据姓名有效地为具有多个条目的个人分配唯一ID的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
我想获取一个数据集,其中包含一组不同的唯一个体,每个个体都有多个条目,并为每个个体的所有条目分配一个惟一的ID。以下是df:
的示例 FirstName LastName id
0 Tom Jones 1
1 Tom Jones 1
2 David Smith 1
3 Alex Thompson 1
4 Alex Thompson 1
因此,基本上我希望Tom Jones的所有条目id=1,David Smith的所有条目id=2,Alex Thompson的所有条目id=3,依此类推。
所以我已经有了一个解决方案,那就是一个非常简单的python循环,它迭代两个值(一个用于id,一个用于索引),并根据它们是否与前一个人匹配来为其分配id:
x = 1
i = 1
while i < len(df_test):
if (df_test.LastName[i] == df_test.LastName[i-1]) &
(df_test.FirstName[i] == df_test.FirstName[i-1]):
df_test.loc[i, 'id'] = x
i = i+1
else:
x = x+1
df_test.loc[i, 'id'] = x
i = i+1
我遇到的问题是DataFrame大约有900万个条目,所以使用该循环将花费大量时间来运行。有没有人能想出一种更有效的方法来做这件事呢?我一直在考虑将Groupby和多索引作为潜在的解决方案,但还没有完全找到合适的解决方案。
推荐答案
您可以连接姓氏和名字,将其转换为类别,然后获取代码。
当然,多个同名人员具有相同的id
。
df = df.assign(id=(df['LastName'] + '_' + df['FirstName']).astype('category').cat.codes)
>>> df
FirstName LastName id
0 Tom Jones 0
1 Tom Jones 0
2 David Smith 1
3 Alex Thompson 2
4 Alex Thompson 2
这篇关于如何在超大DF中根据姓名有效地为具有多个条目的个人分配唯一ID的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持编程学习网!
沃梦达教程
本文标题为:如何在超大DF中根据姓名有效地为具有多个条目的个人分配唯一ID
基础教程推荐
猜你喜欢
- 症状类型错误:无法确定关系的真值 2022-01-01
- 如何在Python中绘制多元函数? 2022-01-01
- 使 Python 脚本在 Windows 上运行而不指定“.py";延期 2022-01-01
- 使用Python匹配Stata加权xtil命令的确定方法? 2022-01-01
- 合并具有多索引的两个数据帧 2022-01-01
- 将 YAML 文件转换为 python dict 2022-01-01
- 使用 Google App Engine (Python) 将文件上传到 Google Cloud Storage 2022-01-01
- 哪些 Python 包提供独立的事件系统? 2022-01-01
- Python 的 List 是如何实现的? 2022-01-01
- 如何在 Python 中检测文件是否为二进制(非文本)文 2022-01-01