How can I detect if a file is binary (non-text) in Python?(如何在 Python 中检测文件是否为二进制(非文本)文件?)
问题描述
如何在 Python 中判断文件是否为二进制(非文本)文件?
How can I tell if a file is binary (non-text) in Python?
我在 Python 中搜索大量文件,并不断在二进制文件中找到匹配项.这使得输出看起来非常混乱.
I am searching through a large set of files in Python, and keep getting matches in binary files. This makes the output look incredibly messy.
我知道我可以使用 grep -I,但我对数据所做的工作超出了 grep 所允许的范围.
I know I could use grep -I, but I am doing more with the data than what grep allows for.
在过去,我只会搜索大于 0x7f 的字符,但 utf8 等在现代系统上是不可能的.理想情况下,解决方案会很快.
In the past, I would have just searched for characters greater than 0x7f, but utf8 and the like, make that impossible on modern systems. Ideally, the solution would be fast.
推荐答案
你也可以使用 mimetypes 模块:
You can also use the mimetypes module:
import mimetypes
...
mime = mimetypes.guess_type(file)
编译二进制mime 类型列表相当容易.例如,Apache 分发了一个 mime.types 文件,您可以将其解析为一组列表、二进制和文本,然后检查 mime 是否在您的文本或二进制列表中.
It's fairly easy to compile a list of binary mime types. For example Apache distributes with a mime.types file that you could parse into a set of lists, binary and text and then check to see if the mime is in your text or binary list.
这篇关于如何在 Python 中检测文件是否为二进制(非文本)文件?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持编程学习网!
本文标题为:如何在 Python 中检测文件是否为二进制(非文本)文
 
				
         
 
            
        基础教程推荐
- Plotly:如何设置绘图图形的样式,使其不显示缺失日期的间隙? 2022-01-01
- 在Python中从Azure BLOB存储中读取文件 2022-01-01
- PermissionError: pip 从 8.1.1 升级到 8.1.2 2022-01-01
- 修改列表中的数据帧不起作用 2022-01-01
- 包装空间模型 2022-01-01
- 无法导入 Pytorch [WinError 126] 找不到指定的模块 2022-01-01
- 在同一图形上绘制Bokeh的烛台和音量条 2022-01-01
- 使用大型矩阵时禁止 Pycharm 输出中的自动换行符 2022-01-01
- 求两个直方图的卷积 2022-01-01
- PANDA VALUE_COUNTS包含GROUP BY之前的所有值 2022-01-01
 
    	 
    	 
    	 
    	 
    	 
    	 
    	 
    	 
				 
				 
				 
				