Python如何逐行读取文件

文章目录

一、引言：Python文件读取方法概览

二、小文件读取方法

（一）使用for循环读取

（二）使用readlines()方法读取

（三）使用列表推导式读取

三、大文件读取方法

（一）使用readline()方法读取

（二）使用生成器函数读取

（三）使用内存映射文件读取

四、总结

在Python编程中，读取文件并逐行处理是常见的操作。本文将详细介绍在Python里逐行读取文件的多种方式，涵盖了适用于小文件和大文件的不同方法，还会结合具体代码示例，分析每种方法的优缺点，让你轻松掌握在不同场景下如何高效地读取文件。

一、引言：Python文件读取方法概览

Python为我们提供了多种读取文本文件并逐行处理的方式。在实际应用中，选择哪种方法要综合考虑文件大小以及所需语法的便捷性。比如处理小文件和大文件，适用的方法就不一样。接下来，我们就基于代码的简洁性、处理大文件的能力以及内存使用效率等方面，深入探讨不同的文件读取方法。对于超大文件，还会特别介绍一些优化内存使用的技巧，像使用生成器或内存映射文件等。

二、小文件读取方法

下面这些方法适合用于读取小文本文件，因为它们可以在一条语句中读取整个文件的内容。不过，对于大文件来说，这种方式可能不太合适，主要是会受到机器物理内存的限制。

（一）使用for循环读取

for循环是Python中最直接、高效的逐行读取文本文件的方法之一。来看下面这个例子：

try:

# 使用open()函数以只读模式打开名为'data.txt'的文件，并指定编码为utf-8

with open('data.txt', 'r', encoding='utf-8') as file:

# for循环遍历文件中的每一行，每次迭代时，当前行赋值给变量line

for line in file:

# 使用strip()方法去除行末的空白字符后打印

print(line.strip())

except FileNotFoundError:

print("File not found.")

在这段代码里，open()函数负责打开文件，for循环按顺序读取文件的每一行。在处理文件时，如果文件有特定的编码格式，像UTF-8，就可以通过open()函数的encoding参数来指定。在使用line变量之前，别忘了用line.strip()去除行末的空白字符，这样可以避免一些潜在的问题。

（二）使用readlines()方法读取

readlines()方法能一次性读取文件的所有行，并将它们作为字符串列表返回。但要注意，这种方式会把整个文件读入内存，所以不太适合处理大文件。不过对于小文件，它能方便地对行列表进行各种操作，比如过滤、排序或修改数据。示例如下：

try:

# 以只读模式打开'data.txt'文件

with open('data.txt', 'r', encoding='utf-8') as file:

# 使用readlines()方法读取文件所有行，返回字符串列表

lines = file.readlines()

# 遍历行列表

for line in lines:

# 去除行末空白字符后打印

print(line.strip())

except FileNotFoundError:

print("File not found.")

在这个例子中，首先用open()函数打开文件，接着调用readlines()方法获取文件的所有行，最后通过循环遍历列表，对每一行进行处理。

（三）使用列表推导式读取

列表推导式是Python中创建列表的一种简洁语法。我们也可以用它来逐行读取文件，并对每一行进行操作。不过，和前面两种方法相比，它并没有明显的优势，更多是满足一些人对语法简洁性的偏好。示例代码如下：

try:

# 以只读模式打开'data.txt'文件，指定编码为utf-8

with open('data.txt', 'r', encoding='utf-8') as file:

# 使用列表推导式读取文件每一行，并去除行末空白字符，生成列表

lines = [line.strip() for line in file]

# 遍历生成的列表

for line in lines:

# 打印每一行

print(line)

except FileNotFoundError:

print("File not found.")

这里，列表推导式[line.strip() for line in file]实现了读取文件每一行并去除行末空白字符，生成一个新的列表。之后再遍历这个列表进行后续操作。

三、大文件读取方法

处理大文件时，内存消耗是个关键问题。传统的将整个文件读入内存的方式，可能会导致性能下降和存储问题。为了解决这些挑战，Python提供了下面几种高效读取大文件的策略。

（一）使用readline()方法读取

readline()方法每次从文件对象中读取一行内容，并将其作为字符串返回，包括行末的换行符。通常，我们会结合while循环来遍历文件内容。只要读取到的line不是空字符串（表示文件结束），循环就会继续。

在内部，当我们打开一个文件时，会创建一个文件指针。调用readline()时，文件指针会移动到下一个换行符的位置，从文件开头到这个位置的文本会被读取并作为字符串返回。后续调用readline()会从上一次读取结束的位置继续读取。这使得readline()成为逐行读取大文件的合适方法，无需一次性将整个文件读入内存。示例代码如下：

try:

# 以只读模式打开'data.txt'文件

with open('data.txt', 'r') as file:

# 读取文件的第一行

line = file.readline()

# 当line不为空时，继续循环

while line:

# 去除行末空白字符后打印

print(line.strip())

# 读取下一行

line = file.readline()

except FileNotFoundError:

print("Error: File not found.")

except IOError:

print("Error: An I/O error occurred.")

在这段代码中，通过不断调用readline()方法，逐行读取文件内容并处理，避免了一次性加载整个大文件到内存。

（二）使用生成器函数读取

在Python里，生成器函数是一种特殊的函数，它生成值而不是返回单个值。当调用生成器函数，遇到yield关键字时，函数会暂停执行，返回当前值，并保存函数的状态。下次调用生成器时，它会从保存的状态继续执行，处理并生成下一个值。这种机制避免了一开始就将整个文件加载到内存。生成器函数中的yield关键字和优化的文件对象是避免加载整个文件到内存的关键。示例如下：

# 定义一个生成器函数，用于逐行读取文件

def read_lines(file_path):

# 打开文件

with open(file_path, 'r') as file:

# 遍历文件每一行

for line in file:

# 去除行末空白字符后生成当前行

yield line.strip()

try:

# 使用生成器函数逐行读取文件并打印

for line in read_lines('data.txt'):

print(line)

except FileNotFoundError:

print("Error: File not found.")

except IOError:

print("Error: An I/O error occurred.")

在这个示例中，read_lines()函数就是一个生成器函数，通过yield关键字逐行生成文件内容。在主程序中，通过循环遍历生成器，实现对文件的逐行处理。

（三）使用内存映射文件读取

内存映射文件允许我们将文件直接映射到程序的内存空间。这样，在程序中就可以把文件当作一个大的字节数组来处理。对于需要频繁或随机访问的大文件，这种方式非常实用。它比传统的文件I/O操作更高效，但别忘了在使用完后关闭内存映射文件，以释放系统资源。下面的示例展示了如何遍历内存映射文件，通过查找换行符来识别每一行的结束位置，提取并打印每一行内容。

import mmap

# 以读写二进制模式打开文件

with open('large_file.txt', 'r+b') as file:

# 创建内存映射文件对象

mapped_file = mmap.mmap(file.fileno(), 0)

start = 0

while True:

# 查找下一个换行符的位置

end = mapped_file.find(b'n', start)

if end == -1:

break

# 提取当前行内容并解码为utf-8格式

line = mapped_file[start:end].decode('utf-8')

print(line)

# 更新起始位置，准备读取下一行

start = end + 1

# 关闭内存映射文件

mapped_file.close()

在这段代码中，首先导入mmap模块，然后使用open()函数以读写二进制模式打开文件，并创建内存映射文件对象。通过循环查找换行符，提取并处理每一行内容，最后关闭内存映射文件。

四、总结

通过本文的介绍，我们了解到在Python中读取文件逐行处理有多种方法，每种方法都有其适用场景：

readlines()方法适合读取小文件，能一次性将整个文件读入内存，方便对所有行进行统一操作。

for循环是最常用的方式，适用于大多数文件读取场景，语法简单易懂。

列表推导式语法简洁，适合进行简单操作时创建包含文件行内容的列表，但对于复杂操作优势不明显。

readline()方法按顺序逐行读取文件，特别适合处理大文件，避免一次性加载整个文件到内存。

基于生成器的读取方式，通过yield关键字逐行生成内容，内存使用效率高，也是处理大文件的好选择。

内存映射文件则适用于需要频繁或随机访问大文件的场景，能直接将文件映射到内存，提高访问效率。

希望大家通过学习这些方法，在实际编程中能够根据文件的特点和需求，选择最合适的文件读取方式，提升代码的性能和效率。

喜欢 (0)赏【请潘老师喝杯Coffee吧！】分享 (0)

Python如何逐行读取文件

随机

友情链接