Xóa dữ liệu trùng giữa 2 file
Note - Tip - Trick Python

Danh sách bài học
Xóa dữ liệu trùng giữa 2 file
Đặt vấn đề
"Giả định 2 file có 10 triệu dòng.
Mỗi dòng có 100 kí tự.
Làm sao để so sánh file 1 với file 2 . Sau tìm ra các dòng ở file 1 trùng với file 2 rồi xóa nó , sau đó lưu dữ liệu không trùng ra một file mới.
Các bác cho em hỏi em code python thì giờ giải quyết theo hướng nào để làm được bài toán này. Làm sao để tốc độ nhanh nhất - tối ưu - ít lỗi nhất ạ???"
Giải pháp
"Xài pandas nhé các bác , đơn giản như này , em sẽ gộp file 1 và file 2 lại với nhau , sau đó dùng phần mềm thứ 3 (emeditor) , tiến hành đánh dấu (bookmark) tất cả các dòng trùng nhau ra một file riêng , rồi tiến hành so sánh file trùng + file 2 => xuất ra file mới là file 2 đã xóa file trùng đi"
Xem thêm các giải pháp khác & tham gia thảo luận vấn đề này tiếp tục tại: Câu hỏi Xóa dữ liệu trùng ở 2 file trên Group cộng đồng của Kteam
Tải xuống
Tài liệu
Nhằm phục vụ mục đích học tập Offline của cộng đồng, Kteam hỗ trợ tính năng lưu trữ nội dung bài học Xóa dữ liệu trùng giữa 2 file dưới dạng file PDF trong link bên dưới.
Ngoài ra, bạn cũng có thể tìm thấy các tài liệu được đóng góp từ cộng đồng ở mục TÀI LIỆU trên thư viện Howkteam.com
Đừng quên like và share để ủng hộ Kteam và tác giả nhé!

Thảo luận
Nếu bạn có bất kỳ khó khăn hay thắc mắc gì về khóa học, đừng ngần ngại đặt câu hỏi trong phần bên dưới hoặc trong mục HỎI & ĐÁP trên thư viện Howkteam.com để nhận được sự hỗ trợ từ cộng đồng.
Nội dung bài viết
Tác giả/Dịch giả
Khóa học
Note - Tip - Trick Python