1. Trích xuất Email từ file text.
Bạn có một file text với một mớ hỗn độn bên trong, và trong đó có chứa cả các email bạn muốn thu thập để phục vụ mục đích marketing hoặc mục đích khác. Hãy làm theo các bước sau:
1. Tìm kiếm Email trong văn bản
Bấm tổ hợp phím Ctrl+A để chọn toàn bộ văn bản và bấm Ctrl+H để sử dụng chức năng tìm kiếm và thay thế. Trong cửa sổ hiện lên điền thông số như sau:
Find: (\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,4}\b)
Replace: \r\n$&\r\n
Sau đó nhấn Replace All. Mục đích để tìm kiếm các email có trong file văn bản và tách chúng nằm riêng biệt ở từng dòng.
2. Đánh dấu các email trong file text
Bây giờ bạn chuyển sang tab Mark và bấm Mark All như hình sau:
Mục đích bước này là đánh dấu các dòng chứa Email trong văn bản.
3. Xóa phần văn bản không được chọn
Vào Search > Bookmark > Remove Unmarked Lines
Xong. Như vậy bạn đã hoàn thành việc trích xuất email từ file text.
2. Xóa dòng trùng lặp trong file text
Nếu trong file text có các dòng trùng lặp với số lượng lớn bạn ko thể xóa chúng lần lượt từng cái một một cách thủ công mà lại đang dùng bản Notepad ++ 64 bits ko có plugin TextFX thì hãy làm như sau:
1. Sắp sếp các dòng trùng lặp cạnh nhau
Đầu tiên bấm Ctrl + A để chọn toàn bộ văn bản rồi vào
Edit > Line Operations > Sort Lines Lexicographically Ascending để sắp xếp các dòng trùng lặp nằm cạnh nhau.
2. Bấm Ctrl + H và điền như sau:
Search: ^(.+?)\R(\1\R?)+
Replace: \1\r\n
Cuối cùng bấm Replace All để xóa các dòng trùng lặp, chỉ giữ lại 1 dòng. Ok. Xong.
3. Xóa dòng bao gồm ký tự không mong muốn
Bấm Ctrl + H để mở cửa sổ tìm kiếm và thay thế.
Tiếp đó bạn điền như sau:
Find what: .*help.*\r?\n (thay thế từ help bằng từ mà bạn muốn tìm kiếm và xóa dòng chứa từ đó)
Replace with: Để trống.
Nhớ chọn tùy chọn Regular expression rồi bấm Replace All để kết thúc việc xóa dòng gồm các ký tự không mong muốn.
4. Trích xuất số điện thoại bằng Notepad++
Đối với các số điện thoại bắt đầu bằng số 0 và số lượng sđt trong file không quá lớn thì có nhiều cách để bạn có thể trích xuất với các công cụ khác nhau.
Nhưng đối với file chứa đến hàng trăm ngàn số điện thoại lại bắt đầu bằng dấu + thì bạn có thể dùng cách sau để trích xuất.
Tổng quan chúng ta sẽ tách số điện thoại thành dòng riêng biệt với phần chữ. Sau đó xóa phần chữ.
Thực hiện như sau:
1. Tìm đến dấu + và cho xuống dòng từ dấu +.
Bằng cách bấm Ctrl + H và điền như sau:
Find what: +
Replace with: \r+ và tích chọn Extended (\n, \r, \r, \0, \x...)
Rồi bấm Replace All
2. Cho xuống dòng phần phía sau số điện thoại.
Quét 1 khoảng trống nhỏ nhất (hoặc dùng dấu cách) trong phần Find what: ; Phần Replace All: \r
Rồi bấm Replace All.
3. Giữ lại các dòng chứa số điện thoại và xóa phần không cần thiết đi.
Để làm vậy chúng ta bấm Ctrl + H và chuyển sang tab Mark và chọn như hình sau:
Chọn ô Bookmark line và chọn chế độ tìm kiếm Normal sau đó bấm Mark All. Bây giờ tất cả các dòng chứa sđt đã được đánh dấu.
Tiếp theo chúng ta bấm vào Search ==> Bookmark ==>Remove Unmarked Lines.
Ok. Xong.
5. Giữ lại các dòng chỉ chứa số.
Bấm Ctrl +H
Find what: [^\d\r\n]
Replace: Để trống.
Chọn Regular expression và matches newline. Rồi bấm Replace all
6. Tìm dòng bắt đầu bằng ký tự bất kỳ.
Ví dụ tìm dòng bắt đầu bằng chữ cái "h" trong notepad ++:
Bấm Ctrl +F
Find what: ^h
Enter.
(Để chế độ Wrap around và Regular Expression)
7. Thêm một ký tự vào chuỗi ở bất kỳ vị trí nào trong dòng.
Ví dụ ta có một một file văn bản cỡ 10 ngàn dòng, mỗi dòng có 12 ký tự liên tiếp. Giờ ta muốn thêm dấu gạch ngang ( - ) vào sau ký tự thứ 4, thứ 8 và cuối cùng của chuỗi ở mỗi dòng ta làm như sau:
Bấm Ctrl + H
Find what: ^(.{4}) ---> Thêm vào sau ký tự thứ 4.
Replace with: $1- ----> Dấu gạch ngang là ký tự bạn muốn thêm.
Enter.
(Để chế độ Wrap around và Regular Expression) và click Replace All.
Lặp lại quá trình trên và thay số 4 bằng số 9, 14 (vì lúc này ta đã thêm dấu gạch ngang làm cho mỗi dòng tăng thêm 1 ký tự sau mỗi lần thực hiện)
Ta được kết quả như hình sau:
|
Kết quả chèn thêm ký tự vào vị trí bất kỳ của chuỗi trong mỗi dòng bằng Notepad++ |
Facebook Comments - Comments