Yếu tố ngoại lệ cục bộ (LOF) là thước đo mức độ khác biệt của quan sát so với phần còn lại của dữ liệu trong tập dữ liệu. Nó được sử dụng để xác định các giá trị ngoại lệ hoặc các quan sát khác xa với phần còn lại của dữ liệu. Giá trị LOF được tính cho từng quan sát và các quan sát có giá trị LOF cao nhất được coi là quan sát xa nhất.
LOF được tính như thế nào?
Giá trị LOF được tính bằng phương pháp dựa trên mật độ. Nó xem xét số lượng quan sát gần với mỗi quan sát và so sánh điều này với mật độ tổng thể của dữ liệu. Nếu một quan sát có nhiều lân cận gần, thì nó có giá trị LOF cao và được coi là ngoại lệ.
LOF được sử dụng như thế nào?
LOF có thể được sử dụng cho nhiều mục đích khác nhau, bao gồm xác định các điểm dữ liệu bất thường trong tập dữ liệu, phát hiện các giá trị ngoại lai trong mô hình hồi quy và tìm cụm các giá trị ngoại lai trong tập dữ liệu. Nó cũng có thể được sử dụng để xác định những kẻ lừa đảo trong bộ dữ liệu tài chính hoặc để tìm những bệnh nhân có nguy cơ mắc bệnh.
LOF có thể được sử dụng theo nhiều cách khác nhau và là một công cụ có giá trị để phân tích dữ liệu. Tuy nhiên, điều quan trọng cần lưu ý là việc giải thích kết quả phụ thuộc nhiều vào tập dữ liệu được phân tích và mục đích của phân tích. Do đó, điều cần thiết là phải tham khảo ý kiến của nhà thống kê hoặc nhà phân tích dữ liệu khi sử dụng LOF để đảm bảo rằng các kết quả được giải thích chính xác.
Lợi ích là gì?
Vì đây là một biện pháp rất hữu ích, nó tự nhiên đi kèm với rất nhiều lợi ích.
Thật dễ dàng để diễn giải và giải thích
Xử lý phân tích dữ liệu có thể cực kỳ khó khăn, đặc biệt nếu chúng ta đang nói về rất nhiều dữ liệu. Với LOF, các kết quả trở nên dễ hiểu và giải thích vì chúng dựa trên một khái niệm đơn giản mà mọi người đều có thể hiểu, đó là mật độ.
Điều này có nghĩa là ngay cả những người không được đào tạo về phân tích dữ liệu cũng có thể hiểu dữ liệu đang hiển thị gì.
Nó hiệu quả
LOF là một phương pháp rất hiệu quả. Đó là do nó không cần bất kỳ dữ liệu huấn luyện nào, giúp giảm đáng kể chi phí tính toán. Ngoài ra, nó cân đối tốt với kích thước tập dữ liệu và số thứ nguyên.
Nó linh hoạt và có thể được sử dụng theo nhiều cách
LOF là một biện pháp rất linh hoạt. Nó có thể được sử dụng để xác định các điểm ngoại lệ, tìm các cụm điểm ngoại lệ hoặc phát hiện những kẻ lừa đảo. Nó cũng có thể được sử dụng trong nhiều bộ dữ liệu, bao gồm tài chính, y tế và các loại dữ liệu khác.
Khi nó đến trí tuệ nhân tạo trong sản xuấtLOF có thể được sử dụng để tìm các mẫu bất thường trong dữ liệu có thể chỉ ra vấn đề với quy trình sản xuất.
Ngoài ra, LOF có thể được sử dụng để theo dõi các thay đổi về dữ liệu theo thời gian. Ví dụ, nó có thể được sử dụng để phát hiện sự thay đổi trong thói quen chi tiêu của khách hàng hoặc sự khác biệt trong hành vi của bệnh nhân.
Hạn chế là gì?
LOF cũng có một vài hạn chế nên được xem xét khi sử dụng nó.
Nó có thể nhạy cảm với số lượng kích thước
LOF là thước đo dựa trên mật độ, có nghĩa là nó xem xét số lượng lân cận gần mà một quan sát có. Điều này có thể bị ảnh hưởng bởi số thứ nguyên trong tập dữ liệu.
Ví dụ: nếu có nhiều thứ nguyên, thì số lượng hàng xóm gần gũi mà một quan sát có sẽ tăng lên, điều này có thể dẫn đến nhiều kết quả dương tính giả hơn.
Nó có thể nhạy cảm với quy mô của dữ liệu
LOF cũng nhạy cảm với quy mô của dữ liệu. Điều này có nghĩa là nếu dữ liệu ở quy mô nhỏ hơn, thì các giá trị LOF sẽ bị thổi phồng một cách giả tạo.
Nó có thể nhạy cảm với các ngoại lệ
Vì LOF là thước đo dựa trên mật độ nên nó cũng nhạy cảm với các giá trị ngoại lệ. Điều này có nghĩa là nếu có nhiều giá trị ngoại lai trong tập dữ liệu, thì các giá trị LOF sẽ bị thổi phồng một cách giả tạo.
Làm cách nào để sử dụng Yếu tố ngoại lệ cục bộ (LOF)?
Bây giờ chúng ta đã biết LOF là gì và nó hoạt động như thế nào, hãy xem cách sử dụng nó.
Có một số cách khác nhau để sử dụng LOF, nhưng phương pháp phổ biến nhất là sử dụng nó để tìm các giá trị ngoại lệ trong tập dữ liệu.
Để làm điều này, trước tiên bạn cần tính giá trị LOF cho từng quan sát trong tập dữ liệu. Quan sát có giá trị LOF cao nhất được coi là ngoại lệ nhất.
Bạn cũng có thể sử dụng LOF để tìm các cụm ngoại lệ. Để làm điều này, bạn cần tính giá trị LOF cho mỗi quan sát trong tập dữ liệu và sau đó nhóm các quan sát có giá trị LOF cao nhất lại với nhau. Điều này sẽ tạo ra một nhóm các ngoại lệ.
Bạn cũng có thể sử dụng LOF để phát hiện những kẻ lừa đảo, như chúng tôi đã đề cập. Để thực hiện điều này, bạn cần tính toán giá trị LOF cho từng giao dịch trong tập dữ liệu và sau đó nhóm các giao dịch có giá trị LOF cao nhất lại với nhau.
Làm cách nào để triển khai LOF?
LOF có thể được triển khai theo nhiều cách khác nhau, nhưng phương pháp phổ biến nhất là sử dụng ngôn ngữ lập trình R.
Bạn cũng có thể sử dụng Python để triển khai LOF, nhưng cách này không phổ biến.
Để triển khai LOF trong R, trước tiên bạn cần cài đặt gói “ngoại lệ”. Bạn có thể làm điều này bằng cách chạy đoạn mã sau:
install.packages(“ngoại lệ”)
Sau khi gói “ngoại lệ” được cài đặt, bạn có thể tải gói đó vào phiên R của mình bằng cách chạy mã sau:
thư viện (ngoại lệ)
Bây giờ gói “ngoại lệ” đã được tải, bạn có thể sử dụng hàm lof() để tính giá trị LOF cho mỗi quan sát trong tập dữ liệu.
Hàm lof() nhận hai đối số:
Đối số đầu tiên là tập dữ liệu mà bạn muốn tính các giá trị LOF.
Đối số thứ hai là số hàng xóm gần nhất mà bạn muốn sử dụng. Đây là một giá trị số nguyên và giá trị mặc định là 20.
Bạn cũng có thể chỉ định các đối số bổ sung, nhưng chúng tôi sẽ không thảo luận chúng ở đây.
Để tính các giá trị LOF cho từng quan sát trong tập dữ liệu, bạn cần chạy đoạn mã sau:
lof(dữ liệu, k=20)
Khi các giá trị LOF đã được tính toán, bạn có thể sử dụng hàm plot() để trực quan hóa chúng.
Hàm plot() nhận một đối số:
Tập dữ liệu mà bạn muốn trực quan hóa các giá trị LOF.
Để trực quan hóa các giá trị LOF, bạn cần chạy đoạn mã sau:
cốt truyện (lof (dữ liệu, k = 20))
Như bạn có thể thấy, biểu đồ hiển thị các giá trị LOF cho mỗi quan sát trong tập dữ liệu. Giá trị LOF càng cao thì quan sát càng có giá trị ngoại lệ.
Bạn cũng có thể sử dụng hàm print() để xuất các giá trị LOF.
Hàm print() nhận một đối số:
Tập dữ liệu mà bạn muốn xuất các giá trị LOF.
Để xuất các giá trị LOF, bạn cần chạy đoạn mã sau:
in(lof(dữ liệu, k=20))
Như trường hợp trước đây, các giá trị cao hơn cho thấy một điểm khác biệt hơn trong quan sát.
Đây chỉ là một số ví dụ về những gì bạn có thể làm với LOF và việc triển khai nó vào hệ thống của bạn dễ dàng như thế nào.
Phần kết luận
Yếu tố ngoại lệ cục bộ (LOF) là một biện pháp hữu ích có thể được sử dụng để xác định các điểm ngoại lệ, tìm các cụm điểm ngoại lệ hoặc phát hiện những kẻ lừa đảo. Nó rất dễ diễn giải và giải thích, hiệu quả và linh hoạt. Tuy nhiên, nó có một vài hạn chế cần được xem xét khi sử dụng nó.
tiểu sử tác giả
Rick Seidl là một chuyên gia tiếp thị kỹ thuật số có bằng cử nhân về Truyền thông Kỹ thuật số và Truyền thông, có trụ sở tại Portland, Oregon. Anh ấy có niềm đam mê cháy bỏng với tiếp thị kỹ thuật số, truyền thông xã hội, phát triển doanh nghiệp nhỏ và thiết lập sự hiện diện của nó trong thế giới kỹ thuật số và hiện đang giải tỏa cơn khát của mình thông qua việc viết về chiến lược kinh doanh và tiếp thị kỹ thuật số cho Trung tâm Cuộc sống và Phong cách.