GH-SOM một cải tiến của kỹ thuật phân cụm SOM

Thứ Sáu, 20 Tháng Giêng 2017 02:24

GH-SOM (Rauber, Merkl, and Dittenbach 2002)là một cải tiến của SOM để khắc phục một số hạn chế của SOM. Giải thuật được cải tiến để khắc phục nhược điểm cần phải xác định trước hình trạng và kích thước của bản đồ trước đi huấn luyện mạng. GHSOM giúp phân tích được mối quan hệ cấp bậc (hierarchical relations) đối với dữ liệu cần phân cụm, sự cải thiện này đáp ứng được yêu cầu phân cấp trong bản đồ SOM gọi là HFM (hierarchical feature map) được đề nghị trong nghiên cứu  (Miikkulainen 1992)để xây dựng một mô hình SOM có tính năng phân cấp thể hiện mối quan hệ thứ bậc cho của dữ liệu. 

Các kỹ thuật Text Clustering và ứng dụng

Thứ Năm, 12 Tháng Giêng 2017 03:09

Với sự phát triển bùng nổ của dữ liệu văn bản như tin tức Web, sách điện tử và các văn bản, E-mail trên Internet, Cách tổ chức và sắp xếp các dữ liệu trở thành một bài toán quan trọng để tổ chức lưu trữ và xử lý (Ma et al. 2003). Phân nhóm văn bản là một trong những kỹ thuật được dùng trong khai thác văn bản. Mục tiêu chính của phân nhóm là xây dựng được các nhóm đối tượng có chung đặc tính. Các kỹ thuật phân nhóm thông thường trải qua hai giai đoạn: giai đoạn huấn luyện bộ phân nhóm và giai đoạn phân nhóm. Bộ phân nhóm được xây dựng trong quá trình học máy: các kỹ thuật học được phân thành 2 nhóm tiếp cập và học giám sát và không giám sát

SOM kỹ thuật phân cụm dữ liệu dạng bản đồ tự tổ chức

Thứ Ba, 10 Tháng Giêng 2017 03:09

Self Organizing Map (SOM) hay Self-Organizing Feature Map (SOFM) là một mạng Neuron nhân tạo (Artificial Neural Networks – ANN), được huấn luyện (trained) sử dụng kỹ thuật Unsupervised learning để biểu diễn dữ liệu với số chiều (dimension) thấp hơn nhiều (thường là 2 chiều) so với dữ liệu đầu vào nhiều chiều (thường số chiều lớn). Kết quả của SOM gọi là bản đồ (Map). SOM là một ANN, tuy nhiên SOM khác với các ANN là không sử dụng các lớp ẩn (hidden layers) chỉ sử dụng input và output layer.

EduMall một website học tập trực tuyến hữu ích tại Việt Nam

Thứ Tư, 04 Tháng Giêng 2017 01:41

Trong thời đại thông tin việc học tập với nhiều phương thức được phát triển ngày càng phong phú hơn. Đặc biệt là các dịch vụ học tập trực tuyến. Tuy nhiên không phải học trực tuyến là chỉ xem Video mà hiện nay có nhiều Website đang hỗ trợ các dịch vụ học tập trực tuyến rất phong phú và hiệu quả cho phép tương tác với giảng viên một các trực tiếp với giá học phí vừa túi tiền của các bạn sinh viên và các cá nhân có nhu cầu học tập. Trong bài viết này chúng tôi giới thiệu EduMall là một Website mà chúng tôi đã đăng ký và sử dụng với các thế mạnh các khóa học của chúng.

Cài đặt lại Libre Office trên OS Linux Mint

Thứ Hai, 02 Tháng Giêng 2017 00:53

Công cụ hỗ trợ văn phòng như LibreOffice là bộ phần mềm văn phòng tự do, mã nguồn mở mạnh mẽ. Được đóng gói cho Windows, Macintosh và GNU/Linux, LibreOffice bao gồm 6 ứng dụng với nhiều tính năng cho tất cả các nhu cầu xử lý dữ liệu và xuất bản tài liệu: Writer, Calc, Impress, Draw, Math và Base. Khi cài đặt các hệ điều hanhf Linux như Ubuntu hoặc Linux Mint mặc định LibreOffice đã được cài đặt sẵn. Tuy nhiên thông thường các bản này chưa phải là mới nhất vì vậy chúng tôi viết bài viết này để hướng dẫn các bạn có thể cài đặt LibreOffice một cách dễ dàng mà không bị một số lỗi khi thực hiện.

Xây dựng mô hình phân tích dữ liệu bênh ung thư vú sử dụng Apache Spark Mlib

Chủ Nhật, 01 Tháng Giêng 2017 02:57

Nhiều nghiên cứu y khoa (và khoa học thực nghiệm nói chung) có mục tiêu chính là phân tích mối tương quan giữa một (hay nhiều) yếu tố nguy cơ và nguy cơ mắc bệnh. Nói theo thuật ngữ dịch tễ học, yếu tố nguy cơ chính là risk factors, và đối tượng phân tích là outcome. Trong các nghiên cứu này, đối tượng phân tích thường được thể hiện qua các biến số nhị phân, tức là có/không, mắc bệnh/không mắc bệnh, chết/sống, xảy ra/không xảy ra, v.v… Trong bối cảnh sự phát triển ngày càng lớn của dữ liệu y học trong thời đại Big Data, các phương pháp phân tích dữ liệu lớn cho phép các tổ chức giải quyết các bài toán phức tạp trước kia không thể làm được nhất là trong nghiên cứu chuẩn đoán và điều trị bệnh ở người

Thông báo đăng ký tham dự Tuần lễ Tri Thức tại ĐH Cần Thơ ngày 07/12

Thứ Ba, 01 Tháng Mười Một 2016 02:25

Sự kiện được tổ chức vào ngày 7 và 8 tháng 12 năm 2016 tại ĐH Cần Thơ. Khoa sẽ tổ chức cho các bạn tham dự bằng xe trường vào ngày 07/12/2016 (Bắt đầu khởi hành 4h45 tại cổng khu A Đại học An Giang). Sinh viên tham dự phải đăng ký qua form để gửi danh sách trước ngày 30/11/2016

Cài đặt Spark trên máy tính cá nhân

Thứ Năm, 27 Tháng Mười 2016 08:40

Spark là một công cụ xử lý trong bộ nhớ mà có thể chạy trên HDFS hoặc chạy đơn lẻ. Với công nghệ trong bộ nhớ, Spark nhanh hơn khá nhiều so với cách tiếp cận MapReduce truyền thống.Theo như giới thiệu từ trang chủ của Apache Spark, thì tốc độ của nó cao hơn 100x so với Hadoop MapReduce khi chạy trên bộ nhớ, và nhanh hơn 10x lần khi chạy trên đĩa, tương thích hầu hết các CSDL phân tán (HDFS, HBase, Cassandra, ...). Ta có thể sử dụng Java, Scala hoặc Python để triển khai các thuật toán trên Spark.

Nếu một ngày nào đó “Chuột máy tính” bị tẩy chay bạn sẽ phải sử dụng máy tính thế nào…?

Thứ Tư, 26 Tháng Mười 2016 06:51

Với những nhân viên nhân phòng nói riêng, và mọi người nói chung, chuột máy tính là một khái niệm đã quá quen thuộc ngày nay kể cả những người không dùng đếm máy tính. Sẽ thật vô nghĩa nếu chúng tôi ngồi ở đây và cố gắng giải thích cho bạn đích xác nó là cái gì. Tóm lại, đây là một thiết bị giúp ta điều khiển và giao tiếp máy tính. Tuy nhiên, cũng không thể hoàn toàn phủ nhận vai trò của bàn phím, nó có đầy đủ những khả năng mà chuột máy tính có. Hãy tưởng tượng một ngày nào đó chuột máy tính bị tẩy chay, bạn sẽ thế nào? Tất nhiên điều đó không hể nào xảy ra, vấn đề ở đây là tôi muốn đề cập và tìm lại những chức năng một thời là “hoàng kim” của bàn phím máy tính mà bạn hoàn toàn có thể sử dụng, bây giờ và ở đây…

Sử dụng SourceTree để tương tác Git với https://bitbucket.org

Chủ Nhật, 16 Tháng Mười 2016 04:32

Trong những phần trước tôi đã hướng dẫn các sử dụng BitBucket để quản lý dự án. Trong phần này CLB sẽ giới thiệu sử dụng SourceTree cho trực quan để quản lý phiên bản mã nguồn trong dự án của bạn.