Sự kiện

KHÓA HỌC QUỐC TẾ VỀ KHOA HỌC DỮ LIỆU TẠI HÀ NỘI

Ngày đăng: 05/06/2017

Trong thời gian từ 15 đến 17 tháng 5 năm 2017, các giảng viên Bộ môn Tin học, Khoa Toán – Tin, trường Đại học Khoa học đã tham dự Khóa học ngắn về Khoa học dữ liệu tại trường Đại học Thủy lợi, Hà Nội. Diễn giả của khóa học này là các Giáo sư danh tiếng hiện đang làm việc tại các trường Đại học, các công ty lớn ở Mỹ, Nhật Bản và Australia.

Diễn giả của khóa học lần này gồm có:

1. GS. Nguyễn Xuân Long – Trường Đại học Michigan (Mỹ)

2. PGS.TS. Bùi Hải Hưng – Adobe Research, thung lũng Silicon(Mỹ).

3. GS. Hồ Tú Bảo - Viện Khoa học và Công nghệ Tiên tiến Nhật Bản JAIST (Nhật Bản), Chủ tịch (2013-2016) Ban điều hành của Asia Conference on Machine Learning (ACML)

4. GS. Phùng Quốc Định – Phó Giám đốc Trung tâm Pattern Recognition and Data Analytics, Trường Đại học Deakin (Australia)

     Mở đầu chuỗi bài giảng là phần trình bày của GS. Hồ Tú Bảo giới thiệu về khoa học dữ liệu và cuộc cách mạng công nghiệp 4.0. Cuộc cách mạng công nghiệp lần thứ tư được cho rằng đã bắt đầu trong vài năm gần đây, được đánh giá là có đột phá khoa học công nghệ, tạo ra sự thay đổi rõ rệt về bản chất của quá trình sản xuất. Đó chính là sản xuất thông minh dựa trên tiến bộ của công nghệ thông tin, công nghệ sinh học, công nghệ nano... với nền tảng là các đột phá của công nghệ số trên cyber - physical systems (hệ kết nối không gian số - thực thể: có thể hình dung mỗi thực thể trong thế giới khách quan đều có 1 phiên bản số, ví dụ robot được coi là một phiên bản số của con người, bệnh án điện tử được coi là 1 phiên bản số của bệnh án giấy thông thường của bệnh nhân,...) Cuộc cách mạng số hóa dựa trên ý tưởng mô phỏng hành động trong thế giới các thực thể sao cho các hành động đó có thể được tính toán, điều khiển trên không gian số. Điều này có tác động to lớn tới phương thức sản xuất của con người.

Trích bài giảng của GS.TSKH Hồ Tú Bảo

     Công nghệ số là một cụm từ được nhắc đến gần đây với những từ khóa quen thuộc mang tính đột phá như: Cloud computing (điện toán đám mây), Internet of things và Big data (dữ liệu lớn).

     Vậy BIG DATA là gì? Big data từ đâu đến? Và tiếp cận dữ liệu lớn như thế nào là những chủ đề trong các bài giảng của GS. Phùng Quốc Định. "Chúng ta thường xây dựng lý thuyết trước khi khai phá kiến thức. Nhưng ngày nay, việc này thường lại bắt đầu từ dữ liệu trước. Thời đại dữ liệu lớn đã bắt đầu." Dữ liệu lớn được hiểu là các tập dữ liệu rất lớn và phức tạp, vượt quá khả năng kỹ thuật và lý thuyết truyền thông, được đặc trưng bởi 3 yếu tố quan trọng là: Variety - Velocity - Volume.

     Để hình dung về dữ liệu lớn, chúng ta có thể tưởng tượng chỉ trong ngày đầu tiên một em bé sinh ra đời, số lượng dữ liệu thu thập được tương đương với 70 lần thông tin trong Thư viện quốc hội Mỹ. Theo dự tính của các nhà khoa học, đến năm 2020, dữ liệu toàn cầu sẽ đạt khoảng 44 Zetabytes (1 Zettabyte = 1018 kilobytes). Nếu ta dùng nhiều máy Ipad để chứa số dữ liệu này và chồng lên nhau, chúng sẽ lấp đầy hơn 6 lần khoảng cách từ Trái đất đến Mặt trăng. Năm 2012,văn phòng chính sách khoa học và công nghệ củaMỹ thuộc Văn phòng điều hành của Tổng thống Mỹ đã công bố84 chương trình về dữ liệu lớn thuộc 6 Bộ của Chính quyềnLiên bang. Những chương trình này đề cập đến thách thức vàcơ hội của cuộc cách mạng dữ liệu lớn và xem việc tìm lời giảicho vấn đề dữ liệu lớn là sứ mệnh của các cơ quan chính phủcũng như của việc cách tân và khám phá khoa học. Dữ liệu lớn mang lại nhiều cơ hội nhưng cũng đặt ra nhiều bài toán thách thức với phương thức sản xuất trên toàn thế giới. Trong bài giảng của mình, GS. Phùng Quốc Định cũng giới thiệu một số nền tảng công nghệ mã nguồn mở chính cho Big data như: Hadoop + MapReduce, Spark, TensorFlow.

     Ngày 16-17/5, cácGiáo sư tiếp tục loạt bài giảng mang tính chất nghiên cứu chuyên sâu về khoa học dữ liệu, trình bày về nguyên lý và mô hình thống kê, mô hình tư vấn ra quyết định, mô hình học nhiều tầng deep- learning và kết thúc bằng bài giảng Giải pháp khi dữ liệu có kích thước lớn.

     Một điều thú vị trong bài giảng của GS. Nguyễn Xuân Long đó là một công thức toán học:

Chú thích: (math= mathematics, stat= statistics, cs = computer science)

          Giáo sư Nguyễn Xuân Long kết luận “Công nghệ thông tin mang cho ta nguồn dữ liệu dồi dào, làm nảy sinh nhu cầu cần suy diễn với những dữ liệu ấy thì Thống kê và Toán học cho ta một nền móng và công cụ để suy diễn một cách hợp lý. Ngược lại sự phát triển của khoa học suy diễn từ dữ liệu, big data cũng đưa toán học tới gần với các ứng dụng của xã hội hiện đại hơn bao giờ hết. Vấn đề suy diễn với các cấu trúc phức tạp cũng có tác dụng thúc đẩy sự phát triển nội tại của toán học. Một chuyên gia về khoa học dữ liệu không chỉ đòi hỏi sự chuẩn bị tốt về toán học, còn phải có sự tò mò đối với thực tiễn, có khả năng diễn đạt thành thục bằng ngôn ngữ của toán, có sự liều lĩnh để sử dụng ngôn ngữ ấy vào dữ liệu hiện thực”.

     Cuối mỗi bài giảng luôn là phần thảo luận, đặt câu hỏi cho các Giáo sư rất sôi nổi của nhiều nhóm nghiên cứu, giảng viên, học viên cao học, các nghiên cứu sinh, và đặc biệt lần này có khá nhiều câu hỏi của các doanh nghiệp hoạt động dựa trên các ứng dụng của khoa học dữ liệu.

     Khoa học dữ liệu được nhận định là một hướng đi mới hiện nay, dự định sẽ là miền đất hứa của các bạn sinh viên chuyên ngành Toán – Tin ứng dụng nói riêng và các bạn học Toán nói chung. Hy vọng các bạn sinh viên khoa Toán – Tin, trường Đại học Khoa học sẽ đóng góp được một phần sức lực của mình vào việc xây dựng một cộng đồng nghiên cứu và ứng dụng khoa học dữ liệu trong thời gian sắp tới.

Hoàng Hà - BM Tin học.

Thành viên - đối tác

  • hinh anh
  • hinh anh
  • hinh anh
  • hinh anh
  • hinh anh