Bạn nghĩ bạn đã biết quá rõ hai từ dữ liệu?
Oh xin lỗi mấy bạn mình không ra bài mấy nay nhé : ok vô vấn đề là hôm nay mình nói rõ hơn về Data và một số vấn đề của nó nhé Phần...
Oh xin lỗi mấy bạn mình không ra bài mấy nay nhé :<<
ok vô vấn đề là hôm nay mình nói rõ hơn về Data và một số vấn đề của nó nhé
Phần 1: Dữ liệu và đám bạn của nó
Dữ liệu không chỉ đơn thuần là nó đi một mình nó, nó kéo bè kéo phái đi chung rất nhiều và mỗi đứa lại có một đặc trưng riêng, chúng ta phân loại nó theo sau:
Thông tin (information): là những kiến thức, hiểu biết về một sự
vật, sự việc, con người,... ví dụ : bạn gái bạn bảo nay em ấy đến tháng, hoặc bạn được báo là rớt môn :<< hôi nghiêm túc nà, thông tin về bản thân: chiều cao, cân nặng, giới tính, địa chỉ bla bla bla.
vật, sự việc, con người,... ví dụ : bạn gái bạn bảo nay em ấy đến tháng, hoặc bạn được báo là rớt môn :<< hôi nghiêm túc nà, thông tin về bản thân: chiều cao, cân nặng, giới tính, địa chỉ bla bla bla.
Dữ liệu (data): là thông tin được lưu trữ dạng vật lý (sách vở, băng
đĩa,...) hoặc dưới dạng số hóa trong máy tính ví dụ: 0100010001000001100000100010 hay cuốn truyện mình rất thích là Vẽ em bằng màu của nỗi nhớ :<< đọc ik muốn tự tử luôn á
đĩa,...) hoặc dưới dạng số hóa trong máy tính ví dụ: 0100010001000001100000100010 hay cuốn truyện mình rất thích là Vẽ em bằng màu của nỗi nhớ :<< đọc ik muốn tự tử luôn á
Cơ sở dữ liệu (database): là tập hợp các dữ liệu được lưu trữ
trong máy tính dùng để phục vụ cho những mục đích xác định, là một cái gì đó cao siêu và tập hợp nhiều dữ liệu lại ở chung với nhau tạo nên một hệ thống ví dụ: cơ sở dữ liệu tên của trường bạn, lưu hàng ngàn tên sinh viên, chẳng hạn vạiiiiii
trong máy tính dùng để phục vụ cho những mục đích xác định, là một cái gì đó cao siêu và tập hợp nhiều dữ liệu lại ở chung với nhau tạo nên một hệ thống ví dụ: cơ sở dữ liệu tên của trường bạn, lưu hàng ngàn tên sinh viên, chẳng hạn vạiiiiii
Những định nghĩa trên là theo Cambridge Dictionary.
Phần 2: Dữ liệu, thông tin, và kiến thức
(Russell Ackoff)
(Russell Ackoff)
Đến với phần này thì mọi người sẽ lại hỏi là thằng này nó điên hay sao mà lại viết tiếp thêm một phần y như trên :<< đừng nói vậy tội em, đến với phần này ta sẽ được bổ sung thêm một khái niệm khá trù tượng tí về hệ thống dữ liệu, thông tin và kiến thức kết hợp với nhau như thế nào.

Hình bên một nghiên cứu của Russell Ackoff, nói về cách con người chúng ta biển đổi thông tin thành trí khôn như thế nào, để mình giải thích một tí mấy bạn mới có thể hiểu rõ :<<
Dữ liệu (Data): sự thật hoặc phát biểu về sự vật, sự kiện mà không có
sự quan hệ/liên kết đến sự vật, sự kiện khác
– Ví dụ: Trời đang mưa
– Thông tin (Information): bao gồm quan hệ/liên kết giữa các dữ liệu,
– Ví dụ: Nhiệt độ giảm 15 độ và sau đó trời bắt đầu mưa (quan hệ nhân quả)
– Kiến thức (Knowledge): biểu diễn các mẫu liên kết dữ liệu/thông tin nhằm
mang lại khả năng dự đoán ở mức cao hơn
– Ví dụ: Nếu độ ẩm rất cao, và nhiệt độ giảm đáng kể thì bầu khí quyển
thường không thể giữ được độ ẩm nên trời mưa
sự quan hệ/liên kết đến sự vật, sự kiện khác
– Ví dụ: Trời đang mưa
– Thông tin (Information): bao gồm quan hệ/liên kết giữa các dữ liệu,
– Ví dụ: Nhiệt độ giảm 15 độ và sau đó trời bắt đầu mưa (quan hệ nhân quả)
– Kiến thức (Knowledge): biểu diễn các mẫu liên kết dữ liệu/thông tin nhằm
mang lại khả năng dự đoán ở mức cao hơn
– Ví dụ: Nếu độ ẩm rất cao, và nhiệt độ giảm đáng kể thì bầu khí quyển
thường không thể giữ được độ ẩm nên trời mưa
– Trí khôn (Wisdom): là một hình thức xử lử nhiều kiến thức và tổng hợp lại đồng thời thực hiện các tính toán logic đưa ra một kết quả hợp lý và đúng đắng nhất
– Ví dụ: Trời mưa nên mang dù và rất nguy hiểm khi đi ra đường ( chúng ta tổng hợp một lượng lớn thông tin từ nhiều nguồn và bộ máy logic auto cài đặt trong não suy luận tính toán đưa ra các giải pháp hợp lý nhất đối với nó, có thể logic này sinh ra trong suốt cuộc đời của con người và nó được định hình bởi xã hội ta, tất nhiên vẫn có trường hợp ngoại lệ, hai người thẩm phán đưa ra một phán quyết cho một phiên tòa chưa chắc là giống nhau, phụ thuộc rất lớn vào cỗ máy logic để mà có phán quyết cuối cùng )
oh, đọc nãy giờ chắc quéo não òi, giải trí tí nhé: https://www.youtube.com/watch?v=iOoSBvWBeP8
ok, quay trở lại nào :>>
thì nói nôm na con người chúng ta là một ví dụ cực kì điển hình cho mô hình của ông Russell Ackoff, mà cũng do là nghiên cứu hành vi con người mà ra thôi mà :v, e hèm... con người là động vật bậc cao duy nhất có trí khôn, nhờ đó ta mới có thể tách ra khỏi nhóm động vật bình thường mà vươn lên là loài tối cao nhất trên trái đất này -.- . Con người ta tiến hóa là vì chúng ta có thể giao tiếp, khi lửa được tìm ra thì nó chỉ cần được người này tryền dạy người kia, cứ thế ta truyền dạy và tìm tòi cái mới làm nên một kho tàng đồ sộ dữ liệu nghiên cứu. Nguyên tắc chia sẻ thông tin và xây dựng dựa trên những khám phá này có thể được hiểu rõ nhất bằng cách kiểm tra cách con người xử lý dữ liệu.
ví dụ nha:
- Tôi có 1 cái hộp hình vuông

- Nó to
- Cái hộp này rất nặng
- Nó có cánh cửa phía trước
- Cái hộp rộng 60cm, sâu 70cm, cao 150cm
( :)) móe, tui thấy tui rảnh ghê, văn miêu tả đã ngu mà còn bài đặt màu :<< )
- Cái hộp có một cánh cửa phía trước
- Khi tôi mở hộp, nó có chứa đồ ăn bên trong
(mọi người mà không đoán ra thì hoi em thuaaaaaaaa
ok thêm vài dòng phòng khi bạn chưa đoán được)
- Nó trong lạnh ngoài nóng
- Khi mở nó ra thường là có đồ ăn :<< ( mình thì hông )
- Nó thường được đặt trong phòng bếp
==> tadaaaaa, nó là cái tủ lạnh ó <3
Khi mình cho các mọi người thêm nhiều dữ liệu, có phải mọi người sẽ càng hình dung ra rõ hơn là cái vật hay cái gì đó mà mình đang muốn gợi ý mọi người đi tìm hiểu là cái gì không??? Và đó là mọi người đã và đang thu thập dữ liệu và biến nó thành trí khôn, wowwwww kì diệu chớ

xàm xí qué, khi mình cho các bạn dữ liệu, trong não các bạn sẽ tự liên kết và tìm tòi trong cái đống kiến thức hay thông tin bạn đã có sẳn từ lúc bạn khóc oe oe lần đầu tiên với thế giới đến ngay lúc bạn đọc những dòng này <3. khi đó, càng có nhiều dữ kiện mình cho bạn, bộ não của bạn sẽ huy động thằng logic xử lý sao đó cho nó đúng, hợp tình hợp lý, trả lại kết quả cho não của bạn. và tên của quá trình đó là xử lý dữ liệu ( data processing ), quay trở lại mô hình của ông Russell Ackoff đuyyyy, bạn có thấy mũi tên benefit to humanity hông, mệt qué để mình để cái hình ở đây luôn, kéo lên kéo xuống mệt mõi qué

ta có thể thấy được dữ liệu thô đưa vào nó có thể có giá trị rất thấp, nhưng khi mà có nhiều dữ liệu thô và qua cách chúng ta xử lý thì nó sẽ dần dần có giá trị càng cao, và như thế đã đặt ra cho chúng ta một dấu chấm hỏi rất rất lớn: Nếu dữ liệu quá lớn thì chúng ta làm sao có thể biến nó thành những thứ có giá trị cao được? Đọc bài của mình sẽ biết được à
Phần 3: Dữ liệu lớn - Big Data
Bữa trước mình đã có giới thiệu sơ qua về dữ liệu lớn rồi, nên mình sẽ chỉ nói sơ qua vào hôm nay nhé
Dữ liệu lớn là dữ liệu có khối lượng lớn rất rất lớn, và người ta đã ước tính là khối lượng dữ liệu của con người đã nặng ở mức yottabyte tầm 250 nghìn tỷ đĩa JAV :v hay là rất nhiều số không của byte ( 1.000.000.000.000.000.000.000.000.000 byte )
Các đặc tính của dữ liệu lớn:
+ Khối Lượng (Volume): Đề cập đến khối lượng dữ liệu dữ lưu trữ
– Một máy PC bình thường khả năng lưu trữ 1TB (10 nghìn tỷ byte)
– Hiện tại, Facebook xử lý 500 TB (500 ngàn tỷ) dữ liệu mỗi ngày
– Mỗi chuyến bay của Boeing 737 xuyên nước Mỹ phát sinh 240TB dữ liệu bay
– Smartphone, sensors có thể tạo ra và xử lý hàng tỷ byte dữ liệu mới, thường
xuyên cập nhật về môi trường xung quanh, vị trí, và các thông tin khác (kể cả video)
– Một máy PC bình thường khả năng lưu trữ 1TB (10 nghìn tỷ byte)
– Hiện tại, Facebook xử lý 500 TB (500 ngàn tỷ) dữ liệu mỗi ngày
– Mỗi chuyến bay của Boeing 737 xuyên nước Mỹ phát sinh 240TB dữ liệu bay
– Smartphone, sensors có thể tạo ra và xử lý hàng tỷ byte dữ liệu mới, thường
xuyên cập nhật về môi trường xung quanh, vị trí, và các thông tin khác (kể cả video)

khối lượng là một trong những đặc tính quan trọng và dễ thấy nhất của dữ liệu lớn, và nó là căn bản, cái nền để tạo nên big data. Cứ mỗi giây thì thôi rồi không biết bao nhiêu là dữ liệu mới được tạo nên, click chuột liek hình nà, share hình nà, thả tim cho crush, mua đồ online, up story trên instagram, hay đơn giản là gõ lộc cộc như mình hiện giờ, uhm húm có thể bạn hông biết nhưng bạn đang rất rất có ơn với tụi như mình á <3 ( bonus nhắn tin chúc crush ngủ ngon mà sáng nó mới rep -.- )
+ Tốc độ (Velocity):
– Đề cập đến tốc độ phát sinh ra dữ liệu, và tốc độ di chuyển của dữ liệu
– Các thông điệp từ các mạng xã hội được truyền đi trong vài giây.
– Công nghệ hiện tại cho phép xử lý dữ liệu ngay khi nó được sinh ra (còn gọi là in-memory analytics), mà không cần phải lưu trữ dữ liệu vào cơ sở dữ liệu
– Clickstreams và Ad impression ghi nhận hàng triệu sự kiện về hành vi người dùng trong mỗi giây
– Các giải thuật giao dịch chứng khoán tốc độ cao có thể ghi nhận thay đổi của thị trường chỉ trong vài mili giây
– Quá trình trao đổi dữ liệu diễn ra giữa hàng tỷ thiết bị
– Các hệ thống hạ tầng và các sensor tạo ra một khối lượng dữ liệu cực lớn ở thời gian thực
– Các hệ thống game online hỗ trợ hàng triệu người chơi, với nhiều thao tác trong mỗi giây
– Đề cập đến tốc độ phát sinh ra dữ liệu, và tốc độ di chuyển của dữ liệu
– Các thông điệp từ các mạng xã hội được truyền đi trong vài giây.
– Công nghệ hiện tại cho phép xử lý dữ liệu ngay khi nó được sinh ra (còn gọi là in-memory analytics), mà không cần phải lưu trữ dữ liệu vào cơ sở dữ liệu
– Clickstreams và Ad impression ghi nhận hàng triệu sự kiện về hành vi người dùng trong mỗi giây
– Các giải thuật giao dịch chứng khoán tốc độ cao có thể ghi nhận thay đổi của thị trường chỉ trong vài mili giây
– Quá trình trao đổi dữ liệu diễn ra giữa hàng tỷ thiết bị
– Các hệ thống hạ tầng và các sensor tạo ra một khối lượng dữ liệu cực lớn ở thời gian thực
– Các hệ thống game online hỗ trợ hàng triệu người chơi, với nhiều thao tác trong mỗi giây

Quá là nhiều thông tin đến bạn rồi bạn đã tiếp thu chưaaaaaaaaa, velocity của não bạn là bao nhiêu nà, volume của bạn như thế nào, đầy chưa??? tiếp qua đặc tính cuối cùng nhá
+ Đa dạng ( Variety):
– Đề cập đến các loại dữ liệu khác nhau
– Trong quá khứ: chúng ta thường chỉ tập trung vào các loại dữ liệu có cấu trúc được biểu diễn trong các bảng biểu
– Hiện tại, 80% dữ liệu trên thế giới là phi cấu trúc (văn bản, hình ảnh, video, âm thanh,...)
– Kỹ thuật xử lý dữ liệu lớn cho phép xử lý và phân tích nhiều loại dữ liệu khác nhau: các cuộc đối thoại trên mạng xã hội, hình ảnh, video, âm thanh,...
– Các hệ thống cơ sở dữ liệu truyền thống chỉ được thiết kế cho những dữ liệu có cấu trúc với số lượng nhỏ, thay đổi ít
– Hệ thống dữ liệu lớn bao gồm rất nhiều loại dữ liệu khác nhau
– Trong quá khứ: chúng ta thường chỉ tập trung vào các loại dữ liệu có cấu trúc được biểu diễn trong các bảng biểu
– Hiện tại, 80% dữ liệu trên thế giới là phi cấu trúc (văn bản, hình ảnh, video, âm thanh,...)
– Kỹ thuật xử lý dữ liệu lớn cho phép xử lý và phân tích nhiều loại dữ liệu khác nhau: các cuộc đối thoại trên mạng xã hội, hình ảnh, video, âm thanh,...
– Các hệ thống cơ sở dữ liệu truyền thống chỉ được thiết kế cho những dữ liệu có cấu trúc với số lượng nhỏ, thay đổi ít
– Hệ thống dữ liệu lớn bao gồm rất nhiều loại dữ liệu khác nhau

ok hôm nay đến đây hoi, cảm ơn mọi người đã đọc bài viết của mình, chân thành cảm mơn ạ, bài này vẫn còn ạ, em sẽ cố gắng viết sớm nhất có thể <3 mong mọi người tiếp tục ủng hộ em ạ, rất yêu thương mọi cmt của mọi người <3

Khoa học - Công nghệ
/khoa-hoc-cong-nghe
Bài viết nổi bật khác
- Hot nhất
- Mới nhất

Jesterϕ
Lần đầu tiên một bài viết "Khoa học - Công nghệ" về Principle of data / Fundamental of data mà lại cuteo pho mai que như vậy
Khi đọc bài này tôi liên tưởng đến hình ảnh chủ thớt đỏng đảnh bị môn Big Data nó hành ngất lên ngất xuống, nói văn vẻ thì là "mất cả thanh xuân để tìm địa chỉ nhà của bạn Data".
Hiện tại thì Trung Hoa có ý định áp dụng đề xuất "Đánh giá công dân" - [ http://www.independent.co.uk/news/world/asia/china-surveillance-big-data-score-censorship-a7375221.html ] --> đây chính là minh hoạ lợi ích thực tiễn từ bài viết của thớt: Mỗi công dân là raw data, qua từng nhịp sống, cách họ tương tác xã hội, làm việc và học tập, v.v.. thì raw data sẽ trở nên realistic hơn.
Giá trị của họ sẽ tăng/giảm tuỳ theo quy chuẩn đề ra của chương trình đánh giá này -- cũng có thể nói -- bạn đủ cơ sở để đánh giá người khác là "tốt" hay "xấu" qua "lịch sử đời sống" của người lạ (đây chỉ là ý kiến khả thi, còn việc nhà chức trách tổ chức ra sao thì phải theo dõi tiếp ^^).
_________________________________________________________
p/s: theo ý kiến của mình thì bài viết diễn giải khoa học mà đưa nhiều câu cú cảm xúc cá nhân thì dẫn đến 2 hướng:
(1) là lạm dụng dẫn đến càng đọc càng cảm thấy mình đang thả hồn vào "Nhật ký công chúa phiên bản Cách mạng công nghiệp 4.0"
(2) là hài hước vừa đủ, chú trọng đến nhiều ứng dụng thực tế, ví dụ minh hoạ hơn.
___________________________________________________________
Nếu bạn mong muốn nhiều feedback giá trị hơn feedback giải trí cảm thán thuần tuý thì nên tránh sa đà ý (1) ^^
Dù sao đây cũng là làn gió mới trong việc chuyển tải kiến thức khô khan đến nỗi đọc thôi mà nghẹn cả họng
Cảm ơn bạn đã cu-tê hoá bác già "Dữ liệu"


- Báo cáo

KAy-Cu
Dear my friend!
Khi viết những dòng này bạn chắc chắn là có gì đó ý nghĩa trong cuộc đời mình rồi vì mình vừa mới bỏ xem phim hoạt hình nhật bản để ngồi đây rep cmt của bạn 💓
Ôh trầu ôh mơn bạn nhiều lúm, đính chính lại mình k bị môn đó hành nhé, trái lại còn hơi bị yêu thương đắm đuối triều mến nên mới có thể đủ motivation để viết á
Mình sẽ cố gắng đưa ra thêm các ví dụ minh hoạ thực tiễn hơn nữa ( thiệt ra là do lười lộc cộc :<< ). Kiến thức đã khô khan rồi thì người truyền tải nó không nhất thiết phỉ trở nên khô khan, thay vì hướng truyền tải như mọi người thì mình muốn được như bản thân mình nói chuyện “thực tế” với mọi người như cách bạn bè nói chuyện với nhau, khi đó, khô khan cỡ nào thì nó vẫn sẽ dễ chịu và maybe nhớ dễ dàng hơn á 💗
Mình sẽ tiết chế lại bớt tính cute và các từ ngữ mang tính thả thính ( sr nhưng mình ngoài đời cũng nói như vậy nên khi viết cũng k nghĩ nhiều, nghĩ sao viết v á :v ). Bài lầm sau sẽ càng chất lượng về chuyên môn khoa học đồng thời cũng sẽ không mang tính khô khan để mọi người có thể dễ dàng đọc hơn
Một lần nữa cảm ơn ý kiến của bạn 💗💗💗
- Báo cáo
Primrose
góp ý với chủ thớt là hôm sau đừng 1 câu ok..bla..bla, 2 câu là ok.. ok, cả trong giao tiếp hằng ngày và văn viết đều tuyệt đối kị chèn chữ ok vào, người nghe người đọc sẽ rất khó chịu, cảm giác giống như... bị khinh thường. anyway, đó là góp ý của mình thôi
- Báo cáo

KAy-Cu
mình nghĩ sao thì mình viết vậy thôi, nhưng mình sẽ chú ý cách dùng từ hơn vào các bài sau, cảm ơn đóng góp ý kiến của bạn 

- Báo cáo

sleepless
Đọc bài viết của bạn thú vị lắm đấy. Không khô khan tý nào. Mình phải đi nghiên cứu thêm về dữ liệu có cấu trúc, nửa cấu trúc, phi cấu trúc để hiểu rõ bài viết nữa đấy.
Các từ cảm thán bạn sử dụng đối với mình thì okay (học hỏi thêm tính thả thính của ông này thì tuyệt vời ông mặt trời). 


- Báo cáo

KAy-Cu
lời nói đầu tiên chân thành cảm mơn nhận xét của bạn
Lời nói tiếp theo đó là bạn đã đọc qua bài này chưa https://spiderum.com/bai-dang/The-gioi-da-du-dang-so-voi-ban-chua-8gd nếu chưa thì hãy đọc tiếp nhé, sẳn tay upvote dùm mình
Lời nói cuối cùng là bạn làm mình có thêm động lực để viết tiếp òi, mặc dù cỡ này mình khá là lười viết, anyway thanks a lot



- Báo cáo