Big Data là gì?? – What is Big Data?

Posted by
– Chuỗi bài hiểu về Big Data – (English below)
Phân tích nhiều dữ liệu chỉ là một phần của việc phân tích khiến phân tích big data khác với việc phân tích dữ liệu trước đây. Hãy cùng tìm hiểu các khía cạnh khác.
Có data, và sau đó có big data. Vậy, sự khác biệt là gì?

Big data được định nghĩa là gì?

Big data nhìn chung liên quan đến các tập dữ liệu có khối lượng lớn và phức tạp đến mức các phần mềm xử lý dữ liệu truyền thống không có khả năng thu thập, quản lý và xử lý dữ liệu trong một khoảng thời gian hợp lý.
Những tập dữ liệu lớn này có thể bao gồm các dữ liệu có cấu trúc, không có cấu trúc và bán cấu trúc, mỗi tập có thể được khai thác để tìm hiểu insights.
Bao nhiêu dữ liệu để đủ gọi là ” big ” vẫn còn được tranh luận, nhưng nó có thể là các bội số của petabyte – và các dự án lớn nhất với phạm vi exabytes.
Big data thường đặc trưng với ba Vs:
  1. Khối lượng dữ liệu
  2. Nhiều loại dữ liệu đa dạng
  3. Vận tốc mà dữ liệu cần phải được xử lý và phân tích
Dữ liệu tạo thành các kho dữ liệu lớn có thể đến từ các nguồn bao gồm các trang web, phương tiện truyền thông xã hội, ứng dụng dành cho máy tính để bàn và ứng dụng trên thiết bị di động, các thí nghiệm khoa học, và các thiết bị cảm biến ngày càng tăng và các thiết bị khác trong internet (IoT).
Khái niệm big data đi kèm với các thành phần có liên quan cho phép các tổ chức đưa dữ liệu vào sử dụng thực tế và giải quyết một số vấn đề kinh doanh, bao gồm cơ sở hạ tầng IT cần thiết để hỗ trợ big data; các phân tích áp dụng với dữ liệu; công nghệ cần thiết cho các dự án big data; các bộ kĩ năng liên quan; và các trường hợp thực tế có ý nghĩa đối với big data.

Big data and analytics

Điều thực sự mang lại giá trị từ các tổ chức dữ liệu lớn là phân tích dữ liệu. Nếu không có phân tích, nó chỉ là một tập dữ liệu với việc sử dụng hạn chế trong kinh doanh.
Bằng cách phân tích dữ liệu lớn, các công ty có thể có những lợi ích như tăng doanh thu, dịch vụ khách hàng được cải thiện, hiệu quả cao hơn và tăng khả năng cạnh tranh.
Phân tích dữ liệu liên quan đến việc kiểm tra bộ dữ liệu để thu thập thông tin chi tiết hoặc rút ra kết luận về những gì chúng chứa, chẳng hạn như các xu hướng và dự đoán về hoạt động trong tương lai.
Bằng cách phân tích dữ liệu, các tổ chức có thể đưa ra các quyết định kinh doanh tốt hơn như khi nào và ở đâu nên chạy chiến dịch tiếp thị hoặc giới thiệu một sản phẩm hoặc dịch vụ mới.
 
Sự phân tích có thể tham khảo các ứng dụng kinh doanh thông minh hay tiên tiến hơn, phép phân tích dự đoán như ứng dụng được các tổ chức khoa học sử dụng. Loại phân tích dữ liệu cao cấp nhất là data mining, nơi các nhà phân tích đánh giá các bộ dữ liệu lớn để xác định mối quan hệ, mô hình và xu hướng.
Phân tích dữ liệu có thể bao gồm phân tích dữ liệu thăm dò ( để xác định các mẫu và mối quan hệ trong dữ liệu) và phân tích dữ liệu xác nhận ( áp dụng các kĩ thuật thống kê để tìm ra giả thiết về một bộ dữ liệu có đúng hay không).
Một mảng khác là phân tích dữ liệu định lượng ( hoặc phân tích dữ liệu số có các biến có thể so sánh theo thống kê) so với phân tích dữ liệu định tính ( tập trung vào các dữ liệu không phải là dữ liệu cá nhân như video, hình ảnh và văn bản).

Cơ sở hạ tầng IT để hỗ trợ big data

Đối với khái niệm big data để làm việc, các tổ chức cần phải có cơ sở hạ tầng để thu thập và chứa dữ liệu, cung cấp quyền truy cập và đảm bảo thông tin trong khi lưu trữ và chuyển tiếp.
Ở cấp độ cao, bao gồm hệ thống lưu trữ và máy chủ được thiết kế cho big data, phần mềm quản lý và tích hợp dữ liệu, thông tin kinh doanh và phần mềm phân tích dữ liệu, và các ứng dụng big data.
Phần lớn các cơ sở hạ tầng này sẽ tập trung một chỗ, vì các công ty muốn tiếp tục tận dụng các khoản đầu tư vào trung tâm dữ liệu của mình. Nhưng ngày càng có nhiều tổ chức dựa vào các dịch vụ điện toán đám mây để xử lý nhiều yêu cầu big data của họ.
Thu thập dữ liệu đòi hỏi phải có nguồn. Rất nhiều trong số những ứng dụng sau đây, như các ứng dụng web, các kênh truyền thông xã hội, ứng dụng di động và lưu trữ email đã được cài sẵn. Nhưng khi IoT trở nên phổ biến hơn, các công ty có thể cần phải triển khai cảm biến trên tất cả các loại thiết bị, phương tiện và sản phẩm để thu thập dữ liệu, cũng như các ứng dụng mới tạo ra dữ liệu người dùng. (Phân tích dữ liệu theo định hướng IoT có các kỹ thuật và công cụ chuyên biệt của nó.)
Để lưu trữ tất cả các dữ liệu đến, các tổ chức cần phải có đủ dung lượng lưu trữ tại chỗ. Các tùy chọn lưu trữ bao gồm kho dữ liệu truyền thống, data lakes và lưu trữ trên đám mây.
Các công cụ cơ sở hạ tầng bảo mật có thể bao gồm việc mã hóa dữ liệu, xác thực người dùng và các điều khiển truy cập khác, hệ thống giám sát, tường lửa, quản lý di động của doanh nghiệp và các sản phẩm khác để bảo vệ hệ thống và dữ liệu.

Big-data-specific technologies

Ngoài cơ sở hạ tầng IT được sử dụng cho dữ liệu nói chung, có một số công nghệ cụ thể dành cho big data mà cơ sở hạ tầng IT của bạn nên hỗ trợ.
Hệ sinh thái Hadoop
Hadoop là một trong những công nghệ liên quan chặt chẽ nhất với big data. Dự án Apache Hadoop phát triển phần mềm mã nguồn mở cho máy tính có khả năng mở rộng và phân tán.
Thư viện phần mềm Hadoop là một khuôn mẫu cho phép xử lý phân tán các bộ dữ liệu lớn trên các nhóm máy tính sử dụng các mô hình lập trình đơn giản. Nó được thiết kế để mở rộng từ một máy chủ duy nhất sang hàng ngàn máy khác, mỗi máy cung cấp tính toán và lưu trữ cục bộ.
Dự án bao gồm rất nhiều phần:
  1. Hadoop Common, các tiện ích phổ biến hỗ trợ các phần Hadoop khác
  2. Hadoop Distributed File System, cung cấp khả năng truy cập dữ liệu ứng dụng cao
  3. Hadoop YARN, một khuôn mẫu cho kế hoạch làm việc và quản lý tài nguyên cụm
  4. Hadoop MapReduce, một hệ thống dựa trên YARN để xử lý song song bộ dữ liệu lớn.
Apache Spark
Một phần của hệ sinh thái Hadoop, Apache Spark là một khuôn mẫu tính toán cụm nguồn mở được sử dụng làm công cụ xử lý big data trong Hadoop. Spark đã trở thành một trong những khuôn mẫu xử lý big data quan trọng, và có thể được triển khai theo nhiều cách khác nhau. Nó cung cấp các ràng buộc bản địa đối với Java, Scala, Python (đặc biệt là Anaconda Python distro ), và ngôn ngữ lập trình R ( R đặc biệt phù hợp với big data ) và hỗ trợ SQL, streaming data, machine learning và xử lý đồ thị.
Data lakes
Data lakes là các kho lưu trữ chứa khối lượng dữ liệu thô rất lớn ở định dạng gốc của nó cho đến khi những người dùng doanh nghiệp cần dữ liệu. Các yếu tố giúp tăng trưởng data lakes là những phong trào kỹ thuật số và sự phát triển của IoT. Các data lakes được thiết kế để giúp người dùng dễ dàng truy cập vào một lượng lớn dữ liệu khi có nhu cầu.
NoSQL Databases
Các cơ sở dữ liệu SQL thông thường được thiết kế cho các giao dịch đáng tin cậy và các truy vấn ngẫu nhiên, nhưng chúng có những hạn chế như giản đồ cứng nhắc làm cho chúng không phù hợp với một số loại ứng dụng. Cơ sở dữ liệu NoSQL nêu ra những hạn chế, và lưu trữ và quản lý dữ liệu theo những cách cho phép tốc độ hoạt động cao và sự linh hoạt tuyệt vời. Nhiều cơ sở dữ liệu đã được phát triển bởi các công ty tìm cách tốt hơn để lưu trữ nội dung hoặc xử lý dữ liệu cho các trang web lớn. Không giống như các cơ sở dữ liệu SQL, nhiều cơ sở dữ liệu NoSQL có thể được mở rộng theo chiều ngang trên hàng trăm hoặc hàng ngàn máy chủ.
In-memory databases
Cơ sở dữ liệu trong bộ nhớ (IMDB) là một hệ thống quản lý cơ sở dữ liệu chủ yếu dựa vào bộ nhớ chính, thay vì đĩa, để lưu trữ dữ liệu. Cơ sở dữ liệu trong bộ nhớ nhanh hơn các cơ sở dữ liệu được tối ưu hóa trong đĩa, một điểm quan trọng để sử dụng phân tích big data và tạo ra các kho dữ liệu và các siêu dữ liệu.

Các kĩ năng big data

Big data và các nỗ lực phân tích big data yêu cầu kĩ năng cụ thể, dù là từ bên trong tổ chức hay thông qua các chuyên gia bên ngoài.
Nhiều kĩ năng có liên quan đến các thành phần công nghệ dữ liệu quan trọng như Hadoop, Spark, NoSQL, cơ sở dữ liệu trong bộ nhớ và phần mềm phân tích.
Các lĩnh vực khác cụ thể là về các nguyên tắc như khoa học dữ liệu, khai thác dữ liệu, phân tích thống kê và định lượng, hình dung dữ liệu, lập trình mục đích chung, và cấu trúc dữ liệu và các thuật toán. Ngoài ra cũng cần có những người có kĩ năng quản lý tổng thể để quản lý tiến độ của các dự án big data.
Với độ phổ biến của các dự án phân tích dữ liệu và sự thiếu hụt nhân lực về các kĩ năng trên, việc tìm kiếm các chuyên gia có kinh nghiệm có thể là một trong những thách thức lớn nhất đối với các tổ chức.

Các trường hợp sử dụng Big data

Big data và phân tích có thể được áp dụng trong nhiều vấn đề kinh doanh và nhiều trường hợp sử dụng khác nhau. Sau đây là vài ví dụ:
  1. Phân tích khách hàng. Các công ty có thể kiểm tra dữ liệu khách hàng để nâng cao trải nghiệm của khách hàng, cải thiện tỉ lệ chuyển đổi và giữ khách hàng tốt hơn.
  2. Phân tích hoạt động. Nâng cao hiệu quả hoạt động và sử dụng tốt hơn tài sản của công ty là mục tiêu của nhiều công ty. Phân tích big data có thể giúp doanh nghiệp vận hành hiệu quả hơn và cải thiện hiệu suất.
  3. Phòng chống gian lận. Phân tích dữ liệu có thể giúp các tổ chức xác định các hoạt động khả nghi, và các mẫu có thể chỉ ra hành vi gian lận và giúp giảm thiểu rủi ro.
  4. Tối ưu hóa giá cả. Các công ty có thể sử dụng phân tích big data để tối ưu hóa giá đặt cho sản phẩm và dịch vụ, giúp tăng doanh thu.
——————————-
– Big Data Explaination Series –
Analyzing lots of data is only part of what makes big data analytics different from previous data analytics. Learn what the other aspects are.
There’s data, and then there’s big data. So, what’s the difference?

How would you define Big Data?

Big data in general refers to sets of data that are so large in volume and so complex that traditional data processing software products are not capable of capturing, managing, and processing the data within a reasonable amount of time.
These big data sets can include structured, unstructured, and semistructured data, each of which can be mined for insights.
How much data actually constitutes “big” is open to debate, but it can typically be in multiples of petabytes—and for the largest projects in the exabytes range.
Often, big data is characterized by the three Vs:
  1. an extreme volume of data
  2. a broad variety of types of data
  3. the velocity at which the data needs to be processed and analyzed
The data that constitutes big data stores can come from sources that include web sites, social media, desktop and mobile apps, scientific experiments, and—increasingly—sensors and other devices in the internet of things (IoT).
The concept of big data comes with a set of related components that enable organizations to put the data to practical use and solve a number of business problems. These include the IT infrastructure needed to support big data; the analytics applied to the data; technologies needed for big data projects; related skill sets; and the actual use cases that make sense for big data.

Big data and analytics

What really delivers value from all the big data organizations are gathering is the analytics applied to the data. Without analytics, it’s just a bunch of data with limited business use.
By applying analytics to big data, companies can see benefits such as increased sales, improved customer service, greater efficiency, and an overall boost in competitiveness.
Data analytics involves examining data sets to gain insights or draw conclusions about what they contain, such as trends and predictions about future activity.
By analyzing data, organizations can make better-informed business decisions such as when and where to run a marketing campaign or introduce a new product or service.
Analytics can refer to basic business intelligence applications or more advanced, predictive analytics such as those used by scientific organizations. Among the most advanced type of data analytics is data mining, where analysts evaluate large data sets to identify relationships. patterns, and trends.
Data analytics can include exploratory data analysis (to identify patterns and relationships in data) and confirmatory data analysis (applying statistical techniques to find out whether an assumption about a particular data set is true.
Another distinction is quantitative data analysis (or analysis of numerical data that has quantifiable variables that can be compared statistically) vs. qualitative data analysis (which focuses on nonnumerical data such as video, images, and text).

IT infrastructure to support big data

For the concept of big data to work, organizations need to have the infrastructure in place to gather and house the data, provide access to it, and secure the information while it’s in storage and in transit.
At a high level, these include storage systems and servers designed for big data, data management and integration software, business intelligence and data analytics software, and big data applications.
Much of this infrastructure will likely be on-premises, as companies look to continue leveraging their datacenter investments. But increasingly organizations rely on cloud computing services to handle much of their big data requirements.
Data collection requires having sources to gather the data. Many of these—such as web applications, social media channels, mobile apps, and email archives—are already in place. But as IoT becomes entrenched, companies might need to deploy sensors on all sorts of devices, vehicles, and products to gather data, as well as new applications that generate user data. (IoT-oriented big data analytics has its own specialized techniques and tools.)
To store all the incoming data, organizations need to have adequate data storage in place. Among the storage options are traditional data warehouses, data lakes, and cloud-based storage.
Security infrastructure tools might include data encryption, user authentication and other access controls, monitoring systems, firewalls, enterprise mobility management, and other products to protect systems and data.

Big-data-specific technologies

In addition to the foregoing IT infrastructure used for data in general. There several technologies specific to big data that your IT infrastructure should support.
Hadoop ecosystem
Hadoop is one of the technologies most closely associated with big data. The Apache Hadoop project develops open source software for scalable, distributed computing.
The Hadoop software library is a framework that enables the distributed processing of large data sets across clusters of computers using simple programming models. It’s designed to scale up from a single server to thousands, each offering local computation and storage.
The project includes several modules:
  1. Hadoop Common, the common utilities that support other Hadoop modules
  2. Hadoop Distributed File System, which provides high-throughput access to application data
  3. Hadoop YARN, a framework for job scheduling and cluster resource management
  4. Hadoop MapReduce, a YARN-based system for parallel processing of large data sets.
Apache Spark
Part of the Hadoop ecosystem, Apache Spark is an open source cluster-computing framework that serves as an engine for processing big data within Hadoop. Spark has become one of the key big data distributed processing frameworks, and can be deployed in a variety of ways. It provides native bindings for the Java, Scala, Python (especially the Anaconda Python distro), and R programming languages (R is especially well suited for big data), and it supports SQL, streaming data, machine learning, and graph processing.
Data lakes
Data lakes are storage repositories that hold extremely large volumes of raw data in its native format until the data is needed by business users. Helping to fuel the growth of data lakes are digital transformation initiatives and the growth of the IoT. Data lakes are designed to make it easier for users to access vast amounts of data when the need arises.
NoSQL databases
Conventional SQL databases are designed for reliable transactions and ad hoc queries, but they come with restrictions such as rigid schema that make them less suitable for some types of applications. NoSQL databasesaddress those limitations, and store and manage data in ways that allow for high operational speed and great flexibility. Many were developed by companies that sought better ways to store content or process data for massive websites. Unlike SQL databases, many NoSQL databases can be scaled horizontally across hundreds or thousands of servers.
In-memory databases
An in-memory database (IMDB) is a database management system that primarily relies on main memory, rather than disk, for data storage. In-memory databases are faster than disk-optimized databases, an important consideration for big data analytics uses and the creation of data warehouses and data marts.

Big data skills

Big data and big data analytics endeavors require specific skills, whether they come from inside the organization or through outside experts.
Many of these skills are related to the key big data technology components, such as Hadoop, Spark, NoSQL databases, in-memory databases, and analytics software.
Others are specific to disciplines such as data science, data mining, statistical and quantitative analysis, data visualization, general-purpose programming, and data structure and algorithms. There is also a need for people with overall management skills to see big data projects through to completion.
Given how common big data analytics projects have become and the shortage of people with these types of skills, finding experienced professionals might be one of the biggest challenges for organizations.

Big data use cases

Big data and analytics can be applied to many business problems and use cases. Here are a few examples:
  1. Customer analytics. Companies can examine customer data to enhance customer experience, improve conversion rates, and increase retention.
  2. Operational analytics. Improving operational performance and making better use of corporate assets are the goals of many companies. Big data analytics can help businesses find ways to operate more efficiently and improve performance.
  3. Fraud prevention. Data analysis can help organizations identify suspicious activity and patterns that might indicate fraudulent behavior and help mitigate risks.
  4. Price optimization. Companies can use big data analytics to optimize the prices they charge for products and services, helping to boost revenue.
Vietnam MarTech via InfoWorld
Edited by Robert Vu
Pre-sale Questions