NoSQL e BIG DATA

5

Estou fazendo um estágio em tecnologias de Big Data, portanto, sou novo nessa área. Minha pergunta é sobre o uso do NoSQL na arquitetura Big Data. Precisamos sempre usar um armazenamento distribuído (como o HDFS no caso do Hadoop) para colocar em cima de um banco de dados NoSQL (como o Hbase)?

Acho difícil entender a arquitetura típica do BIG Data especialmente para dados não estruturados.

Se você puder me ajudar a ver melhor, ficarei muito agradecido.

    
por soufiane.989 25.03.2013 / 09:48
fonte

4 respostas

0

A maioria das tecnologias de big data é distribuída por design, porque a idéia de big data é que seu banco de dados é muito grande e muito freqüentado para ser tratado apenas por um servidor.

Mas a maioria das novas tecnologias de banco de dados distribuídas (algumas das quais podem ser chamadas de NoSQL) não usam uma plataforma separada como o HDFS como back-end de armazenamento distribuído, mas vêm com as suas próprias. O MongoDB, para citar apenas um exemplo, é executado como processos diferentes em vários servidores que se comunicam entre si para formar clusters e shards.

    
por 28.03.2013 / 10:37
fonte
4

De link

NoSQL database systems are often highly optimized for retrieval and appending operations and often offer little functionality beyond record storage (e.g. key–value stores). The reduced run-time flexibility compared to full SQL systems is compensated by marked gains in scalability and performance for certain data models.

In short, NoSQL database management systems are useful when working with a huge quantity of data when the data's nature does not require a relational model. The data can be structured, but NoSQL is used when what really matters is the ability to store and retrieve great quantities of data, not the relationships between the elements.

  • Precisamos sempre usar um armazenamento distribuído (como o HDFS no caso do Hadoop) para colocar em cima um banco de dados NoSQL (como o Hbase)?

Para larga escala, é melhor usar armazenamento distribuído com o NoSQL. Mas, para pequena escala, você pode usar o sistema de armazenamento comum.

  • Acho difícil entender a arquitetura de dados BIG típica, especialmente para dados não estruturados.

De link

Unstructured Data (or unstructured information) refers to information that either does not have a pre-defined data model and/or does not fit well into relational tables. Unstructured information is typically text-heavy, but may contain data such as dates, numbers, and facts as well. This results in irregularities and ambiguities that make it difficult to understand using traditional computer programs as compared to data stored in fielded form in databases or annotated (semantically tagged) in documents.

De link

In information technology, big data is a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications.

Big data usually includes data sets with sizes beyond the ability of commonly used software tools to capture, curate, manage, and process the data within a tolerable elapsed time. Big data sizes are a constantly moving target, as of 2012 ranging from a few dozen terabytes to many petabytes of data in a single data set. With this difficulty, new platforms of "big data" tools are being developed to handle various aspects of large quantities of data.

Para entender a arquitetura BIG Data especialmente para dados não estruturados, veja como os Giants trabalham com Big Data.

Por exemplo, Google

Por exemplo, IBM

Porexemplo,Facebook

por 28.03.2013 / 13:37
fonte
0

O armazenamento distribuído é um detalhe de implementação mais do que necessário para entender como lidar com dados BIG. Eu me concentraria em capturar dados não estruturados primeiro, o que é mais uma característica e mais importante para o grok.

    
por 25.03.2013 / 14:51
fonte
-1

O uso do armazenamento distribuído está ajudando a obter a utilização adequada das tecnologias NoSQl, caso você precise utilizar ou aproveitar ao máximo essas tecnologias, com o big data necessário para usar o armazenamento distribuído.

    
por 28.03.2013 / 09:01
fonte