SuperNAS: 2015

maandag 28 december 2015

Internet of things: Welke rol speelt jouw bedrijf hierin?

Wat is IoT?

Het Internet of Things is het netwerk van fysieke objecten of dingen ingebed met electronica, software, sensors en netwerk connectiviteit, welke deze objecten in staat stelt om data te verzamelen en uit te wisselen. IoT maakt het mogelijk dat objecten opgemerkt en op afstand bediend worden over een bestaande netwerk infrastructuur, wat kansen creëert voor directere integratie van de fysieke wereld en computergebaseerde systemen, en resulteert in betere efficiëntie, nauwkeurigheid en economisch voordeel. (https://en.wikipedia.org/wiki/Internet_of_Things)

Een bekend voorbeeld is dat je buitenshuis de thermostaat kunt regelen, zodat het huis al op temperatuur is als je thuis aankomt. Maar dit concept kan voor gigantisch veel meer doeleinden worden gebruikt. Zo wordt het gebruikt om infrastructuur als bruggen en tunnels te managen, zoals het monitoren van veranderingen die invloed hebben op de veiligheid. Ook wordt het toegepast in transport. Door interactie tussen verschillende aspecten van het transport systeem kan bijvoorbeeld het logistieke proces enorm geopitimaliseerd worden.

Hoe ga jij eraan bijdragen?

Het wordt geschat dat in 2020 50 miljard objecten over de wereld verbonden zullen zijn via het internet. Met andere woorden; je zult er hoe dan ook mee te maken krijgen. In welke vorm zal dat zijn?

Frank Burkitt heeft een interessante 'gids' gemaakt voor strategen om hen te helpen een strategie te vormen voor het omgaan met en bijdragen aan de IoT.

Stap 1 in het ontwikkelen van een strategie is het bepalen van de rol die je wilt en kan spelen in deze ontwikkeling die nu echt serieuze vormen begint aan te nemen. Zo kun je een 'Enabler' zijn (de technologie ervoor creëren), een 'Engager' zijn (de link bieden tussen IoT en de markt), of een 'Enhancer' zijn (nieuwe waarde toevoegen door nieuwe creaties).

De andere stappen zijn het nagaan hoe jouw zakelijke omgeving verandert door IoT, het ontwikkelen van bekwaamheid in experience design, het bedenken welke producten en diensten verbeterd of gecreëerd kunnen worden met IoT, het inschatten van de nieuwe business modellen die kunnen ontstaan en welke je interessant vindt, en het bepalen (aan de hand van de bekwaamheden van de organisatie) hoe je je wilt onderscheiden. Lees voor meer informatie het artikel van Frank Burkitt hier.

Onderneem actie

Dit soort disruptive ontwikkelingen wordt te vaak onderschat. Veel mensen nemen niet de moeite om zich er even in te verdiepen en een gefundeerde, eerlijke inschatting te maken van de effecten die ze kunnen hebben op de organisatie. Toch is het heel belangrijk om dit te doen, bijvoorbeeld vanwege het 'first-mover advantage' en de mogelijk rampzalige gevolgen voor de concurrentiepositie als je zo'n belangrijke ontwikkeling links laat liggen.

Verdiep je er even een uurtje in en organiseer dan een brainstorm sessie met collega's van verschillende afdelingen om te bepalen hoe jullie gaan reageren op/bijdragen aan deze ontwikkeling. De kleine stap die je nu neemt kan de cruciale stap zijn.

maandag 21 december 2015

IT afdeling: Van opereren naar adviseren en innoveren

Verandering in het IT landschap
De maatschappij, het bedrijfsleven en het IT landschap verandert met een snelheid als nooit tevoren. De tijd van inflexibele, standaard systemen die jaren in ongeveer dezelfde staat mee gaan is zo goed als voorbij. Snel reageren op ontwikkelingen in de markt of juist zelf de ontwikkelingen veroorzaken is een belangrijke succesfactor.

Het aanschaffen van complexe systemen kost veel tijd en moeite en laat bedrijfprocessen vastroesten, waardoor de beweeglijkheid van de organisatie afneemt. Zeker met de komst van een concept als cloud computing is IT outsourcing steeds meer van deze tijd. Door outsourcing heb je de kans om te profiteren van schaalvoordelen en van de kracht van focus en specialisme.

Verandering in de rol van de IT afdeling
Maar als een (groot) gedeelte van de IT activiteiten wordt uitbesteed, wat blijft er dan nog over voor de interne IT afdeling? Is de interne IT afdeling nog wel nuttig?

Jazeker! Hoewel deze wel zal veranderen. Er hoeft minder tijd besteed te worden aan het stoeien met bits, RAM en schijven, want dat besteed je uit. Waar de tijd wel aan besteed dient te worden is het opsporen van IT oplossingen en het samenstellen van een technologisch portfolio die het realiseren van de bedrijfdoelen ondersteunt.

Adviseren
Met het grote aanbod in computing oplossingen van verschillende aanbieders dient er vastgesteld te worden welke oplossing van weke aanbieder goed aansluit op de behoefte van de organisatie. Hoewel de aanbieders zelf ook een behoeftebepaling kunnen doen bij bedrijven en een passende oplossing kunnen vinden, zijn deze partijen niet belangenloos en is het goed mogelijk dat ze niet de keuze die het beste is voor het bedrijf adviseren, maar de keuze die het beste is voor zichzelf. Daarentegen kan de interne IT afdeling belangenloos een objectief advies uitbrengen en zijn uitgebreide kennis van de organisatie hierbij benutten.

Innoveren
Naast adviseren heeft de interne IT afdeling nog een belangrijke taak. Met hun kennis van technologische mogelijkheden en nieuwe ontwikkelingen kunnen zij proactief gedrag vertonen in de vom van het bijdragen aan innovatie d.m.v. het genereren van nieuwe ideëen. Als zij nauw samenwerken met bijv. de R&D afdeling en de visie van het bedrijf scherp in beeld hebben, kunnen zij makkelijker technologische ontwikkelingen vertalen naar nieuwe producten/diensten om op die manier significant bij te dragen aan het bereiken van de bedrijfsdoelen.

Ben je een werknemer op een interne IT afdeling, stap dan eens naar het management of naar R&D om te bespreken hoe jij op een proactievere manier kan bijdragen aan het ontwikkelen en laten slagen van innoverende initiatieven.

maandag 14 december 2015

Snelle data overdracht, snelle business.

Het belang van snelle data overdracht technologie

“If everything seems under control, you're not going fast enough.” - Mario Andretti.

Tijd is geld. Of liever gezegd; Tijd is succes. Om dit te maximaliseren wil je sommige dingen langzaam doen en andere dingen snel. Een van de dingen die je graag snel wilt doen is data overdracht. Als data niet belangrijk genoeg is om snel op de plaats van bestemming te komen, hoeft het waarschijnlijk überhaupt niet verzonden te worden.

We genereren steeds meer bestanden en hogere kwaliteit bestanden, wat problemen met snelheid oplevert. Bedrijven zijn op zoek naar nieuwe technologieën voor de overdracht van deze grote bestanden en het samenvoegen van data sets.

Nou hoor ik je vragen: 'Maar met cloud computing is er toch geen data overdracht nodig? Met een linkje krijg ik toegang tot het betreffende bestand op de locatie waar het al stond.' Echter, niet elk bestand zou je van een afstand willen bereiken, namelijk in situaties waarbij de snelheid van de internetverbinding niet voldoende is. Voor film bewerking bijvoorbeeld is het belangrijk dat gedeelten van het filmmateriaal zeer snel beschikbaar zijn. Aangezien het enorme bestanden betreft, is het te traag als dit over het internet gaat. Het filmmateriaal moet daarom lokaal beschikbaar zijn, en dus verplaatst worden.
Een ander voorbeeld is dat bedrijven steeds meer met hyper-converged systemen werken (zie vorige post), waardoor grote hoeveelheden bedrijfsdata verplaatst moeten worden naar deze nieuwe systemen.
Kortom, in de globale economie met internationale kantoren en medewerkers en partners op afstand, is ondanks cloud computig, snelle data overdracht van groot belang.

Snelheid problemen
Helaas is traditionele technologie (die wordt gebruikt met single-purpose machines) niet geschikt voor de overdracht van de gigantische bestanden van tegenwoordig, omdat het niet aan de snelheids vereisten voldoet. Met name bij grote afstanden of complexe paden levert dit grote problemen op en leiden allerlei truken die uit de kast gehaald worden om performance te verhogen tot netwerk overload en verlies van data (integriteit).

Nieuwe technologie moet significante toenamen in snelheid realiseren, met behoud van betrouwbaarheid.

Oplossingen zijn onderweg
Software technologie aanbieders geven gehoor aan de groter wordende bestandsformaten met high-speed data overdracht oplossingen. Performance metrics worden herschreven voor next-generation bestand en data overdracht technieken die nodig zijn voor de volgende fase van business integratie.

De huidige sprong in high-speed bestand overdracht oplossingen stelt bedrijven in staat om om te gaan met de vraag naar grotere bestanden en het samenvoegen van bestanden, zonder het ingewikkelde en ineffectieve gedoe met traditionele methoden. Aangezien snelheid belangrijk is voor een scherpe concurrentie positie en het bereiken van successen, gaan de nieuwe data overdracht technieken een belangrijke rol spelen in de aankomende jaren. Hou deze dus in de gaten!

maandag 7 december 2015

Hyper-converged systemen: Standaardisatie en maatwerk gaan hand in hand

Hyper-converged systemen:
eenvoudig...
Hyper-converged systemen zijn systemen waarbij computing, storage, virtualisatie, netwerk en management zijn geïntegreerd in een enkele, alles-in-één machine.
Al deze onderdelen zijn op elkaar afgestemd en getest, waardoor je weet dat ze (samen) goed functioneren. Dit houdt in dat je niet zelf op zoek hoeft te gaan naar losse componenten en die op elkaar af moet stemmen, waardoor je de enorme hoeveelheid tijd en moeite die daarmee gepaard kan gaan bespaart. Het is een kwestie van een hyper-converged systeem uitzoeken en deze op een simpele manier installeren.

Vergelijk dit eens met een smartphone. Waarschijnlijk heb je die ook niet zelf in elkaar gezet door een samenstelling te maken van een zelf uitgezocht scherm, camera lens, geheugen, etcetera. Er zijn standaard smartphones te koop waarbij de samenstelling van de producten die jij hoogstwaarschijnlijk wenst te gebruiken al is gemaakt. Dit is voor jou lekker eenvoudig en zal voor het gros van de mensen goed genoeg tot ruim voldoende zijn.

...maar toch afgestemd op de behoefte...
Toch zal je wel iets van maatwerk willen. One size fits all is misschien niet goed genoeg. Gelukkig kan je zo'n hyper-converged systeem polijsten naar je behoefte. Zo kun je zelf kiezen welke applicaties je er op wilt zetten. Ook dit kan op een zeer eenvoudige manier, doordat er applicaties zijn die met slechts een paar drukken op de knop geïnstalleerd kunnen worden op het systeem en er ook goed op functioneren omdat dat al is getest.
De Turnkey Linux apps bijvoorbeeld, waar ik vorige week over sprak, kun je op deze manier eenvoudig gebruiken op een hyper-converged systeem met het open source KVM. Maar er zijn ook apps die juist goed werken met bijvoorbeeld VMware.

Dit concept is vergelijkbaar met het feit dat je met je 'standaard' smartphone ook nog een hoop keuze vrijheid hebt. Je kunt die namelijk configureren zoals jij dat wilt, door de apps te kiezen en installeren die jij wilt. Ook hierbij kun je kiezen voor een operating system, zoals Android of Apple iOS, en zijn de apps zo gemaakt dat ze goed functioneren op het betreffende operating system.

... en bij de tijd
Of je zo'n hyper-converged systeem aanschaft voor eigen gebruik, of inzet als een host voor cloud computing, waarbij je de resources verhuurt en de klant zelf laat bepalen welke apps hij/zij wilt gebruiken, deze alles-in-één systemen passen echt bij deze tijd. Het gemak van standaard in combinatie met de vrijheid van 'self-service' maatwerk biedt de kans om de focus te verleggen van operatie naar innovatie, wat een stuk leuker en winstgevender is.

maandag 30 november 2015

Free Turnkey Linux software; waarom zou je het wiel opnieuw uitvinden?

De kracht van open source software
Als iets gratis is, zoals bij open source producten, worden we al snel achterdochtig. 'Wat is het addertje onder het gras?' 'De kwaliteit kan nooit goed zijn.' Etcetera. Hoewel dat misschien meer zegt over onszelf dan over de het concept open source.

Een belangrijk idee achter open source software is dat het inefficiënt is als we onze kennis en ervaringen niet delen en allemaal het wiel opnieuw gaan uitvinden. Als software gratis is, en we het vrij kunnen gebruiken, distribueren, verbeteren en ervan leren, wordt een drempel naar vooruitgang weggenomen. Gratis software is de stille, vaak onzichtbare kracht achter de grootste technologische ontwikkelingen van onze eeuw.

Helaas wordt de kracht van open source software niet goed genoeg benut, omdat te weinig mensen er van af weten en nog minder mensen de vaardigheden hebben om er optimaal van te profiteren. Het ontdekken, configureren en testen van combinaties van componenten voor het ontwikkelen van software kan lastig en tijdrovend zijn.

Turnkey Linux
Linux wil daar verandering in brengen. Om de toegevoegde waarde van hun open source middelen te maximaliseren hebben zij met Turnkey Linux een simpele maar krachtige distributie en ontwikkelings toolkit ontwikkeld, welke het creëren van voorgemonteerde oplossingen die in slechts enkele minuten geïmplementeerd kunnen worden makkelijk maakt.

Voordelen

100+ ready-to-use oplossingen die op bare metal, virtual machines en in de cloud geïmplementeerd kunnen worden
Gratis in de zin dat er geen licentie kosten betaald hoeven te worden, maar je wel kunt bijdragen door de software te verbeteren en die verbeteringen te delen met andere gebruikers en ontwikkelaars
Veilig en gemakkelijk te onderhouden door dagelijkse, automatische security updates
Het werkt omdat het is ontworpen voor en getest op gebruiksvriendelijkheid
Backup en migratie door de built-in backup software
Lichtgewicht doordat het zo efficiënt mogelijk is gebouwd met zo min mogelijk componenten

Ook u kunt heel eenvoudig gebruik maken van deze poel aan kwalitatieve, gratis applicaties. Zo kunt u profiteren van de waarde die het oplevert als wereldwijd vele engineers en andere bijdragers met kritische ogen en hun ervaringen naar de software kijken en deze naar steeds hogere niveaus tillen. Dit zonder hoge licentie kosten, vendor lock-in en vergelijkbare innovatie drempels.

Zelf kunt u ook bijdragen. Door uw specifieke behoeften kunt u aanpassingen in de software vereisen waar iemand anders nooit eerder over na had gedacht. Zo kunt u zelf of met behulp van een gespecialiseerde bijdrager uit de open source community de software aanpassen zodat het nog beter aansluit op uw behoefte. Grote kans dat anderen hier ook bij gebaat zijn. Op deze manier bundelen we onze krachten, waardoor er gemakkelijker nog mooiere innovaties in het leven geroepen kunnen worden. It's worth a shot!

maandag 23 november 2015

Vrijheid door modulariteit.

Gestandaardiseerde systemen kunnen makkelijk en goedkoop zijn, met name voor de leverancier. Maar ga je er ook het verschil mee maken? Dragen ze bij aan je visie en helpen ze je een stevige concurrentiepositie te behalen en behouden?

Mocht je differentiëren puur op prijs, dan zouden gestandaardiseerde systemen een uitkomst voor je kunnen zijn (mits je ze niet bij een A-merk aanschaft). Werk je met een andere differentiatie strategie, dan zou ik zeker een modulair systeem overwegen.

Voordelen modulariteit

Beantwoording van de behoefte:

Een modulair systeem wordt opgebouwd uit modules; net zoiets als lego stenen. Hoe meer modules het systeem uit opgebouwd kan worden, hoe meer verschillende combinaties er mogelijk zijn, en dus hoe meer verschillende systemen ermee gecreëerd kunnen worden. Dat betekent dat uw behoefte veel beter kan worden vervuld. Roeien met de riemen die je hebt is zo gek nog niet als je de keuze hebt uit een grote collectie riemen :)

Meebewegen met de markt:

Je kent misschien wel de volgende uitspraak: 'Het enige dat nooit verandert is verandering'. Bij het doen van aankopen is het dus zeer belangrijk om rekening te houden met komende veranderingen. Modulariteit houdt in dat modules in de loop van de tijd kunnen worden vervangen voor andere modules. Dit betekent dat u aan de hand van veranderingen in de markt uw systeem kunt optimaliseren door modules die niet langer geschikt zijn te vervangen voor andere modules of zelfs state-of-the-art modules.
Bijkomend voordeel is dat u op deze manier de levensduur van u systeem kunt verlengen. Niet alleen beter voor uw portemonnee, maar ook voor het milieu.

Innovatie:

De grootste vijand van innovatie is gevangenschap in elke vorm. Net zoals vendor lock-in kan standaardisatie een enorme beperking zijn. Innovatie vereist creativiteit. Bij creativiteit hoort out-of-the-box thinking en buiten gebaande paden gaan. Dat is vrijwel onmogelijk als je vast zit aan die 'box' of aan die gebaande paden.
Wat innovatie ook nodig heeft is trial and error/uitproberen. Uitproberen wordt nogal een dure en langdurige grap als het inhoudt dat een systeem geheel vervangen moet worden voor een nieuw systeem, met de nodige implementatie tijd en leer curve. Modulariteit biedt de mogelijkheid om met kleine stapjes en zonder intense gevolgen te veranderen en uit te proberen.

Innovatie kan niet gepland worden, dus of u direct allerlei nieuwe ontwikkelingen zult doen is niet zeker. Wat wel zeker is, is dat een modulair systeem de rem van uw creativiteit af haalt, u veel leert en nieuwe inzichten biedt, en u een grote stap in de richting van innovatie brengt.

maandag 16 november 2015

CEPH: Self-managing en self-healing voor gemak en betrouwbaarheid.

Storingen oplossen

Hardware falen wil je natuurlijk het liefst voorkomen, maar dat is niet altijd mogelijk. Als er toch een storing plaatsvindt wil je die zo snel mogelijk oplossen om geen dataverlies te lijden en hoge up-time te behouden, graag met behoud van performance.

CRUSH doet het werk

CRUSH, het algoritme van CEPH, heeft de unieke eigenschap dat het bewust is van de infrastructuur. Het begrijpt de relatie tussen de verschillende componenten van de infrastructuur.

Het origineel van een stuk data en de replica's worden door CRUSH opgeslagen en de locatie wordt bijgehouden in een 'map'. Dit gebeurt op zo'n manier dat de data beschikbaar blijft, zelfs als er meerdere componenten in een storing-domein falen. Dit geeft de CEPH administrator het vermogen om de data van de eigen omgeving efficiënt en automatisch te managen.

Door CRUSH is CEPH self managing en self healing. In het geval van het falen van een component detecteert CRUSH de corruptie en stelt vast welk component faalde en wat het effect daarvan op het cluster is. CRUSH is self managing en self healing in de zin dat het een herstel procedure uitvoert voor de verloren data, zonder enige administratieve interventie. De data wordt opnieuw gegenereerd dm.v. de replica's die het cluster bevat.

Voordelen: betrouwbaarheid, kostenbesparing, tijdbesparing, en innovatie

De grote voordelen van dit self managing en self healing mechanisme is dat het systeem betrouwbaar is doordat het fault-tolerant is en een hoge beschikbaarheid kan realiseren. Daarbij wordt het beheer een stuk eenvoudiger, doordat het geen administratieve interventie nodig heeft.

Dit klinkt simpel, maar heeft wel enorme positieve gevolgen. Het detecteren van storingen, opsporen van de oorzaak, en herstellen van de oorzaak en de data kan namelijk zeer veel tijd en geld kosten. Daarnaast kan het frustratie opleveren die resulteert in het maken van fouten die op hun beurt nog ergere problemen tot gevolg hebben. Als het systeem deze taak overneemt van de beheerders, kunnen die hun kwaliteiten inzetten om te innoveren i.p.v. repareren, wat waarschijnlijk veel leuker is en uw organisatie doet bloeien.

maandag 9 november 2015

CEPH: Einde van het RAID tijdperk?

Het succes van RAID
RAID technologie is jarenlang de fundamentele bouwsteen voor storage systemen geweest. Het bewees succesvol te zijn voor bijna iedere vorm van data, en de diversiteit aan RAID niveaus heeft voldoende flexibiliteit geboden voor de juiste combinaties aan capaciteit, performance en betrouwbaarheid.

Nieuwe manieren van concurreren
Echter, in de door cloud computing gekenmerkte economie van tegenwoordig schieten nieuwe applicaties als paddestoelen uit de grond en worden er met grote snelheid, keer op keer nieuwe versies van die applicaties gelanceerd. Organisaties die in staat zijn om op hoog tempo (de nieuwste versie van) hun applicaties te implementeren, worden steeds concurrerender en innovatiever. Om dit proces te ondersteunen en te vermijden dat de IT infrastructuur de flessenhals wordt, is er behoefte aan nieuwe infrastructuur middelen en processen.

RAID niet geschikt voor cloud-gebaseerde omgevingen
Zoals gezegd worden cloud omgevingen gekarakteriseerd door snelle veranderingen. Nieuwe virtuele machines worden regelmatig gecreëerd en opgestart, en oude worden afgesloten. Als gevolg ondergaat de onderliggende storage ook snelle veranderingen. Nieuwe data moet snel worden toegewezen, oude data worden vrijgemaakt. Verder moet inhoud worden verplaatst als de storage veroudert. Al dit soort vereisten zijn nogal heftig voor RAID systemen. RAID is hiervoor niet flexibel genoeg, waardoor het een zeer complex en duur geheel zou worden.

CEPH wel geschikt voor cloud-gebaseerde omgevingen
Daarenetegen zorgt object storage als CEPH ervoor dat het schalen van een storage cluster niet langer een handmatige, complexe taak is. Nodes kunnen gemakkelijk worden toegevoegd zonder downtime of verandering in de applicatie laag. Aangezien de volledige storage capaciteit kan worden beheerd als een eenheid, worden typische problemen die in het verleden ontstonden bij het toevoegen van nieuwe storage in RAID configuraties overwonnen. Bovendien gebeurt data migratie automatisch.

Naast deze flexibiliteits eisen zijn er nog andere redenen, die betrekking hebben op betrouwbaarheid, performance en capaciteit, waarom RAID, in tegenstelling tot CEPH, niet geschikt is voor cloud-gebaseerde omgevingen. (Lees ook eerdere blog posts over voordelen van CEPH).

Is RAID nog wel geschikt voor niet cloud-gebaseerde omgevingen?

Ook niet cloud-gebaseerde omgevingen, die al dan niet snel veranderen/groeien, kunnen er flink baat bij hebben om over te stappen van RAID naar object storage als CEPH, omdat het heel veel complexiteit in het beheer wegneemt, veel vrijheidsgraden heeft en toch een hoge performance en betrouwbaarheid biedt tegen overzienbare kosten. In die gevallen is de toegevoegde waarde misschien niet zo significant om de huidige RAID omgeving direct om te zetten naar CEPH omgeving, maar de kans dat dit aan het eind van de levensduur van de huidige infrastructuur toch gebeurt is zeker aanwezig en lijkt steeds groter te worden. Dat RAID ooit zal verdwijnen is misschien teveel gezegd, maar het zou wel eens kunnen dat het zijn beste jaren heeft gehad.

maandag 2 november 2015

CEPH: Erasure coding reduceert opslagruimte

Om dataverlies tegen te gaan zijn er diverse data beschermings methoden ontwikkeld. Ze hebben allemaal hun voordelen, maar ook hun nadelen. Wat in de ene situatie heel goed werkt, is in de andere situatie verre van geschikt. Om opslagruimte te besparen maakt CEPH gebruik van erasure coding.

Waarom erasure coding?
Naast erasure coding bestaan er twee belangrijke data beschermings methoden; replicatie en RAID. Deze zijn helaas niet ideaal voor de grootschalige systemen van deze tijd en van de toekomst. Daarom is erasure coding weer naar de praktijk gehaald.

Data replicatie
Bij data replicatie wordt een exacte kopie van de data op een ander storage systeem opgeslagen. Als je zo'n volledige kopie of misschien zelfs meerdere kopieën van een stuk data hebt, is verloren data snel te herstellen. Het hoeft alleen maar één op één gekopieerd te worden. Helaas kost deze methode erg veel opslagruimte, wat zeker bij grootschalige systemen enorm in de kosten kan lopen.

RAID
RAID is een hele bekende data beschermingsmethode die het efficiënter aanpakt. Door een speciale formule is het mogelijk om zonder volledige kopieën, toch verloren data te herstellen. Er is wel extra data bovenop het origineel nodig, maar het origineel hoeft niet in tweevoud opgeslagen te worden. Hierdoor wordt een hoop opslagruimte bespaard. Echter, deze methode is logistiek gezien niet geschikt voor grootschalige systemen.

Voordeel erasure coding
Erasure coding is net als RAID een data berschermings methode die een stuk efficiënter is dan data replicatie. Deze methode werkt ook met een formule om verloren data te herstellen, zonder dat er volledige kopieën nodig zijn, waardoor een hoop opslagruimte bespaard wordt. In tegenstelling tot RAID is erasure coding wel geschikt voor grootschalige systemen.

Een nadeel van zowel RAID als erasure coding is wel dat er gerekend moet worden om verloren data te herstellen, waardoor data herstel een stuk trager gebeurt dan als de data gerepliceerd was. Gelukkig is het bij CEPH ook mogelijk om erasure coding met data replicatie te combineren. Data replicatie kan dan bijvoorbeeld ingezet worden voor de veel gebruikte data en erasure coding kan dan ingezet worden voor archivering. Zo is actieve, primaire en secundaire data weer snel beschikbaar en wordt er toch veel opslagruimte bespaard.

maandag 26 oktober 2015

CEPH: Overbodig is niet nodig; efficiënt data herstel

Belang van snel herstel
Als er een probleem is ontstaan door een storing, dient dit probleem opgelost te worden. Het is belangrijk dat dit zo snel mogelijk gebeurt. Niet alleen omdat tijdens het herstellen uw systeem performance niet meer optimaal is, maar ook omdat hertselprocedures meer druk op het systeem geven, waardoor de kans op additionele storingen verhoogd is.

Kopieëren en paralellisme

Zoals genoemd in de vorige post is hier bij CEPH rekening mee gehouden. Omdat er van elk stukje data minstens één kopie bestaat, kan de data één op één hersteld worden. Er hoeft slechts een kopie van het nog bestaande stukje data gemaakt te worden, waar voorheen een rekenprocedure moest plaatsvinden om uit te rekenen wat het verloren stukje data was. Bovendien kan er in parallel hersteld worden, wat ook enorme snelheidswinst met zich meebrengt.

Alleen herstellen wat nodig is

Maar daar blijft het niet bij. Bij CEPH vinden ze namelijk dat overbodigheid niet nodig is. Als er voorheen problemen waren ontstaan door een storing, werden aangetaste disken volledig hersteld, hoewel storingen vaak alleen maar kleine gedeelten van disken aantasten. Het overgrote deel van zulke herstelprocedures betrof daarmee overbodig werk, wat leidde tot onnodig lange hersteltijden en onnodige druk op het systeem. Het is vergelijkbaar met drie weken met je arm in het gips lopen, als je slechts een ingescheurde nagel hebt, met de downtime en onproductiviteit van dien.

Bij CEPH wordt dat overbodige werk vermeden, doordat alleen de aangetaste gedeelten worden hersteld. Zo kunnen storingen waar eerder dagen hersteltijd voor nodig waren, in enkele seconden worden opgelost! Voordeel is dat de kans op additionele storingen en daarmee problemen van een veel groter kaliber enorm lager wordt.

Al met al leidt deze efficiëntere manier van herstellen tot hogere up-time, met als gevolg dat de business continuïteit en productiviteit significant verhoogd kunnen worden en het bedrijf aanzienlijk minder lijdt onder storingen.

maandag 19 oktober 2015

CEPH: Grote storage systemen, grote betrouwbaarheids problemen? Probeer CRUSH.

De grote hoeveelheid apparaten in grote storage systemen, maakt hardware gebreken eerder regel dan uitzondering, waardoor data veiligheid van kritisch belang is.

Decluster replication
Willekeurige data distributie strategieën, die het kopieëren van data distribueren i.p.v. clusteren, zijn geschikt voor grote storage systemen. Zij knippen data in stukjes en verdelen deze, en kopieën ervan, over relatief grote groepen machines. Dit heeft twee tegengestelde effecten.

Verlaagde kwestbaarheid op additionele storingen
Ten eerste kan data herstel na een storing in parallel plaatsvinden. Dit komt omdat de herstel taak niet in zijn geheel door een enkele machine uitgevoerd hoeft te worden, maar wordt verdeeld over meerdere machines die allen tegelijkertijd verantwoordelijk zijn voor het herstel van hun eigen stukje data. Hierdoor wordt herstel tijd verminderd en de kwetsbaarheid op additionele storingen, die vaak plaatsvinden tijdens intense herstelprocedures, verlaagd.

Verhoogde kwetsbaarheid op additionele storingen
Het tweede effect is dat een grotere groep machines ook juist een toename betekent in de kans dat een tweede storing op het zelfde moment plaatsvindt, waardoor er dataverlies optreedt. Dit omdat er nou eenmaal veel meer componenten zijn.

Minder geschikte oplossing
Door een kopie van elk stukje data op een andere machine op te slaan, is de kans groot dat er nog een reserve versie van een verloren stukje data bestaat in geval van een additionele storing. Dit zorgt ervoor dat de verlaagde en verhoogde kans op dataverlies elkaar opheffen. Indien er meer dan één kopie gemaakt wordt, dus meer dan twee versies van een stukje data zijn, neemt de algehele data veiligheid zelfs toe.
Echter, als er meerdere storingen plaatsvinden, kun je niet verwachten dat deze onafhankelijk van elkaar zijn. In veel gevallen tast een enkele gebeurtenis, zoals een stroomstoring, meerdere machines aan. De grotere groep machines bij declustered replication vergroten daardoor enorm het risico op dataverlies.

Geschiktere oplossing
CRUSH, het algoritme waar CEPH gebruik van maakt, heeft hier een oplossing voor. Gebruikers worden in staat gesteld om te definiëren welke domeinen 'storing-domeinen' zijn. Met een storing-domein wordt bedoeld dat het aannemelijk is dat één of meerdere machines in een gemeenschappelijk domein ook aangtast wordt/worden als een machine in dat domein een storing heeft. Het algortime zorgt ervoor dat kopieën van data niet in hetzelfde domein worden geplaatst, maar worden verdeeld over domeinen. Dit is specifiek ontworpen om gelijktijdige, correlatieve storingen die dataverlies tot gevolg hebben te voorkomen en verhoogt hierbij de betrouwbaarheid van grote storage systemen.

maandag 12 oktober 2015

CEPH: Schalen zonder performance concessies

Probleem: performance afname bij opschalen
Als organisaties grootschalige storage systemen implementeren, moeten zij enorme hoeveelheden data verdelen over misschien wel duizenden storage apparaten. Zij prefereren dan object-based storage. Dit omdat dit een efficiënte manier van opslaan is. Object-based storage systemen vereenvoudigen de layout van data door grote lijsten met informatie over data (zoals wat de locatie is), te vervangen voor eenvoudigere lijsten. Daardoor gaat het zoeken en dus het lezen en schrijven van data sneller. Hoewel de schaalbaarheid enorm verbetert door deze eenvoudigere lijsten, blijft het bijhouden van de toegewezen plaatsen voor stukken data gecentraliseerd gebeuren. Hierdoor is het lastig om de data op een goede manier te distribueren over een grote hoeveelheid storage apparaten. Een probleem dat hierbij ontstaat is dat de data en workload niet genoeg worden verdeeld over alle beschikbare middelen als een systeem wordt opgeschaald, waardoor de middelen niet efficiënt worden benut en er niet voldoende performance wordt behaald.

De oplossing: CEPH
Gelukkig maakt CEPH gebruik van het CRUSH algoritme. Dit algoritme zorgt ervoor dat storage clusters worden bevrijd van schaalbaarheids- en performance beperkingen die worden veroorzaakt door een centrale lijst met informatie over de data. In plaats van zo'n lijst is er een schaalbare, wiskundige functie om data te distribueren. Deze zorgt ervoor dat data en workload gelijkmatig worden verdeeld over het cluster, zelfs als er storage wordt toegevoegd, zodat dit niet allemaal opgevangen hoeft te worden door een beperkte hoeveelheid apparaten. Zo worden alle beschikbare middelen efficiënt gebruikt en daarmee wordt systeem performance gemaximaliseerd.

Bovendien worden grote bestanden in een grootschalig storage systeem bij CEPH opgeknipt en willekeurig gedistribueerd over een grote selectie van beschikbare apparaten, waardoor het schrijven en lezen van deze bestanden in parallel en dus enorm versneld kan plaatsvinden.

Nu bestaat er dus de mogelijkheid om ongelimiteerd te schalen met performance behoud of juist performance toename, en is groeien geen probleem meer!

Volgende week meer over de betrouwbaarheid die CEPH kan realiseren.

maandag 5 oktober 2015

CEPH: Object, block en file system storage; best of three worlds

Het een of het ander
Verschillende applicaties stellen verschillende eisen aan storage systemen. Daarom bestaan er ook verschillende technieken om data op te slaan. Ondanks dat die diversiteit in technieken bestaat, diende men voorheen toch een keuze te maken welke van deze technieken te gebruiken. Het was het een of het ander, waardoor er geprofiteerd kon worden van de voordelen van een storage techniek, maar de beperkingen ook geaccepteerd moesten worden.
De volgende drie storage technieken hebben hun eigen voordelen en beperkingen.

File system storage
File system storage is een storage techniek die met name geschikt is als men bestanden gemakkelijk wil kunnen delen. De metadata van bestanden (zoals de datum, het tijdstip en de eigenaar) wordt hierbij, om performance redenen, in een file systeem opgeslagen. Echter, het file systeem wordt erg complex als het te grote aantallen files betreft. Verder blijft de performance alleen hoog als het delen van bestanden lokaal gebeurt, omdat anders latency een rol gaat spelen.

Block storage
Block storage is een storage techniek waarbij een zeer hoge performance behaald kan worden doordat niet het storage systeem maar de applicaties regelen waar de data geplaatst wordt en hoe de storage georganiseerd wordt. Net als file system storage is deze optie minder geschikt als het zeer grote, niet lokale omgevingen betreft.

Object storage
Daarentegen is object storage geschikt als er behoefte is aan het opschalen van de infrastructuur. Door simpelweg nodes toe te voegen is storage bijna onbeperkt schaalbaar, terwijl het management van de storage eenvoudig blijft. Deze techniek zorgt ervoor dat data zo wordt opgeslagen dat het migreren van data naar een andere locatie mogelijk is.
Object storage zorgt er ook voor dat je metadata aan de data kan toevoegen zoals je wilt, waardoor er enorme kansen ontstaan op het gebied van data analyse (zoals het zoeken naar verbanden tussen stukken data). Helaas is performance over het algemeen niet direct de sterkste eigenschap van object storage.

Als je kiest voor een storage techniek, kies je niet alleen voor de voordelen, maar ook voor de beperkingen. Niet ideaal dus als je behoefte hebt aan een diversiteit in storage eigenschappen en de beperkingen problemen opleveren.

Best of three worlds
Maar goed nieuws! Kiezen is niet meer nodig. Het is niet meer OF hoge performance, OF schaalbaarheid. CEPH storage neemt berpekingen weg. Door file storage, block storage en object storage in een enkel storage cluster te verenigen, heeft u beschikking tot the best of three worlds. Verschillende storage interface behoeften worden nu tegemoet gekomen. Met CEPH kan opschalen heel gemakkelijk door extra hardware toe te voegen en blijft ook de grote omgeving eenvoudig te beheren via een enkel user interface. Daarbij kan een zeer hoge performance gerealiseerd worden. Niet alleen omdat de juiste storage techniek voor de juiste bedrijfsprocessen gebruikt kan worden, maar ook omdat CEPH storage op een bepaalde manier gebruik maakt van parallelisme (waarover later meer).

Vooral als uw organisatie applicaties draait met verschillende storage interface behoeften, of als u grootschalige storage systemen wilt implementeren, is CEPH absoluut het overwegen waard.

Volgende week vertel ik verder over de voordelen van CEPH storage.

maandag 28 september 2015

CEPH: software storage platform voor de wensen van nu

Als het om data storage gaat hebben we in grote lijnen dezelfde wensen. Het opslaan of ophalen van data moet lekker snel gebeuren, onze waardevolle data moet veilig zijn, we willen kunnen uitbreiden als dat nodig is, de kosten moeten te overzien zijn, en het liefst willen we er niet teveel moeite voor hoeven doen. Deze wensen bestaan al jaren en er zijn veel specialisten en bedrijven die door middel van software- en hardware onwikkelingen hun bijdrage leveren aan het vervullen van deze wensen.

Nieuwe storage wensen
Maar door technologische en bedrijfseconomische ontwikkelingen worden we steeds kritischer en stellen we steeds hogere eisen aan onze IT infrastructuur. Waar bijvoorbeeld RAID methodieken eerder voldeden aan performance- en betrouwbaarheids eisen, is er nu behoefte aan storage oplossingen van een ander niveau. Zeker nu verschijnselen als cloud computing en big data een steeds belangrijkere rol gaan spelen in het succes van bedrijven, zijn we op zoek naar de vergrotende trap van onze wensen: sneller, betrouwbaarder, schaalbaarder, betaalbaarder, eenvoudiger.

Super interessante storage software; CEPH
De ontwikkelaars van CEPH begrijpen dit en hebben een software storage platform gecreërd dat onze hogere eisen opvallend goed kan vervullen, met name de schaalbaarheids eis. Hierbij wat mooie eigenschappen op een rij:

voordelen
- zowel file level storage als object level storage en block level storage
- repliceert data en maakt het fault-tolerant
- zelf helend en zelf managing, waardoor beheer tijd en kosten worden geminimaliseerd
- eenvoudig in de omgang
- super snel
- de performance neemt niet af bij calamiteiten als een kapotte disk
- veerkrachtig
- open source en vrij beschikbaar
- kan gebruikt worden op betaalbare, gemakkelijk te verkrijgen hardware, zonder specifieke hardware support

Nou klinkt dit leuk, maar niet direct overtuigend. Daar is wat meer uitleg en begrip van de technieken voor nodig. Omdat CEPH nogal een interessante ontwikkeling is, zal ik in komende posts wat dieper ingaan op de eigenschappen en hoe deze kunnen uw wensen van nu kunnen vervullen.

maandag 21 september 2015

Survival of the fittest; overleeft uw bedrijf de komende jaren?

Survival of the fittest
Dit concept wordt nogal eens verkeerd opgevat. De meesten kennen het woord fit als gezond. Het verkeren in een goede lichamelijke en mentale conditie. Maar fit betekent ook passend of geschikt. Dit is hoe het woord in deze theorie van Darwin bedoeld wordt. Degene die overleeft is niet perse de sterkste, slimste, langste, grootste, o.i.d. Degene die overleeft is degene die het beste past bij of geschikt is voor de omgeving.

Veranderende omgeving
We leven in een tijd van verandering en deze verandering gebeurt in een hoog tempo.

De economie wordt steeds meer on-demand. Zo wordt er verwacht dat we steeds meer naar een economie gaan waarin professionals als zelfstandige werken en kleine organisaties deze professionals op tijdelijke basis inhuren voor projecten aan de hand van hun kwaliteiten. Steeds minder zullen organisaties grote aantallen medewerkers hebben die daar hun 25 jarig jubileum vieren.

Ook technologie wordt steeds meer on-demand. Het technologische landschap maakt een transformatie door. Gebruikers worden steeds meer betrokken bij systemen zoals apps, waardoor het aanpassen van producten en diensten aan deze gebruikers niet langer optioneel is.

Daarbij verandert het gedrag van consumenten en medewerkers door de veranderingen in economie en technologie. Ze krijgen andere behoeften dan de afgelopen jaren. Om te overleven moeten bedrijven dus kunnen inspelen op die veranderende behoeften. IT speelt een belangrijke rol in het veranderen van de business om behoeften tegemoet te komen.

One size fits all?
Er is een reden dat traditionele IT systemen nogal nauw geïmplementeerd worden. Nauwheid, als het toegepast wordt op een specifiek probleem, zorgt ervoor dat middelen optimaal worden ingezet. Er was een tijd dat technologie een vast punt moest zijn en dat servers en software strak geconfigureerd konden worden om een beperkt aantal processen uit te voeren. Automatisering zorgde ervoor dat de efficiëntie van processen die zelden veranderden gemaximaliseerd kon worden. Deze 'one size fits all' benadering is helaas in de meesten gevallen niet langer geschikt, want het fenomeen dat processen zelden veranderen is niet meer van nu.

Flexibiliteit is van deze tijd
Nu is er behoefte aan flexibiliteit. Dit kan voorkomen in de vorm van modulariteit. Denk aan de T-mobile reclame met Ali B. Ali B wil alleen betalen voor wat hij gebruikt. Ter illustratie geeft hij aan dat als hij een pizza margarita wil, hij er geen salami op wil krijgen en daar zeker niet voor wil betalen. Men wil graag samenstellingen maken van producten en diensten die zij nodig hebben, precies zoals zij die nodig hebben. Niet meer, niet minder.

De vraag naar flexibiliteit komt ook voor in de vorm van on-demand beschikbaarheid. We willen middelen kunnen gebruiken waar en wanneer we ze nodig hebben. Ten tijde van pieken, zoals de enorme groei in aankopen tijdens de feestdagen, willen retailers tijdelijk extra middelen in kunnen zetten om de drukte op te vangen. Tijdens rustigere tijden hebben ze deze middelen niet meer nodig en willen ze er ook geen kosten e.d. aan hebben.

Let op; deze behoeften gelden niet alleen voor uw klanten. Ook uw medewerkers ontwikkelen die behoeften. Verschillende business units zullen op verschillende momenten verschillende behoeften aan middelen hebben. Ten tijde van intensieve projecten en naderende deadlines bijvoorbeeld zullen zij de mate van hun gebruik willen verhogen.

Overstappen op flexibele IT
Traditionele, strak geconfigureerde servers zijn over het algemeen niet meer effectief voor het bedienen van de snel veranderende omgeving. Middelen dienen verenigd te worden, gevirtualiseerd te worden en samengevoegd te worden met netwerken, storage en management, zodat het gedeeld kan worden door vele applicaties en kan worden aangeboden als een dienst.

IT leiders dienen gebruikers en afdelingen flexibele consumptie modellen te bieden om de juiste uitkomsten te behalen. Alle in-house gereedschap en software kan samengevoegd worden en als service aangeboden worden aan afdelingen die deze consumeren aan de hand van behoefte en budgettaire limieten.

Met de ontwikkelingen van tegenwoordig verlenen flexibele, modulaire en on-demand beschikbare infrastructeren hetzelfde niveau van performance als traditionele, nauwsluitende systemen, zonder dat het onderliggende systeem vastroest.

Maar overstappen is voor mij niet mogelijk
Teveel mensen denken dat hun IT afdeling niet ingericht is om snel genoeg in te spelen op deze trends, want ze zitten opgescheept met traditionele IT systemen. Echter, door de veranderingen in de economie, technologie en behoeften, is flexibiliteit niet langer een optie maar een must. Om sommige veranderingen kunnen we gewoonweg niet heen. Vroeg of laat moeten we ons aanpassen om te floreren of op zijn minst te overleven. Het is vergelijkbaar met het feit dat vele CD winkels en videotheken hun deuren hebben moeten sluiten. Degenen die overleefden zijn degenen die hun business model hebben aangepast.

Dus denk in mogelijkheden. Misschien is fork-lift upgrading niet nodig, maar kunt u uw bestaande hardware hergebruiken om de overstap rendabeler te maken. Misschien kunt de overstap geleidelijk maken, zodat kosten worden gespreid en uw medewerkers zich rustig kunnen aanpassen aan de nieuwe manier van werken.

Hoe dan ook; sluit niet uw ogen voor het onvermijdelijke. Pak het met beide handen aan!

maandag 14 september 2015

3 redenen voor IT monitoring

Het concept monitoring
Monitoring is de basis voor objectieve analyse van systeem administratie activiteiten en IT in het algemeen. Het betreft het verzamelen van reguliere data betreffende uw IT infrastructuur, om meldingen van ongeplande downtime, indringing van het netwerk en verzadiging van middelen te geven. Daarbij bevat een monitoring systeem een analytische laag die data samenvoegt en correleert. Zo worden operationele praktijken controleerbaar, wat bijvoorbeeld nuttig is voor het bepalen van de bron van fouten.

Monitoring verdient meer aandacht
Monitoring is geen nieuw begrip. Toch is het ontbreken van goede monitoring activiteiten te vaak een oorzaak van grote IT problemen die leiden tot downtime en dataverlies, wat hoge kosten, stress en ontevredenheid bij klanten en partners kan opleveren. Dat is gigantisch zonde, des te meer omdat een monitoring mechanisme deze problemen enorm kan beperken. Mits het goed gebruikt wordt natuurlijk!

Om het belang van monitoring te benadrukken: Ga maar eens na wat voor gevolgen het heeft als u de benzinemeter in uw auto niet in de gaten houdt en u zonder benzine langs de kant van de weg komt te staan. Bedenk u nu eens dat u een lange trip door de woestijn moet maken. U zou het niet in uw hoofd halen om in die situatie uw dashboard niet goed te bekijken, wat in verhouding zo'n kleine moeite is. Toch gebeurt er iets vergelijkbaars bij veel IT afdelingen van bedrijven. Daarom verdient monitoring meer aandacht.

3 redenen voor monitoring

Beperk downtime: Met een monitoring mechanisme heeft u inzicht in de status van uw systemen. Zo kunt u zien hoe druk het systeem bezet is en of er schijven aan vervanging toe zijn. Als u adequaat en op tijd reageert op de gebeurtenissen en de informatie die u van het monitoring mechanisme ontvangt, kunt u voorkomen dat kleine gebreken uitgroeien tot grote falen die uiteindelijk tot downtime leiden, met alle (financiële) gevolgen van dien.
Voorkom dataverlies: Als een systeem niet correct wordt afgesloten of overbezet is, kunnen er problemen ontstaan met het lezen en schrijven van data, waardoor (een gedeelte van) de data verloren kan gaan. Het opnieuw creëren van die data is vaak onmogelijk of niet rendabel, waardoor er grote verliezen geleden worden. Met monitoring kunt u dit minimaliseren. Ook hier is voorkomen weer veel beter dan genezen.
Controleer uw operationele praktijken: Doordat monitoring u inzicht geeft in het functioneren van uw systemen, kunt u bijvoorbeeld ontdekken wanneer er pieken zijn in systeem bezetting. Door bepaalde activiteiten op andere momenten te plannen, kunt u overbezetting voorkomen, performance verhogen en efficiënter omgaan met uw middelen. Ook kunt u ontdekken welke aspecten van het systeem fouten produceren of beneden de performance norm opereren.

Monitoring uitbesteden
Het kan zeker interessant zijn om uw monitoring praktijken uit te besteden. Het is belangrijk dat het monitoring mechanisme operationeel blijft tijdens service onderbrekingen. Dit gaat beter als het monitoring systeem apart is van de systemen die hij monitort. Als u het laat doen door iemand die er kennis van en ervaring mee heeft, is de kwaliteit waarschijnlijk ook beter en heeft u de zorgen er niet van.

maandag 7 september 2015

Wat is veiliger: in de cloud of op eigen locatie?

Veiligheid is de belangrijkste reden dat bedrijven niet met hun data in de cloud willen. Ze zijn bang voor data verlies, het risico op privacy schending en het risico op diefstal van hun intellectual property. Begrijpelijk. Als u zeer gevoelige data heeft, geeft het een onzeker gevoel om dit in handen van een externe partij te geven. Maar is dit onzekere gevoel terecht? Is uw data inderdaad veiliger bij u op locatie dan in de cloud?

On-premises
Als uw data op eigen locatie wordt verwerkt en opgeslagen, heeft u misschien het gevoel er controle over te hebben. Uw systemen staan dichterbij, u weet welke mensen uw systemen beheren en u weet welke beveiliging ervoor zorgt dat er geen ongewenste mensen het gebouw inlopen (als dit zo is).

Als u hier eens net zo kritisch naar kijkt als naar de veiligheid van uw data bij cloud providers, moet u misschien de conclusie trekken dat de veiligheid van uw data in uw huidige IT oplossing wel wat te wensen overlaat. Dit hoeft niet perse te wijden te zijn aan de mogelijkheden van de systemen. Vaak is het te wijden aan het beleid en de manier waarop er met de IT infrastructuur wordt omgegaan.

Veel bedrijven houden bijvoorbeeld hun systemen niet goed in de gaten met een monitoring programma, zodat ze systeem falen niet zien aankomen en niet kunnen voorkomen, met dataverlies als mogelijk gevolg. Daarbij is van veel bedrijven de data niet veilig als er brand zou uitbreken op de locatie waar de systemen staan.
Dit zijn slechts twee van de vele voorbeelden van ontbrekende of niet goed functionerende veiligheidsmaatregelen.

In de cloud
Aangezien veiligheid de belangrijkste reden is waarom veel bedrijven niet naar de cloud willen, is dit onderwerp juist een belangrijk punt op de agenda bij cloud providers. De negatieve manier waarop cloud computing i.c.m. veiligheid soms in het nieuws komt (terecht of onterecht), zorgt ervoor dat cloud providers hun (potentiële) klanten juist het tegendeel moeten bewijzen en hier dus hard aan werken.

Voor cloud providers is het beheren van hun cloudoplossingen hun core business. Zij zijn hierin gespecialiseerd en besteden daar een significant deel van hun middelen aan, waardoor ze datacenters hebben die op zo'n manier zijn beveiligd tegen bijvoorbeeld brand en inbraak die u zelf niet zou kunnen realiseren omdat dat gewoonweg niet rendabel is.

Conclusie
Met deze post wil ik zeker niet zeggen dat de cloud veiliger is dan on-premises IT. Wat ik wel wil zeggen is dat beslissingen niet gebaseerd moeten worden op aannames. Toen ik afgelopen week Citizen Four zag, de documentaire over Edward Snowden, had dit een negatief effect op mijn gevoel van vertrouwen t.o.v. cloud providers. Echter, de betrouwbaarheid van de bron ben ik niet nagegaan, dus of dit effect terecht was kan ik niet beoordelen.

Om te bepalen of on-premises computing of cloud computing veiliger voor uw data is, dient u een vergelijking van beide opties te maken. Denk eraan dat u deze vergelijking baseert op feiten en dat u de unieke belangen van uw organisatie in acht neemt. Win informatie over veiligheid in bij cloudproviders en bij uw IT leverancier en IT beheerders. Beeld u dan verschillende scenarios in en bespreek met (deze) adviseurs wat de gevolgen voor uw data zullen zijn in beide gevallen.

Alleen als u goed ingelicht bent kunt u de afweging maken.

maandag 31 augustus 2015

High Performance Computing: Het kan ook betaalbaar

Als u gebruik wilt maken van HPC om grote vraagtsukken op te lossen, dan kunt u daar een HPC cluster van een groot merk voor aanschaffen. Dit klinkt interessant, maar is voor veel bedrijven financieel gezien verre van haalbaar en niet altijd de beste keuze.
Zoals eerder besproken is het ook mogelijk om uw computercapaciteit tegen een prijs per tijdseenheid in te huren bij partijen als Amazon en Google, en op die manier uw HPC activiteiten in de cloud plaats te laten vinden. Toch is dat misschien geen geschikte oplossing, bijvoorbeeld als u dat om veiligheidsredenen geen prettig idee vindt, of omdat u vaker dan eens een HPC kwestie wilt aanpakken en outsourcen dan toch niet de meest gunstige keuze lijkt.

Eigen HPC cluster creëren
Maar er bestaat nog een manier om HPC toe te passen; zelf een HPC cluster creëren. Dit lijkt gigantisch ingewikkeld en het zal inderdaad wat uitzoekwerk kosten. Toch is het zeker een optie en wellicht enorm de moeite waard, omdat het u zeer veel geld kan besparen en het u een bepaalde vorm van vrijheid geeft doordat u het op zo'n manier kan samenstellen of aanpassen dat het voor u het beste is.

Maar ik ben geen HPC specialist
Om een eigen cluster te creëren hoeft u het wiel niet zelf uit te vinden. Naast dat er bedrijven ontwikkelen aan HPC, zijn overheidsinstellingen zoals universiteiten ook bezig met onderzoeken op dit gebied en het ontwikkelen van software ervoor. Die instellingen maken gebruik van al beschikbare kennis uit een open source community voor HPC, en dragen zelf ook bij aan deze community door hun eigen vondsten te delen.
Op deze manier kunt u kosteloos hele waardevolle kennis benutten om uw eigen cluster te bouwen. U kunt op zoek gaan naar software die geschikt is voor uw omgeving en vraagstuk. Mogelijk moet u wat stukken software combineren of aanpassen om het geheel passend voor uw situatie te maken. Natuurlijk kunt u ook zelf bijdragen aan de community door de problemen waar u tegenaan loopt of eigen ontdekkingen te delen.

Computers beter benutten of opkopen
Naast software heeft u natuurlijk computerkracht nodig voor uw HPC cluster. Het zou kunnen dat u eigenlijk al heel veel computerkracht tot uw beschikking heeft, doordat het bedrijf een groot aantal PC's heeft die niet volledig worden benut. Veel computers worden maar voor een zeer laag percentage gebruikt, waardoor ze nog heel veel middelen over hebben die voor een andere taak ingezet kunnen worden. Dan is het een optie om die computers aan elkaar te koppelen voor uw HPC cluster en bepaart dat u de aanschaf of huur van rekenkracht.

Als u nog niet genoeg computerkracht heeft, kunt u dit aanschaffen. Waarschijnlijk heeft u een groot aantal computers nodig, dus dit zou aardig in de kosten kunnen gaan lopen. Hoewel, hier kunt u een creatieve oplossing voor bedenken. Sommige bedrijven willen elke drie jaar nieuwe computers. Die 'verouderde' computers, die vaak nog wel even mee kunnen, kunt u opkopen tegen een lage prijs en samenvoegen tot een cluster.

Waar begin ik?
Bij het zelf creëren van een HPC cluster is het slim eerst deze optie te vergelijken met de aanschaf van een cluster en met HPC in de cloud. Om te kijken welke optie het beste bij uw situatie past kunt u zichzelf bijv. de volgende vragen stellen:

- Hoe vaak heb ik HPC nodig?
- Binnen welke termijn moeten mijn vraagstukken opgelost worden?
- Hoeveel financiële middelen heb ik tot mijn beschikking?
- Hoeveel computerkracht heb ik al in huis?
- Heb ik een software engineer die mij hierbij kan helpen?

Verder kan het heel leerzaam zijn om op internet cases vergelijkbaar met uw situatie op te zoeken. Ontdek welke software zij hebben gebruikt, tegen welke problemen zij aanliepen en hoe ze die hebben opgelost. Er is tegenwoordig zoveel kennis beschikbaar, niet alleen in de vorm van tekst, maar ook in de vorm van filmpjes. Als u een krap budget heeft hoeft dat niet te betekenen dat u de voordelen van HPC niet kunt benutten. Slim zoeken, creativiteit en inzet kunnen u heel ver brengen..

maandag 24 augustus 2015

High Performance Computing: De juiste storage voor maximale performance

Geschikte storage maakt HPC compleet
Als HPC wordt ingezet, is er blijkbaar vraag naar hoge performance. Computing activiteiten kunnen d.m.v. HPC in principe zeer snel worden uitgevoerd. Echter, dat wil niet zeggen dat de maximale performance van het systeem wordt behaald. Hoewel parallellisme de meerderheid van verwerkings flessenhalzen overwint, verplaatst het de performance flessenhalzen naar het storage I/O systeem.
Een systeem is zo snel als de zwakste schakel. Het is belangrijk de juiste storage te gebruiken om een HPC systeem optimaal te benutten.

HPC en storage
HPC wordt gebruikt om grote vraagstukken op te lossen. Deze worden opgedeeld in kleine berekeningen die bij elkaar het totaal antwoord vormen. Sommige berekeningen kunnen tegelijkertijd plaatsvinden, maar er zijn ook berekeningen die pas na andere uitgevoerd kunnen worden, omdat deze de output van voorgaande berekeningen nodig hebben als input. De tussentijdse uitkomsten moeten dus (tijdelijk) worden opgeslagen, om later gebruikt te kunnen worden. Als je dit tussentijds opslaan van data doet met traditionele storage, ben je aan het fietsen op een racefiets terwijl je de rem erop houdt.

Parallel storage
Belangrijk is dus dat het lezen en schrijven van data zeer snel gebeurt (dat de rem er af gaat). Dit kan op verschillende manieren bereikt worden. Zo kan er met snellere netwerken en schijven gewerkt worden, of kan er slim gebruik gemaakt worden van caching. Hoewel dat een hoop snelheidswinst kan opleveren, is parallel storage DE manier om HPC goed tot zijn recht te laten komen.

Bij HPC gebeuren berekeningen parallel omdat dit een zeer hoge snelheid oplevert. Als het opslaan van de tussentijdse uitkomsten sequentieel (na elkaar) gebeurt, dan ontstaan er opstoppingen. Pas als het ene bestand is geschreven kan er worden begonnen met het schrijven van het volgende bestand. De nieuwe opdrachten die al klaar staan om hun berekeningen uit te voeren moeten dan in verhouding erg lang wachten op de resultaten die zij nodig hebben om hun taak te vervullen. Dit kan een enorme vertraging opleveren.

Die vertraging kan worden weggenomen door met parallel storage te werken. Parallel storage houdt in dat het hardware technisch mogelijk is om parallel op te slaan (dus dat er zeg maar meerdere poortjes zijn), en dat er een parallel file systeem is dat regelt dat de bestanden ook daadwerkelijk parallel wordt opgeslagen door ze te verdelen over de 'poortjes'. Dit kan bijv. inhouden dat grote bestanden worden opgeknipt in stukjes, zodat de stukjes in parallel opgeslagen kunnen worden i.p.v. dat het grote bestand door één 'poortje' gaat.
Sommige parallele file systemen halen ook nog de meta data server weg uit het data pad tussen de computer en de storage, om nog meer snelheidswinst te behalen.

Voor meer informatie over parallel storage, zoals voordelen naast performance, zie mijn andere posts:
pNFS: Parallel is snel, en dat niet alleen...
PanFS RAID 6+ architectuur: Enorme groei in betrouwbaarheid
PanFS RAID 6+ architectuur: Performance en continuiteit

maandag 17 augustus 2015

High Performance Computing: Meer dan het samenvoegen van rekenkracht

Bij High Performance Computing wordt rekenkracht samengevoegd op zo'n manier dat het een zeer hoge performance kan leveren, zodat complexe rekenproblemen binnen afzienbare tijd kunnen worden opgelost.

Het samenvoegen kan door computers te verbinden over een netwerk (bijv. internet), waarbij de computers wat van hun tijd of al hun tijd besteden aan het oplossen van een gemeenschappelijk probleem (mier methode). Elke individuele computer krijgt veel kleine taken en lost deze op. Alle resultaten worden gerappoteerd aan een centrale server, die alle resultaten integreert en tot een totaal oplossing komt.

Het samenvoegen kan ook door processoren heel dicht bij elkaar te brengen in een groot computer cluster (olifant methode), waarbij tijd wordt gespaard doordat de data niet verplaatst hoeft te worden en waarbij de processoren kunnen samenwerken.

Hoewel dit redelijk simpel klinkt, komt er veel meer bij kijken dan wat kabels leggen voor de verbindingen.

HPC is geavanceerde logistiek
Een groep mensen bij elkaar in een ruimte maakt nog geen team. Zo maakt een groep processoren nog geen High Performance Computing. Als een complexe taak moet worden opgelost door krachten te bundelen, moeten die krachten wel op een slimme manier gebundeld worden, om bijv. te voorkomen dat taken dubbel of in onlogische volgorde worden uitgevoerd, waardoor het proces zeer inefficiënt verloopt.

Parallellisatie
High Performance Computing heeft een belangrijke eigenschap die voor enorme snelheidswinst zorgt; parallellisatie. Normaal gesproken gebeuren berekeningen door computers sequentieel, dus na elkaar. Bij parallellisatie gebeuren berekeningen tegelijkertijd.

Logistiek manager
Daarbij is er bij High performance Computing een applicatie welke zeg maar de logistiek manager is. Deze moet ervoor zorgen dat het totaal proces voor het oplossen van het complexe probleem zo snel mogelijk gebeurt. Er moet een plan gemaakt worden om het probleem aan te pakken, het probleem moet eventueel opgedeeld worden in kleine stukken en er moet een taakverdeling gemaakt worden zodat de deel-problemen door de meest geschikte rekeneenheden worden opgelost. Ook dient er goed gepland te worden welke taak wanneer wordt uitgevoerd en is communicatie tussen de rekeneenheden belangrijk. Sommige taken hebben namelijk bijv. de resultaten van andere taken nodig als input voor hun berekeningen. Als die resultaten niet op tijd klaar staan, komt er vertraging.

Toegewijde chips
Er worden allerlei chips ontwikkeld die goed zijn in het uitvoeren van één bepaalde taak. Als een groot probleem wordt verdeeld in kleinere taken, dan zou zo'n toegewijde chip zich volledig kunnen richten op de taak waar hij goed in is en dit super snel doen. Als het taken betreft die voorheen een belangrijke bottleneck waren, dan kan er met deze chips alleen al een enorme snelheidswinst gerealiseerd worden.

Metafoor: verhuizing
Om het wat 'tastbaarder' te maken gebruik ik als metafoor even een verhuizing. Als er maar één verhuizer is zal het verhuizen grof gezegd ongeveer twee keer zo langzaam gaan als dat er twee verhuizers zijn en ongeveer drie keer zo langzaam als wanneer er drie verhuizers zijn. Dit is een voorbeeld van het voordeel van parallellisatie, maar alleen als de verhuizers niet teveel met elkaar gaan lopen kletsen ;-)

Er moet wel een plan van aanpak gemaakt worden voor het verhuizen om het proces zo snel mogelijk af te ronden. Het is handig om dat door iemand met logistiek inzicht te laten doen (logistiek manager). Als bijv. de spullen niet goed worden ingedeeld, kost dit veel ruimte en moet er extra gereden worden, wat een verspilling van tijd is. Verder moeten de verhuizers goed overleggen wie welke spullen inlaadt. Zo is het bijv. handig dat de sterkste de zwaarste spullen tilt (toegewijde chips).

Hopelijk geeft deze post u wat meer inzicht in de onderliggende techniek en logistiek van HPC.

maandag 10 augustus 2015

High Performance Computing: Hoe u ermee kan scoren

Uw concurrentiepositie in gevaar?
Er wordt enorm veel data gegenereerd en tot veel van deze data hebben wij beschikking of kunnen wij beschikking krijgen. Maar wat doet u ermee? Het zijn zulke grote hoeveelheden en het is misschien een ongeordende bende. U heeft misschien het gevoel dat er wel interessante informatie uit die data te halen valt, maar dat het ordenen van de data en het analyseren ervan zoveel tijd, energie en geld kost, dat het niet rendabel is. Dat het zoeken naar een speld in een hooiberg is. Mooie redenen om die data links te laten liggen.
Toch zijn er nog mooiere redenen om de data wel te benutten. Het is inderdaad wel zoeken naar een speld in een hooiberg, maar tegenwoordig hebben we het geluk dat het gebruik van HPC binnen ons bereik ligt. Nu kunnen we genoeg rekenkracht genereren om die grote volumes aan data binnen beperkte tijd en tegen acceptabele kosten te analyseren en de speld (of meerdere spelden) te vinden. Er is ook allerlei behulpzame software om ons te helpen met simulaties.

Nou kunt u denken: 'Dat heb ik helemaal niet nodig. Mijn bedrijf functioneert al jaren prima zonder die grote data analyses, simulaties en HPC'. Echter, andere bedrijven gaan er langzaamaan de voordelen van inzien en deze concepten oppakken, waardoor uw concurrentiepositie ineens ernstig in gevaar kan komen. Namelijk, als andere bedrijven wel HPC gebruiken om hun grote datasets te analyseren of simulaties te doen, dan zouden zij hele waardevolle informatie kunnen ontwikkelen, waardoor zij o.a. kunnen innoveren, een niche markt kunnen ontdekken, kunnen ontdekken onder welke voorwaarden hun sales omhoog gaan, en de kwaliteit van voorspellingen en hun dienstverlening verhogen. Hoogstwaarschijnlijk is HPC dus nu een must aan het worden om nog voldoende toegevoegde waarde te kunnen leveren en uw concurrentiepositie te behouden.

Enkele voorbeelden van toepassingssituaties voor HPC
HPC kan voor zeer uiteenlopende doeleinden gebruikt worden. Denk bijvoorbeeld eens aan marketing. Een marketingplan kan gebaseerd worden op gevoel, maar een marketingplan kan ook gebaseerd worden op onderzoeksresultaten. Onderzoeksresultaten zijn in dit geval waarschijnlijk specifieker en betrouwbaarder, zodat u veel meer waar krijgt voor het geld dat u investeert in de marketingactiviteiten en het u dus een hogere ROI oplevert.

Toen ik vroeger bij een krantenbedrijf werkte en adverteerders in de kranten wilden adverteren, konden we m.b.v. een programma de doelgroep van de advertentie heel duidelijk definiëren. Op basis van onderzoeken kwam er dan als resultaat uit het programma welke kranten die doelgroep het meest lazen. Zo konden wij de adverteerder adviseren m.b.t. de beslissing in welke kranten te adverteren, zodat er een zo hoog mogelijk bereik werd behaald. Wij gebruikten daar geen HPC voor, omdat de dataset te overzien was. Nu worden datasets steeds groter. Het is raadzaam om deze te benutten, omdat de antwoorden op onze vragen daardoor steeds kwalitatiever kunnen zijn, maar dan is er wel meer rekenkracht en dus HPC nodig.

Dit principe kan in heel veel branches worden toegepast. Zo kan er ook gebruik gemaakt worden van een dataset over de vaardigheden en kennis van service desk medewerkers, om vragen van klanten direct te kunnen doorverwijzen naar de medewerker met de geschikte kwalificaties, zodat klantvragen sneller en beter beantwoord kunnen worden. Het resultaat is dat er efficiënter wordt gewerkt en de klanttevredenheid omhoog gaat.

Verder wordt HPC gebruikt om weersvoorspellingen accurater te maken, voor crash simulaties met auto's, voor het analyseren van gegevens over bijvoorbeeld tumoren om medicijnen te ontwikkelen, etcetera.

Maar ik heb helemaal niet zoveel data
U hoeft niet perse zelf de data te genereren. Als het bijvoorbeeld specifiek gaat over uw bedrijf en het gedrag van uw medewerkers of klanten, dan is het waarschijnlijk wel handig om zelf datasets te creëren. Voor wat algemenere vraagstukken kunt u tegen een vergoeding gebruik maken van datasets die andere bedrijven (zoals Google en onderzoeksbedrijven) ontwikkelen. Dan heeft u al snel beschikking tot hele grote data volumes met zeer hoge potentie.

Waar kan mijn bedrijf HPC concreet voor gebruiken?
That's up to you! Omdat het voor zo gigantisch veel doeleinden ingezet kan worden is de toegevoegde waarde van de resultaten van de HPC analyses en simulaties voor een groot deel afhankelijk van uw creativiteit, inbeeldingsvermogen en strategisch inzicht. Denk buiten de gebaande paden. Er is zoveel data beschikbaar. Het is misschien eerder lastig te bedenken welk informatie niet gevonden kan worden dan welke informatie wel gevonden kan worden. Vraagt u zich eens af: Welke informatie is voor mijn bedrijf waardevol en welk doel wil ik ermee bereiken?

maandag 3 augustus 2015

High Performance Computing: Hoe u er gebruik van kunt maken

De behoefte aan HPC wordt steeds duidelijker. Data die organisaties gebruiken kunnen een belangrijke troef en cruciaal voor het bedrijf zijn. Big data analyse (de mogelijkheid om grote data volumes te verwerken en analyseren) is niet nieuw, maar de hoeveelheid data is op een significant hoger tempo gegroeid dan beschikbare computing capaciteiten. Om informatie uit die grote volumes data te halen is dus al snel HPC nodig. Als u denkt baat te kunnen hebben bij HPC, heeft u verschillende mogelijkheden om dit fenomeen voor u te laten werken.

In-house HPC
Hoe bedrijven HPC met name inzetten is door de aanschaf van een High Performance Computing cluster. Analyse van een grote hoeveelheid data doen zij dus in-house. Indien het systeem niet voldoende computing power meer heeft, kan het systeem worden opgeschaald. Veel organisaties die HPC hard nodig hebben, hebben de infrastructuur en expertise om het te beheren al in huis.

HPC in de cloud
Een andere optie is HPC in de cloud. U maakt uw data beschikbaar voor de cloudprovider (denk aan Amazon Web Services, Google Compute Engine en Microsoft Azure), welke de benodigde middelen om de data te analyseren inschakelt. U hoeft hierbij dus niet zelf de infrastructuur en benodigde expertise aan te schaffen. U betaalt bijvoorbeeld een prijs per tijdseenheid.

Welke optie kiest u?
Er zitten veel voordelen aan HPC in de cloud. U kunt het inschakelen wanneer u het nodig heeft, het is gigantisch schaalbaar, het is snel en het is niet duur. Daarbij is het ook efficiënter in termen van computer bezetting. De benodigde computing power wordt namelijk 'geleend' van computers die wat capaciteit over hebben omdat ze op een bepaald moment niet of slechts gedeeltelijk gebruik maken van hun capaciteit (een desktop wordt bijv. gemiddeld misschien slechts voor 3% benut). Dit maakt het ook een milieubewuste keuze en deze past helemaal in het plaatje van de mileubewuste innovaties van nu, zoals websites voor het hergebruiken en delen/lenen van spullen.
Toch zijn er voor veel bedrijven barrières om met hun HPC opdrachten naar de cloud te gaan. Naast dat ze misschien al investeringen hebben gedaan in HPC middelen, zijn sommigen ook bezorgd over de veiligheid van hun data in de cloud en zijn ze bang dat het verplaatsen van hun data naar de cloud een hoop vertraging oplevert.
De aard van uw HPC behoefte speelt een belangrijke rol in het maken van de keuze. Als een bedrijf regelmatig relatief kleinere problemen moet oplossen, dan zou in-house HPC financieel gezien een betere oplossing kunnen zijn. Als het bedrijf niet regelmatig, maar wel zeer grote problemen dient op te lossen, dan is HPC in de cloud mogelijk de betere optie. De twee vormen kunnen ook met elkaar worden gecombineerd. Een grondige behoeftebepaling is nodig om tot de juiste keuze te komen.

maandag 27 juli 2015

High Performance Computing: Een introductie

Wat is HPC?
High Performance Computing (HPC) refereert over het algemeen naar het samenvoegen van rekenkracht op zo'n manier dat het veel hogere performance kan leveren dan dat men uit een typische desktop computer of workstation zou kunnen halen. Het betreft het gebruik van supercomputers en parallele verwerkings technieken voor het oplossen van complexe reken problemen. Het doel is om grote problemen op te lossen en onderzoeksactiviteiten te verrichten door middel van computer modellering, simulatie en analyse.

HPC is geëvolueerd om te voldoen aan de toenemende vraag naar verwerking snelheid. Het is vaak belangrijk dat bepaalde berekeningen zeer snel worden uitgevoerd, om de resultaten nog relevant te laten zijn. Denk bijvoorbeeld aan weersvoorspellingen. Een ander mooi voorbeeld waarin verwerkingstijd een cruciale rol speelt in het oplossen van een gevorderd probleem is te zien in de naar mijn mening zeer boeiende film over het kraken van een Duitse code in de tweede wereldoorlog; The imitation game.

HPC brengt verschillende technologieën, zoals computer architectuur, algoritmen, programma's, electronica en systeem software samen onder een dak. Een zeer efficiënt HPC systeem vereist een netwerk met hoge bandbreedte en lage latency om meerdere computers (nodes) en clusters te koppelen.

Waarom u er misschien meer over zou willen weten

Naarmate de vraag naar verwerkingskracht en snelheid groeit, zal HPC waarschijnlijk bedrijven van allerlei formaten interesseren. Mogelijk heeft u wel eens gehoord van het gebruik van supercomputers die werken aan enkele van de mensheids grootste problemen in wetenschap en engineering; het ontstaan van het universum, medicijnen tegen ziektes als kanker, etcetera. Dat zullen misschien niet de computers zijn die u nodig zult hebben. Dat zijn zeg maar de Formule 1 auto's onder de supercomputers. Uw interesse gaat mogelijk eerder uit naar het type 'Volkswagen Polo'. U kunt namelijk ook HPC realiseren door computers (nodes) te clusteren, waarbij elke node bijvoorbeeld 4 processoren of 16 cores heeft en een cluster uit 16 tot 24 nodes, of 64 tot 256 cores bestaat. De nodes kunnen dan samenwerken om problemen op te lossen die te geavanceerd zijn om door een enkele computer te worden opgelost.

HPC technologie wordt in multidisciplinaire domeinen geïmplementeerd. Zo wordt het gebruikt in de biowetenschappen, voor geographische data, voor olie en gas industrie modellering, voor de automatisering van elektronisch ontwerpen, voor klimaat modellering en in de media en entertainment branche. Heeft u andere toepassingsgebieden voor HPC? Wie weet helpt het u 'onoplosbare' problemen oplosbaar te maken en gaan er nieuwe deuren voor u open. Brainstorm er eens over met uw collega's.

De komende posts zullen u nog een stapje wijzer maken in de wondere wereld van HPC. Stay tuned!

maandag 20 juli 2015

Is data nutteloos?

Er zijn wetenschappers die beweren dat data nutteloos is. Dat klinkt heel apart, aangezien data management een zeer belangrijk onderdeel is geworden van de maatschappij. Zelf ben ik het niet eens met die uitspraak, maar ik begrijp wel waarom sommige mensen deze uitspraak doen. Hierbij wat meer inzicht in het nut van data, en hoe u het nut kan verhogen.

Definitie oorlog
Er bestaan enorm veel definities van de termen data, informatie, kennis en wijsheid. Als je er een aantal leest zul je zelf ook merken dat het niet gemakkelijk is om deze termen te definiëren en er een scheidingslijn tussen te trekken. De DIKW pyramide is een hierarchisch model waarin elk nivau van de hierarchie een essentiële voorloper / essentieel onderdeel is van de niveaus erboven; dus data is een voorloper van informatie, informatie is een voorloper van kennis en kennis is een voorloper van wijsheid.

Hierbij de omschrijvingen van deze begrippen als ik enkele definities vluchtig combineer:

Data zijn feiten en statistieken die ongecategoriseerd en onbewerkt zijn. Ze hebben geen betekenis of waarde omdat ze geen context en intepretatie hebben. Ze zijn waar, hebben een objectieve werkelijkheid en kunnen worden geverifieerd. Het zijn prikkels die we waarnemen met onze zintuigen.
Informatie is afgeleid van data. Het is data die op zo'n manier is georganiseerd en gestructureerd dat de informatie relevantie heeft voor een bepaald doel of een bepaalde context. Daardoor is het betekenisvol, waardevol, bruikbaar en relevant.
Kennis is bewustzijn, begrip en vertrouwdheid van een feit of situatie verkregen door ervaring. Het is een compositie van meerdere bronnen van informatie na verloop van tijd.
Wijsheid is de kwaliteit van het hebben van ervaring, kennis en goed oordeel. Wijsheid betrekt het gebruik van kennis voor een groter goed.

Deze omschrijving van data bevat de bewering dat data geen waarde heeft. Toch blijkt data wel waardevol te zijn als het wordt omgevormd tot informatie. Daarom zou ik eerder iets beweren in de trant van dat data in veel situaties niet direct, maar wel indirect nuttig is, i.p.v. het waardeloos te noemen.

Verder is het erg lastig te zeggen of iets 'waar' is of niet. De ene persoon neemt bepaalde dingen anders waar dan de andere persoon (denk bijvoorbeeld aan verschillen in hoe mensen kleuren zien). Hoe bepaal je dan wat de objectieve werkelijkheid is? Ieder persoon is uniek en heeft een eigen referentiekader, dus ik vraag me af of er uberhaupt wel objectiviteit bestaat.

Hoe verhoog je het nut van data?
Zoals je ziet kan je uitgebreid filosoferen en discussiëren over definities. Het kan heel interessant en waardevol zijn om definities op te stellen, zodat je van elkaar weet waar je over praat. Ook zorgen definities ervoor dat je heel kritisch naar een situatie kijkt en tot nieuwe inzichten kunt komen. Maar hoe ver moet je hierin gaan?
Er dient een gezonde balans gevonden te worden in het creëren van definities voor de begrippen en het benutten van de begrippen. We kunnen heel lang praten over welke kenmerken thuishoren bij welk begrip. We kunnen ook heel veel tijd steken in het verwerven en ontwikkelen van data, informatie, kennis en wijsheid, maar naar mijn idee is dit alleen nuttig als we deze zaken ook actief inzetten om bepaalde resultaten te bereiken die uiteindelijk ons leven verrijken. Er is al zoveel data en informatie tot onze beschikking en we hebben al zoveel kennis en wijsheid. Misschien heeft u veel meer van deze zaken nodig, maar misschien kunt u wat u al heeft nog veel beter inzetten en ervan profiteren. De kunst is om zelf het nut van data te creëren, niet alleen door er informatie, kennis en wijsheid uit te halen, maar vooral ook door er daadwerkelijk, actief doelen mee te bereiken.

maandag 13 juli 2015

Cloud autonomics

Cloud complexiteit
Zoals vorige week verteld is er een kloof tussen de complexiteit van systemen en het vermogen om deze te managen, bijvoorbeeld omdat systemen steeds meer verbonden en divers dienen te zijn. Cloud computing is een voorbeeld van een innovatie die een hoge complexiteit met zich meebrengt; niet alleen door de kortstondige en gedeelde computing omgeving maar bijvoorbeeld ook door onbedoelde bijkomstigheden als consumptie gebaseerde prijsmodellen, die monitoring and continue optimalisatie vereisen om verspilling van middelen en slecht kostenmanagement te vermijden. Er moet dus iets veranderen om de cloud omgevingen van morgen te kunnen managen. Als een bepaalde vorm van autonomic computing hiervoor ingezet kon worden, zou dat enorm veel voordelen met zich mee kunnen brengen.

Cloud autonomics
Volgens Joe Kinsella (CTO en oprichter van CloudHealth Technologies) is cloud autonomics de toekomst. Cloud autonomics is het gebruik van automatic computing om organisaties in staat te stellen om effectief de kracht van cloud computing te beheren en exploiteren door het beheer te automatiseren op basis van bedrijfsbeleid. Bij cloud autonomics kan een persoon/team een beleid opstellen dat bepaalt hoe de infrastructuur moet worden gemanaged en een autonoom systeem toestemming geven om dit beleid uit te voeren. Op die manier kan de cloud infrastructuur continu en automatisch worden geoptimaliseerd en kunnen beslissingen zeer snel genomen worden. U bepaalt het beleid, het systeem executeert de benodigde activiteit.

Het mooie aan dit concept als we het in het licht van de post van vorige week over kunstmatige intelligentie plaatsen, is dat het systeem optimalisatie beslissingen neemt op basis van beleid, in plaats van dat het volledig autonoom is en vertrouwt op kunstmatige intelligentie. Alsnog is het zeer belangrijk dat het opstellen van het beleid zeer zorgvuldig wordt gedaan en dat het beleid weergeeft wat daadwerkelijk is gewenst. Hoewel autonome systemen menselijke fouten flink kunnen verminderen, zal de hefboomwerking namelijk ook van kracht zijn in het geval er een foutief beleid is opgesteld. Toch zou dit wel een logische tussen stap kunnen zijn naar op den duur eventueel volledig autonome systemen.

maandag 6 juli 2015

Hoe slim mogen computers worden?

Om ons leven wat gemakkelijker te maken en om dingen te doen die we zelf niet kunnen, is kunstmatige intelligentie ontwikkeld. Moeten we een pittige som uitrekenen? Geen probleem, dan pakken we een rekenmachine. Moeten we miljoenen transacties tegelijk laten plaatsvinden? Geen probleem, dan schakelen we daar een wat spannendere computer voor in. Wordt het managen van die spannende computers te complex? Geen probleem, dan zorgen we dat ze zichzelf kunnen managen. Of toch liever niet?

Behoefte aan hogere intelligentie

Door technologieën gaan nieuwe deuren open en ontstaan weer nieuwe technologieën. Het tempo van innovatie ligt extreem hoog en het beheren van systemen wordt steeds complexer, waardoor het mensen de pet te boven kan gaan en er specialisten te kort zijn. We zouden dus heel veel baat kunnen hebben bij het naar een hoger niveau brengen van kunstmatige intelligentie.

Autonomic computing

Autonomic computing is een self-managing computing model. Een autonomic computing systeem beheert het functioneren van computer applicaties en systemen zonder input van de gebruiker, op dezelfde manier als het autonome zenuwstelsel lichamelijke systemen reguleert. Zoals IBM het definieerde is het een self-managing systeem dat zichzelf kan configureren, optimaliseren, helen en beschermen zonder menselijke interventie. Het doel van autonomic computing is om systemen te creëren die zichzelf besturen en in staat zijn om op hoog niveau te functioneren terwijl de complexiteit van het systeem onzichtbaar wordt gehouden voor de gebruiker.

Valkuil

Autonomic computing zou een ideaal mechanisme zijn om met grote ingewikkeldheid om te gaan. Echter, een belangrijk probleem is dat iets wat zichzelf kan managen een eigen leven kan gaan leiden. Als datgene iets super intelligents betreft, kun je totaal de controle verliezen. Mogelijk schaad het dan meer dan dat het baat.

Hier een interessant TED filmpje door filosoof Nick Bostrom over mogelijke nadelige gevolgen van artificial super intelligence en hoe we hierop kunnen anticiperen.

maandag 29 juni 2015

PanFS RAID 6+ architectuur: Performance en continuïteit

Naast betrouwbaarheid zijn performance en continuïteit belangrijke eisen van een storage systeem. We willen namelijk geen tijd verliezen, want 'tijd is geld', maar tijd is ook de gelegenheid om kansen te pakken. Er dient dus zoveel mogelijk vertraging voorkomen of beperkt te worden.

Ook daar draagt PanFS RAID 6+ zijn steentje aan bij. Door enkele intelligente aanpassingen in architectuur kan er enorme efficiëntie behaald worden, zelfs als storage systemen zeer groot worden.

Linearly scalable parallel rebuilds:
Als het knipperlicht van je auto stuk is, ga je niet je hele auto uit elkaar halen om alleen het knipperlicht te vervangen. Toch herstellen traditionele block-based RAID benaderingen gehele blocks, i.p.v. slechts de onderdelen die gerelateerd zijn aan het te herstellen bestand. PanFS RAID 6+ wint op dit gebied heel veel tijd door alleen de files die zijn aangedaan te herstellen.
Ook het feit dat het nu mogelijk is om te herstellen in parallel brengt een enorme efficiëntie slag met zich mee en zorgt er zelfs voor dat de herstel performance toeneemt naarmate het systeem groter wordt. Denk maar aan een snelweg. Een tweebaansweg zorgt ervoor dat het verkeer sneller kan door een vermindering in opstoppingen. Een vierbaansweg brengt dit voordeel naar een nog hoger niveau. Dit pakt het probleem aan van lange herstel tijden voor schijven met een grote capaciteit en kan een hoop tijd, geld en zorgen besparen.

Scalable client-side RAID engine:
Ook de performance van de RAID engine neemt toe naarmate het systeem groter wordt en de compute clients toenemen. De hoeveelheid CPU core die gebruikt moet worden als RAID parity engine (om aangetaste bestanden te herstellen) kan verdeeld worden over de toenemende hoeveelheid compute clients, waardoor de gebruikte hoeveelheid CPU t.o.v. het systeem verwaarloosd kan worden. Hierdoor neemt de RAID performance toe en worden de flessenhalzen in traditionele hardware RAID controllers geëlimineerd.

Extended file system availability:
Met triple parity protection (zie vorige post) komen rampzalige storage gebreken nauwelijks voor. PanFS RAID 6+ zorgt ervoor, in tegenstelling tot mindere systemen, dat de file system online blijft, zodat deze zelfs na een gelijktijdige drievoudige schijf storing beschikbaar en bruikbaar blijft. Hierdoor kan een lijst met te herstellen bestanden aangeboden worden aan de storage administrator, zodat deze hersteld kunnen worden en volledige file system beschikbaarheid en betrouwbaarheid teruggewonnen kunnen worden. Als gevolg hiervan kunnen dagen of weken hersteltijd bespaard worden.

Al met al worden door PanFS RAID 6+ cruciale storage problemen aangepakt en brengt het enorm veel efficiëntie en effectiviteit met zich mee. Te gek dat door enkele slimme aanpassingen in architectuur velen nu kunnen profiteren van deze voordelen.

maandag 22 juni 2015

PanFS RAID 6+ architectuur: Enorme groei in betrouwbaarheid

Een belangrijke eis aan storage systemen is dat deze betrouwbaar zijn. We slaan immers niet voor niets data op. Het is belangrijk dat de data in de juiste staat blijft en dat het niet verloren gaat.

Beperken van hardware gebreken
Een variabele die invloed heeft op de betrouwbaarheid van data is de hardware van het storage systeem, zoals schijven. Als hardware stuk gaat kan data verloren gaan. Wat je kan doen om data niet echt te verliezen is een back-up maken. Echter, een back-up is in veel gevallen absoluut niet goed genoeg, bijv. aangezien het tijd kost om de data van de back up terug te halen, terwijl die tijd zeer kostbaar is.

Redundantie creëren met RAID
Gelukkig zijn er andere oplossingen om data verlies als gevolg van het falen van hardware tegen te gaan. Er zijn diverse RAID (redundant array of independent disks) constructies, die ervoor zorgen dat data toch nog beschikbaar is als er schijven stuk gaan. RAID 1 houdt in dat er een exacte kopie is van de data, zodat als de ene versie van de data verloren is, de andere versie direct gebruikt kan worden. Helaas heb je dan twee keer zoveel opslagruimte nodig, wat bijv. flink in de kosten gaat lopen.

Een andere RAID configuratie is RAID 6. Raid 6 houdt in dat data over meerdere schijven verdeeld wordt. Daarbij wordt er parity data opgeslagen. De parity data zorgt ervoor dat als er maximaal twee schijven stuk gaan, de verloren data toch teruggehaald kan worden m.b.v. een berekening. Het concept achter dit mechanisme is een beetje vergelijkbaar met het volgende. Stel de data op de ene disk is '5' en de data op de andere disk is '2', dan kunnen deze getallen altijd teruggehaald worden als een van de twee verloren is, mits je als parity data de formule 'data disk 1 + data disk 2 = 7' hebt, want 5+2=7.

Enkele kenmerken van PanFS RAID 6+
Hoewel dit aardig betrouwbaar en qua ruimte efficiënter is dan bijv. RAID 1, brengt PanFS RAID 6+ dit naar een nog hoger niveau, d.m.v. o.a. horizontal parity, vertical parity, triple-mirrored small files en PanFS per file distributed RAID.

Horizontal parity zorgt ervoor dat als er maximaal twee blades tegelijkertijd falen, de data hersteld kan worden m.b.v. de andere blades.
Vertical parity zorgt ervoor dat data heel snel hersteld kan worden als er gebreken zijn binnen een blade.
Triple-mirrored small files houdt in dat er twee volledige kopieën zijn van kleine stukken data op SSD's (zeer snelle schijven), zodat de data enorm snel hersteld kan worden.
PanFS per file distributed RAID betekent dat de RAID constructie niet op blok niveau is, maar op het specifiekere bestandsniveau, waardoor data nog sneller hersteld kan worden en de betrouwbaarheid toeneemt naarmate het storage systeem groeit.

Al met al komt het erop neer dat het minimaliseren van de mogelijkheid op hardware gebreken een belangrijke reden is van de betrouwbaarheid van RAID 6+. Denk bijvoorbeeld maar eens aan een persoon die een blessure heeft aan zijn knie. De gezonde knie moet dan gedeeltelijk de taak van de geblesseerde knie overnemen, waardoor de kans dat de gezonde knie ook geblesseerd raakt groter wordt. Hoe sneller de blessure aan de knie hersteld wordt, hoe kleiner de kans is dat de gezonde knie ook geblesseerd raakt. Bovendien, als het gebrek nog relatief klein is, kan het makkelijker hersteld worden en problemen met een grotere impact die lastiger te herstellen zijn voorkomen.

Enorme toename in betrouwbaarheid
Alleen al de RAID 6+ triple parity protection (= de combinatie van horizontal parity en vertical parity) zorgt ervoor dat de betrouwbaarheid meer dan 150 keer beter is (zonder significante afname in performance), en het feit dat de betrouwbaarheid van het storage systeem toeneemt i.p.v. afneemt in het geval het systeem groeit is een flinke vooruitgang in de storage wereld.