Video-Chat in der eigenen Webseite oder App einbauen: Anbieter-Liste und Tipps für SaaS- und PaaS-Video-Anbieter

23. Januar 2022 von michael · ,

Spätestens mit der Corona-Pandemie haben Video-Chats und Telekonferenzen Einzug in das Leben der breiten Bevölkerung gefunden. "Teamsen" und "Zoomen" sind mittlerweile ebenso im Sprachgebrauch eingebürgert wie "googeln". Microsoft Teams, Zoom, WebEx & Co. können meistens sowohl per Browser wie auch Client-Software genutzt werden. Die Tools sind aber vor allem für klassische Videokonferenzen oder Team-Kollaboration gedacht. Mal eben die Kollegin anrufen, ein Meeting digital abhalten - alles kein Problem.

Was aber, wenn ich einen Video-Chat direkt in meine Webseite einbauen will?

Wer auf seiner Webseite einen Kunden-Chat (z.B. Live-Beratung) oder eine Art virtuellen Verkaufsraum anbieten will, kann zwar ebenfalls auf die Tools setzen. Der Nachteil: Teilnehmer (eben z.B. Kunden) müssten erst auf die Webseite des Anbieters (sei es Zoom, Teams oder WebEx) weitergeleitet werden. Das hat mehrere Nachteile: Zum einen verlassen Kunden die eigene Webseite, was sich negativ auf Conversions (etwa einen Produkt-Kauf) auswirken kann. Zum anderen ist auch die Kundenerfahrung ("Customer Experience") schlechter, da sowohl mehr Klicks wie auch das Design nicht auf das eigene Produkt bzw. die eigene Firma angepasst ist. Zuletzt muss in vielen Fällen auch erst Software installiert werden.

Wann Alternativen sinnvoll sind

Die möglichen Anwendungszwecke oder Gründe, um nicht auf klassische Telko-Software zu setzen, sind vielfältig. Hier einige Beispiele:

  • "Live-Chat"-Funktion, z.B. für Kundenberatung
  • Online-Showroom mit Beratungsfunktion
  • Workshops und Seminare, die vollständig auf der eigenen Webseite oder in eigener Software stattfinden sollen
  • Starke Branding-Anforderungen
  • Integration in Apps (Telemedizin, Kaufberatung in der eigenen App...)
  • Digitale Messen, "Märkte", Ausstellungen,...

Zusammengefasst: Immer dann, wenn der Kunde in jedem Fall auf der eigenen Webseite, Plattform, App oder Software bleiben soll, kommt man mit Zoom, Teams & Co. in der Regel nicht weiter.

Nach welchem Begriff müssen wir jetzt suchen, um passende Lösungen zu finden? Viele der Dienste, die den oben genannten Funktionsumfang abdecken, werden auch als "Vidoe Plattform as a Service" (Video-PaaS) bzw. "Video Software as a Service (Video-SaaS)" bezeichnet. Die genaue Differenzierung erspare ich mir an dieser Stelle, da die begriffe bei vielen Anbietern so oder so wild durcheinander geworfen werden.

Anforderungen an Video-SaaS-Anbieter

Natürlich unterscheiden sich die Dienste der einzelnen Anbieter. Zunächst sollte man sich über seine eigenen Anforderungen klar werden.

Maximale Teilnehmerzahl

Eine häufige Limitierung ist die maximale Zahl der Teilnehmer, die gleichzeitig an einer Sitzung/in einem Raum anwesend sein können. Bei manchen Diensten sind das bereits 30 Personen, andere gehen aber auch in den vierstelligen Bereich. Spätestens ab diesem Punkt dürfte man aber ohnehin eher auf der Suche nach einer Live-Streaming-Lösung als nach klassischer Konferenzsoftware sein. Einige Dienste bieten auch "Hybride" zwischen den beiden Lösungen. So bietet Hier können sich dann etwa Zuschauer "bewerben", damit sie eine Art "Spotlight" erhalten. Nur für diesen Zeitraum ist deren Kamera und Ton dann auch für alle anderen Zuschauer sichtbar. Das Prinzip ist gewissermaßen ähnlich zum "Mikrofon-in-die-Hand-drücken" im Fernsehen, wenn einzelne Zuschauer nach ihrer Meinung "befragt" werden.

Funktionsumfang

Ebenfalls ist der weitere Funktionsumfang relevant: Suche ich wirklich nur ein Tool für reine Video- und Sprachübertragung? Will ich, dass auch eine Chatfunktion enthalten ist? Sollen mehrere Kameras gleichzeitig aktivierbar sein? Wie viele Teilnehmer dürfen parallel sprechen dürfen? Einige Dienste biete auch das "Versenden" von Smileys in Echtzeit an, die dann auf dem Bildschirm auftauchen. Damit lassen sich Reaktionen der Zuschauer gut einfangen, vermutlich dürfte auch die Interaktivität so steigen. Spotlights setzen einzelne Teilnehmer ins "Rampenlicht". Mancher Anbieter bietet hier sehr ausführliche Konfigurationsmöglichkeiten, andere nur einen einfachen, nicht änderbaren Spotlight-Algorithmus.

Kosten

Natürlich ist am Ende des Tages der Preis relevant. Die meisten Video-Anbieter verlangen 0.004 US-Dollar pro Teilnehmerminute. Das bedeutet: Ein 60-minütiges Meeting mit 10 Teilnehmern summiert sich auf 600 Teilnehmer-Minuten und kostet damit immerhin 2,40 US-Dollar. Der "geringe" Preis summiert sich also schnell, und spätestens bei größeren Vorhaben sollte man definitiv die Kosten im Auge behalten. Eine Art "Kosten-Airbag" gibt es bei vielen Teilnehmern übrigens nicht - d.h. man kann keine maximale Obergrenze einstellen. Der verbrauchte Betrag wird einfach Monat für Monat von der Kreditkarte abgebucht. Aus diesem Grund sollte man auch ein besonderes Augenmerk auf Missbrauchschutz legen - und so zum Beispiel die eigenen API-Zugangsdaten besonders schützen.

Qualität, Latenz, Verfügbarkeit

Hier trennt sich, zumindest wenn man einigen Internet-Forenbeiträgen glauben schenken will, die Spreu vom Weizen: Nicht jeder Anbieter ist gleichmäßig zuverlässig, und das gilt nicht nur hinsichtlich der Verfügbarkeit, sondern auch bei der Bildqualität und Latenz. Außerdem sind einige Anbieter in manchen Regionen der Welt stärker als andere. Als deutscher Betreiber sollte man so vermutlich nicht auf einen Dienst setzen, der ausschließlich Server in Australien betreibt. Auch sollte man sich Gedanken machen, wie wichtig die Latenz, also die Signalverzögerung ist. Wer Live-Streaming ohne große Zuschauereinbindung betreibt, kann vermutlich mit einigen Sekunden Verzögerung leben. In einer Video-Konferenz werden bereits einige hundert Millisekunden zu viel als störend empfunden.

Customization- und Anpassungs-Möglichkeiten

Habe ich exakte Anforderungen an das Aussehen und den Funktionsumfang meines Video-Chats, oder kann ich auch damit Leben, wenn die Farben einfach halbwegs meinen eigenen Vorstellungen bzw. dem Corporate Design entsprechen? Diese Frage stellt sich bei den Customization- und Anpassungs-Möglichkeiten. Einige Anbieter stellen eine vollumfängliche API (also Programmierschnittstelle) oder ein SDK zur Verfügung - so lässt sich ein vollkommen individueller Video-Chat gestalten, von der Anordnung der Elemente bis hin zum individuellen Icon für den Play-Button. Auf der anderen Seite benötigt diese Anpassbarkeit nicht jeder.

Implementierungs- und Programmieraufwand

Dieser Punkt geht mit dem zuvor genannten Aspekt einher: Je genauer ich eine Lösung anpassen will, desto mehr Zeit und damit Geld nimmt die Implementierung in Anspruch. Idealerweise gibt es ein "fertiges Gesamtpaket", dass mit wenigen Klicks nutzbar ist und dann bei Bedarf weiter angepasst werden kann. Die Qualität dieses "Startpakets" schwankt aber von Anbieter zu Anbieter - und häufig muss dann doch noch einiges an Arbeit investiert werden, um ein Ergebnis zu erhalten, dass man mit gutem Gewissen Nutzern bzw. Kunden präsentieren kann.

Bei diesem Punkt geht es auch um die Dokumentation des Anbieters, also die Beschreibung der Programmierschnittstellen und deren Aufbau. Ist die Dokumentation sinnvoll strukturiert - oder muss ich erst Stunden investieren, um überhaupt zu verstehen, wie die Lösung des Video as a Service-Anbieters überhaupt funktioniert und wie ich diese verwenden kann? Gibt es Anleitungen oder Tutorials? Sind auch Details ausführlich dargelegt, oder muss man diese als Entwickler erraten oder gar auf gut Glück ausprobieren?

Anbieter-Liste

Da der Markt recht unübersichtlich ist (und die Lösungen sich teils massiv unterscheiden - insbesondere hinsichtlich der Anpassbarkeit und des Implementierungsaufwands) - hier eine Liste mit Anbietern. Einen Teil der Lösungen habe ich selbst ausprobiert, andere der Vollständigkeit halber aufgenommen.

Wichtiger Hinweis: Mein "Ausprobieren" liegt bei einigen Diensten schon etwas länger zurück. Ich gebe meine damaligen Notizen bestmöglich wieder. Meine persönliche Meinung/Fazit bitte ich weniger als "Test und Review" und wirklich mehr als "Meinung und Eindruck" anzusehen. Die Liste ist im Rahmen eines Auftrags entstanden, bei dem (im Vergleich zu ähnlichen Projekten) insgesamt wenig Zeit und Budget vorhanden war. Es war keine große Anpassung/Customization seitens des Kundens gefordert. Ich hatte daher schlichtweg keine Zeit, mich mehr als 1-2 Stunden mit einem Anbieter zu beschäftigen, sondern es ging wirklich in erster Linie um die Kernanforderung "Video-Chat auf Webseite bei geringstmöglichem Aufwand" (mit einigen Randbedingungen, auf deren Nennung ich hier der Einfachheit halber verzichte).

Agora.io

Agora ist einer der Marktführer im Bereich. Der Preis ist mit 0.004$/Minute üblich und der Dienst bietet Sprachanrufe, Videoanrufe (sowohl 1:1 wie in Konferenzen), große Anpassbarkeit sowie interaktives Video-Streaming.

Eine relativ ausführliche Dokumentation für Entwickler ist vorhanden - inklusive Code-Beispiele für fast alle Plattformen. Mittlerweile bietet Agora auch ein WordPress-Plugin sowie einen "Code Builder", der in der Theorie auch ohne Programmierkenntnisse einen Einstieg bieten kann.

Persönliche Meinung/Fazit: Ich habe Agora irgendwann Mitte 2021 ausprobiert. Auf dem Papier erfüllt Agora eigentlich fast alle Anforderungen, die man haben kann. Beim "Ausprobieren" war das Ergebnis aber eher ernüchternd: Agora wirbt zwar damit, dass man nur wenige Zeilen Code benötigt, um mit der Agora-Plattform loszulegen. In der Praxis fehlt aber eine "Standard-Konfiguration", in der gewisse Standard-Funktionen schon vorgegeben sind. Wieso kann ich nicht einfach eine minifizierte JavaScript-Bibliothek einbinden und loslegen, sondern muss zwangsweise eine "App" aufsetzen und kompilieren? Die Möglichkeiten sind zum Beispiel mit Blick auf die Agora WebSDK wirklich vielfältig und überwältigend, aber ein "Get started in three minutes"-Beispiel fehlt. Agora wirbt mit "Get started in a few minutes", allerdings sind die Dokumentation/die Tutorials entweder zu komplex oder zu einfach gehalten. Spaßeshalber habe ich kurz den App-Builder ausprobiert, der nicht wirklich funktioniert hat. Das WordPress-Plugin war nicht ausreichend anpassbar und eher dazu da, einen Haken mehr auf der "Wir bieten diese Features"-Liste zu setzen. Relevant: Agora spricht im "Flussdiagramm" für die Client-Server-Authentifizierung von "Your App Server" - womit man selbst einen Server bereitstellen muss, um den Dienst zu ntuzen.

Agora.io ist (wahrscheinlich) super, wenn man mehr als fünf Stunden für die Implementierung Zeit hat und sich in die Plattform reinfuchsen will. Wer den Dienst direkt in eine Web- oder native App einbauen will, findet schnell passende Tutorials. Für die Ottonormalwebseite (z.B. mit WordPress) fehlt ein "Mittelding". Für komplexe Anforderungen oder Integrationen würde ich vermutlich zu Agora gehen, der Zeitaufwand für die Implementierung dürfte höher als bei manchem Konkurrenten sein.

Zur Webseite von agora.io

Vonage.com

Vonage fährt einen ganzheitlicheren Fokus als z.B. Agora und ist mehr auf "Kommunikation" im Ganzen orientiert. Die Firma bietet auch SIP-Telefonie (ähnlich Placetel), Zwei-Faktor-Authentifizierung, Spracherkennung sowie Messaging-Dienste (z.B. Anbindung von WhatsApp oder SMS).

Persönliche Meinung/Fazit: Ich habe die Video-API von Vonage kurz ausprobiert. Die Dokumentation ist OK. Ich habe mich letztlich dagegen entschieden, da ich auch hier wieder einen eigenen Server für die Verbindungsverwaltung hätte bereitstellen müssen.

Zur Webseite von vonage.com

Twilio.com

Auch Twilio.com ist fokussierter auf eine ganzheitliche Kommunikation und bietet ähnliche Dienste zu vonage.com. Insgesamt scheint der Dienst noch etwas mehr auf Marketing ausgelegt zu sein.

Persönliche Meinung/Fazit: Im Bereich der Video-Kommunikation gibt es zwar ein QuickStart-Tutorial für Javascript, das Ergebnis benötigt aber noch ziemlich viel Anpassung, um auch nur einigermaßen passabel auszusehen. Auch hier ist offenbar wieder ein eigener "Application Server" notwendig, der zumindest für die Verbindungsverwaltung zuständig ist.

Zur Webseite von twilio.com

Voxeet/Dolby.io

Dolby.io (bzw. früher Voxeet) fährt einen Ansatz, der sich eher an Agora.io orientiert. Insgesamt liegt hier die Qualität der Übertragung (wie man von Dolby erwarten würde) mehr im Vordergrund. Der Dienst ist laut eigenen Aussagen u.a. GDPR/DSGVO und HIPAA-kompatiblel.

Persönliche Meinung/Fazit: Die Dokumentation ist gefühlt etwas schlechter als bei den zuvor genannten Diensten, auch hier ist wieder ein eigener "Application Server" o.ä. für die Verbindungsverwaltung nötig. Preislich ist Dolby.io leicht teurer (0.0045$/Teilnehmerminute) als die Konkurrenz.

Whereby

Im Gegensatz zu den zuvor genannten Diensten legt Whereby mehr Wert auf Einfachheit. Die Anpassungsmöglichkeiten sind zwar nicht so weitgehend wie bei vielen Konkurrenten, dafür ist die Lösung wirklich innerhalb weniger Minuten implementiert. Mit Whereby Embedded lässt sich ein iframe auf der eigenen Webseite einbauen. Dieses iframe bietet mittels Parameter einige einfache Anpassungsmöglichkeiten, die aber für die meisten Dienste ausreichend sein dürften.

Persönliche Meinung/Fazit: Ich habe letztlich auf Whereby Embedded gesetzt, da der Dienst zum einen aus Europa stammt, zum anderen aber wirklich einfach und schnell einbaubar war. Auch hier muss man zwar erst einmal per API "Konferenzräume" erstellen, das ist aber nur einmalig nötig. Die entsprechenden Keys gibt man dem iframe einfach als Parameter mit. Die Sprach- und Audioqualität war ausreichend, ein Raum kann bis zu 100 Teilnehmer haben.

Update: Leider gibt es offenbar den "alten" Whereby Embedded Plan nicht mehr, bei dem man nur 10 EUR/Monat und zusätzlich 0.004$/Teilnehmerminute gezahlt hat. Das macht Whereby Embedded gerade für kleinere Firmen unattraktiver.

Weitere Anbieter

Natürlich gibt es auch noch andere Dienste, mit denen ich mich persönlich aber nicht näher befasst habe. Ich liste sie hier zur Vollständigkeit auf.

  • Livestorm
  • Daily.co
  • Eyeson
  • CometChat
  • Wistia
  • Cloudinary
  • EnableX
  • Kaltura Video Cloud
  • Azure Media Services
  • api.video
  • MUX

Fazit

Wer schnell und unkompliziert einen Video-Chat mit einigen Grundlegenden Anpassungsmöglichkeiten und bis zu 100 Teilnehmern auf seiner Webseite/App einbauen will, macht mit Whereby nichts falsch. Wer etwas mehr Zeit mitbringt (oder vom Kunden gezahlt bekommt), dürfte bei Agora.io gut aufgehoben sein. Alternativ bieten sich Vonage, Twilio oder Dolby an.

Hast du Erfahrung mit einem der Anbieter? Habe ich einen (guten) Anbieter vergessen? Ich freue mich auf Feedback in den Kommentaren.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.

Sie haben Fragen oder möchten ein Angebot anfordern?

Jetzt Kontakt aufnehmen
crosslist